Дані (інформатика)

В інформатиці дані (розглядаються в однині, множині або як масовий іменник ) — це будь-яка послідовність одного або кількох символів ; дата — це один символ даних. Дані потребують інтерпретації, щоб стати інформацією . Цифрові дані — це дані, які представлені за допомогою двійкової системи числення одиниць (1) і нулів (0) замість аналогового представлення. У сучасних комп’ютерних системах (після 1960 року) усі дані цифрові.

Дані існують у трьох станах: дані в спокої , дані в дорозі та дані у використанні . Дані всередині комп’ютера в більшості випадків переміщуються як паралельні дані . Дані, що переміщуються до комп’ютера або з нього, у більшості випадків переміщуються як послідовні дані . Дані, отримані з аналогового пристрою, наприклад датчика температури, можуть бути перетворені в цифрові за допомогою аналого-цифрового перетворювача . Дані, що представляють величини , символи чи символи, над якими комп’ютер виконує операції , зберігаються та записуються на магнітні , оптичні, електронний або механічний носій запису та передається у формі цифрових електричних або оптичних сигналів. [1] Дані надходять і виходять з комп’ютерів через периферійні пристрої .

Фізичні елементи пам'яті комп'ютера складаються з адреси та байта/слова зберігання даних. Цифрові дані часто зберігаються в реляційних базах даних , таких як таблиці або бази даних SQL, і, як правило, можуть бути представлені у вигляді абстрактних пар ключ/значення. Дані можуть бути організовані в багато різних типів структур даних , включаючи масиви, графіки та об’єкти . Структури даних можуть зберігати дані багатьох різних типів , включаючи числа , рядки та навіть інші структури даних .


Характеристики

Метадані допомагають перетворити дані в інформацію. Метадані - це дані про дані. Метадані можуть матися на увазі, бути визначеними або наданими.

Дані, що стосуються фізичних подій або процесів, матимуть часовий компонент. Цей часовий компонент може матися на увазі. Це у випадку, коли такий пристрій, як реєстратор температури, отримує дані від датчика температури . При отриманні температури передбачається, що дані мають тимчасову прив’язку зараз . Таким чином, пристрій записує дату, час і температуру разом. Коли реєстратор даних повідомляє температуру, він також повинен повідомляти дату та час як метадані для кожного показання температури.

По суті, комп’ютери дотримуються послідовності інструкцій, які їм надаються у формі даних. Набір інструкцій для виконання заданого завдання (або завдань) називається програмою . Програма — це дані у формі закодованих інструкцій для керування роботою комп’ютера чи іншої машини. [2] У номінальному випадку програма, яка виконується комп’ютером, складатиметься з машинного коду . Елементи зберігання , якими керує програма, але фактично не виконуються центральним процесором (CPU), також є даними. У своїй найбільш істотній одиничні дані є цінністюзберігається в певному місці. Таким чином, комп’ютерні програми можуть працювати з іншими комп’ютерними програмами, маніпулюючи їхніми програмними даними.

Щоб зберегти байти даних у файлі, їх потрібно серіалізувати у форматі файлу . Зазвичай програми зберігаються в спеціальних типах файлів, відмінних від тих, що використовуються для інших даних. Виконувані файли містять програми; всі інші файли також є файлами даних . Однак виконувані файли також можуть містити дані, які використовуються вбудованою програмою. Зокрема, деякі виконувані файли мають сегмент даних , який номінально містить константи та початкові значення для змінних, обидва з яких можна вважати даними.

Межа між програмою та даними може стати розмитою. Інтерпретатор , наприклад , є програмою. Вхідні дані для інтерпретатора самі по собі є програмою, а не програмою, вираженою рідною машинною мовою . У багатьох випадках інтерпретована програма буде текстовим файлом , який можна прочитати людиною , який обробляється за допомогою програми текстового редактора . Метапрограмування подібним чином включає програми, які маніпулюють іншими програмами як даними. Такі програми, як компілятори , компонувальники , налагоджувачі , засоби оновлення програм , сканери вірусів тощо використовують інші програми як свої дані.

Наприклад, користувач може спочатку вказати операційній системі завантажити програму текстового процесора з одного файлу, а потім використовувати запущену програму для відкриття та редагування документа , що зберігається в іншому файлі. У цьому прикладі документ вважатиметься даними. Якщо текстовий процесор також містить перевірку орфографії , то словник (список слів) для перевірки орфографії також вважатиметься даними. Алгоритми , які використовує перевірка орфографії, щоб запропонувати виправлення, будуть або даними машинного коду , або текстом на якійсь інтерпретованій мові програмування .

В іншому випадку двійкові файли (які не читаються людиною ) іноді називають даними на відміну від тексту , який читає людина . [3]

Загальний обсяг цифрових даних у 2007 році оцінювався в 281 мільярд гігабайт (281 екзабайт ).


Ключі та значення даних, структури та стійкість

Ключі в даних забезпечують контекст для значень. Незалежно від структури даних, завжди присутній ключовий компонент. Ключі в даних і структурах даних необхідні для надання значення значенням даних. Без ключа, прямо чи опосередковано пов’язаного зі значенням або набором значень у структурі, значення втрачають сенс і перестають бути даними. Тобто має бути ключовий компонент, пов’язаний із компонентом цінності, щоб його можна було вважати даними.

Дані можуть бути представлені в комп’ютері кількома способами, як показано в наведених нижче прикладах.

RAM

  • Оперативна пам'ять (RAM) зберігає дані, до яких центральний процесор має прямий доступ. ЦП може маніпулювати даними лише в своїх регістрах чи пам’яті процесора. Це на відміну від зберігання даних, де центральний процесор повинен керувати передачею даних між пристроєм зберігання (диск, стрічка...) і пам’яттю. RAM — це масив лінійних безперервних місць, які процесор може читати або записувати, надаючи адресу для операції читання або запису. Процесор може працювати в будь-якому місці пам'яті в будь-який час і в будь-якому порядку. В ОЗУ найменшим елементом даних є двійковий біт . Можливості та обмеження доступу до оперативної пам’яті залежать від процесора. Загалом основна пам'ять організована як масив місць , що починаються з адреси 0 (шістнадцятковий 0). Кожне розташування зазвичай може зберігати 8 або 32 біти залежно від архітектури комп'ютера .

Ключі

  • Ключі даних не обов’язково повинні бути прямою апаратною адресою в пам’яті. Коди непрямих , абстрактних і логічних ключів можуть зберігатися разом зі значеннями для формування структури даних . Структури даних мають заздалегідь визначені зсуви (або посилання чи шляхи) від початку структури, у якій зберігаються значення даних. Таким чином, ключ даних складається з ключа до структури плюс зміщення (або посилань або шляхів) у структурі. Коли така структура повторюється, зберігаючи варіації значень даних і ключів даних у тій самій структурі, що повторюється, результат можна вважати схожим на таблицю, в якій кожен елемент повторюваної структури розглядається як стовпець, а кожне повторення структури розглядається як рядок таблиці. У такій організації даних ключ даних зазвичай є значенням в одному (або сукупності значень у кількох) зі стовпців.

Організовані повторювані структури даних

  • Табличне подання повторюваних структур даних є лише однією з багатьох можливостей. Структури даних, що повторюються, можуть бути організовані ієрархічно , так що вузли пов’язані один з одним у каскаді зв’язків «батьківсько-начірні». Значення та потенційно складніші структури даних пов’язані з вузлами. Таким чином, вузлова ієрархія забезпечує ключ для адресації структур даних, пов'язаних з вузлами. Це представлення можна розглядати як перевернуте дерево . Наприклад , типовим прикладом є файлові системи сучасних комп'ютерних операційних систем; а XML - це інше.

Відсортовані або впорядковані дані

  • Дані мають деякі властиві особливості, коли їх сортують за ключем . Усі значення для підмножин ключа відображаються разом. Під час послідовного проходження через групи даних з однаковим ключем або підмножиною ключів змінюється це в колах обробки даних називається розривом або розривом керування . Це особливо полегшує агрегацію значень даних у підмножинах ключа.

Периферійне сховище

  • До появи об’ємної енергонезалежної пам’яті , як- от флеш -пам’яті , постійне зберігання даних традиційно досягалося шляхом запису даних на зовнішні блокові пристрої, такі як магнітна стрічка та дисководи . Ці пристрої зазвичай шукають місце на магнітному носії, а потім зчитують або записують блоки даних заздалегідь визначеного розміру. У цьому випадку місце пошуку на носії є ключем даних, а блоки є значеннями даних. Раніше використовувані файлові системи необроблених дискових даних або дискові операційні системи резервували безперервні блоки на дисководі для файлів даних. У цих системах файли могли бути заповнені, вичерпавши простір для даних, перш ніж усі дані були записані в них. Таким чином, багато невикористаного простору даних було зарезервовано непродуктивно, щоб забезпечити достатній вільний простір для кожного файлу. Пізніше файлові системи представили розділи. Вони зарезервували блоки дискового простору для розділів і економніше використовували виділені блоки, динамічно призначаючи блоки розділу файлу за потреби. Щоб досягти цього, файлова система повинна була стежити за тим, які блоки використовувалися або не використовувалися файлами даних у каталозі або таблиці розміщення файлів. Хоча це дозволило краще використовувати простір даних на диску, це призвело до фрагментації файлів на диску та супутніх накладних витрат на продуктивність через додатковий час пошуку для читання даних. Сучасні файлові системи динамічно реорганізовують фрагментовані файли, щоб оптимізувати час доступу до файлів. Подальший розвиток файлових систем призвів до віртуалізації дисководів, тобто де логічний диск можна визначити як розділи з кількох фізичних дисків.

Індексовані дані

Отримання невеликої підмножини даних із значно більшого набору може означати неефективний послідовний пошук даних. Індекси — це спосіб скопіювати ключі та адреси розташування зі структур даних у файлах, таблицях і наборах даних, а потім упорядкувати їх за допомогою перевернутих деревовидних структур , щоб скоротити час, необхідний для отримання підмножини вихідних даних. Щоб зробити це, ключ підмножини даних, які потрібно отримати, повинен бути відомий до початку пошуку. Найпопулярнішими індексами є B-дерево та методи індексування динамічного хеш- ключа. Індексація є накладною для зберігання та отримання даних. Існують інші способи організації індексів, наприклад сортування ключів і використання бінарного алгоритму пошуку .

Абстракція та непрямість

  1. Таксономічна рангова структура класів , яка є прикладом ієрархічної структури даних; і

  2. під час виконання, створення посилань на структури даних у пам’яті об’єктів, які були створені з бібліотеки класів .

Лише після створення екземпляра існує об’єкт зазначеного класу. Після видалення посилання на об’єкт об’єкт також припиняє своє існування. Місця пам’яті, де зберігалися дані об’єкта, є сміттям і перекласифікуються як невикористана пам’ять, доступна для повторного використання.

База даних

Паралельна розподілена обробка даних

  • Сучасні масштабовані та високопродуктивні технології збереження даних, такі як Apache Hadoop , покладаються на масову паралельну розподілену обробку даних на багатьох стандартних комп’ютерах у мережі з високою пропускною здатністю. У таких системах дані розподіляються між декількома комп’ютерами, тому будь-який окремий комп’ютер у системі має бути представлений у ключі даних прямо чи опосередковано. Це дозволяє розрізняти два ідентичні набори даних, кожен з яких обробляється на різних комп’ютерах одночасно.