Кодування даних.
КОДУВАННЯ — це перетворення повідомлення в зручну для передавання, зберігання, опрацювання форму.
КОД — це набір символів або сигналів і правил їх використання для кодування повідомлень.
ДЕКОДУВАННЯ — це перетворення закодованого повідомлення у форму, прийнятну для приймача.
Для кодування повідомлень можуть бути виуористані цифри, знаки, жести, світлові, звукові та електричні сигнали тощо. Способи кодування безперервно удосконалюються, адже вдало закодовані дані сприяють більш ефективному їх використанню у всіх галузях людської діяльності. Декодувати й опрацьовувати повідомлення можуть людина, створений нею прилад, тварина.
У комп’ютері дані подаються електричними або магнітними сигналами, що набувають тільки двох значень: 0 — вимкнено (нема струму, розмагнічено) або 1 — увімкнено (є струм, намагнічено). Будь-які дані, що опрацьовує комп’ютер: числа, текст, малюнки, схеми, фотографії, музика, відео тощо — кодують за допомогою нуля й одиниці. Такий спосіб кодування називають двійковим. Саме двійкове кодування реалізоване в електронних пристроях. Для кодування даних у комп’ютері потрібні багатозначні двійкові коди. У таких кодах цифру 0 або 1 називають бітом (скор. від англ. binary digit — двійкова цифра).
ПОСЛІДОВНІСТЬ ІЗ 8 ДВІЙКОВИХ РОЗРЯДІВ (БІТІВ) НАЗИВАЮТЬ БАЙТОМ.
Існує 2у 8 степені= 256 різних комбінацій із 8 бітів. Цієї кількості варіантів достатньо для кодування великих і малих літер англійського й українського алфавітів, цифр, розділових знаків, а також графічних елементів. Усі символи, які використовують у текстах, для зручності кодування (декодування) зводять у таблиці двійкових кодів.
У сучасних комп’ютерних текстових документах розповсюджене також кодування символів 16-бітовим кодом Юнікод (Unicode — уніфіковане кодування), який містить алфавіти практично всіх мов світу.
Одиниці вимірювання довжини двійкового коду.
Інформація, за визначенням, — це щось корисне і зрозуміле користувачеві. Виходить, що текстовий файл, який містить 100 літер «А» або пробілів і займає на диску певний простір, не несе інформації. Отже, до вимірювання інформації мають існувати принаймні два підходи — такий, що враховує зміст повідомлення, і такий, що дає змогу оцінити обсяг його даних. Окрім цього, потрібно ввести еталонну одиницю, подібно до того, як для вимірювання маси введено еталонну одиницю кілограм, для вимірювання довжини — метр.
Обсяг даних вимірюється довжиною двійкового коду. При стандартному 8-бітовому кодуванні тексту кожний символ кодується одним байтом. Розділові знаки і пробіли також є символами, що мають свої коди.
Розв’язання задач:
Приклад 1
Нехай на сторінці міститься 56 рядків по 64 символи у кожному рядку. Обчислимо обсяг даних (довжину двійкового коду) на сторінці: 56 ∙ 64= 3584 (байти). Щоб обчислити приблизний обсяг даних у книжці, потрібно кількість символів на одній сторінці помножити на кількість сторінок. Таким чином, обсяг книжки, яка має 256 подібних сторінок: 3584 ∙ 256= 917 504 (байти) = 896 (Кбайтів) = 0,875 (Мбайта).
Приклад 2.
Під час відгадування цілого числа, значення якого знаходиться в діапазоні від 1 до N, було отримано 5 біт інформації. Чому дорівнює число N?
Розв’язання.
Визначимо невизначеність повідомлення з довжиною 5 біт: 2 в степені 5 = 32. За допомогою такого повідомлення можна закодувати будь-яке з 32 різних чисел. Якщо це числа з діапазону від 1 до 32, то N = 32.
Відповідь: N = 32.
Приклад 3. Світлове табло складається з лампочок, кожна з яких може перебувати в одному з двох станів: «увімкнена» або «вимкнена». Яку найменшу кількість лампочок має містити табло, щоб з його допомогою можна було передати 140 різних сигналів?
Розв’язання.
Визначимо, скільки двійкових розрядів потрібно для кодування 140 різних сигналів: 128 < 140 < 256 ⇒ 27< 140 < 28. Отже, щоб табло могло відтворити 140 різних сигналів, воно має містити 8 лампочок.
Відповідь: 8 лампочок.
Цікаво.
Одним з найвідоміших методів шифрування є шифр Цезаря, яким користувався римський імператор Гай Юлій Цезар у листуванні з генералами для захисту військових повідомлень. Принцип методу полягає в тому, щоб циклічно зсунути алфавіт, а ключ — це кількість літер, на які робиться зсув. Цезар для свого зв’язку використовував цифру 3. Він заміняв першу літеру алфавіту на четверту (A на D), другу — на п’яту (B на E) і т. д. Навіть якщо ви знатимете, що шифрування виконано заміною літер, ви не зможете прочитати повідомлення, не знаючи ключа (в нашому випадку — це цифра 3).