различные подходы к измерению информации
Содержательный подход
При содержательном подходе измерение информации происходит с точки зрения ее содержания, т. е. определяется, в какой мере пришедшая информация (знания) уменьшает незнание. Человек получает знания посредством сообщений. Чем больше пополняет наши знания сообщение, тем большее количество информации в нем заключено.
У вас сегодня контрольная по математике. Учитель обычно дает 2 варианта заданий. До контрольной вы не знаете свой вариант, поэтому неопределенность знания равна 2. Если вариантов на контрольной 4, то неопределенность знания равна 4.
Основателем такого подхода к измерению информации является К. Шенон, который ввел приведенное ниже определение.
Сообщение, которое уменьшает неопределенность знания в два раза, несет 1 бит информации.
Неопределенность знания о результате некоторого события — количество возможных результатов.
Если в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных событий, то количество информации i, содержащееся в сообщении, можно определить из формулы Хартли: N = 2i
Если вариантов два, то 2 = 2i, следовательно, i = 1. Вы получите 1 бит информации.
Если вариантов 4, то 4 = 2i, следовательно, i = 2. Вы получите 2 бита информации.
Если вариантов 6, то 6 = 2i, следовательно, i ≈ 2,58. Вы получите 2,58 бита информации. Для получения значения i в этом случае нужно посчитать значение i = log26
Алфавитный подход
Алфавитный (объемный) подход используется, если для преобразования, хранения и передачи информации применяют технические средства.
При использовании двоичного алфавита один символ несет 1 единицу информации — 1 бит.
Для измерения объемов информации применяют производные единицы измерения.
Килобайт (Кбайт): 210 = 1024 байта
Мегабайт (Мбайт): 220 = 1024 килобайта = 1 048 576 байт
Гигабайт (Гбайт): 230 = 1024 мегабайта = 1 073 741 824 байта
Терабайт (Тбайт): 240 = 1024 гигабайта = 1 099 511 627 776 байт
Петабайт (Пбайт): 250 = 1024 терабайта = 1 125 899 906 842 624 байта
Эксабайт (Эбайт): 260 = 1024 петабайта = 1 152 921 504 606 846 976 байт
Зеттабайт (Збайт): 270 = 1024 эксабайта = 1 180 591 620 717 411 303 424 байта
Йоттабайт (Йбайт): 280 = 1024 зеттабайта = 1 208 925 819 614 629 174 706 176 байт
Для двоичного представления текстов в компьютере часто используется восьмиразрядный код. С его помощью можно закодировать алфавит из 256 символов. Один символ из алфавита мощностью 256 = 28 несет в тексте 8 бит информации. Такое количество информации называется байтом.
Объем текста измеряется в байтах. При восьмиразрядном кодировании 1 символ = 1 байт, и информационный объем текста определяется количеством символов в нем. Если весь текст состоит из K символов, то при алфавитном подходе объем V содержащейся в нем информации равен: V = K*i, где i — информационный вес одного символа в используемом алфавите.
Вероятностный подход
В жизни различные события происходят с разной вероятностью. Событие «летом идет снег» маловероятно, а у события «осенью идет дождь» вероятность велика. Если в коробке 10 красных шаров и 40 зеленых, то вероятность достать не глядя зеленый шар больше, чем вероятность достать красный.
Для количественного измерения вероятности используют следующий подход: если общее количество возможных исходов какого-либо события равно N, а K из них — те, в которых мы заинтересованы, то вероятность интересующего нас события может быть посчитана по формуле p = K/N.
Чем меньше вероятность события, тем больше информации содержит сообщение о том, что это событие произошло.
Вероятностный подход применяется для измерения количества информации при наступлении событий, имеющих разную вероятность. Связь между вероятностью события и количеством информации в сообщении о нем выражается формулой 1/p = 2i, где p — вероятность события, а i — количество информации.
Выпадение каждой грани кубика равновероятно. Поэтому количество информации от одного результата бросания находится из уравнения 2i = 6. Тогда 2i = 6 < 8 = 23, i = 3 бита.
Можно рассуждать и так: i = log26 = 2,585 бита ≈ 3 бита.
* Если произошло несколько разновероятностных событий, то количество информации можно определять по формуле Шеннона, предложенной им в 1948 г:
I = –(p1log2p1 + p2log2p2 + ... pNlog2pN), где I — количество информации; N — количество возможных событий; pi — вероятность i-го события.
Легко заметить, что если вероятности p1, ..., pN равны между собой, то каждая из них равна 1/N и формула Шеннона превращается в формулу Хартли.
Упражнения
Сколько различных звуковых сигналов можно закодировать с помощью 6 бит?
Какое количество информации несет сообщение о том, что человек живет в первом или втором подъезде, если в доме 16 подъездов?
Сообщение о том, что ваш друг живет на 10-м этаже, несет 4 бита информации. Сколько этажей в доме?
Азбука Морзе позволяет кодировать символы для радиосвязи, задавая комбинацию точек и тире. Сколько различных символов (цифр, букв, знаков пунктуации и т. д.) можно закодировать, используя код Морзе длиной не менее пяти и не более шести сигналов (точек и тире)?
В ящике находится 32 теннисных мяча, среди которых есть мячи черного цвета. Наудачу вынимается один мяч. Сообщение «Извлечен мяч НЕ черного цвета» несет 3 бита информации. Сколько черных мячей в ящике?
К празднику надували белые и синие шарики. Белых шариков 24. Сообщение о том, что лопнул синий шарик, несет 2 бита информации. Сколько всего надули шариков?
В школьной библиотеке 32 стеллажа с книгами, на каждом — по 8 полок. Пете сообщили, что нужный учебник находится на 2-й полке 4-го стеллажа. Какое количество информации получил Петя?
Для регистрации на некотором сайте пользователю нужно придумать пароль, состоящий из 10 символов. В качестве символов можно использовать десятичные цифры и шесть первых букв латинского алфавита, причем буквы используются только заглавные. Пароли кодируются посимвольно. Все символы кодируются одинаковым и минимально возможным количеством бит. Для хранения сведений о каждом пользователе в системе отведено одинаковое и минимально возможное целое число байт. Какой объем будет занимать информация о паролях 1000 пользователей?
*В некоторой стране автомобильный номер длиной 6 символов составляют из заглавных букв (задействовано 30 различных букв) и десятичных цифр в любом порядке. Каждый такой номер в компьютерной программе записывается минимально возможным и одинаковым целым количеством байт (при этом используют посимвольное кодирование, и все символы кодируются одинаковым и минимально возможным количеством бит). Определите объем памяти в байтах, отводимый этой программой для записи 50 номеров.
В озере обитают 12 500 окуней, 25 000 пескарей, а карасей и щук по 6250. Какое количество информации несет сообщение о том, что поймали пескаря? Сколько информации мы получим, когда поймаем какую-нибудь рыбу?
Какое сообщение содержит большее количество информации?
Бабушка испекла 16 пирожков. Лера съела один пирожок.
Бабушка испекла 12 пирожков с капустой, 12 пирожков с повидлом. Маша съела один пирожок.
Бабушка испекла 16 пирожков с капустой, 24 пирожка с повидлом. Миша съел один пирожок.