Подходы к понятию и измерению информации

Для человека информация — это знания человека. Получение новой информации приводит к расширению знаний. Если некоторое сообщение приводит к уменьшению неопределенности нашего знания, то можно говорить, что такое сообщение содержит информацию.

Отсюда следует вывод, что сообщение информативно (т.е. содержит ненулевую информацию), если оно пополняет знания человека. Например, прогноз погоды на завтра — информативное сообщение, а сообщение о вчерашней погоде неинформативно, т.к. нам это уже известно.

Информативность одного и того же сообщения может быть разной для разных людей. Например, «2x2=4» информативно для первоклассника, изучающего таблицу умножения, и неинформативно для старшеклассника.

Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и понятными.

Если сообщение неинформативно для человека, то количество информации в нем, с точки зрения этого человека, равно нулю. Количество информации в информативном сообщении больше нуля.

Единица измерения информации была определена в науке, которая называется теорией информации. Эта единица носит название «бит». Ее определение звучит так:

Сообщение, уменьшающее неопределенность знаний в два раза, несет 1 бит информации.

Например, после сдачи зачета или выполнения контрольной работы ученик мучается неопределенностью, он не знает, какую оценку получил. Наконец, учитель объявляет результаты, и он получаете одно из двух информационных сообщений: «зачет» или «незачет», а после контрольной работы одно из четырех информационных сообщений: «2», «3», «4» или «5».

Вероятностный подход. Информационное сообщение об оценке за зачет приводит к уменьшению неопределенности знания в два раза, так как получено одно из двух возможных информационных сообщений. Информационное сообщение об оценке за контрольную работу приводит к уменьшению неопределенности знания в четыре раза, так как получено одно из четырех возможных информационных сообщений.

Неопределенность знаний о некотором событии — это количество возможных результатов события.

Рассмотрим еще один пример. На книжном стеллаже восемь полок. Книга может быть поставлена на любую из них. Сколько информации содержит сообщение о том, где находится книга?

Применим метод половинного деления. Зададим несколько вопросов уменьшающих неопределенность знаний в два раза.

Задаем вопросы:

– Книга лежит выше четвертой полки?

– Нет.

– Книга лежит ниже третьей полки?

– Да.

– Книга — на второй полке?

– Нет.

– Ну теперь все ясно! Книга лежит на первой полке!

Каждый ответ уменьшал неопределенность в два раза. Всего было задано три вопроса. Значит набрано 3 бита информации. И если бы сразу было сказано, что книга лежит на первой полке, то этим сообщением были бы переданы те же 3 бита информации.

Если обозначить возможное количество событий, или, другими словами, неопределенность знаний N, а буквой I количество информации в сообщении о том, что произошло одно из N событий, то можно записать формулу:

2I = N

Количество информации, содержащееся в сообщении о том, что произошло одно из N равновероятных событий, определяется из решения показательного уравнения: 2I = N.

Например, Вы бросаете монету, загадывая, что выпадет: орел или решка?

Решение: Есть два варианта возможного результата бросания монеты. Ни один из этих вариантов не имеет преимущества перед другим (равновероятны). Перед подбрасыванием монеты неопределенность знаний о результате равна двум.

После совершения действия неопределенность уменьшилась в 2 раза. Получили 1 бит информации. Следовательно, результат подбрасывания монеты принес 1 бит информации.

Существует алфавитный подход, который основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита.

Алфавит – упорядоченный набор символов, используемый для кодирования сообщений на некотором языке.

Мощность алфавита – количество символов алфавита.

Например, двоичный алфавит содержит 2 символа, его мощность равна двум.

Сообщения, записанные с помощью символов ASCII, используют алфавит из 256 символов. Сообщения, записанные по системе UNICODE, используют алфавит из 65 536 символов.

N = 2i

формула связывает между собой информационный вес каждого символа, выраженный в битах (i), и мощность алфавита (N)

Один символ набранный на компьютере несет 1 байт информации.

Примеры решений задач

Пример 1. Алфавит содержит 32 буквы. Какое количество информации несет одна буква?

Дано: Мощность алфавита N=32

Найти: количество информации, которое несет одна буква или i

Решение:

  1. Подставим в формулу N = 2i имеющиеся данные, получим, что 32 = 2i

  2. Вес одного символа i = 5 бит, так как 5 - это степень, в которую необходимо возвести 2, чтобы получить 32.

Ответ: одна буква несет 5 бит информации.

V=k*i

формула для определения объема V информации, где k количество элементов в информационном сообщении.

Пример 2. Сообщение, записанное буквами из 16 символьного алфавита, содержит 10 символов. Какой объем информации в битах оно несет?

Дано: Мощность алфавита N=16, количество символов в сообщении – 10

Найти: объем информации в битах – V.

Решение:

1. По формуле находим i, 16=2i, значит вес одного символа 4 бит.

2. Всего символов k=10, значит объем информации вычисляется по формуле V=k*i и равен 10 * 4 = 40 бит.

Ответ: сообщение несет 40 бит информации.

Пример 3. Информационное сообщение объемом 300 бит содержит 100 символов. Какова мощность алфавита?

Дано: V=300 бит, k=100 символов.

Найти: N

Решение:

1. Определим вес одного символа: 300 / 100 = 3 бит

2. Мощность алфавита определяем по формуле: N = 2i в которой i=3, следовательно, 23 = 8.

Ответ: мощность алфавита N=8.

Пример 4. В одной из кодировок Unicode каждый символ кодируется 16 битами. Ученик написал текст (в нём нет лишних пробелов):

«Ёж, лев, слон, олень, тюлень, носорог, крокодил, аллигатор – дикие животные».

Ученик удалил из списка название одного животного, а также лишние запятую и пробел – два пробела не должны идти подряд. При этом размер нового предложения в данной кодировке оказался на 16 байт меньше, чем размер исходного предложения. Напишите в ответе удалённое название животного.

Решение

По условию задачи каждый символ кодируется 16 битами, а после вычеркивания размер оказался на 16 байт меньше; значит, вычеркнутое слово вместе с одним пробелом и одной запятой составляет 16 байт.

Определим объем 1 символа в байтах

1 байте = 8 бит

Х байт = 16 бит

1 символ (х) = 16/8 = 2 байтам

Удалили 16 байт, следовательно V=k*i

V= 16

k - ?

i = 2

k = V / i = 16/2 = 8 символов

8 символов – 1 пробел – 1 запятая = 6 символов в слове

Подходит только: тюлень

(другой вариант решения перевести все ед. измерения в бит)

Ответ тюлень

Перевод ед. информации

Презентация по теме

Подходы к понятию и измерению информации.pptx

Дополнительные задачи

Задача 1. Первое письмо состоит из 51 символов 32-символьного алфавита, а второе – из 45 символов 64 – символьного алфавита. Сравните объемы информации, содержащиеся в двух письмах.

Задача 2. В корзине лежат шары. Все разного цвета. Сообщение о том, что достали синий шар, несёт 5 бит информации. Сколько всего шаров было в корзине?

Задача 3. Сколько бит информации получено из сообщения «Катя живет на первом этаже», если в доме 8 этажей?

Задача 4. Заполнить пропусти (не считаем точное значение, оставляем по возможности в форме степени двойки) а) 5 Кбайт = __ байт = __ бит, б) __ Кбайт = __ байт = 12288 бит; в) __ Кбайт = __ байт = 2 ^13 бит; г) __Гбайт =1536 Мбайт = __ Кбайт; д) 512 Кбайт = 2^__ байт = 2^__ бит.

Задача 5. Какова мощность алфавита, с помощью которого записано сообщение, содержащее 2048 символов, если его объем составляет 1/512 часть одного мегабайта?

Задача 6. Книга, набранная с помощью компьютера, содержит 150 страниц; на каждой странице - 40 строк, в каждой строке - 60 символов. Каков объем информации в книге? (Один символ набранный на компьютере несет 1 байт информации. )

Задание 7

В одной из кодировок Unicode каждый символ кодируется 16 битами. Петя написал текст (в нём нет лишних пробелов):

«Ель, кедр, сосна, кипарис, лиственница, можжевельник — хвойные растения».

Ученик вычеркнул из списка название одного из растений. Заодно он вычеркнул ставшие лишними запятые и пробелы — два пробела не должны идти подряд.

При этом размер нового предложения в данной кодировке оказался на 26 байт меньше, чем размер исходного предложения. Напишите в ответе вычеркнутое название хвойного растения.