Урок 8_03

Алфавитный подход к определению количества информации.

Последовательность действий при переводе единиц измерения информации

Содержательный подход к измерению информации

Скорость передачи информации и пропускная способность канала связи

Информация и знания

Человек получает информацию из окружающего мира с помощью органов чувств, анализирует ее и выявляет существенные закономерности с помощью мышления, хранит полученную информацию в памяти. Процесс систематического научного познания окружающего мира приводит к накоплению информации в форме знаний (фактов, научных теорий и так далее). Таким образом, с точки зрения процесса познания информация может рассматриваться как знания.

Процесс познания можно наглядно изобразить в виде расширяющегося круга знания (такой способ придумали еще древние греки). Вне этого круга лежит область незнания, а окружность является границей между знанием и незнанием. Парадокс состоит в том, что чем большим объемом знаний обладает человек (чем шире круг знаний), тем больше он ощущает недостаток знаний (тем больше граница нашего незнания. мерой которого в этой модели является длина окружности)

Так, объем знаний выпускника школы гораздо больше, чем объем знаний первоклассника, однако и граница его незнания существенно больше. Действительно, первоклассник ничего не знает о законах физики и поэтому не осознает недостаточности своих знаний, тогда как выпускник школы при подготовке к экзаменам по физике может обнаружить, что существуют физические законы, которые он не знает или не понимает.

Информацию, которую получает человек, можно считать мерой уменьшения неопределенности знаний. Если некоторое сообщение приводит к уменьшению неопределенности наших знаний, то можно говорить, что такое сообщение содержит информацию.

Например, после сдачи экзамена по информатике вы мучаетесь неопределенностью, вы не знаете какую оценку получили. Наконец, экзаменационная комиссия объявляет результаты экзамена, и вы получаете сообщение, которое приносит полную определенность, теперь вы знаете свою оценку. Происходит переход от незнания к полному знанию, значит, сообщение экзаменационной комиссии содержит информацию.

Уменьшение неопределенности знаний

Подход к информации как мере уменьшения неопределенности знаний позволяет количественно измерять информацию, что чрезвычайно важно для информатики. Рассмотрим вопрос об определении количества информации более подробно на конкретных примерах.

Пусть у нас имеется монета, которую мы бросаем на ровную поверхность. С равной вероятностью произойдет одно из двух возможных событий - монета окажется в одном из двух положений: "орел" или "решка".

Можно говорить, что события равновероятны, если при возрастающем числе опытов количества выпадений "орла" и "решки" постепенно сближаются. Например, если мы бросим монету 10 раз, то "орел" может выпасть 7 раз, а решка - 3 раза, если бросим монету 100 раз, то "орел" может выпасть 60 раз, а "решка" - 40 раз, если бросим монету 1000 раз, то "орел" может выпасть 520 раз, а "решка" - 480 и так далее.

В итоге при очень большой серии опытов количества выпадений "орла" и "решки" практически сравняются.

Перед броском существует неопределенность наших знаний (возможны два события), и, как упадет монета, предсказать невозможно. После броска наступает полная определенность, так как мы видим (получаем зрительное сообщение), что монета в данный момент находится в определенном положении (например, "орел"). Это сообщение приводит к уменьшению неопределенности наших знаний в два раза, так как до броска мы имели два вероятных события, а после броска - только одно, то есть в два раза меньше.

В окружающей действительности достаточно часто встречаются ситуации, когда может произойти некоторое количество равновероятных событий. Так, при бросании равносторонней четырехгранной пирамиды существуют 4 равновероятных события, а при бросании шестигранного игрального кубика - 6 равновероятных событий.

Чем больше количество возможных событий, тем больше начальная неопределенность и соответственно тем большее количество информации будет содержать сообщение о результатах опыта.

Алфавитный подход к определению количества информации.

Алфавитный (объёмный) подход к измерению информации позволяет определить количество информации, заключенной в тексте, записанном с помощью некоторого алфавита.

Алфавит - множество используемых символов в языке.

Обычно под алфавитом понимают не только буквы, но и цифры, знаки препинания и пробел.

Мощность алфавита (N) - количество символов, используемых в алфавите.

Например, мощность алфавита из русских букв равна 32 (буква ё обычно не используется).

Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле Хартли:

i=log₂N,

где N - мощность алфавита.

P.S. Американский инженер Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.

Также американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = — ( p₁log₂ p₁ + p₂ log₂ p₂ + . . . + p_N log₂ p_N),

где p_i — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p₁, ..., p_N равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.

Формула Хартли задает связь между количеством возможных событий N и количеством информации i:

N=2ⁱ

В качестве единицы информации Клод Шеннон предложил принять один бит

(англ. bit — binary digit — двоичная цифра).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений (типа "орел"—"решка", "чет"—"нечет" и т.п.).

В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Из базового курса информатики известно, что в компьютерах используется двоичное кодирование информации. Для двоичного представления текстов в компьютере чаще всего используется равномерный восьмиразрядный код. С его помощью можно закодировать алфавит из 256 символов, поскольку 256=2⁸.

В стандартную кодовую таблицу (например, ASCII) помещаются все необходимые символы: английские и русские прописные и строчные буквы, цифры, знаки препинания, знаки арифметических операций, всевозможные скобки и пр.

Например:

в 2-символьном алфавите каждый символ «весит» 1 бит (log₂2=1);

в 4-символьном алфавите каждый символ несет 2 бита информации (log₂4=2);

в 8-символьном - 3 бита (log₂8=3) и т. д.

Один символ из алфавита мощностью 256 (2⁸) несет в тексте 8 битов информации.

Такое количество информации называется байтом.

1 байт =8 битов

Информационный объем текста в памяти компьютера измеряется в байтах. Он равен количеству знаков в записи текста.

Для измерения информации используются и более крупные единицы:

Килобайт (Кб)=2¹⁰⁼1024 байт

Мегабайт (Мб)=2²⁰=1024 килобайт=1 048 576 байт

Гигабайт (Гб)=2³⁰⁼1024 мегабайт=1 073 741 824 байт

Терабайт (Тб)=2⁴⁰=1024 гигабайт= 1 099 511 627 776 байт

Петабайт (Пб)=2⁵⁰=1024 терабайт= 1 125 899 906 842 624 байт

Эксабайт (Эб)=2⁶⁰=1024 петабайт= 1 152 921 504 606 846 976 байт

Зеттабайт (Зб)=2⁷⁰=1024 эксабайт= 1 180 591 620 717 411 303 424 байт

Йоттабайт (Йб)=2⁸⁰=1024 зеттабайт=1 208 925 819 614 629 174 706 176 байт

Единицы измерения количества информации, в названии которых есть приставки «кило», «мега» и т. д., с точки зрения теории измерений не являются корректными, поскольку эти приставки используются в метрической системе мер, в которой в качестве множителей кратных единиц используется коэффициент 10, где n=3,6,9 и т. д.

Для устранения этой некорректности Международная электротехническая комиссия, занимающаяся созданием стандартов для отрасли электронных технологий, утвердила ряд новых приставок для единиц измерения количества информации: киби (kibi), меби (mebi), гиби (gibi), теби (tebi), пети (peti), эксби (exbi). Однако пока используются старые обозначения единиц измерения количества информации, и требуется время, чтобы новые названия начали широко применяться.

Последовательность действий при переводе единиц измерения информации

Если весь текст состоит из K символов, то при алфавитном подходе объём V содержащейся в нем информации равен:

V=K⋅i,

где i - информационный вес одного символа в используемом алфавите.

При алфавитном подходе к измерению информации информационный объем текста зависит только от размера текста и от мощности алфавита, а не от содержания. Поэтому нельзя сравнивать информационные объемы текстов, написанных на разных языках, по размеру текста.

Пример:

1. Считая, что каждый символ кодируется одним байтом, оцените информационный объем следующего предложения: Белеет Парус Одинокий В Тумане Моря Голубом!

Решение.

Так как в предложении 44 символа (считая знаки препинания и пробелы), то информационный объем вычисляется по формуле:

V=44⋅1 байт=44 байта=44⋅8 бит=352 бита

2. Объем сообщения равен 11 Кбайт. Сообщение содержит 11264 символа. Какова мощность алфавита?

Решение.

Выясним, какое количество бит выделено на 1 символ. Для этого переведем объем сообщения в биты:

11 Кбайт=11⋅2¹⁰ байт=11⋅2¹⁰⋅2³ бит=11⋅2¹³ бит и разделим его на число символов.

Мощность алфавита определяем из формулы Хартли: N=2⁸=256 символов.

Содержательный подход к измерению информации

В содержательном подходе количество информации, заключенное в сообщении, определяется объемом знаний, который это сообщение несет получающему его человеку.

Вспомним, что с «человеческой» точки зрения информация - это знания, которые мы получаем из внешнего мира. Количество информации, заключенное в сообщении, должно быть тем больше, чем больше оно пополняет наши знания.

Вы уже знаете, что за единицу измерения информации принимается 1 бит.

1 бит - минимальная единица измерения количества информации.

Проблема измерения информации исследована в теории информации, основатель которой - Клод Шеннон.

В теории информации для бита дается следующее определение:

Сообщение, уменьшающее неопределенность знания в два раза, несет 1 бит информации.

Что такое неопределенность знания, поясним на примерах.

Допустим, вы бросаете монету, загадывая, что выпадет: орел или решка. Есть всего два возможных результата бросания монеты. Причем ни один из этих результатов не имеет преимущества перед другим. В таком случае говорят, что они равновероятны.

В случае с монетой перед ее подбрасыванием неопределенность знания о результате равна двум.

Игральный же кубик с шестью гранями может с равной вероятностью упасть на любую из них. Значит, неопределенность знания о результате бросания кубика равна шести.

Еще пример: спортсмены-лыжники перед забегом путем жеребьевки определяют свои порядковые номера на старте. Допустим, что имеется 100 участников соревнований, тогда неопределенность знания спортсмена о своем номере до жеребьевки равна 100.

Следовательно, можно сказать так:

Неопределенность знания о результате некоторого события (бросание монеты или игрального кубика, вытаскивание жребия и др.) - это количество возможных результатов.

Вернемся к примеру с монетой. После того как вы бросили монету и посмотрели на нее, вы получили зрительное сообщение, что выпал, например, орел. Определился один из двух возможных результатов. Неопределенность знания уменьшилась в два раза: было два варианта, остался один. Значит, узнав результат бросания монеты, вы получили 1 бит информации.

Сообщение об одном из двух равновероятных результатов некоторого события несет 1 бит информации.

Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных событий.

Тогда количество информации i, содержащееся в сообщении о том, что произошло одно из N равновероятных событий, можно определить из формулы Хартли:

N=2ⁱ.

Данная формула является показательным уравнением относительно неизвестного i.

Пример:

Шахматная доска состоит из 64 полей: 8 столбцов на 8 строк.

Какое количество бит несет сообщение о выборе одного шахматного поля?

Решение.

Поскольку выбор любой из 64 клеток равновероятен, то количество бит находится из формулы:

2ⁱ=64,

i=log₂64=6, так как 2⁶=64.

Следовательно, i=6 бит.

В противном случае количество информации становится нецелой величиной, и для решения задачи придется воспользоваться таблицей двоичных логарифмов.

Также, если N не является целой степенью 2, то можно выполнить округление i в большую сторону. При решении задач в таком случае i можно найти как log₂K, где K - ближайшая к N степень двойки, такая, что K>N.

Пример:

При игре в кости используется кубик с шестью гранями.

Сколько битов информации получает игрок при каждом бросании кубика?

Решение.

Выпадение каждой грани кубика равновероятно. Поэтому количество информации от одного результата бросания находится из уравнения:2ⁱ=6.

Решение этого уравнения: i=log₂6

Из таблицы двоичных логарифмов следует (с точностью до 3-х знаков после запятой):

i=2,585 бита.

Данную задачу также можно решить округлением i в большую сторону: 2ⁱ=6<8=2³,i=3 бита.

Скорость передачи информации и пропускная способность канала связи

Обмен информацией производится по каналам передачи информации.

Каналы передачи информации могут использовать различные физические принципы. Так, при непосредственном общении людей информация передаётся с помощью звуковых волн, а при разговоре по телефону — с помощью электрических сигналов, которые распространяются по линиям связи.

Канал связи — технические средства, позволяющие осуществлять передачу данных на расстоянии.

Компьютеры могут обмениваться информацией с использованием каналов связи различной физической природы: кабельных, оптоволоконных, радиоканалов и др.

Скорость передачи информации (скорость информационного потока) — количество информации, передаваемое за единицу времени.

Общая схема передачи информации включает в себя отправителя информации, канал передачи информации и получателя информации.

Основной характеристикой каналов передачи информации является их пропускная способность.

Пропускная способность канала — максимальная скорость передачи информации по каналу связи в единицу времени.

Пропускная способность канала равна количеству информации, которое может передаваться по нему в единицу времени.

Объем переданной информации V вычисляется по формуле:

V=q⋅t

где q — пропускная способность канала (в битах в секунду или подобных единицах), а t— время передачи.

Обычно пропускная способность измеряется в битах в секунду (бит/с) и кратных единицах Кбит/с и Мбит/с.

Однако иногда в качестве единицы используется байт в секунду (байт/с) и кратные ему единицы Кбайт/с и Мбайт/с.

Соотношения между единицами пропускной способности канала передачи информации такие же, как между единицами измерения количества информации:

1 байт/с = 8 бит/с;

1 Кбит/с = 1000 бит/с;

1 Мбит/с = 1000 Кбит/с;

1 Гбит/с = 1000 Мбит/с.

Пример:

Сколько секунд потребуется модему, передающему сообщения со скоростью 28800 бит/с, чтобы передать 100 страниц текста в 30 строк по 60 символов каждая, при условии, что каждый символ кодируется 1 байтом?

Решение. Вычислим объем файла в битах

V=100⋅30⋅60⋅8 бит =1440000 бит

Скорость передачи сообщения q=28800 бит/с.

Время равно

t=V:q=1440000:28800=50 секунд

Рассмотрим более сложную задачу.

Пример:

Устройство A передает информацию устройству C через устройство B в рамках следующих правил:

1. Информация передается пакетами по 200 байт.

2. Устройство B может одновременно принимать информацию от устройства А и передавать ранее полученную информацию устройству C.

3. Устройство B может передавать очередной пакет устройству С только после того, как полностью получит этот пакет от устройства A.

4. Устройство B обладает неограниченным по объему буфером, в котором может хранить полученные от устройства A, но еще не переданные устройству C пакеты.

Пропускная способность канала между A и B – 100 байт в секунду.

Пропускная способность канала между B и C – 50 байт в секунду.

Было отправлено три пакета информации. Через сколько секунд C закончит прием всей информации от A?

Решение. Так как скорость приема информации устройством B больше, чем скорость ее передачи устройству C, то время передачи сложится из двух этапов.

Продемонстрируем это графически:

Время передачи первого пакета информации от A устройству B равно

t1=V1:q1=200:100=2 секунды

Далее приём информации от A и передача ее устройству C осуществляются устройством B одновременно, поэтому достаточно вычислить время передачи всех трёх пакетов информации от B к C:

t2=V2:q2=600:50=12 секунд

Общее время передачи:

t=t1+t2=2+12=14 секунд

8-2a_КодированиеВведение

7-1-6

Урок 8_03

Информация и знания

Уменьшение неопределенности знаний

Алфавитный подход к определению количества информации.

i=log2N,

N=2i

В качестве единицы информации Клод Шеннон предложил принять один бит

(англ. bit — binary digit — двоичная цифра).

Один символ из алфавита мощностью 256 (28) несет в тексте 8 битов информации.

Такое количество информации называется байтом.

1 байт =8 битов

Килобайт (Кб)=210=1024 байт

Мегабайт (Мб)=220=1024 килобайт=1 048 576 байт

Гигабайт (Гб)=230=1024 мегабайт=1 073 741 824 байт

Терабайт (Тб)=240=1024 гигабайт= 1 099 511 627 776 байт

Петабайт (Пб)=250=1024 терабайт= 1 125 899 906 842 624 байт

Эксабайт (Эб)=260=1024 петабайт= 1 152 921 504 606 846 976 байт

Зеттабайт (Зб)=270=1024 эксабайт= 1 180 591 620 717 411 303 424 байт

Йоттабайт (Йб)=280=1024 зеттабайт=1 208 925 819 614 629 174 706 176 байт

Последовательность действий при переводе единиц измерения информации

V=K⋅i,

Содержательный подход к измерению информации

N=2i.

Скорость передачи информации и пропускная способность канала связи

V=q⋅t

1 байт/с = 8 бит/с;

1 Кбит/с = 1000 бит/с;

1 Мбит/с = 1000 Кбит/с;

1 Гбит/с = 1000 Мбит/с.

V=100⋅30⋅60⋅8 бит =1440000 бит

t=V:q=1440000:28800=50 секунд

t1=V1:q1=200:100=2 секунды

t2=V2:q2=600:50=12 секунд

t=t1+t2=2+12=14 секунд

i=log₂N,

N=2ⁱ

Один символ из алфавита мощностью 256 (2⁸) несет в тексте 8 битов информации.

Килобайт (Кб)=2¹⁰⁼1024 байт

Мегабайт (Мб)=2²⁰=1024 килобайт=1 048 576 байт

Гигабайт (Гб)=2³⁰⁼1024 мегабайт=1 073 741 824 байт

Терабайт (Тб)=2⁴⁰=1024 гигабайт= 1 099 511 627 776 байт

Петабайт (Пб)=2⁵⁰=1024 терабайт= 1 125 899 906 842 624 байт

Эксабайт (Эб)=2⁶⁰=1024 петабайт= 1 152 921 504 606 846 976 байт

Зеттабайт (Зб)=2⁷⁰=1024 эксабайт= 1 180 591 620 717 411 303 424 байт

Йоттабайт (Йб)=2⁸⁰=1024 зеттабайт=1 208 925 819 614 629 174 706 176 байт

N=2ⁱ.