Тема урока "Представление (кодирование) текстовой информации в компьютере. Кодовые таблицы. Практическая работа № 4 "Представление и сжатие текстов"
Сегодня на уроке вы:
узнаете:
• способы кодирования и декодирования текстовой информации с помощью кодовых таблиц и компьютера;
• способ определения информационного объёма текстового сообщения;
• алгоритмом Хаффмана;
научитесь:
• пользоваться различными кодовыми таблицами для кодирования и декодирования текстовых сообщений;
• определять информационный объём текстового сообщения;
сможете:
• оптимизировать длину кода текстового сообщения с помощью алгоритма Хаффмана, используя его «частоту» использования.
Вспомним!
Компьютер может работать с пятью видами информации.
Одним из самых массовых приложений в компьютере является работа с текстами.
Имея компьютер, можно создавать тексты, не тратя на это много времени и бумагу. Носителем текста становится память компьютера. Текст на внешних носителях сохраняется в виде файла.
Как происходит кодирование и декодирование текстовой информации?
Текстовая информация — это информация, представленная в форме письменного текста. Для того, чтобы компьютер смог работать с такой информацией, ее надо закодировать.
Принципиально важно, что текстовая информация уже дискретна — состоит из отдельных знаков. Поэтому возникает лишь технический вопрос — как разместить ее в памяти компьютера.
Как вы уже знаете, вся информация, независимо от того, какая она графическая, видео или звуковая, представляется в компьютере с помощью чисел, это всего два символа двоичного кода, 0 и 1, которые легко перевести в сигналы.
Схема представления текста в памяти компьютера очень проста. Каждая буква алфавита, цифра, знак препинания или любой другой символ необходимый для записи текста обозначается определённым двоичным кодом, длина которого фиксирована и принимает одно из значений кодовой таблицы.
Кодовая таблица – это внутреннее представление символов в компьютере (во всем мире в качестве стандарта принята таблица ASCII (американский стандартный код информационного обмена).
Необходимо запомнить!
Прописные и строчные буквы представлены разными кодами, а значит воспринимаются компьютером по-разному.
Чтобы упорядочить элементы текста по алфавиту, компьютер сначала сравнит между собой десятичные коды букв и расположит их по возрастанию. Пример: A «меньше» C, но С «больше» A.
Также обратите внимание на то, что цифра «меньше» буквы.
Многие латинские и русские буквы имеют одинаковые начертания, но разные коды. Например, с и с, е и e. Если буквенные коды содержат такие символы, то могут возникнуть недоразумения.
Внимательно посмотри видеоролик!
Видео можно развернуть во весь экран
Дополнительный видеоролик, в котором тема раскрыта подробно и приведены примеры решения задач на кодирование текста
Сжатие текстов. Алгоритм Хаффмана
Сжатие информации - проблема, имеющая достаточно давнюю историю, гораздо более давнюю, нежели история развития вычислительной техники, которая (история) обычно шла параллельно с историей развития проблемы кодирования и шифровки информации.
Сжатие данных – сокращение объема данных при сохранении закодированного в них содержания. Сжатие происходит за счет устранения избыточности кода, например, за счет упрощения кодов, исключения из них постоянных битов или представления повторяющихся символов в виде коэффициента повторения.
Рассмотрим один из алгоритмов сжатия данных - Алгоритм Хаффмана.
Алгоритм Хаффмана (Huffman codes) — широко распространенный и очень эффективный метод сжатия данных, который, в зависимости от характеристик этих данных, обычно позволяет сэкономить от 20% до 90% объема.
Был разработан 1952 году аспирантом Массачусетского технологического института Дэвидом Хаффманом при написании им курсовой работы. В настоящее время используется во многих программах сжатия данных.
Внимательно посмотри видеоролик или текстовый документ, в котором подробно расписан алгоритм Хаффмана на примере!
Выполни задания
Изучи предложенный материал
Выполни обязательную Практическую работу № 4 "Представление и сжатие текстов" в тетради.
Выполнить только Задание 1 и Задание 2
(выполненные задания присылать annamiseeva2@gmail.com)
Итоги урока.
Символ — условный знак каких-либо понятий или действий.
Мощность алфавита — количество символов, с помощью которых записывается текст.
Формула Хартли: N=2i, где N — это мощность алфавита, i — количество бит, кодирующих 1 символ.
Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц.
Кодировочная таблица (ASCII, Windows-1251, Unicode и др.) — таблица соответствий символов и их компьютерных кодов.
Существуют 8-разрядные таблицы кодировки – это ASCII, КОИ-8 и другие. А также 16-разрядная кодовая таблица Юникод.
В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:
• 8 бит (1 байт) — если используется 8-разрядная кодировка;
• 16 бит (2 байта) — если используется 16-разрядная кодировка.
Информационный объём фрагмента текста — это количество битов, байтов и производных единиц, необходимых для записи фрагмента оговорённым способом кодирования.
Алгоритм Хаффмана — алгоритм оптимального префиксного кодирования алфавита.