Кодирование текстовой информации

Содержание

Слайд 2

- процесс представления информации в виде последовательности условных обозначений Код –

- процесс представления информации в виде последовательности условных обозначений

Код –

множество слов –последовательность символов из некоторого алфавита, используемых при кодировании информации

Письменность –

Устная речь

Кодирование-запись текста

Код: письменный текст

Декодирование-чтение текста

Устная речь

Процесс письменного обмена между людьми

Кодирование

Код –

это способ кодирования устной речи на естественном языке.

Слайд 3

Способ кодирования зависит от назначения кода Если код предназначен для передачи

Способ кодирования зависит от назначения кода

Если код предназначен для передачи текста

по технической системе связи, то он должен быть приспособлен к возможностям этой системы

Примером технического кода является азбука Морзе

Процесс передачи телеграфного сообщения с использованием азбуки Морзе:

Алфавит телеграфного кода Морзе состоит из три символов: точка, тире, пропуск. Это троичный код.

Слайд 4

Во второй половине XX века появляются компьютеры. Для компьютерной обработки текстов

Во второй половине XX века появляются компьютеры. Для компьютерной обработки текстов

потребовалось создать стандарт кодирования. Первый разработчик ANSII Американский национальный институт стандартизации. Впоследствии была создана Международная организация стандартизации ISO

В 1963был принят стандарт ASCII Американский стандартный код информационного обмена (American Standard Code for Information Interchang).

Слайд 5

ASCII - это семиразрядный двоичный код. Общее количество символов 128, из

ASCII - это семиразрядный двоичный код.
Общее количество символов 128, из них

32 символа – управляющие, а остальные «изображаемые», т.е. имеющие графическое изображение
Слайд 6

Коды символов могут быть двоичными, десятичными и шестнадцатеричными

Коды символов могут быть двоичными, десятичными и шестнадцатеричными

Слайд 7

Слайд 8

Символы в ASСII кодируются семью битами, но в памяти компьютера под

Символы в ASСII кодируются семью битами, но в памяти компьютера под

каждый символ отводится ровно 1 байт (старший бит не используется).
Важным свойством ASСII является соблюдение алфавитной последовательности кодировки строчных и прописных букв и десятичных цифр.
Слайд 9

Вопрос. Почему сдвиг, с помощью которого по коду пропиской английской буквы

Вопрос. Почему сдвиг, с помощью которого по коду пропиской английской буквы

можно получить код соответствующей строчной, равен 32, а не 26?
Слайд 10

В чем главный недостаток ASСII?

В чем главный недостаток ASСII?

Слайд 11

Впоследствии стали разрабатывать расширения ASСII, в которых применялись однобайтовые коды символов,

Впоследствии стали разрабатывать расширения ASСII, в которых применялись однобайтовые коды символов,

первые 128 совпадали с кодировкой ASСII, остальные для кодирования букв национального алфавита. Из-за несогласованности этих разработок было создано по несколько вариантов таких таблиц.

Для русского языка наиболее распространенные однобайтовые кодовые таблицы CP-866, Windows-1251(CP-1251), KOИ-8 . Первая часть 0-127 совпадает с ASСII, во второй половине коды русских букв, но они не совпадают в этих таблицах.

К чему приводит несовпадение кодовых таблиц?

Слайд 12

КОИ8 (koi-8r) (Код обмена информацией, 8-битный, ОС Unix). Для представления букв

КОИ8 (koi-8r) (Код обмена информацией, 8-битный, ОС Unix).

Для представления букв других языков

СССР использовался блок псевдографических символов. Эту кодировку легко отличить от других по необычному порядку русских букв. Этот порядок приближен к порядку букв в латинском алфавите. 
Слайд 13

CP1251 ("Code Page", «кодовая страница» или Windows-1251) Эта кодировка использовалась и

CP1251 ("Code Page", «кодовая страница» или Windows-1251)

Эта кодировка использовалась и используется до

сих пор в операционных системах семейства Windows. Основные особенности заключаются в порядке русских букв удобном для сортировки и отсутствии псевдографики. 
Слайд 14

Кодировка CP866 используется в ОС MS DOS). К особенностям данной кодировки

Кодировка CP866 используется в ОС MS DOS).

К особенностям данной кодировки можно

отнести наличие псевдографики, которая врезается в середину списка строчных букв русского языка. Использовалась в так же в советских клонах IBM PC.
Слайд 15

Задание. Какое слово отобразится в кодировках CP-866, Windows-1251, если в кодировке КОИ-8 набрано слово «ДИСК»

Задание. Какое слово отобразится в кодировках CP-866, Windows-1251, если в кодировке

КОИ-8 набрано слово «ДИСК»
Слайд 16

В начале 90-ых годов появился новый международный стандарт Unicode, в котором

В начале 90-ых годов появился новый международный стандарт Unicode, в котором

на кодирование символов отводится 31 бит.
0-127 коды полностью совпадают с ASСII,
128-65 536 основные алфавиты современных языков
> 65536 все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов

В современных компьютерах и операционных системах используется укороченная 16-битовая версия Unicode, в которую входят все современные алфавиты. Эта часть Unicode называется базовой многоязыковой страницей BMP –Base Multilingual Plane

Слайд 17

Ответьте на вопрос: Что такое стандарт ASCII. Принцип кодирования. Задание. 1.Представьте

Ответьте на вопрос: Что такое стандарт ASCII. Принцип кодирования. Задание. 1.Представьте в форме шестнадцатеричного

кода слово «ЭВМ» во трех кодировках. 2. C помощью кодировочной таблицы ASCII декодируйте шестнадцатеричную запись: 494Е464F524D4154494F4E20544543484E4F4C4F4759
Слайд 18

Вопрос. Почему сдвиг, с помощью которого по коду пропиской английской буквы

Вопрос. Почему сдвиг, с помощью которого по коду пропиской английской буквы

можно получить код соответствующей строчной, равен 32, а не 26?
Слайд 19

Ответ1 Последовательности десятичных кодов слова «ЭВМ» в различных кодировках составляем на

Ответ1

   Последовательности десятичных кодов слова «ЭВМ» в различных кодировках составляем на

основе кодировочных таблиц:
КОИ8-Р: 252 247 237
CP1251: 221 194 204
CP866: 157 130 140
        Переводим последовательности кодов из десятичной системы в шестнадцатеричную:
КОИ8-Р: FC F7 ED
CP1251: DD C2 CC
CP866: 9D 82 8C
Слайд 20

Ответ2 INFORMATION TECHNOLOGY

Ответ2

   INFORMATION TECHNOLOGY

Слайд 21

Слайд 22

Кодирование равномерное неравномерное при равномерном кодировании все символы кодируются кодами равной

Кодирование

равномерное неравномерное

при равномерном кодировании все символы кодируются кодами равной длины;

при

неравномерном кодировании разные символы могут кодироваться кодами разной длины, это затрудняет декодирование
Слайд 23

Однозначное декодирование закодированное сообщение можно однозначно декодировать с начала, если выполняется

Однозначное декодирование

закодированное сообщение можно однозначно декодировать с начала, если выполняется условие

Фано: никакое кодовое слово не является началом другого кодового слова;
закодированное сообщение можно однозначно декодировать с конца, если выполняется обратное условие Фано: никакое кодовое слово не является окончанием другого кодового слова;
условие Фано – это достаточное, но не необходимое условие однозначного декодирования.
Слайд 24

Однозначное декодирование Для кодирования некоторой последовательности, состоящей из букв А, Б,

Однозначное декодирование

Для кодирования некоторой последовательности, состоящей из букв А, Б, В,

Г и Д, решили использовать неравномерный двоичный код, позволяющий однозначно декодировать двоичную последовательность, появляющуюся на приёмной стороне канала связи. Использовали код: А–1, Б–000, В–001, Г–011. Укажите, каким кодовым словом должна быть закодирована буква Д. Длина этого кодового слова должна быть наименьшей из всех возможных. Код должен удовлетворять свойству однозначного декодирования. 1) 00  2) 01 3)11  4) 010