Сжатие информации. Кодирование Хаффмена.
В методе Хаффмена при сжатии данных каждому символу
присваивается оптимальный префиксный код, основанный на вероятности его появления в тексте.
Префиксные коды – это коды, в которых каждое слово не является префиксом любого другого кодового слова.
Оптимальный префиксные код – это префиксный код, имеющий минимальную среднюю длину.
Алгоритм Хаффмана можно разделить на два этапа:
определение вероятности появления символов;
нахождение оптимального префиксного кода.
Находят два символа a и b с наименьшими вероятностями появления и заменяются одним фиктивным символом x , который имеет вероятность появления, равную сумме вероятностей появления символов a и b .
Используя эту процедуру рекурсивно, находится оптимальный префиксный код для меньшего множества символов.
Код для исходного множества символов получается из кодов замещающих символом путем добавления 0 или 1 перед кодом замещающего символа.
Информационная энтропия — мера неопределённости или непредсказуемости информации, неопределённость появления какого-либо символа первичного алфавита.