Сегментация речевых сигналов

Содержание

Слайд 2

Актуальность На всем множестве разнообразных задач обработки речи (распознавание речи, компрессия

Актуальность

На всем множестве разнообразных задач обработки речи (распознавание речи, компрессия речи,

создание обучающих баз, идентификация диктора по голосу и т. д.) исследователи неизбежно сталкиваются с проблемой сегментации речи. Сегментация речи - это процесс поиска границ между фразами, словами, слогами или артикуляторно-акустическими сегментами речевого сигнала. Этот термин применяется как к мыслительному процессу человека, так и к процессу автоматической сегментации, выполняемой машинами.
Целесообразность того или иного типа сегментации определяется: конкретной задачей обработки речи; моделью, выбранной для решения этой задачи; требованиями к точности и времени работы системы, реализующей модель.
В настоящее время в современных АТС все большее развитие набирает услуги в той или иной степени затрагивающие голосовое управление , это обуславливает необходимость поиска надежных методов и алгоритмов сегментации речевых сигналов как неотъемлемой составляющей распознавания речи , способных с высокой точностью выделять необходимые составляющие речевого сигнала.
Известные по литературе методы поиска границ сегментов обладают значительными недостатками. В частности, эти методы либо используют априорную информацию о содержании речевого сигнала, которая обычно недоступна, либо производят поиск границ слишком грубых элементов - слогов, слов, предложений, либо дают слишком большие погрешности. В свою очередь, описанные в литературе методы распознавания типа сегментов также обладают различными недостатками и не позволяют решать реальные речевые задачи: они не обладают достаточной точностью, не выполняют распознавания кардинальных типов речевых сегментов.
Слайд 3

Цели и задачи Целью данной работы является разработка и исследование алгоритма

Цели и задачи

Целью данной работы является разработка и исследование алгоритма сегментации

речевых сигналов с использованием кепстрального анализа.
Задачи работы:
Обзор методов сегментации речевых сигналов ;
Исследование теоретических основ кепстрального анализа;
Разработка и исследование алгоритма сегментации речевых сигналов с использованием кепстрального анализа.
Слайд 4

Кепстральные коэффициенты являются результатом применения обратного преобразования Фурье к логарифмированному энергетическому

Кепстральные коэффициенты являются результатом применения обратного преобразования Фурье к логарифмированному энергетическому

спектру.

Основы кепстрального анализа

(1)

Удаление «сверточных» искажений в сигнале осуществляется путем вычитания из кепстральных характеристик их среднего значения (математического ожидания):

(2)

Метод маскировки шума заключается в добавлении некоторой константы С к спектральным коэффициентам при вычислении кепстра

c=DCT(log(C+xe(jw)))

(3)

Слайд 5

Блок-схема алгоритма сегментации речевых сигналов с использованием кепстрального анализа

Блок-схема алгоритма сегментации речевых сигналов с использованием кепстрального анализа

Слайд 6

Результаты работы алгоритма сегментации На рисунках 1-2 представлены результаты алгоритма сегментации

Результаты работы алгоритма сегментации

На рисунках 1-2 представлены результаты алгоритма сегментации для

слова «характеристика»

Рис.1-Результат сегментации слова «характеристика» при N=256 и g=0.9

Рис.2-Результат сегментации слова «характеристика» при N=200 и g=0.7

Количество границ сегментов определенных «на слух»---13
Количество правильно определенных границ сегментов---7
количество ошибок первого рода -------------------------------------4
Количество ошибок второго рода -------------------------------------6

Количество границ сегментов определенных «на слух»---13
Количество правильно определенных границ сегментов---2
количество ошибок первого рода ------------------------------------0
Количество ошибок второго рода -----------------------------------11

Максимальное количество границ сегментов для слова « характеристика» определено при n=256 и g=0.9

Минимальное количество границ сегментов для слова «характеристика» определено при n=256 и g=0.9

Слайд 7

Таблица 3.5-Результаты сегментации Результаты алгоритма сегментации речевых сигналов с использованием кепстрального

Таблица 3.5-Результаты сегментации

Результаты алгоритма сегментации речевых сигналов с использованием кепстрального

анализа

В таблице 1 приведены вероятности обнаружения границ сегментов , а так же вероятности ошибок первого и второго родов в зависимости от значения порога корреляции и длинны фреймов.

Таблица 1-результаты сегментации

P’-вероятность правильного обнаружения границ сегментов
P’’-вероятность ошибки первого рода (вероятность ложной тревоги)
P’’’-вероятность ошибки второго рода (вероятность пропуска цели)
M-количество границ сегментов определенных на слух
M’-количество границ сегментов определенных правильно
M’’-количество границ сегментов определенных не правильно
M’’’-количество пропущенных границ сегментов
g-значение порога корреляции
N-длинна фрейма