Методы обработки речевых сигналов в задаче распознавания

Содержание

Слайд 2

Содержание Теория сэмплирования Линейные фильтры Анализ кратковременного преобразования Фурье Применение окон Кодирование речи

Содержание

Теория сэмплирования
Линейные фильтры
Анализ кратковременного
преобразования Фурье
Применение

окон
Кодирование речи
Слайд 3

Речевой сигнал wav-файл, 8000Hz, 16 bit (106 kbyte) Представление речевого сигнала во временной области Time

Речевой сигнал

wav-файл, 8000Hz, 16 bit (106 kbyte)

Представление речевого сигнала во временной

области

Time

Слайд 4

Теория сэмплирования Перед дискретизацией сигнал необходимо отфильтровать. Теоретически, максимальная воспроизводимая частота

Теория сэмплирования

Перед дискретизацией сигнал необходимо отфильтровать. Теоретически, максимальная воспроизводимая частота является

половиной частоты дискретизации

Частота дискретизации

Разрешение дискретизации

В телефонии использована частота дискретизации 8 кГц. 16 кГц обычно считается достаточным для распознавания и синтеза речи.

Нормальное качество достигается при 16 битах из которых 12 – значащие

Слайд 5

Линейные фильтры Фильтры с конечной импульсной характеристикой Yn = b0 xn

Линейные фильтры

Фильтры с конечной импульсной характеристикой
Yn = b0 xn +

b1 xn-1 + b2 xn-2 + ... + bq xn-q

Фильтр с конечной импульсной характеристикой (КИХ) вычисляет выходное значение y(n), как взвешенную сумму текущего входного значения и предыдущих входных значений.

Блок-схема КИХ-фильтра

Передаточная характеристика КИХ-фильтра

Слайд 6

Линейные фильтры Фильтры с конечной импульсной характеристикой Импульсная характеристика фильтра нижних

Линейные фильтры

Фильтры с конечной импульсной характеристикой

Импульсная характеристика фильтра нижних частот

Амплитудно-частотная

характеристика фильтра нижних частот

Сигнал после НЧ фильтрации

Слайд 7

Линейные фильтры Фильтры с конечной импульсной характеристикой Импульсная характеристика фильтра высоких

Линейные фильтры

Фильтры с конечной импульсной характеристикой

Импульсная характеристика фильтра высоких частот

Амплитудно-частотная

характеристика фильтра высоких частот

Сигнал после ВЧ фильтрации

Слайд 8

Линейные фильтры Фильтры с бесконечной импульсной характеристикой Фильтры с бесконечной импульсной

Линейные фильтры

Фильтры с бесконечной импульсной характеристикой

Фильтры с бесконечной импульсной характеристикой

(БИХ) производят выходное воздействие, y(n), как взвешенную сумму текущего и предыдущих входных воздействий, x(n), и предыдущих выходных воздействий.

Обычные типы фильтров

Блок-схема БИХ-фильтра

Слайд 9

Линейные фильтры Анализ банка фильтров - частота в спектре, Гц, а

Линейные фильтры

Анализ банка фильтров

- частота в спектре, Гц, а

-

частота в новом пространстве, mel

Информативность различных частей линейного спектра неодинакова: в низкочастотной области содержится больше информации чем в высокочастотной. Поэтому для предотвращения излишнего расходования ресурсов, необходимо уменьшать число элементов, получающих информацию с высокочастотной области, или, что то же самое, сжать высокочастотную область спектра в пространстве частот. Наиболее распространенный метод – логарифмическое сжатие или приведение к mel шкале:

Mel-шкала

Банк фильтров

Слайд 10

Кратковременный анализ Фурье Дискретное преобразование Фурье (ДПФ) Где θ = 2

Кратковременный анализ Фурье

Дискретное преобразование Фурье (ДПФ)

Где θ = 2 π

f T = 2 π f / fs ,T – период дискретизации, fs – частота дискретизации.

Обратное преобразование Фурье

Сигнал звука «а» в t-области

Сигнал звука «а» в частотной области

Слайд 11

Кратковременный анализ Фурье Свойства ДПФ Линейность Временной сдвиг Частотный сдвиг Свертка

Кратковременный анализ Фурье

Свойства ДПФ

Линейность

Временной сдвиг

Частотный

сдвиг

Свертка

Слайд 12

Применение окон Прямоугольное окно Окно Хэмминга Вид окна во временной области

Применение окон

Прямоугольное окно

Окно Хэмминга

Вид окна
во временной области

Сигнал после
наложения окна

Спектр сигнала

Умножение

сигнала на функцию окна во временной области равносильно свертке сигнала в частотной области
Слайд 13

Применение окон Наиболее часто используемые окна Прямоугольное Треугольное Хэмминга Блэкмана Блэкмана-Харриса Ханна Чебышева Гаусса Кайзера

Применение окон

Наиболее часто используемые окна
Прямоугольное
Треугольное
Хэмминга
Блэкмана
Блэкмана-Харриса
Ханна
Чебышева

Гаусса
Кайзера
Слайд 14

Применение окон Данное окружение подходит в большинстве задач фильтрации, где фильтр

Применение окон

Данное окружение подходит в большинстве задач фильтрации, где фильтр может

зависеть от времени и анализируемого сигнала

Метод перекрывания и добавления в линейной фильтрации

Метод перекрывания и добавления во временной области

Слайд 15

Кодирование речи Речь может быть закодирована на многих уровнях Низкий Bit-rates

Кодирование речи

Речь может быть закодирована на многих уровнях
Низкий

Bit-rates достигается путем наложения больших ограничений на механизм получения речи.
Качество уменьшается с уменьшением bit-rate

Waveform кодеры

Импульсная кодовая модуляция (PCM)

Требуется, чтобы частота дискретизации, fs, была больше частоты Найквиста (в два раза большая, чем максимальная частота сигнала)

Дифференцированная импульсная кодовая модуляция (DPCM)

Предсказывает следующий отсчет, основываясь на нескольких отсчетах, декодированных последними
Минимизирует среднеквадратичную ошибку остатка предсказания – использует LP-кодирование.

Адаптивная дифференцированная импульсная кодовая модуляция (АDPCM)

Адаптируется предсказатель
Предшествующая адаптация: новые значения предсказания уточняются из входных данных
Последующая адаптация: используются значения предсказателя, вычисленные из недавно декодированного сигнала

wav-файл (106kbyte)

vox-файл (26kbyte)

Слайд 16

Кодирование речи Кодировщики подобластей Использует неравномерную частотную чувствительность слуховой системы. Каждая

Кодирование речи

Кодировщики подобластей

Использует неравномерную частотную чувствительность слуховой системы.

Каждая подобласть кодируется со свойственной ей разрешением – например 4 бита на отсчет в низкочастотной подобласти и 2 бита на отсчет в высокочастотной подобласти.
Также может использоваться слуховое маскирование – используется меньше бит если соседняя подобласть намного громче.
Основа для стандарта MPEG-audio (сжатие 5:1 с CD качеством звука без заметной деградации).

Пример: MP3 32, 64, 128, 256, 320 kbit/sec

Слайд 17

Кодирование речи Вокодеры линейного предсказания Для каждого фрейма необходимо закодировать: -

Кодирование речи

Вокодеры линейного предсказания

Для каждого фрейма необходимо закодировать:
-

Представление LP-фильтра
- Мощность
- Затухание голоса
- Высоту (если есть голос)
Большинство битов идет на LP-параметры
Обычно используют «LP-коэффициенты» или «Линейные спектральные пары» для представления LP-параметров:

CELP кодеры
Основан на базисном LP-кодере
Применяется долговременный предсказатель для устранения избытка повторяемости
Кодирование требует намного больших вычислительных затрат чем декодирование (нужен поиск в codebook).
Результирующий bit-rate около 4 kbps.

Кодеры, возбуждаемые кодами линейного предсказания (Code Excite Linear Prediction)

G.729 (8 kbit/sec)

ICELP (4.8 kbit/sec)

MMBE (2.4 kbit/sec)

LBRAMR (1.2 kbit/sec)