Технологии распознавания речи в работе письменного переводчика

Содержание

Слайд 2

Цель: повышение производительности при письменном переводе Узкое место: преобразование текста на

Цель: повышение производительности при письменном переводе

Узкое место: преобразование текста на

пути «мозг переводчика – цифровой носитель»

150…200 знаков в минуту

Перевод по хорошо знакомой тематике выполняется со скоростью набора текста на клавиатуре

Слайд 3

Предлагаемое решение: распознавание речи Современные технологии: Распознавание offline – непригодно для

Предлагаемое решение: распознавание речи

Современные технологии:
Распознавание offline – непригодно для практического использования
Распознавание online

с использованием распределенных вычислений – Google Speech API (разрабатывается с 2011 г группой из 32 человек). API бесплатна для разработчиков ПО
Слайд 4

Принцип работы Google Speech API

Принцип работы Google Speech API

Слайд 5

Особенности Google Speech API Отсутствие каких-либо настроек распознавания Поддержка многих языков

Особенности Google Speech API

Отсутствие каких-либо настроек распознавания
Поддержка многих языков с

автоопределением (иногда ошибается и вместо русского слова выдает аналогичное английское)
Наличие обширных словарей (знает даже очень редкие слова)
Учет результатов поисковых запросов в Интернете (вероятностных связей между словами)
Изредка возникают «затыки» - временная недоступность сервера
Слайд 6

Качество распознавания Google не сообщает % распознавания В статье Julius Adorf

Качество распознавания

Google не сообщает % распознавания
В статье Julius Adorf Web

Speech API (KTH Royal Institute of Technology, Stockholm) приводятся следующие данные для английского языка:

В среднем 75…85%

Слайд 7

Применение в работе письменного переводчика Приложение разработано в среде Delphi XE2

Применение в работе письменного переводчика

Приложение разработано в среде Delphi XE2 и

выполняет следующие функции:
Запись звука с выбранного источника в FLAC-файл (начало и конец записи – по нажатию и отпусканию заданной в настройках комбинации клавиш)
Отправка FLAC-файла на сервер Google и получение ответа
Вставка полученной текстовой строки в любое приложение
Слайд 8

Оценка эффективности внедрения 150…200 знаков в минуту 350…450 знаков в минуту

Оценка эффективности внедрения

150…200 знаков в минуту

350…450 знаков в минуту

Значительно меньшая утомляемость

(на управление мелкой моторикой рук тратится заметная часть «вычислительной мощности» мозга)
Вместо туннельного синдрома – тонзиллит ☺
Упрощение диверсификации для устных переводчиков, переходящих на письменный перевод
Слайд 9

Из личного опыта Качество микрофона, внешние шумы – не влияют на

Из личного опыта

Качество микрофона, внешние шумы – не влияют на распознавание

(частотный диапазон голоса очень невелик)
Плохо распознаются окончания русских слов («переводчики», «переводчика», «переводчику»…)
Лучше распознается быстро произносимый текст (видимо, API сделано под темп речи английского языка)
Говорить надо естественно, с обычной интонацией, не пытаясь выделять слова, удлинять паузы между ними и пр. Не надо «усиленно» диктовать, как лектор на лекции!
Слайд 10

Основные преимущества Заметный рост производительности Отсутствие опечаток: все слова подставляются из

Основные преимущества

Заметный рост производительности
Отсутствие опечаток: все слова подставляются из словарей
Снижение утомляемости
повышение

качества: устраняется подсознательное желание «подсократить перевод», чтобы набирать поменьше букв

Основные недостатки

Требуется обязательное повторное вычитывание (я привлекаю корректора) для контроля окончаний и проверки, не проскочило ли похожее по звучанию слово («двух местных жителей» – «двухместных жителей»)