Системы перевода и распознавания текста

Содержание

Слайд 2

Компьютерные словари Словари необходимы для перевода текстов с одного языка на

Компьютерные словари
Словари необходимы для перевода текстов с одного языка на другой.

Первые словари были созданы около 5 тысяч лет назад в Шумере и представляли собой глиняные таблички, разделенные на две части.
Слайд 3

В настоящее время существуют тысячи словарей для перевода между сотнями языков

В настоящее время существуют тысячи словарей для перевода между сотнями языков

(англо-русский, немецко-французский и так далее), причем каждый из них может содержать десятки тысяч слов. В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц, где поиск нужного слова является достаточно трудоемким процессом.
Слайд 4

Компьютерные словари предоставляют пользователю дополнительные возможности: выбор языков и направлений перевода;

Компьютерные словари предоставляют пользователю дополнительные возможности:
выбор языков и направлений перевода;

содержание десятков специализированных словарей по областям знаний (техника, медицина, информатика и др.);
обеспечение быстрого поиска словарных статей
прослушивание слов в исполнении дикторов, носителей языка.
Слайд 5

Системы машинного перевода Происходящая в настоящее время глобализация нашего мира приводит

Системы машинного перевода
Происходящая в настоящее время глобализация нашего мира приводит

к необходимости обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках.
Слайд 6

В этих условиях использование традиционной технологии перевода «вручную» тормозит развитие межнациональных

В этих условиях использование традиционной технологии перевода «вручную» тормозит развитие межнациональных

контактов. Перевод многостраничной документации вручную требует длительного времени и высокой оплаты труда переводчиков. Перевод полученного по электронной почте письма или просматриваемой в браузере Web-страницы необходимо осуществить немедленно, и нет возможности и времени пригласить переводчика.
Слайд 7

Системы машинного перевода позволяют решить эти проблемы. Они, с одной стороны,

Системы машинного перевода позволяют решить эти проблемы. Они, с одной стороны,

способны переводить многостраничные документы с высокой скоростью (одна страница в секунду) и, с другой стороны, переводить Web-страницы «на лету», в режиме реального времени. Лучшими среди российских систем машинного перевода считаются PROMT и «Сократ».
Слайд 8

Современные системы машинного перевода позволяют достаточно качественно переводить техническую документацию, деловую

Современные системы машинного перевода позволяют достаточно качественно переводить техническую документацию, деловую

переписку и другие специализированные тексты. Однако они неприменимы для перевода художественных произведений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека.
Слайд 9

Системы распознавания текста С помощью сканера достаточно просто получить изображение страницы

Системы распознавания текста
С помощью сканера достаточно просто получить изображение страницы текста

в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл - обычную картинку.
Слайд 10

Текст можно будет читать и распечатывать, но нельзя будет его редактировать

Текст можно будет читать и распечатывать, но нельзя будет его редактировать

и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.
Слайд 11

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical

Character Recognition - OCR).
Слайд 12

Современная OCR должна уметь: распознавать тексты, набранные не только определенными шрифтами,

Современная OCR должна уметь:
распознавать тексты, набранные не только определенными

шрифтами, но и рукописные;
корректно работать с текстами, содержащими слова на нескольких языках, распознавать таблицы;
корректно распознавать не только четко набранные тексты, но и такие, качество которых, очень плохое; (Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии)
сохранение результата в файле популярного текстового (или табличного) формата (например, формат Microsoft Word).
Слайд 13

Наиболее распространенные системы оптического распознавания символов: FineReader, CuneiForm, используют как растровый,

Наиболее распространенные системы оптического распознавания символов: FineReader, CuneiForm, используют как растровый,

так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.