Компьютерная лингвистика

Содержание

Слайд 2

План 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4.

План

1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

тональности
6. Квантитативная лингвистика
Слайд 3

Тема 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4.

Тема

1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

тональности
6. Квантитативная лингвистика
Слайд 4

Появление научного перевода Письмо американского математика Уоррена Уивера Норберту Винеру: «Когда

Появление научного перевода

Письмо американского математика Уоррена Уивера Норберту Винеру: «Когда я

вижу текст на русском языке, я говорю себе, что на самом деле он написан по-английски и зашифрован при помощи странных знаков. Мне нужно его просто расшифровать» (4.03.1947)
Слайд 5

Перевод как дешифровка Подсчитывается частота взаимной встречаемости элементов текста. Статистически значимые

Перевод как дешифровка

Подсчитывается частота взаимной встречаемости элементов текста. Статистически значимые отклонения

от случайности позволяют найти ключ к дешифровке текста.
Эти методы стали активно использоваться 50 лет спустя.
Слайд 6

Основные подходы к машинному переводу 1. Перевод на основе правил (rule-based

Основные подходы к машинному переводу

1. Перевод на основе правил (rule-based machine

translation – RBMT) работает с грамматиками и словарями.
2. Статистический машинный перевод (statistical machine translation – SMT) – работает на основе методов машинного обучения, анализируя частоту совместной встречаемости слов в большом количестве пар «предложение + его перевод».
3. Гибридный перевод (hybrid machine translation – HMT) – наиболее современный подход, комбинирующий правила и статистику.
Слайд 7

Автоматизированный перевод computer-aided translation – CAT Текст переводится человеком, использующим разные компьютерные технологии

Автоматизированный перевод

computer-aided translation – CAT
Текст переводится человеком, использующим разные компьютерные

технологии
Слайд 8

Гибридный перевод 1 этап – перевод при помощи словарей и грамматик

Гибридный перевод

1 этап – перевод при помощи словарей и грамматик

Time flies like an arrow
Время летит как стрела (1)
Мухи времени любят стрелу (2)
2 этап – сравнение частоты встречаемости сочетаний время летит и мухи времени.
Слайд 9

Модель постредактирования PROMT: корпус состоит из предложений, переведённых системой с помощью

Модель постредактирования

PROMT: корпус состоит из предложений, переведённых системой с помощью правил,

в соответствие которым поставлены эти же предложения, исправленные носителями языка.
Слайд 10

Методы оценки качества перевода 1. Экспертная оценка 2. Автоматическая оценка

Методы оценки качества перевода

1. Экспертная оценка
2. Автоматическая оценка

Слайд 11

Экспертная оценка 1. Не менее 4 экспертов оценивают перевод каждого предложения

Экспертная оценка

1. Не менее 4 экспертов оценивают перевод каждого предложения по

полноте (точности) и гладкости (правильность с точки зрения носителя). По каждому из этих параметров каждый эксперт ставит оценки в соответствии с заранее заданной шкалой.
2. Ранжирование вариантов перевода.
3. Оценка трудозатрат на редактирование перевода.
Слайд 12

Автоматическая оценка Сравнение с эталоном, выполненным или отредактированным вручную: совпадение n-грамм.

Автоматическая оценка

Сравнение с эталоном, выполненным или отредактированным вручную: совпадение n-грамм.
Метрики автоматической

оценки: BLEU, NIST, MERT, METEOR, TER
http://asiya.lsi.upc.edu/demo/asiya_online.php - оценка статистического перевода
Слайд 13

Некоторые системы машинного перевода Systran (США, Франция, Корея) Logos, OpenLogos (США,

Некоторые системы машинного перевода

Systran (США, Франция, Корея)
Logos, OpenLogos (США, Германия)
PROMT

(Россия)
Linguatec (Германия)
IdiomaX (Швейцария, Италия)
Babylon (Израиль)
Apertium (Испания)
Google Translate (США)
Bing (США)
Яндекс, Переводчик (Россия)
ABBYY Compreno (Россия)
Слайд 14

Тема 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4.

Тема

1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

тональности
6. Квантитативная лингвистика
Слайд 15

Информационная потребность представление пользователя о том, что он хочет найти

Информационная потребность

представление пользователя о том, что он хочет найти

Слайд 16

Поисковый запрос формулировка информационной потребности. Информация для поиска представлена в коллекции

Поисковый запрос

формулировка информационной потребности.
Информация для поиска представлена в коллекции документов. Совпадающие

части запроса и документа называют терминами (дескрипторами).
Слайд 17

Классический алгоритм поиска 1. Обработка текста документа. Морфологический анализатор, синтаксический анализатор,

Классический алгоритм поиска

1. Обработка текста документа. Морфологический анализатор, синтаксический анализатор, получение

последовательности графов – деревьев зависимостей для предложений в документе. Семантический анализатор строит на их базе семантическое представление документа.
2. Обработка текста запроса. С помощью тех же операций строится семантическое представление запроса.
3. Сравнение по индексу.
Слайд 18

Индекс

Индекс

Слайд 19

Проблемы информационного поиска Семантико-синтаксический анализатор, распознающий анафору, эллипсис и т.п. Распознавание

Проблемы информационного поиска

Семантико-синтаксический анализатор, распознающий анафору, эллипсис и т.п.
Распознавание цели запроса
Анализ

текстов запросов
[дорога владимир николаев]
Слайд 20

Виды запросов Информационные (расстояние до Марса, всё о кроликах) Навигационные (оф

Виды запросов

Информационные (расстояние до Марса, всё о кроликах)
Навигационные (оф сайт фк

зенит)
Транзакционные (цель – выполнение задачи: билет плацкарт воронеж 6 августа)
Слайд 21

Критерии качества поисковой системы Релевантность: документы, нужные пользователю Точность – доля

Критерии качества поисковой системы

Релевантность: документы, нужные пользователю
Точность – доля релевантных документов

в числе всех найденных
Полнота – доля найденных документов в числе всех релевантных документов коллекции
Ранжированная поисковая система: получение в первую очередь наиболее релевантных документов
Слайд 22

Факторы ранжирования Способы численного представления характеристик документа и запроса, важных для

Факторы ранжирования

Способы численного представления характеристик документа и запроса, важных для качества

поиска.
Текстовые (доля слов запроса, встретившихся в документе; доля биграмм запроса, встретившихся в документе; доля слов запроса, встретившихся в документе в той же форме, в какой они представлены в запросе)
Ссылочные (частота встречаемости слов запроса в ссылках на документ)
Поведенческие (количество просмотренных документов, время просматривания документа, переформулирование запроса).
Используется порядка 1000 факторов.
Слайд 23

Алгоритм ранжирования машинное обучение на основании экспертной оценки по шкале релевантности документов, полученных по запросу

Алгоритм ранжирования

машинное обучение на основании экспертной оценки по шкале релевантности документов,

полученных по запросу
Слайд 24

Стандартные лингвистические модули 1. Лемматизатор. Распознавание языка. Сведение словоформ к лексеме,

Стандартные лингвистические модули

1. Лемматизатор. Распознавание языка. Сведение словоформ к лексеме, обработка

имён собственных.
2. Модуль исправления опечаток. Работа с контекстом ([тстер] – тестер/тостер? [цифровой тстер]). Автозамена, подсказки, смешанные результаты поиска.
3. Модуль диакритики. Например, в таких языках, как турецкий или венгерский, вариант без диакритики встречается в запросах чаще, чем с диакритикой, что создаёт проблему для статистических алгоритмов.
Слайд 25

Модули расширения Синонимы. [купить картошку недорого]/[купить картофель дешево], но [пирожное картошка]/[пирожное

Модули расширения

Синонимы. [купить картошку недорого]/[купить картофель дешево], но [пирожное картошка]/[пирожное картофель].
Классы

условной эквивалентности:
Словообразовательные [законы физики]/[физические законы]
Транслиты [Bosch]/[Бош]
Аббревиатуры [ИП]/[индивидуальный предприниматель]
Склейка-разрезание [автокредит]/[авто кредит]
Слайд 26

Построение модулей расширения Тезаурус Лингвистические модели (дериватемы, алгоритмы транслитерации и т.п.)

Построение модулей расширения

Тезаурус
Лингвистические модели (дериватемы, алгоритмы транслитерации и т.п.)
Статистические модели (встречаемость

в одном документе, замена в переформулированном запросе: [айфон 10]/[iphone 10] и т.п.)
Слайд 27

Фильтры расширения Контекст. [hugo] = только [хьюго] в [hugo boss]/но =

Фильтры расширения

Контекст. [hugo] = только [хьюго] в [hugo boss]/но = [хьюго]/[гюго]

в [victor hugo]
Регион. [МГУ]=[Московский государственный университет] в Москве или Подмосковье + [Мордовский государственный университет] в Саранске
Слайд 28

Фильтры расстояния [Владимир Даль]/[Владимир Иванович Даль] [Владимир всматривался в даль]

Фильтры расстояния

[Владимир Даль]/[Владимир Иванович Даль]
[Владимир всматривался в даль]

Слайд 29

Генерация динамических сниппетов построение с учётом запроса короткой аннотации документа, чтобы

Генерация динамических сниппетов

построение с учётом запроса короткой аннотации документа, чтобы пользователь

мог решить, стоит ли открывать ссылку на найденный документ
Слайд 30

Тема 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4.

Тема

1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

тональности
6. Квантитативная лингвистика
Слайд 31

Задачи извлечения Связаны с получением конкретных ответов на вопросы и включают

Задачи извлечения

Связаны с получением конкретных ответов на вопросы и включают определение
1)

именованных сущностей (В каком году основан петербургский университет/университет в петербурге?)
2) отношений между сущностями (является частью, основан в, в браке с, является владельцем, работал в).
Слайд 32

Событие фиксированный набор сущностей и отношений между ними, может иметь несколько

Событие

фиксированный набор сущностей и отношений между ними, может иметь несколько синонимичных

шаблонов:
Яндекс купил Кинопоиск за 80 млн долларов в октябре 2013 года.
Осенью 2013 года Кинопоиск был приобретён Яндексом за 80 млн долларов.
Яндекс стал владельцем Кинопоиска в октябре 2013 года, заплатив $ 80 млн.
Слайд 33

Задача распознавания именованных сущностей 1) нахождение в тексте упоминания сущности; 2)

Задача распознавания именованных сущностей

1) нахождение в тексте упоминания сущности;
2) однозначное указание

на объект или лицо;
3) приписывание категории.
Слайд 34

Извлечение информации из фрагмента текста Современный [СПбГУ] в [России] – преемник

Извлечение информации из фрагмента текста

Современный [СПбГУ] в [России] – преемник [Академического

университета], который был учреждён одновременно с [Академией наук] указом [Петра I] от [28 января 1724 года], в частности, в [1758 – 1765] годах ректором [Академического университета] был [М.В. Ломоносов].
Слайд 35

Сущности и категории

Сущности и категории

Слайд 36

Зависимость категории от контекста Россия отказалась от американского мяса. Россельхознадзор вводит

Зависимость категории от контекста

Россия отказалась от американского мяса. Россельхознадзор вводит временные

ограничения на поставки продукции птицеводства США в Россию.
Слайд 37

Неоднозначность идентификации – Толстому подражаете, – сказал Рудольфи. – Кому именно

Неоднозначность идентификации

– Толстому подражаете, – сказал Рудольфи.
– Кому именно из

Толстых? – спросил я. – Их было много… Алексею ли Константиновичу, известному писателю, Петру ли Андреевичу, поймавшему за границей царевича Алексея, нумизмату ли Ивану Ивановичу или Льву Николаевичу?
Слайд 38

Анафора и кореферентность Грамоте обучил [Михайла Ломоносова] [дьячок местной Дмитровской церкви

Анафора и кореферентность

Грамоте обучил [Михайла Ломоносова] [дьячок местной Дмитровской церкви С.Н

Сабельников]. «Вратами учёности», по его собственному выражению, для него делаются «Грамматика» [Мелетия Смотрицкого], «Арифметика» [Л.Ф. Магницкого], «Стихотворная Псалтырь» [Симеона Полоцкого]. В четырнадцать лет юный помор грамотно и чётко писал.
По заголовку и теме текста именованным сущностям может приписываться вес.
Слайд 39

Знания о мире Аня подарила Маше конфеты, потому что у неё

Знания о мире

Аня подарила Маше конфеты, потому что у неё был

день рождения.
Аня подарила Маше конфеты, потому что у неё было две коробки.
Слайд 40

Идентификаторы для разрешения кореферентности «Евгений Онегин» стал одним из самых значительных

Идентификаторы для разрешения кореферентности

«Евгений Онегин» стал одним из самых значительных произведений

А.С. Пушкина.
Евгений Онегин – молодой дворянин, отправляющийся в самом начале романа к умирающему дяде.
«Евгений Онегин» состоит из трёх действий и семи картин.
Слайд 41

Тема 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4.

Тема

1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

тональности
6. Квантитативная лингвистика
Слайд 42

Тест Тьюринга Английский математик Алан Тьюринг в 1950 году предположил, что

Тест Тьюринга

Английский математик Алан Тьюринг в 1950 году предположил, что к

2000 году качество имитации человеческого диалога компьютером достигнет такого уровня, что в 30% случаев после 5 минут общения человек не сможет различить живого собеседника и компьютер.
В 1990 году учреждена премия Лёбнера – ежегодное соревнование чат-ботов в прохождении теста Тьюринга.
В 2014 году в г. Рединг (Великобритания) бот Женя Густман прошёл тест Тьюринга (33% судей).
Слайд 43

Моделирование диалога (интеракционная социолингвистика) Порядок обмена репликами Общий контекст для собеседников

Моделирование диалога (интеракционная социолингвистика)

Порядок обмена репликами
Общий контекст для собеседников
Структура диалога (установление,

поддержание, прерывание контакта)
Инициатива в диалоге (смешанная, односторонняя)
Слайд 44

Модули диалоговых систем Распознавание речи Понимание языка Диалоговый менеджмент Генерация естественного языка Синтез речи

Модули диалоговых систем

Распознавание речи
Понимание языка
Диалоговый менеджмент
Генерация естественного языка
Синтез речи

Слайд 45

Модуль понимания естественного языка Задача: семантическое представление входного текста Знания о

Модуль понимания естественного языка

Задача: семантическое представление входного текста
Знания о мире: базы

знаний, пополняемые алгоритмами извлечения информации из текстов
Знания об участниках диалога: статусы, роли, предпочтения и др. сведения
Слайд 46

Диалоговый менеджер центральная составляющая диалоговых систем, которая координирует деятельность других компонентов.

Диалоговый менеджер

центральная составляющая диалоговых систем, которая координирует деятельность других компонентов.
Задачи:
обновление контекста

диалога на основании проинтерпретированного общения;
представление контекстно-зависимых интерпретаций сигналов;
работа с базами знаний;
распознавание речевых актов;
координирование диалогового и недиалогового поведения.
Слайд 47

Модуль генерации естественного языка Планирование документа Микропланирование Поверхностная реализация.

Модуль генерации естественного языка

Планирование документа
Микропланирование
Поверхностная реализация.

Слайд 48

Планирование документа Определение содержания Структурирование дискурса

Планирование документа

Определение содержания
Структурирование дискурса

Слайд 49

Микропланирование Лексикализация Аггрегация (определение информации для одного предложения) Генерация отсылочных выражений.

Микропланирование

Лексикализация
Аггрегация (определение информации для одного предложения)
Генерация отсылочных выражений.

Слайд 50

Поверхностная реализация Построение грамматически правильных предложений Конвертация текста в запрашиваемый формат

Поверхностная реализация

Построение грамматически правильных предложений
Конвертация текста в запрашиваемый формат

Слайд 51

Чат-боты Siri (Apple) Maluuba (Android) Robin (Android) Iris (Android) Vlingo (Android)

Чат-боты

Siri (Apple)
Maluuba (Android)
Robin (Android)
Iris (Android)
Vlingo (Android)
Skyvi (Android)
Voice Mate (LG)
S-Voice (Samsung)
Google Now
Cortana

(Microsoft)
Слайд 52

Artificial Intelligence Markup Language (AIML) тег, который начинает и заканчивает документ

Artificial Intelligence Markup Language (AIML)

тег, который начинает и заканчивает документ

тег, обозначающий элемент в базе знаний
содержит простой шаблон: что пользователь может сказать чат-боту