Компьютерная лингвистика

Август 12, 2022

Главная
Лингвистика
Компьютерная лингвистика

Содержание

2. План 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4. Диалоги и чат-боты 5. Анализ
3. Тема 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4. Диалоги и чат-боты 5. Анализ
4. Появление научного перевода Письмо американского математика Уоррена Уивера Норберту Винеру: «Когда я вижу текст на русском
5. Перевод как дешифровка Подсчитывается частота взаимной встречаемости элементов текста. Статистически значимые отклонения от случайности позволяют найти
6. Основные подходы к машинному переводу 1. Перевод на основе правил (rule-based machine translation – RBMT) работает
7. Автоматизированный перевод computer-aided translation – CAT Текст переводится человеком, использующим разные компьютерные технологии
8. Гибридный перевод 1 этап – перевод при помощи словарей и грамматик Time flies like an arrow
9. Модель постредактирования PROMT: корпус состоит из предложений, переведённых системой с помощью правил, в соответствие которым поставлены
10. Методы оценки качества перевода 1. Экспертная оценка 2. Автоматическая оценка
11. Экспертная оценка 1. Не менее 4 экспертов оценивают перевод каждого предложения по полноте (точности) и гладкости
12. Автоматическая оценка Сравнение с эталоном, выполненным или отредактированным вручную: совпадение n-грамм. Метрики автоматической оценки: BLEU, NIST,
13. Некоторые системы машинного перевода Systran (США, Франция, Корея) Logos, OpenLogos (США, Германия) PROMT (Россия) Linguatec (Германия)
14. Тема 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4. Диалоги и чат-боты 5. Анализ
15. Информационная потребность представление пользователя о том, что он хочет найти
16. Поисковый запрос формулировка информационной потребности. Информация для поиска представлена в коллекции документов. Совпадающие части запроса и
17. Классический алгоритм поиска 1. Обработка текста документа. Морфологический анализатор, синтаксический анализатор, получение последовательности графов – деревьев
18. Индекс
19. Проблемы информационного поиска Семантико-синтаксический анализатор, распознающий анафору, эллипсис и т.п. Распознавание цели запроса Анализ текстов запросов
20. Виды запросов Информационные (расстояние до Марса, всё о кроликах) Навигационные (оф сайт фк зенит) Транзакционные (цель
21. Критерии качества поисковой системы Релевантность: документы, нужные пользователю Точность – доля релевантных документов в числе всех
22. Факторы ранжирования Способы численного представления характеристик документа и запроса, важных для качества поиска. Текстовые (доля слов
23. Алгоритм ранжирования машинное обучение на основании экспертной оценки по шкале релевантности документов, полученных по запросу
24. Стандартные лингвистические модули 1. Лемматизатор. Распознавание языка. Сведение словоформ к лексеме, обработка имён собственных. 2. Модуль
25. Модули расширения Синонимы. [купить картошку недорого]/[купить картофель дешево], но [пирожное картошка]/[пирожное картофель]. Классы условной эквивалентности: Словообразовательные
26. Построение модулей расширения Тезаурус Лингвистические модели (дериватемы, алгоритмы транслитерации и т.п.) Статистические модели (встречаемость в одном
27. Фильтры расширения Контекст. [hugo] = только [хьюго] в [hugo boss]/но = [хьюго]/[гюго] в [victor hugo] Регион.
28. Фильтры расстояния [Владимир Даль]/[Владимир Иванович Даль] [Владимир всматривался в даль]
29. Генерация динамических сниппетов построение с учётом запроса короткой аннотации документа, чтобы пользователь мог решить, стоит ли
30. Тема 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4. Диалоги и чат-боты 5. Анализ
31. Задачи извлечения Связаны с получением конкретных ответов на вопросы и включают определение 1) именованных сущностей (В
32. Событие фиксированный набор сущностей и отношений между ними, может иметь несколько синонимичных шаблонов: Яндекс купил Кинопоиск
33. Задача распознавания именованных сущностей 1) нахождение в тексте упоминания сущности; 2) однозначное указание на объект или
34. Извлечение информации из фрагмента текста Современный [СПбГУ] в [России] – преемник [Академического университета], который был учреждён
35. Сущности и категории
36. Зависимость категории от контекста Россия отказалась от американского мяса. Россельхознадзор вводит временные ограничения на поставки продукции
37. Неоднозначность идентификации – Толстому подражаете, – сказал Рудольфи. – Кому именно из Толстых? – спросил я.
38. Анафора и кореферентность Грамоте обучил [Михайла Ломоносова] [дьячок местной Дмитровской церкви С.Н Сабельников]. «Вратами учёности», по
39. Знания о мире Аня подарила Маше конфеты, потому что у неё был день рождения. Аня подарила
40. Идентификаторы для разрешения кореферентности «Евгений Онегин» стал одним из самых значительных произведений А.С. Пушкина. Евгений Онегин
41. Тема 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4. Диалоги и чат-боты 5. Анализ
42. Тест Тьюринга Английский математик Алан Тьюринг в 1950 году предположил, что к 2000 году качество имитации
43. Моделирование диалога (интеракционная социолингвистика) Порядок обмена репликами Общий контекст для собеседников Структура диалога (установление, поддержание, прерывание
44. Модули диалоговых систем Распознавание речи Понимание языка Диалоговый менеджмент Генерация естественного языка Синтез речи
45. Модуль понимания естественного языка Задача: семантическое представление входного текста Знания о мире: базы знаний, пополняемые алгоритмами
46. Диалоговый менеджер центральная составляющая диалоговых систем, которая координирует деятельность других компонентов. Задачи: обновление контекста диалога на
47. Модуль генерации естественного языка Планирование документа Микропланирование Поверхностная реализация.
48. Планирование документа Определение содержания Структурирование дискурса
49. Микропланирование Лексикализация Аггрегация (определение информации для одного предложения) Генерация отсылочных выражений.
50. Поверхностная реализация Построение грамматически правильных предложений Конвертация текста в запрашиваемый формат
51. Чат-боты Siri (Apple) Maluuba (Android) Robin (Android) Iris (Android) Vlingo (Android) Skyvi (Android) Voice Mate (LG)
52. Artificial Intelligence Markup Language (AIML) тег, который начинает и заканчивает документ тег, обозначающий элемент в базе
53. Вопросно-ответные системы IBM Watson – медицинское консультирование Модуль контентной аналитики DEEPQA с машинным обучением на основе
54. Тема 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4. Диалоги и чат-боты 5. Анализ
55. Анализ тональности определение эмоциональной окраски сообщений. Sentiment analysis – сентимент-анализ, анализ мнений, анализ эмоциональной составляющей сообщений.
56. Корпус текстов Блоги, социальные сети, твиты, отзывы в интернет-магазинах (UGC – User Generated Content). Webometric Analyst
57. Анализ тональности 1) субъект тональности (кто? – турист) 2) объект тональности (о чём? – отель) 3)
58. Подходы к анализу тональности 1) правила (русский язык) 2) машинное обучение (английский язык)
59. Правила Используются шаблоны, описывающие предметную область По этим шаблонам из текстов извлекаются n-граммы Пример правила: Если
60. NRC Word-Emotion Association Lexicon
61. NRC Hashtag Sentiment Lexicon
62. Разработка словарей НКРЯ (ev: posit, ev: neg) Перевод списков слов с другого языка, Пополнение списков при
63. Вычисление тональности слова (SO – sentiment orientation) PMI = log2 P(слово А около слова В)/Р(слово А)*Р(слово
64. Тезаурусы с разметкой эмоциональной составляющей SenticNet SentiWordNet WordNet-Affect RussNet
65. Программы определения тональности текста Stanford Live Demo SentiStrength LIWC
66. Оценка качества работы алгоритмов Полнота – отношение верно приписанных тональностей к общему числу тональностей (приписанных и
67. Тема 1. Машинный перевод 2. Информационный поиск 3. Извлечение информации 4. Диалоги и чат-боты 5. Анализ
68. Принцип квантитативной лингвистики Экспонент – означающее Денотат – означаемое Денотат «дерево» – экспоненты рус. дерево, англ.
69. Методика определения языка, на котором написан текст Зная частотность букв для каждого языка, мы можем определить,
70. Проблема дешифровки текста на неизвестном языке 1) статистика букв 2) система письма 3) языковые структуры 4)
71. Типологические индексы Дж. Гринберга 1. Индекс синтеза. Сколько в среднем морфем в слове данного языка. Syn=M/W,
72. Языки разных морфологических типов
73. Стилеметрия количественное исследование стилей текстов, написанных разными писателями в разных жанрах.
74. Предсказание популярности новых книг и сценариев Университет Стоуни Брук (США) 1) статистика скачивания книг разных жанров
75. Лингвистические параметры 1) лексика: униграммы и биграммы 2) части речи: распределение слов в текстах по частям
76. Результат 84% - максимальная популярность жанра «Приключения». Алгоритм может быть доработан для оценки и прогнозирования успешности
77. Глоттохронология Два языка развиваются из праязыка независимо друг от друга. Можно вычислить долю совпадающих слов в
78. Доля совпадения между языками Корневая глоттохронология Этимологическая статистика Лексикостатистическая классификация
79. Частотные словари Лемматизация словоформ Общая частота – число употреблений на млн слов корпуса Ранг леммы или
80. Квантитативная морфология
81. Выводы 1) квантитативные исследования позволяют выяснить, как язык используется в разных сферах коммуникации 2) частотные характеристики
83. Скачать презентацию

Слайд 2

План
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

тональности
6. Квантитативная лингвистика

Слайд 3

Тема
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

тональности
6. Квантитативная лингвистика

Слайд 4

Появление научного перевода
Письмо американского математика Уоррена Уивера Норберту Винеру: «Когда я

вижу текст на русском языке, я говорю себе, что на самом деле он написан по-английски и зашифрован при помощи странных знаков. Мне нужно его просто расшифровать» (4.03.1947)

Слайд 5

Перевод как дешифровка
Подсчитывается частота взаимной встречаемости элементов текста. Статистически значимые отклонения

от случайности позволяют найти ключ к дешифровке текста.
Эти методы стали активно использоваться 50 лет спустя.

Слайд 6

Основные подходы к машинному переводу
1. Перевод на основе правил (rule-based machine

translation – RBMT) работает с грамматиками и словарями.
2. Статистический машинный перевод (statistical machine translation – SMT) – работает на основе методов машинного обучения, анализируя частоту совместной встречаемости слов в большом количестве пар «предложение + его перевод».
3. Гибридный перевод (hybrid machine translation – HMT) – наиболее современный подход, комбинирующий правила и статистику.

Слайд 7

Автоматизированный перевод
computer-aided translation – CAT
Текст переводится человеком, использующим разные компьютерные

технологии

Слайд 8

Гибридный перевод
1 этап – перевод при помощи словарей и грамматик

Time flies like an arrow
Время летит как стрела (1)
Мухи времени любят стрелу (2)
2 этап – сравнение частоты встречаемости сочетаний время летит и мухи времени.

Слайд 9

Модель постредактирования
PROMT: корпус состоит из предложений, переведённых системой с помощью правил,

в соответствие которым поставлены эти же предложения, исправленные носителями языка.

Слайд 10

Методы оценки качества перевода
1. Экспертная оценка
2. Автоматическая оценка

Слайд 11

Экспертная оценка
1. Не менее 4 экспертов оценивают перевод каждого предложения по

полноте (точности) и гладкости (правильность с точки зрения носителя). По каждому из этих параметров каждый эксперт ставит оценки в соответствии с заранее заданной шкалой.
2. Ранжирование вариантов перевода.
3. Оценка трудозатрат на редактирование перевода.

Слайд 12

Автоматическая оценка
Сравнение с эталоном, выполненным или отредактированным вручную: совпадение n-грамм.
Метрики автоматической

оценки: BLEU, NIST, MERT, METEOR, TER
http://asiya.lsi.upc.edu/demo/asiya_online.php - оценка статистического перевода

Слайд 13

Некоторые системы машинного перевода
Systran (США, Франция, Корея)
Logos, OpenLogos (США, Германия)
PROMT

(Россия)
Linguatec (Германия)
IdiomaX (Швейцария, Италия)
Babylon (Израиль)
Apertium (Испания)
Google Translate (США)
Bing (США)
Яндекс, Переводчик (Россия)
ABBYY Compreno (Россия)

Слайд 14

Тема
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

тональности
6. Квантитативная лингвистика

Слайд 15

Информационная потребность
представление пользователя о том, что он хочет найти

Слайд 16

Поисковый запрос
формулировка информационной потребности.
Информация для поиска представлена в коллекции документов. Совпадающие

части запроса и документа называют терминами (дескрипторами).

Слайд 17

Классический алгоритм поиска
1. Обработка текста документа. Морфологический анализатор, синтаксический анализатор, получение

последовательности графов – деревьев зависимостей для предложений в документе. Семантический анализатор строит на их базе семантическое представление документа.
2. Обработка текста запроса. С помощью тех же операций строится семантическое представление запроса.
3. Сравнение по индексу.

Слайд 18

Индекс

Слайд 19

Проблемы информационного поиска
Семантико-синтаксический анализатор, распознающий анафору, эллипсис и т.п.
Распознавание цели запроса
Анализ

текстов запросов
[дорога владимир николаев]

Слайд 20

Виды запросов
Информационные (расстояние до Марса, всё о кроликах)
Навигационные (оф сайт фк

зенит)
Транзакционные (цель – выполнение задачи: билет плацкарт воронеж 6 августа)

Слайд 21

Критерии качества поисковой системы
Релевантность: документы, нужные пользователю
Точность – доля релевантных документов

в числе всех найденных
Полнота – доля найденных документов в числе всех релевантных документов коллекции
Ранжированная поисковая система: получение в первую очередь наиболее релевантных документов

Слайд 22

Факторы ранжирования
Способы численного представления характеристик документа и запроса, важных для качества

поиска.
Текстовые (доля слов запроса, встретившихся в документе; доля биграмм запроса, встретившихся в документе; доля слов запроса, встретившихся в документе в той же форме, в какой они представлены в запросе)
Ссылочные (частота встречаемости слов запроса в ссылках на документ)
Поведенческие (количество просмотренных документов, время просматривания документа, переформулирование запроса).
Используется порядка 1000 факторов.

Слайд 23

Алгоритм ранжирования
машинное обучение на основании экспертной оценки по шкале релевантности документов,

полученных по запросу

Слайд 24

Стандартные лингвистические модули
1. Лемматизатор. Распознавание языка. Сведение словоформ к лексеме, обработка

имён собственных.
2. Модуль исправления опечаток. Работа с контекстом ([тстер] – тестер/тостер? [цифровой тстер]). Автозамена, подсказки, смешанные результаты поиска.
3. Модуль диакритики. Например, в таких языках, как турецкий или венгерский, вариант без диакритики встречается в запросах чаще, чем с диакритикой, что создаёт проблему для статистических алгоритмов.

Слайд 25

Модули расширения
Синонимы. [купить картошку недорого]/[купить картофель дешево], но [пирожное картошка]/[пирожное картофель].
Классы

условной эквивалентности:
Словообразовательные [законы физики]/[физические законы]
Транслиты [Bosch]/[Бош]
Аббревиатуры [ИП]/[индивидуальный предприниматель]
Склейка-разрезание [автокредит]/[авто кредит]

Слайд 26

Построение модулей расширения
Тезаурус
Лингвистические модели (дериватемы, алгоритмы транслитерации и т.п.)
Статистические модели (встречаемость

в одном документе, замена в переформулированном запросе: [айфон 10]/[iphone 10] и т.п.)

Слайд 27

Фильтры расширения
Контекст. [hugo] = только [хьюго] в [hugo boss]/но = [хьюго]/[гюго]

в [victor hugo]
Регион. [МГУ]=[Московский государственный университет] в Москве или Подмосковье + [Мордовский государственный университет] в Саранске

Слайд 28

Фильтры расстояния
[Владимир Даль]/[Владимир Иванович Даль]
[Владимир всматривался в даль]

Слайд 29

Генерация динамических сниппетов
построение с учётом запроса короткой аннотации документа, чтобы пользователь

мог решить, стоит ли открывать ссылку на найденный документ

Слайд 30

Тема
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

тональности
6. Квантитативная лингвистика

Слайд 31

Задачи извлечения
Связаны с получением конкретных ответов на вопросы и включают определение
1)

именованных сущностей (В каком году основан петербургский университет/университет в петербурге?)
2) отношений между сущностями (является частью, основан в, в браке с, является владельцем, работал в).

Слайд 32

Событие
фиксированный набор сущностей и отношений между ними, может иметь несколько синонимичных

шаблонов:
Яндекс купил Кинопоиск за 80 млн долларов в октябре 2013 года.
Осенью 2013 года Кинопоиск был приобретён Яндексом за 80 млн долларов.
Яндекс стал владельцем Кинопоиска в октябре 2013 года, заплатив $ 80 млн.

Слайд 33

Задача распознавания именованных сущностей
1) нахождение в тексте упоминания сущности;
2) однозначное указание

на объект или лицо;
3) приписывание категории.

Слайд 34

Извлечение информации из фрагмента текста
Современный [СПбГУ] в [России] – преемник [Академического

университета], который был учреждён одновременно с [Академией наук] указом [Петра I] от [28 января 1724 года], в частности, в [1758 – 1765] годах ректором [Академического университета] был [М.В. Ломоносов].

Слайд 35

Сущности и категории

Слайд 36

Зависимость категории от контекста
Россия отказалась от американского мяса. Россельхознадзор вводит временные

ограничения на поставки продукции птицеводства США в Россию.

Слайд 37

Неоднозначность идентификации
– Толстому подражаете, – сказал Рудольфи.
– Кому именно из

Толстых? – спросил я. – Их было много… Алексею ли Константиновичу, известному писателю, Петру ли Андреевичу, поймавшему за границей царевича Алексея, нумизмату ли Ивану Ивановичу или Льву Николаевичу?

Слайд 38

Анафора и кореферентность
Грамоте обучил [Михайла Ломоносова] [дьячок местной Дмитровской церкви С.Н

Сабельников]. «Вратами учёности», по его собственному выражению, для него делаются «Грамматика» [Мелетия Смотрицкого], «Арифметика» [Л.Ф. Магницкого], «Стихотворная Псалтырь» [Симеона Полоцкого]. В четырнадцать лет юный помор грамотно и чётко писал.
По заголовку и теме текста именованным сущностям может приписываться вес.

Слайд 39

Знания о мире
Аня подарила Маше конфеты, потому что у неё был

день рождения.
Аня подарила Маше конфеты, потому что у неё было две коробки.

Слайд 40

Идентификаторы для разрешения кореферентности
«Евгений Онегин» стал одним из самых значительных произведений

А.С. Пушкина.
Евгений Онегин – молодой дворянин, отправляющийся в самом начале романа к умирающему дяде.
«Евгений Онегин» состоит из трёх действий и семи картин.

Слайд 41

Тема
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

тональности
6. Квантитативная лингвистика

Слайд 42

Тест Тьюринга
Английский математик Алан Тьюринг в 1950 году предположил, что к

2000 году качество имитации человеческого диалога компьютером достигнет такого уровня, что в 30% случаев после 5 минут общения человек не сможет различить живого собеседника и компьютер.
В 1990 году учреждена премия Лёбнера – ежегодное соревнование чат-ботов в прохождении теста Тьюринга.
В 2014 году в г. Рединг (Великобритания) бот Женя Густман прошёл тест Тьюринга (33% судей).

Слайд 43

Моделирование диалога (интеракционная социолингвистика)
Порядок обмена репликами
Общий контекст для собеседников
Структура диалога (установление,

поддержание, прерывание контакта)
Инициатива в диалоге (смешанная, односторонняя)

Слайд 44

Модули диалоговых систем
Распознавание речи
Понимание языка
Диалоговый менеджмент
Генерация естественного языка
Синтез речи

Слайд 45

Модуль понимания естественного языка
Задача: семантическое представление входного текста
Знания о мире: базы

знаний, пополняемые алгоритмами извлечения информации из текстов
Знания об участниках диалога: статусы, роли, предпочтения и др. сведения

Слайд 46

Диалоговый менеджер
центральная составляющая диалоговых систем, которая координирует деятельность других компонентов.
Задачи:
обновление контекста

диалога на основании проинтерпретированного общения;
представление контекстно-зависимых интерпретаций сигналов;
работа с базами знаний;
распознавание речевых актов;
координирование диалогового и недиалогового поведения.

Слайд 47

Модуль генерации естественного языка
Планирование документа
Микропланирование
Поверхностная реализация.

Слайд 48

Планирование документа
Определение содержания
Структурирование дискурса

Слайд 49

Микропланирование
Лексикализация
Аггрегация (определение информации для одного предложения)
Генерация отсылочных выражений.

Слайд 50

Поверхностная реализация
Построение грамматически правильных предложений
Конвертация текста в запрашиваемый формат

Слайд 51

Чат-боты
Siri (Apple)
Maluuba (Android)
Robin (Android)
Iris (Android)
Vlingo (Android)
Skyvi (Android)
Voice Mate (LG)
S-Voice (Samsung)
Google Now
Cortana

(Microsoft)

Компьютерная лингвистика

Содержание

План1. Машинный перевод2. Информационный поиск3. Извлечение информации4. Диалоги и чат-боты5. Анализ

Тема1. Машинный перевод2. Информационный поиск3. Извлечение информации4. Диалоги и чат-боты5. Анализ

Появление научного переводаПисьмо американского математика Уоррена Уивера Норберту Винеру: «Когда я

Перевод как дешифровкаПодсчитывается частота взаимной встречаемости элементов текста. Статистически значимые отклонения

Основные подходы к машинному переводу1. Перевод на основе правил (rule-based machine

Автоматизированный переводcomputer-aided translation – CAT Текст переводится человеком, использующим разные компьютерные

Гибридный перевод1 этап – перевод при помощи словарей и грамматик

Модель постредактированияPROMT: корпус состоит из предложений, переведённых системой с помощью правил,

Методы оценки качества перевода1. Экспертная оценка2. Автоматическая оценка

Экспертная оценка1. Не менее 4 экспертов оценивают перевод каждого предложения по

Автоматическая оценкаСравнение с эталоном, выполненным или отредактированным вручную: совпадение n-грамм.Метрики автоматической

Некоторые системы машинного переводаSystran (США, Франция, Корея) Logos, OpenLogos (США, Германия)PROMT

Тема1. Машинный перевод2. Информационный поиск3. Извлечение информации4. Диалоги и чат-боты5. Анализ

Информационная потребностьпредставление пользователя о том, что он хочет найти

Поисковый запросформулировка информационной потребности.Информация для поиска представлена в коллекции документов. Совпадающие

Классический алгоритм поиска1. Обработка текста документа. Морфологический анализатор, синтаксический анализатор, получение

Индекс

Проблемы информационного поискаСемантико-синтаксический анализатор, распознающий анафору, эллипсис и т.п.Распознавание цели запросаАнализ

Виды запросовИнформационные (расстояние до Марса, всё о кроликах)Навигационные (оф сайт фк

Критерии качества поисковой системыРелевантность: документы, нужные пользователюТочность – доля релевантных документов

Факторы ранжированияСпособы численного представления характеристик документа и запроса, важных для качества

Алгоритм ранжированиямашинное обучение на основании экспертной оценки по шкале релевантности документов,

Стандартные лингвистические модули1. Лемматизатор. Распознавание языка. Сведение словоформ к лексеме, обработка

Модули расширенияСинонимы. [купить картошку недорого]/[купить картофель дешево], но [пирожное картошка]/[пирожное картофель].Классы

Построение модулей расширенияТезаурусЛингвистические модели (дериватемы, алгоритмы транслитерации и т.п.)Статистические модели (встречаемость

Фильтры расширенияКонтекст. [hugo] = только [хьюго] в [hugo boss]/но = [хьюго]/[гюго]

Фильтры расстояния[Владимир Даль]/[Владимир Иванович Даль][Владимир всматривался в даль]

Генерация динамических сниппетовпостроение с учётом запроса короткой аннотации документа, чтобы пользователь

Тема1. Машинный перевод2. Информационный поиск3. Извлечение информации4. Диалоги и чат-боты5. Анализ

Задачи извлеченияСвязаны с получением конкретных ответов на вопросы и включают определение1)

Событиефиксированный набор сущностей и отношений между ними, может иметь несколько синонимичных

Задача распознавания именованных сущностей1) нахождение в тексте упоминания сущности;2) однозначное указание

Извлечение информации из фрагмента текстаСовременный [СПбГУ] в [России] – преемник [Академического

Сущности и категории

Зависимость категории от контекстаРоссия отказалась от американского мяса. Россельхознадзор вводит временные

Неоднозначность идентификации– Толстому подражаете, – сказал Рудольфи. – Кому именно из

Анафора и кореферентностьГрамоте обучил [Михайла Ломоносова] [дьячок местной Дмитровской церкви С.Н

Знания о миреАня подарила Маше конфеты, потому что у неё был

Идентификаторы для разрешения кореферентности«Евгений Онегин» стал одним из самых значительных произведений

Тема1. Машинный перевод2. Информационный поиск3. Извлечение информации4. Диалоги и чат-боты5. Анализ

Тест ТьюрингаАнглийский математик Алан Тьюринг в 1950 году предположил, что к

Моделирование диалога (интеракционная социолингвистика)Порядок обмена репликамиОбщий контекст для собеседниковСтруктура диалога (установление,

Модули диалоговых системРаспознавание речиПонимание языкаДиалоговый менеджмент Генерация естественного языкаСинтез речи

Модуль понимания естественного языкаЗадача: семантическое представление входного текстаЗнания о мире: базы

Диалоговый менеджерцентральная составляющая диалоговых систем, которая координирует деятельность других компонентов.Задачи:обновление контекста

Модуль генерации естественного языкаПланирование документаМикропланированиеПоверхностная реализация.

Планирование документаОпределение содержанияСтруктурирование дискурса

МикропланированиеЛексикализация Аггрегация (определение информации для одного предложения)Генерация отсылочных выражений.

Поверхностная реализацияПостроение грамматически правильных предложенийКонвертация текста в запрашиваемый формат

Чат-ботыSiri (Apple)Maluuba (Android)Robin (Android)Iris (Android)Vlingo (Android)Skyvi (Android)Voice Mate (LG)S-Voice (Samsung)Google NowCortana

Artificial Intelligence Markup Language (AIML) тег, который начинает и заканчивает документ

Вопросно-ответные системыIBM Watson – медицинское консультированиеМодуль контентной аналитики DEEPQA с машинным

Тема1. Машинный перевод2. Информационный поиск3. Извлечение информации4. Диалоги и чат-боты5. Анализ

Анализ тональностиопределение эмоциональной окраски сообщений.Sentiment analysis – сентимент-анализ, анализ мнений, анализ

Корпус текстовБлоги, социальные сети, твиты, отзывы в интернет-магазинах (UGC – User

Анализ тональности1) субъект тональности (кто? – турист)2) объект тональности (о чём?

Подходы к анализу тональности1) правила (русский язык)2) машинное обучение (английский язык)

ПравилаИспользуются шаблоны, описывающие предметную областьПо этим шаблонам из текстов извлекаются n-граммыПример

NRC Word-Emotion Association Lexicon

NRC Hashtag Sentiment Lexicon

Разработка словарейНКРЯ (ev: posit, ev: neg)Перевод списков слов с другого языка,

Вычисление тональности слова (SO – sentiment orientation)PMI = log2 P(слово А

Тезаурусы с разметкой эмоциональной составляющейSenticNetSentiWordNetWordNet-AffectRussNet

Программы определения тональности текстаStanford Live DemoSentiStrengthLIWC

Оценка качества работы алгоритмовПолнота – отношение верно приписанных тональностей к общему

Тема1. Машинный перевод2. Информационный поиск3. Извлечение информации4. Диалоги и чат-боты5. Анализ

Принцип квантитативной лингвистикиЭкспонент – означающееДенотат – означаемоеДенотат «дерево» – экспоненты рус.

Методика определения языка, на котором написан текстЗная частотность букв для каждого

Проблема дешифровки текста на неизвестном языке1) статистика букв2) система письма3) языковые

Типологические индексы Дж. Гринберга1. Индекс синтеза. Сколько в среднем морфем в

Языки разных морфологических типов

Стилеметрияколичественное исследование стилей текстов, написанных разными писателями в разных жанрах.

Предсказание популярности новых книг и сценариевУниверситет Стоуни Брук (США)1) статистика скачивания

Лингвистические параметры1) лексика: униграммы и биграммы2) части речи: распределение слов в

План
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

Тема
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

Появление научного перевода
Письмо американского математика Уоррена Уивера Норберту Винеру: «Когда я

Перевод как дешифровка
Подсчитывается частота взаимной встречаемости элементов текста. Статистически значимые отклонения

Основные подходы к машинному переводу
1. Перевод на основе правил (rule-based machine

Автоматизированный перевод
computer-aided translation – CAT
Текст переводится человеком, использующим разные компьютерные

Гибридный перевод
1 этап – перевод при помощи словарей и грамматик

Модель постредактирования
PROMT: корпус состоит из предложений, переведённых системой с помощью правил,

Методы оценки качества перевода
1. Экспертная оценка
2. Автоматическая оценка

Экспертная оценка
1. Не менее 4 экспертов оценивают перевод каждого предложения по

Автоматическая оценка
Сравнение с эталоном, выполненным или отредактированным вручную: совпадение n-грамм.
Метрики автоматической

Некоторые системы машинного перевода
Systran (США, Франция, Корея)
Logos, OpenLogos (США, Германия)
PROMT

Тема
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

Информационная потребность
представление пользователя о том, что он хочет найти

Поисковый запрос
формулировка информационной потребности.
Информация для поиска представлена в коллекции документов. Совпадающие

Классический алгоритм поиска
1. Обработка текста документа. Морфологический анализатор, синтаксический анализатор, получение

Проблемы информационного поиска
Семантико-синтаксический анализатор, распознающий анафору, эллипсис и т.п.
Распознавание цели запроса
Анализ

Виды запросов
Информационные (расстояние до Марса, всё о кроликах)
Навигационные (оф сайт фк

Критерии качества поисковой системы
Релевантность: документы, нужные пользователю
Точность – доля релевантных документов

Факторы ранжирования
Способы численного представления характеристик документа и запроса, важных для качества

Алгоритм ранжирования
машинное обучение на основании экспертной оценки по шкале релевантности документов,

Стандартные лингвистические модули
1. Лемматизатор. Распознавание языка. Сведение словоформ к лексеме, обработка

Модули расширения
Синонимы. [купить картошку недорого]/[купить картофель дешево], но [пирожное картошка]/[пирожное картофель].
Классы

Построение модулей расширения
Тезаурус
Лингвистические модели (дериватемы, алгоритмы транслитерации и т.п.)
Статистические модели (встречаемость

Фильтры расширения
Контекст. [hugo] = только [хьюго] в [hugo boss]/но = [хьюго]/[гюго]

Фильтры расстояния
[Владимир Даль]/[Владимир Иванович Даль]
[Владимир всматривался в даль]

Генерация динамических сниппетов
построение с учётом запроса короткой аннотации документа, чтобы пользователь

Тема
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

Задачи извлечения
Связаны с получением конкретных ответов на вопросы и включают определение
1)

Событие
фиксированный набор сущностей и отношений между ними, может иметь несколько синонимичных

Задача распознавания именованных сущностей
1) нахождение в тексте упоминания сущности;
2) однозначное указание

Извлечение информации из фрагмента текста
Современный [СПбГУ] в [России] – преемник [Академического

Зависимость категории от контекста
Россия отказалась от американского мяса. Россельхознадзор вводит временные

Неоднозначность идентификации
– Толстому подражаете, – сказал Рудольфи.
– Кому именно из

Анафора и кореферентность
Грамоте обучил [Михайла Ломоносова] [дьячок местной Дмитровской церкви С.Н

Знания о мире
Аня подарила Маше конфеты, потому что у неё был

Идентификаторы для разрешения кореферентности
«Евгений Онегин» стал одним из самых значительных произведений

Тема
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

Тест Тьюринга
Английский математик Алан Тьюринг в 1950 году предположил, что к

Моделирование диалога (интеракционная социолингвистика)
Порядок обмена репликами
Общий контекст для собеседников
Структура диалога (установление,

Модули диалоговых систем
Распознавание речи
Понимание языка
Диалоговый менеджмент
Генерация естественного языка
Синтез речи

Модуль понимания естественного языка
Задача: семантическое представление входного текста
Знания о мире: базы

Диалоговый менеджер
центральная составляющая диалоговых систем, которая координирует деятельность других компонентов.
Задачи:
обновление контекста

Модуль генерации естественного языка
Планирование документа
Микропланирование
Поверхностная реализация.

Планирование документа
Определение содержания
Структурирование дискурса

Микропланирование
Лексикализация
Аггрегация (определение информации для одного предложения)
Генерация отсылочных выражений.

Поверхностная реализация
Построение грамматически правильных предложений
Конвертация текста в запрашиваемый формат

Чат-боты
Siri (Apple)
Maluuba (Android)
Robin (Android)
Iris (Android)
Vlingo (Android)
Skyvi (Android)
Voice Mate (LG)
S-Voice (Samsung)
Google Now
Cortana

Artificial Intelligence Markup Language (AIML)
тег, который начинает и заканчивает документ

Вопросно-ответные системы
IBM Watson – медицинское консультирование
Модуль контентной аналитики DEEPQA с машинным

Тема
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

Анализ тональности
определение эмоциональной окраски сообщений.
Sentiment analysis – сентимент-анализ, анализ мнений, анализ

Корпус текстов
Блоги, социальные сети, твиты, отзывы в интернет-магазинах (UGC – User

Анализ тональности
1) субъект тональности (кто? – турист)
2) объект тональности (о чём?

Подходы к анализу тональности
1) правила (русский язык)
2) машинное обучение (английский язык)

Правила
Используются шаблоны, описывающие предметную область
По этим шаблонам из текстов извлекаются n-граммы
Пример

Разработка словарей
НКРЯ (ev: posit, ev: neg)
Перевод списков слов с другого языка,

Вычисление тональности слова (SO – sentiment orientation)
PMI = log2 P(слово А

Тезаурусы с разметкой эмоциональной составляющей
SenticNet
SentiWordNet
WordNet-Affect
RussNet

Программы определения тональности текста
Stanford Live Demo
SentiStrength
LIWC

Оценка качества работы алгоритмов
Полнота – отношение верно приписанных тональностей к общему

Тема
1. Машинный перевод
2. Информационный поиск
3. Извлечение информации
4. Диалоги и чат-боты
5. Анализ

Принцип квантитативной лингвистики
Экспонент – означающее
Денотат – означаемое
Денотат «дерево» – экспоненты рус.

Методика определения языка, на котором написан текст
Зная частотность букв для каждого

Проблема дешифровки текста на неизвестном языке
1) статистика букв
2) система письма
3) языковые

Типологические индексы Дж. Гринберга
1. Индекс синтеза. Сколько в среднем морфем в

Стилеметрия
количественное исследование стилей текстов, написанных разными писателями в разных жанрах.

Предсказание популярности новых книг и сценариев
Университет Стоуни Брук (США)
1) статистика скачивания

Лингвистические параметры
1) лексика: униграммы и биграммы
2) части речи: распределение слов в