Извлечение фактов из текста. Математическая лингвистика

Содержание

Слайд 2

Что такое компьютерная лингвистика? Компьютерная лингвистика изучает язык с позиции его использования в компьютерных системах.

Что такое компьютерная лингвистика?

Компьютерная лингвистика изучает язык с позиции его использования

в компьютерных системах.
Слайд 3

Задачи компьютерной лингвистики: автоматическое составление словарей и грамматик; анализ естественно-языковых текстов;

Задачи компьютерной лингвистики:

автоматическое составление словарей и грамматик;
анализ естественно-языковых текстов;
создание и использование

текстовых корпусов;
машинный перевод;
информационный поиск;
автореферирование;
создание систем искуственного интеллекта и др.
Слайд 4

Извлечение фактов (структурированной информации) из неструктурированного текста - Text Mining. С


Извлечение фактов (структурированной информации) из неструктурированного текста - Text Mining.
С

помощью этой технологии можно представлять данные из текстов на естественном языке в формализованном виде для дальнейшей машинной обработки.
Извлечение фактов - одна из задач компьютерной лингвистики.
Слайд 5

Где применяются технологии извлечения фактов? Яндекс – Почта, Новости, Карты и др. сервисы.

Где применяются технологии извлечения фактов?

Яндекс – Почта, Новости, Карты и др.

сервисы.
Слайд 6

Где применяются технологии извлечения фактов?

Где применяются технологии извлечения фактов?

Слайд 7

Где применяются технологии извлечения фактов? В поисковых системах, например Google и

Где применяются технологии извлечения фактов?

В поисковых системах, например Google и Yandex,

для сбора информации о пользователе.
При автоматическом построении предметных областей.
Для представления текстовой информации в удобном виде для машинной обработки.
Слайд 8

Пример извлечения фактов

Пример извлечения фактов

Слайд 9

Задача проекта: извлечение фактов из текстов для структурирования информации. Под «фактом»

Задача проекта:

извлечение фактов из текстов для структурирования информации.
Под «фактом» понимается набор

извлеченных сущностей, связанных определенным отношением.
Источник: научные тексты по химии.
Слайд 10

Примеры неструктурированного текста: В 1771 году Карл Шееле получил плавиковую кислоту.

Примеры неструктурированного текста:

В 1771 году Карл Шееле получил плавиковую кислоту.
В природе

значимые скопления фтора содержатся в основном в минерале флюорите (CaF2).
Глюкоза - бесцветное кристаллическое вещество сладкого вкуса, растворимое в воде.
При окислении образует глюконовую кислоту.
Слайд 11

Получаем на выходе:

Получаем на выходе:

Слайд 12

Инструменты для работы Томита-парсер — это инструмент для извлечения структурированных данных

Инструменты для работы

Томита-парсер — это инструмент для извлечения структурированных данных (фактов)

из текста на естественном языке. Это технология, разработанная Яндексом.
Для извлечения информации из текста с помощью томита-парсера нужно писать грамматики.
Слайд 13

Грамматика томита-парсера Так выглядит часть грамматики для томита-парсера (для извлечения места

Грамматика томита-парсера

Так выглядит часть грамматики для томита-парсера (для извлечения места рождения

человека):
Born -> Verb;
City -> Noun;
Person -> AnyWord;
S -> Person interp(BornFact.Person) Born "в" City interp(BornFact.Place);
Слайд 14

Грамматика томита-парсера Язык описания грамматик для томита-парсера построен на основе порождающих грамматик.

Грамматика томита-парсера

Язык описания грамматик для томита-парсера построен на основе порождающих грамматик.

Слайд 15

Источники: Блог Яндекса на Хабре http://habrahabr.ru/company/yandex/blog/219311/ http://habrahabr.ru/company/yandex/blog/205198/ Скриншоты с Яндекс Почты

Источники:

Блог Яндекса на Хабре http://habrahabr.ru/company/yandex/blog/219311/
http://habrahabr.ru/company/yandex/blog/205198/
Скриншоты с Яндекс Почты