Извлечение фактов из текста. Математическая лингвистика

Сентябрь 7, 2022

Главная
Алгебра
Извлечение фактов из текста. Математическая лингвистика

Содержание

2. Что такое компьютерная лингвистика? Компьютерная лингвистика изучает язык с позиции его использования в компьютерных системах.
3. Задачи компьютерной лингвистики: автоматическое составление словарей и грамматик; анализ естественно-языковых текстов; создание и использование текстовых корпусов;
4. Извлечение фактов (структурированной информации) из неструктурированного текста - Text Mining. С помощью этой технологии можно представлять
5. Где применяются технологии извлечения фактов? Яндекс – Почта, Новости, Карты и др. сервисы.
6. Где применяются технологии извлечения фактов?
7. Где применяются технологии извлечения фактов? В поисковых системах, например Google и Yandex, для сбора информации о
8. Пример извлечения фактов
9. Задача проекта: извлечение фактов из текстов для структурирования информации. Под «фактом» понимается набор извлеченных сущностей, связанных
10. Примеры неструктурированного текста: В 1771 году Карл Шееле получил плавиковую кислоту. В природе значимые скопления фтора
11. Получаем на выходе:
12. Инструменты для работы Томита-парсер — это инструмент для извлечения структурированных данных (фактов) из текста на естественном
13. Грамматика томита-парсера Так выглядит часть грамматики для томита-парсера (для извлечения места рождения человека): Born -> Verb
14. Грамматика томита-парсера Язык описания грамматик для томита-парсера построен на основе порождающих грамматик.
15. Источники: Блог Яндекса на Хабре http://habrahabr.ru/company/yandex/blog/219311/ http://habrahabr.ru/company/yandex/blog/205198/ Скриншоты с Яндекс Почты
17. Скачать презентацию

Слайд 2

Что такое компьютерная лингвистика?
Компьютерная лингвистика изучает язык с позиции его использования

в компьютерных системах.

Слайд 3

Задачи компьютерной лингвистики:
автоматическое составление словарей и грамматик;
анализ естественно-языковых текстов;
создание и использование

текстовых корпусов;
машинный перевод;
информационный поиск;
автореферирование;
создание систем искуственного интеллекта и др.

Слайд 4

Извлечение фактов (структурированной информации) из неструктурированного текста - Text Mining.
С

помощью этой технологии можно представлять данные из текстов на естественном языке в формализованном виде для дальнейшей машинной обработки.
Извлечение фактов - одна из задач компьютерной лингвистики.

Слайд 5

Где применяются технологии извлечения фактов?
Яндекс – Почта, Новости, Карты и др.

сервисы.

Слайд 6

Где применяются технологии извлечения фактов?

Слайд 7

Где применяются технологии извлечения фактов?
В поисковых системах, например Google и Yandex,

для сбора информации о пользователе.
При автоматическом построении предметных областей.
Для представления текстовой информации в удобном виде для машинной обработки.

Слайд 8

Пример извлечения фактов

Слайд 9

Задача проекта:
извлечение фактов из текстов для структурирования информации.
Под «фактом» понимается набор

извлеченных сущностей, связанных определенным отношением.
Источник: научные тексты по химии.

Слайд 10

Примеры неструктурированного текста:
В 1771 году Карл Шееле получил плавиковую кислоту.
В природе

значимые скопления фтора содержатся в основном в минерале флюорите (CaF2).
Глюкоза - бесцветное кристаллическое вещество сладкого вкуса, растворимое в воде.
При окислении образует глюконовую кислоту.

Слайд 11

Получаем на выходе:

Слайд 12

Инструменты для работы
Томита-парсер — это инструмент для извлечения структурированных данных (фактов)

из текста на естественном языке. Это технология, разработанная Яндексом.
Для извлечения информации из текста с помощью томита-парсера нужно писать грамматики.

Слайд 13

Грамматика томита-парсера
Так выглядит часть грамматики для томита-парсера (для извлечения места рождения

человека):
Born -> Verb;
City -> Noun;
Person -> AnyWord;
S -> Person interp(BornFact.Person) Born "в" City interp(BornFact.Place);

Слайд 14

Грамматика томита-парсера
Язык описания грамматик для томита-парсера построен на основе порождающих грамматик.

Слайд 15

Источники:
Блог Яндекса на Хабре http://habrahabr.ru/company/yandex/blog/219311/
http://habrahabr.ru/company/yandex/blog/205198/
Скриншоты с Яндекс Почты

Извлечение фактов из текста. Математическая лингвистика

Содержание

Что такое компьютерная лингвистика?Компьютерная лингвистика изучает язык с позиции его использования

Задачи компьютерной лингвистики:автоматическое составление словарей и грамматик;анализ естественно-языковых текстов;создание и использование

Извлечение фактов (структурированной информации) из неструктурированного текста - Text Mining.С

Где применяются технологии извлечения фактов?Яндекс – Почта, Новости, Карты и др.

Где применяются технологии извлечения фактов?

Где применяются технологии извлечения фактов?В поисковых системах, например Google и Yandex,

Пример извлечения фактов

Задача проекта:извлечение фактов из текстов для структурирования информации.Под «фактом» понимается набор

Примеры неструктурированного текста:В 1771 году Карл Шееле получил плавиковую кислоту.В природе