Содержание
- 2. Что такое компьютерная лингвистика? Компьютерная лингвистика изучает язык с позиции его использования в компьютерных системах.
- 3. Задачи компьютерной лингвистики: автоматическое составление словарей и грамматик; анализ естественно-языковых текстов; создание и использование текстовых корпусов;
- 4. Извлечение фактов (структурированной информации) из неструктурированного текста - Text Mining. С помощью этой технологии можно представлять
- 5. Где применяются технологии извлечения фактов? Яндекс – Почта, Новости, Карты и др. сервисы.
- 6. Где применяются технологии извлечения фактов?
- 7. Где применяются технологии извлечения фактов? В поисковых системах, например Google и Yandex, для сбора информации о
- 8. Пример извлечения фактов
- 9. Задача проекта: извлечение фактов из текстов для структурирования информации. Под «фактом» понимается набор извлеченных сущностей, связанных
- 10. Примеры неструктурированного текста: В 1771 году Карл Шееле получил плавиковую кислоту. В природе значимые скопления фтора
- 11. Получаем на выходе:
- 12. Инструменты для работы Томита-парсер — это инструмент для извлечения структурированных данных (фактов) из текста на естественном
- 13. Грамматика томита-парсера Так выглядит часть грамматики для томита-парсера (для извлечения места рождения человека): Born -> Verb
- 14. Грамматика томита-парсера Язык описания грамматик для томита-парсера построен на основе порождающих грамматик.
- 15. Источники: Блог Яндекса на Хабре http://habrahabr.ru/company/yandex/blog/219311/ http://habrahabr.ru/company/yandex/blog/205198/ Скриншоты с Яндекс Почты
- 17. Скачать презентацию