Содержание
- 2. Определение сентимент-анализа это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Анализ
- 3. Зачем нужны системы автоматического анализа тональности? Системы анализа тональности и извлечения мнений находят своё практическое применение
- 4. Сбор корпуса данных. Предварительная обработка Сбор корпуса данных текстов можно делать вручную, а можно использовать для
- 5. Предварительная обработка стемминг - избавление от суффиксов и окончаний: «малюсенький экран»)); удаление стоп-слов - тех, которые
- 6. Предварительная обработка приведение к нижнему регистру (в некоторых случаях также теряется эмоциональный акцент): «Приобретение данного товара
- 7. Выделение сущностей При сентимент-анализе необходимо выделять следующие составляющие: 1) субъект тональности — источник мнения, тот, кто
- 8. Классификация при сентимент-анализе Текст: позитивный / негативный Комментарий: грустный радостный злой Отзыв: положительный нейтральный отрицательный
- 9. Подходы к автоматическому анализу тональности Основные подходы к автоматическому определению тональности текста можно разделить на 2
- 10. Словари оценочной лексики Словарь оценочной лексики – база данных, где хранятся слова и n‑компонентные цепочки –
- 11. Виды словарей Словам может быть приписана лишь одна тональная оценка – числовое значение полярности (число большее
- 12. Виды словарей Существуют лексиконы, в которых словам приписываются разные эмоциональные категории, к ним относится NRC Word-Emotion
- 13. Виды словарей В тезаурусе WordNet-Affect наряду с метками, указывающими эмоциональную категорию («гнев», «страх», «удивление», «печаль», «отвращение»,
- 14. Лексический подход Шаблоны: , По шаблонам из текста извлекаются n-граммы. Их тональность определяется как при помощи
- 15. Примеры правил при лингвистическом подходе 1. Правила, построенные по модели «если… то…». Если цепочка содержит глагол
- 16. Примеры правил при лингвистическом подходе 3. Правила обработки слов с коннотациями. Коннотации — это оценочные ассоциации,
- 17. Особенности UGC (user-generated content) текстов Особенности языка социальных медиа: эмотиконы и смайлики; опечатки; неологизмы («пичалька» -
- 18. Недостатки лингвистического подхода Плюсы: высокая точность Минусы: составление системы правил очень трудоёмкая задача; метод правил и
- 19. Общие проблемы сентимент-анализа У любой системы автоматического анализа тональности на данный момент остаются такие проблемы, как:
- 21. Скачать презентацию