Содержание
- 2. Введение Информационный поиск – поиск в большой коллекции документов, удовлетворяющих потребности пользователя, сформулированной в виде короткого
- 3. Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
- 4. Индексирование Поиск по большим коллекциям не может осуществляться в режиме реального времени. Для быстрого поиска коллекция
- 5. Структура индекса
- 6. Процесс индексирования Анализ структуры – выделение заголовков, абзацев и т.п.; удаление html-разметки и т.д; Токенизация –
- 7. Взвешивание В индексе хочется учитывать не только сам факт вхождения слова в документ, но и «вес»,
- 8. Закон Ципфа (Zipf) Произведение частоты термина f на его ранг r остается примерно постоянной величиной f
- 9. Принцип Луна (Luhn) Самые часто встречающиеся слова – не самые значимые!
- 10. Классический метод взвешивания: tf-idf tf – относительная частота слова в документе idf – обратная документальная частота
- 11. Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
- 12. Булева модель Запрос: булево выражение: Ответ: Плюс: простота; минус: отсутствие ранжирование
- 13. Векторная модель Коллекция из n документов и m различных терминов представляется в виде матрицы mxn, где
- 14. Векторная модель Близость запроса к документу: косинусная мера близости
- 15. Вероятность вычисляется на основе теоремы Байеса: P(R) – вероятность того, что случайно выбранный из коллекции документ
- 16. Вероятностные модели Решающее правило заключается в максимизации следующей функции:
- 17. Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
- 18. Оценка информационного поиска Полнота (recall): R = tp / (tp+fn) Точность (presicion): P = tp /
- 19. Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
- 20. Уровни анализа языка Морфологический анализ – признан необходимым для информационного поиска, особенно для флективных языков (например,
- 22. Скачать презентацию