Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста

Август 29, 2022

Главная
Алгебра
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста

Содержание

2. Введение Информационный поиск – поиск в большой коллекции документов, удовлетворяющих потребности пользователя, сформулированной в виде короткого
3. Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
4. Индексирование Поиск по большим коллекциям не может осуществляться в режиме реального времени. Для быстрого поиска коллекция
5. Структура индекса
6. Процесс индексирования Анализ структуры – выделение заголовков, абзацев и т.п.; удаление html-разметки и т.д; Токенизация –
7. Взвешивание В индексе хочется учитывать не только сам факт вхождения слова в документ, но и «вес»,
8. Закон Ципфа (Zipf) Произведение частоты термина f на его ранг r остается примерно постоянной величиной f
9. Принцип Луна (Luhn) Самые часто встречающиеся слова – не самые значимые!
10. Классический метод взвешивания: tf-idf tf – относительная частота слова в документе idf – обратная документальная частота
11. Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
12. Булева модель Запрос: булево выражение: Ответ: Плюс: простота; минус: отсутствие ранжирование
13. Векторная модель Коллекция из n документов и m различных терминов представляется в виде матрицы mxn, где
14. Векторная модель Близость запроса к документу: косинусная мера близости
15. Вероятность вычисляется на основе теоремы Байеса: P(R) – вероятность того, что случайно выбранный из коллекции документ
16. Вероятностные модели Решающее правило заключается в максимизации следующей функции:
17. Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
18. Оценка информационного поиска Полнота (recall): R = tp / (tp+fn) Точность (presicion): P = tp /
19. Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске
20. Уровни анализа языка Морфологический анализ – признан необходимым для информационного поиска, особенно для флективных языков (например,
22. Скачать презентацию

Слайд 2

Введение
Информационный поиск – поиск в большой коллекции документов, удовлетворяющих потребности пользователя,

сформулированной в виде короткого запроса на естественном языке.
Стремительный рост Интернета и успешное развитие информационно-поисковых систем привели к тому, что современный информационный поиск как дисциплина включает широкий круг вопросов, связанных со сбором, хранением, поиском и представлением самой разнообразной информации; сюда же естественным образом относятся многие задачи автоматической обработки текста.

Слайд 3

Содержание
Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Слайд 4

Индексирование
Поиск по большим коллекциям не может осуществляться в режиме реального времени.

Для быстрого поиска коллекция предварительно обрабатывается и по ней строится индекс(ы) – набор атрибутов, которые упорядочены в удобном для поиска порядке.
В случае полнотекстового поиска такими атрибутами являются слова (словосочетания), приведенные к нормальной форме.

Слайд 5

Структура индекса

Слайд 6

Процесс индексирования
Анализ структуры – выделение заголовков, абзацев и т.п.; удаление html-разметки

и т.д;
Токенизация – разбиение текста на слова, удаление знаков препинания;
Удаление стоп-слов - высокочастотных служебных слов (предлогов, союзов и т.п.);
Лемматизация – приведение слов к нормальной (например, словарной) форме;
Взвешивание

Слайд 7

Взвешивание
В индексе хочется учитывать не только сам факт вхождения слова в

документ, но и «вес», т.е. информацию о частоте данного слова в документе.
Однако саму по себе частоту использовать плохо, поскольку слова распределены в языке неравномерно: некоторые встречаются гораздо чаще других

Слайд 8

Закон Ципфа (Zipf)
Произведение частоты термина f на его ранг r остается

примерно постоянной величиной

f = C/r, C ≈ N/10

Слайд 9

Принцип Луна (Luhn)
Самые часто встречающиеся слова – не самые значимые!

Слайд 10

Классический метод взвешивания: tf-idf
tf – относительная частота слова в документе
idf –

обратная документальная частота (чем меньше в коллекции документов, в которые входит это слово, тем idf больше)

Вес слова в документе:

В современных поисковых системах используются более сложные варианты взвешивания.

Слайд 11

Содержание
Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Слайд 12

Булева модель
Запрос: булево выражение:
Ответ:
Плюс: простота; минус: отсутствие ранжирование

Слайд 13

Векторная модель
Коллекция из n документов и m различных терминов представляется в

виде матрицы mxn, где каждый документ – вектор в m-мерном пространстве.
Веса терминов можно считать по разному: частота, бинарная частота (входит – не входит), tf*idf…
Порядок слов не учитывается (bag of words)
Матрица очень большая (большое число различных терминов в гетерогенной коллекции).
В матрице много нулей

Слайд 14

Векторная модель
Близость запроса к документу: косинусная мера близости

Слайд 15

Вероятность вычисляется на основе теоремы Байеса:
P(R) – вероятность того, что случайно

выбранный из коллекции документ D является релевантным
P(d|R) – вероятность случайного выбора документа d из множества релевантных документов
P(d) – вероятность случайного выбора документа d из коллекции D

Вероятностные модели

Слайд 16

Вероятностные модели
Решающее правило заключается в максимизации следующей функции:

Слайд 17

Содержание
Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Слайд 18

Оценка информационного поиска
Полнота (recall):
R = tp / (tp+fn)
Точность (presicion):
P = tp

/ (tp+fp)
F-мера:
Аккуратность (accuracy):
A = (tp + tn) / (tp + tn +fp +fn)

Оценка требует большой коллекции размеченных документов, т.е. огромного труда асессоров.
Большое продвижение дают конференции-соревнования: TREC, РОМИП и т.д.

Слайд 19

Содержание
Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Слайд 20

Уровни анализа языка
Морфологический анализ
– признан необходимым для информационного поиска, особенно

для флективных языков (например, русского); сюда же относится предсказательная морфология (для незнакомых слов), а также исправление опечаток.
Синтаксический анализ
– уже из самого понятия “bag of words” следует, что синтаксис здесь практически не используется; исключения: линейный порядок слов, именные группы, сборка терминологических словосочетаний.
Семантический анализ
– в классическом информационном поиске как правило не используется; некоторые элементы лексической семантики применяются при расширении запросов, индексировании документов и составлении каталогов.

Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста

Содержание

ВведениеИнформационный поиск – поиск в большой коллекции документов, удовлетворяющих потребности пользователя,

СодержаниеИндексированиеМодели информационного поискаОценка информационного поискаРоль автоматической обработки текста в информационном поиске

ИндексированиеПоиск по большим коллекциям не может осуществляться в режиме реального времени.

Структура индекса

Процесс индексированияАнализ структуры – выделение заголовков, абзацев и т.п.; удаление html-разметки

ВзвешиваниеВ индексе хочется учитывать не только сам факт вхождения слова в

Закон Ципфа (Zipf)Произведение частоты термина f на его ранг r остается

Принцип Луна (Luhn)Самые часто встречающиеся слова – не самые значимые!

Классический метод взвешивания: tf-idftf – относительная частота слова в документеidf –

СодержаниеИндексированиеМодели информационного поискаОценка информационного поискаРоль автоматической обработки текста в информационном поиске

Булева модельЗапрос: булево выражение:Ответ: Плюс: простота; минус: отсутствие ранжирование

Векторная модельКоллекция из n документов и m различных терминов представляется в

Векторная модельБлизость запроса к документу: косинусная мера близости

Вероятность вычисляется на основе теоремы Байеса:P(R) – вероятность того, что случайно

Вероятностные моделиРешающее правило заключается в максимизации следующей функции:

СодержаниеИндексированиеМодели информационного поискаОценка информационного поискаРоль автоматической обработки текста в информационном поиске

Оценка информационного поискаПолнота (recall):R = tp / (tp+fn)Точность (presicion):P = tp

СодержаниеИндексированиеМодели информационного поискаОценка информационного поискаРоль автоматической обработки текста в информационном поиске

Уровни анализа языкаМорфологический анализ – признан необходимым для информационного поиска, особенно

Похожие презентации

Введение
Информационный поиск – поиск в большой коллекции документов, удовлетворяющих потребности пользователя,

Содержание
Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Индексирование
Поиск по большим коллекциям не может осуществляться в режиме реального времени.

Процесс индексирования
Анализ структуры – выделение заголовков, абзацев и т.п.; удаление html-разметки

Взвешивание
В индексе хочется учитывать не только сам факт вхождения слова в

Закон Ципфа (Zipf)
Произведение частоты термина f на его ранг r остается

Принцип Луна (Luhn)
Самые часто встречающиеся слова – не самые значимые!

Классический метод взвешивания: tf-idf
tf – относительная частота слова в документе
idf –

Содержание
Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Булева модель
Запрос: булево выражение:
Ответ:
Плюс: простота; минус: отсутствие ранжирование

Векторная модель
Коллекция из n документов и m различных терминов представляется в

Векторная модель
Близость запроса к документу: косинусная мера близости

Вероятность вычисляется на основе теоремы Байеса:
P(R) – вероятность того, что случайно

Вероятностные модели
Решающее правило заключается в максимизации следующей функции:

Содержание
Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Оценка информационного поиска
Полнота (recall):
R = tp / (tp+fn)
Точность (presicion):
P = tp

Содержание
Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Уровни анализа языка
Морфологический анализ
– признан необходимым для информационного поиска, особенно