Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста

Содержание

Слайд 2

Введение Информационный поиск – поиск в большой коллекции документов, удовлетворяющих потребности

Введение

Информационный поиск – поиск в большой коллекции документов, удовлетворяющих потребности пользователя,

сформулированной в виде короткого запроса на естественном языке.
Стремительный рост Интернета и успешное развитие информационно-поисковых систем привели к тому, что современный информационный поиск как дисциплина включает широкий круг вопросов, связанных со сбором, хранением, поиском и представлением самой разнообразной информации; сюда же естественным образом относятся многие задачи автоматической обработки текста.
Слайд 3

Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске

Содержание

Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Слайд 4

Индексирование Поиск по большим коллекциям не может осуществляться в режиме реального

Индексирование

Поиск по большим коллекциям не может осуществляться в режиме реального времени.


Для быстрого поиска коллекция предварительно обрабатывается и по ней строится индекс(ы) – набор атрибутов, которые упорядочены в удобном для поиска порядке.
В случае полнотекстового поиска такими атрибутами являются слова (словосочетания), приведенные к нормальной форме.
Слайд 5

Структура индекса

Структура индекса

Слайд 6

Процесс индексирования Анализ структуры – выделение заголовков, абзацев и т.п.; удаление

Процесс индексирования

Анализ структуры – выделение заголовков, абзацев и т.п.; удаление html-разметки

и т.д;
Токенизация – разбиение текста на слова, удаление знаков препинания;
Удаление стоп-слов - высокочастотных служебных слов (предлогов, союзов и т.п.);
Лемматизация – приведение слов к нормальной (например, словарной) форме;
Взвешивание
Слайд 7

Взвешивание В индексе хочется учитывать не только сам факт вхождения слова

Взвешивание

В индексе хочется учитывать не только сам факт вхождения слова в

документ, но и «вес», т.е. информацию о частоте данного слова в документе.
Однако саму по себе частоту использовать плохо, поскольку слова распределены в языке неравномерно: некоторые встречаются гораздо чаще других
Слайд 8

Закон Ципфа (Zipf) Произведение частоты термина f на его ранг r

Закон Ципфа (Zipf)

Произведение частоты термина f на его ранг r остается

примерно постоянной величиной

f = C/r, C ≈ N/10

Слайд 9

Принцип Луна (Luhn) Самые часто встречающиеся слова – не самые значимые!

Принцип Луна (Luhn)

Самые часто встречающиеся слова – не самые значимые!

Слайд 10

Классический метод взвешивания: tf-idf tf – относительная частота слова в документе

Классический метод взвешивания: tf-idf

tf – относительная частота слова в документе
idf –

обратная документальная частота (чем меньше в коллекции документов, в которые входит это слово, тем idf больше)

Вес слова в документе:

В современных поисковых системах используются более сложные варианты взвешивания.

Слайд 11

Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске

Содержание

Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Слайд 12

Булева модель Запрос: булево выражение: Ответ: Плюс: простота; минус: отсутствие ранжирование

Булева модель

Запрос: булево выражение:
Ответ:
Плюс: простота; минус: отсутствие ранжирование

Слайд 13

Векторная модель Коллекция из n документов и m различных терминов представляется

Векторная модель

Коллекция из n документов и m различных терминов представляется в

виде матрицы mxn, где каждый документ – вектор в m-мерном пространстве.
Веса терминов можно считать по разному: частота, бинарная частота (входит – не входит), tf*idf…
Порядок слов не учитывается (bag of words)
Матрица очень большая (большое число различных терминов в гетерогенной коллекции).
В матрице много нулей
Слайд 14

Векторная модель Близость запроса к документу: косинусная мера близости

Векторная модель

Близость запроса к документу: косинусная мера близости

Слайд 15

Вероятность вычисляется на основе теоремы Байеса: P(R) – вероятность того, что

Вероятность вычисляется на основе теоремы Байеса:
P(R) – вероятность того, что случайно

выбранный из коллекции документ D является релевантным
P(d|R) – вероятность случайного выбора документа d из множества релевантных документов
P(d) – вероятность случайного выбора документа d из коллекции D

Вероятностные модели

Слайд 16

Вероятностные модели Решающее правило заключается в максимизации следующей функции:

Вероятностные модели

Решающее правило заключается в максимизации следующей функции:

Слайд 17

Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске

Содержание

Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Слайд 18

Оценка информационного поиска Полнота (recall): R = tp / (tp+fn) Точность

Оценка информационного поиска

Полнота (recall):
R = tp / (tp+fn)
Точность (presicion):
P = tp

/ (tp+fp)
F-мера:
Аккуратность (accuracy):
A = (tp + tn) / (tp + tn +fp +fn)

Оценка требует большой коллекции размеченных документов, т.е. огромного труда асессоров.
Большое продвижение дают конференции-соревнования: TREC, РОМИП и т.д.

Слайд 19

Содержание Индексирование Модели информационного поиска Оценка информационного поиска Роль автоматической обработки текста в информационном поиске

Содержание

Индексирование
Модели информационного поиска
Оценка информационного поиска
Роль автоматической обработки текста в информационном поиске

Слайд 20

Уровни анализа языка Морфологический анализ – признан необходимым для информационного поиска,

Уровни анализа языка

Морфологический анализ
– признан необходимым для информационного поиска, особенно

для флективных языков (например, русского); сюда же относится предсказательная морфология (для незнакомых слов), а также исправление опечаток.
Синтаксический анализ
– уже из самого понятия “bag of words” следует, что синтаксис здесь практически не используется; исключения: линейный порядок слов, именные группы, сборка терминологических словосочетаний.
Семантический анализ
– в классическом информационном поиске как правило не используется; некоторые элементы лексической семантики применяются при расширении запросов, индексировании документов и составлении каталогов.