Расширение запроса при поиске. Маннинг. Введение в информационный поиск

Содержание

Слайд 2

Методы расширения запроса Несовпадение слова запроса: самолет – лайнер Методы расширения

Методы расширения запроса

Несовпадение слова запроса:
самолет – лайнер
Методы расширения запроса:
Глобальные

методы
Ручной тезаурус
Автоматически порождаемый тезаурус
Локальные методы (по конкретному запросу)
Relevance feedback (обратная связь по релевантности)
Pseudo Relevance feedback (обратная связь по псевдорелевантности
Слайд 3

Обратная связь по релевантности Пользователь оценивает документы в поисковой выдаче Пользователь

Обратная связь по релевантности

Пользователь оценивает документы в поисковой выдаче
Пользователь задает относительно

простой, короткий запрос
Затем пользователь размечает часть результатов как релевантные и нерелевантные
Система вычисляет улучшает соответствие документов запросу на основе пользовательской разметки
Процедура может выполняться итеративно.
Основная идея: сформулировать хороший запрос трудно, если пользователь не знаком с коллекцией, поэтому – итеративное построение запроса

Sec. 9.1

Слайд 4

Результаты для начального запроса Sec. 9.1.1

Результаты для начального запроса

Sec. 9.1.1

Слайд 5

Разметка пользователя Sec. 9.1.1

Разметка пользователя

Sec. 9.1.1

Слайд 6

Результаты после разметки Sec. 9.1.1

Результаты после разметки

Sec. 9.1.1

Слайд 7

Выдача по запросу canine source: Fernando Diaz

Выдача по запросу canine source: Fernando Diaz

Слайд 8

Выдача по запросу canine-2 source: Fernando Diaz

Выдача по запросу canine-2 source: Fernando Diaz

Слайд 9

Пользователь выбирает релевантное source: Fernando Diaz

Пользователь выбирает релевантное source: Fernando Diaz

Слайд 10

Результаты (relevance feedback) source: Fernando Diaz

Результаты (relevance feedback) source: Fernando Diaz

Слайд 11

Начальный запрос и результаты Запрос: New space satellite applications 1. 0.539,

Начальный запрос и результаты

Запрос: New space satellite applications
1. 0.539, 08/13/91, NASA

Hasn’t Scrapped Imaging Spectrometer
2. 0.533, 07/09/91, NASA Scratches Environment Gear From Satellite Plan
3. 0.528, 04/04/90, Science Panel Backs NASA Satellite Plan, But Urges Launches of Smaller Probes
4. 0.526, 09/09/91, A NASA Satellite Project Accomplishes Incredible Feat: Staying Within Budget
5. 0.525, 07/24/90, Scientist Who Exposed Global Warming Proposes Satellites for Climate Research
6. 0.524, 08/22/90, Report Provides Support for the Critics Of Using Big Satellites to Study Climate
7. 0.516, 04/13/87, Arianespace Receives Satellite Launch Pact From Telesat Canada
8. 0.509, 12/02/87, Telecommunications Tale of Two Companies
Пользователь отмечает релевантные результаты отметкой “+”.

Sec. 9.1.1

Слайд 12

Расширенные запрос после relevance feedback 2.074 new 15.106 space 30.816 satellite

Расширенные запрос после relevance feedback

2.074 new 15.106 space
30.816 satellite 5.660 application
5.991

nasa 5.196 eos
4.196 launch 3.972 aster
3.516 instrument 3.446 arianespace
3.004 bundespost 2.806 ss
2.790 rocket 2.053 scientist
2.003 broadcast 1.172 earth
0.836 oil 0.646 measure

Sec. 9.1.1

Слайд 13

Ключевое понятие: центроид Центроид – это центр масс совокупности точек Документы

Ключевое понятие: центроид

Центроид – это центр масс совокупности точек
Документы – это

точки в многомерном пространстве
Определение: Центроид
где C – множество документов.

Sec. 9.1.1

Слайд 14

Алгоритм Роккьо (Rocchio) Алгоритм Rocchio использует векторное пространства найти наилучший запрос

Алгоритм Роккьо (Rocchio)

Алгоритм Rocchio использует векторное пространства найти наилучший запрос на

основе пользовательской разметки
Rocchio ищет запрос qopt , который максимизирует
Пытается отделить релевантные и нерелевантные документы
Проблема: мы не знаем все релевантные документы

Sec. 9.1.1

Слайд 15

Лучший запрос x x x x o o o Оптимальн. запрос

Лучший запрос

x

x

x

x

o

o

o

Оптимальн. запрос

x нерелевант. документы
o релевантные документы

o

o

o

x

x

x

x

x

x

x

x

x

x

x

x

x

x

Sec. 9.1.1

Слайд 16

Rocchio 1971 алгоритм (SMART) На практике используется: Dr = множество известных

Rocchio 1971 алгоритм (SMART)

На практике используется:
Dr = множество известных релевантных doc

векторов
Dnr = множество известных нерелевантных doc векторов
Отличны от Cr и Cnr
qm = модифицированный вектор запроса; q0 = исходный вектор запроса; α,β,γ: веса
Новый запрос «сдвигается» по направлению к релевантным документам и «уходит» от нерелевантных документов

!

Sec. 9.1.1

Слайд 17

Особенности параметров Соотношение α vs. β/γ : Если у нас много

Особенности параметров

Соотношение α vs. β/γ : Если у нас много оцененных

документов, то лучше более высокие β/γ.
Некоторые веса в модифицированном векторе запроса становятся отрицательными
Отрицательные веса слов игнорируются (устанавливаются равными 0)

Sec. 9.1.1

Слайд 18

Relevance feedback по исходному запросу x x x x o o

Relevance feedback по исходному запросу

x

x

x

x

o

o

o

Модиф. запрос

x Известные нерелевантн. док-ты
o Известные

релевантные док-ты

o

o

o

x

x

x

x

x

x

x

x

x

x

x

x

x

x

Исх. запрос

Sec. 9.1.1

Слайд 19

Relevance Feedback в векторных пространствах Можно модифицировать запрос на основе разметки

Relevance Feedback в векторных пространствах

Можно модифицировать запрос на основе разметки пользователя

и применить стандартную векторную модель.
Используются только документы, которые размечены.
Relevance feedback может улучшить и полноту и точность
Relevance feedback наиболее полезен в увеличении полноты в тех ситуациях, когда полнота важна
Пользователи должны просматривать и размечать результаты
Несколько итераций

Sec. 9.1.1

Слайд 20

Позитивный vs Негативный Feedback Позитивный feedback более ценен, чем негативный feedback

Позитивный vs Негативный Feedback

Позитивный feedback более ценен, чем негативный feedback (обычно

γ < β; например, γ = 0.25, β = 0.75).
Многие системы позволяют только позитивный feedback (γ=0).

Sec. 9.1.1

Слайд 21

Relevance Feedback: предположения A1: Пользователь имеет достаточно знаний для исходного запроса

Relevance Feedback: предположения

A1: Пользователь имеет достаточно знаний для исходного запроса
A2: Прототипы

релевантных/нерелевантных документов “ведут себя хорошо”
Распределение слов в релевантных документах сходно
Распределение слов в нерелевантных документах отлично от распределения слов в релевантных документах
1) Все релевантные документы похожи на один прототип
2) Имеется несколько прототипов, но у них значительное пересечение по составу
Сходство между релевантными и нерелевантными документами относительно небольшое

Sec. 9.1.3

Слайд 22

Нарушение A1 У пользователя нет достаточного начального знания Примеры: Неправильное написание:

Нарушение A1

У пользователя нет достаточного начального знания
Примеры:
Неправильное написание: Brittany Speers.
Многоязыковой информационный

поиск (hígado).
Несоответствие словаря пользователя и словаря коллекции
Cosmonaut/astronaut

Sec. 9.1.3

Слайд 23

Нарушение A2 Имеется несколько прототипов Примеры: Сейчас: Украина – две точки

Нарушение A2

Имеется несколько прототипов
Примеры:
Сейчас: Украина – две точки зрения
Pop stars that

worked at Burger King
Часто: примеры более общего понятия

Sec. 9.1.3

Слайд 24

Relevance Feedback: Проблемы Длинные запросы – неэффективны для типичной поисковой машины

Relevance Feedback: Проблемы

Длинные запросы – неэффективны для типичной поисковой машины
Большее ожидание

для пользователя
Высокая стоимость для поисковой системы
Частичное решение:
Использование только слов с наиболее высоким весом
Например, 20 первых по весу
Пользователи часто не хотят размечать документы
Трудно понять, почему данный документ был выдан после relevance feedback
Слайд 25

Relevance Feedback в вебе Некоторые поисковые машины предлагают возможность просмотра похожих

Relevance Feedback в вебе

Некоторые поисковые машины предлагают возможность просмотра похожих страниц
Тривиальная

форма relevance feedback
Google (link-based)
Altavista
Stanford WebBase
Но результаты трудно объяснить среднему пользователю
Excite
вводил настоящий relevance feedback,
затем убрал – никто не пользовался

α/β/γ ??

Sec. 9.1.4

Слайд 26

Pseudo relevance feedback Pseudo-relevance feedback автоматизирует «ручнею» часть реального relevance feedback.

Pseudo relevance feedback

Pseudo-relevance feedback автоматизирует «ручнею» часть реального relevance feedback.
Pseudo-relevance алгоритм:
Строит

поисковую выдачу по запросу
Предполагает, что первые k документов - релевантны
Выполняет relevance feedback
В среднем хорошо работает
Но может получить очень плохие результаты для некоторых запросов
Несколько итераций могут вызвать «искажение запроса»

Sec. 9.1.6

Слайд 27

Методы расширения запроса Несовпадение слова запроса: самолет – лайнер Методы расширения

Методы расширения запроса

Несовпадение слова запроса:
самолет – лайнер
Методы расширения запроса:
Глобальные

методы
Ручной тезаурус
Автоматически порождаемый тезаурус
Локальные методы
Relevance feedback (обратная связь по релевантности)
Pseudo Relevance feedback (обратная связь по псевдорелевантности
Слайд 28

Расширение запроса, основанное на тезаурусных знаниях Для каждого термина t в

Расширение запроса, основанное на тезаурусных знаниях

Для каждого термина t в запросе

происходит расширение синонимичными словами или близкими по смыслу (связанными отношениями с исходным словом) – из тезауруса
feline → feline cat
Как расширять:
Можно добавлять в вектор запроса (с более низкими весами и в зависимости от типа отношения к слову запроса)
Можно вставлять в булевское выражение
Налог →( НАЛОГ или НАЛОГОВЫЙ)
Используется в предметно-ориентированных системах
Современные тезаурусы, встроенные в ПО поисковые системы, могут иметь другие формы, чем описано в стандартах, например, только список синонимов и вариантов

Sec. 9.2.2

Слайд 29

Расширение запроса, основанное на тезаурусных знаниях-2 Увеличивает полноту поиска Обычно снижает

Расширение запроса, основанное на тезаурусных знаниях-2

Увеличивает полноту поиска
Обычно снижает точность поиска,

обычно для многозначных слов
“interest rate” → “interest rate fascinate evaluate”
Можно вводить в тезаурус многословные термины «interest rate», но запросы все равно разнообразнее
Сложность создания и обновления тезаурусов
Поэтому в интернет-поиске
Долгое время не было расширения запросов
Затем стали расширять на однокоренные слова
Сейчас для расширения запроса используются статистически насчитанные «синонимы»

Sec. 9.2.2

Слайд 30

Тезаурусные отношения при автоматич. расширении запросов Синонимы хорошо работает для однозначных

Тезаурусные отношения при автоматич. расширении запросов

Синонимы
хорошо работает для однозначных слов (выражений)


Родовидовые отношения (выше-ниже)
Хорошо работает, если запрос совпадает с термином тезауруса
В длинном запросе может приводить к снижению точности
Города Сибири -> город столица Сибири
Слайд 31

Тезаурусные отношения при автоматич. расширении запросов-2 Традиционные информационно-поисковые тезаурусы Отношение ассоциации

Тезаурусные отношения при автоматич. расширении запросов-2

Традиционные информационно-поисковые тезаурусы
Отношение ассоциации
Считается

симметричным, но фактически часто не симметрично
Принципы установления
EvroVoc: Монографии – асц - Типографии
Предложения:
ввести большую градацию отношений (причина, объект, место …)
ввести числовые оценки на отношения
Но: в любом случае контекст длинного запроса может сильно влиять на направление расширения
Слайд 32

Методы расширения запроса Несовпадение слова запроса: самолет – лайнер Методы расширения

Методы расширения запроса

Несовпадение слова запроса:
самолет – лайнер
Методы расширения запроса:
Глобальные

методы
Информационно-поисковый тезаурус
Автоматически порождаемый тезаурус
Локальные методы
Relevance feedback (обратная связь по релевантности)
Pseudo Relevance feedback (обратная связь по псевдорелевантности
Слайд 33

Слайды доклада Расширение поисковых запросов А. Сокирко Е. Соловьев (Яндекс) http://romip.ru/russir2010/slides/yandex_lecture.pdf

Слайды доклада Расширение поисковых запросов

А. Сокирко
Е. Соловьев (Яндекс)
http://romip.ru/russir2010/slides/yandex_lecture.pdf

Слайд 34

Типы синонимов для расширения запроса С соответствиями между внутренними элементами: Словообразование:

Типы синонимов для расширения запроса

С соответствиями между внутренними элементами:
Словообразование: Москва –

московский; компиляция - компилирование
Аббревиатуры: МГУ - Московский государственный университет
Транслиты: Гугл – Google
Слитно – раздельно: ватер-поло – ватерполо
Орфоварианты: colour - color
Без поддержки внутренних элементов
Переводы (стол – table)
Синонимы: бегемот – гипопотам
Подвиды: фильм - биопик
Слайд 35

Слайд 36

Алгоритм составления базы Получение списка гипотез Машинное обучение Отсечение результатов –

Алгоритм составления базы

Получение списка гипотез
Машинное обучение
Отсечение результатов – отсекается первый миллион

и объявляется словарем

~ 200 миллионов гипотез

~ 150 миллионов гипотез

Слайд 37

Извлечение синонимов для автоматического расширения запросов Компания Яндекс: доклад Russir-2010 Признаки

Извлечение синонимов для автоматического расширения запросов

Компания Яндекс: доклад Russir-2010
Признаки для извлечения

синонимов
Совместная встречаемость в одном документе (странице)
Совместная встречаемость в тексте ссылки (анкор)
Встречаемость в документе и в тексте ссылки
Как часто пользователь в запросах заменяет одно на другое
Клики пользователя на страницу, содержащую S2, при запросе, содержащем S1
сходство контекстов употребления S1 и S2 (запросы, документы) и др.
Слайд 38

Признаки синонимов: Скобочное написание Скобочное написание – это набор n-gram, которые

Признаки синонимов: Скобочное написание

Скобочное написание – это набор n-gram, которые встречаются

с текстах рунета в контексте скобок:
Московский государственный университет (МГУ)
Владимир Путин (Vladimir Putin)
Слайд 39

Признаки синонимов: Открытые словари Русская Википедия содержит около миллиона жестких перенаправлений,

Признаки синонимов: Открытые словари

Русская Википедия содержит около миллиона жестких перенаправлений, типа:
Абрикос

сибирский --- Даурсат
Авачинская бухта --- Авачинская губа
Слайд 40

Оценка качества 1) Оценка пары синонимов без контекста 2) Оценка пары

Оценка качества

1) Оценка пары синонимов без контекста
2) Оценка пары синонимов в

контексте запроса
3) Оценка качества поисковой выдачи
Слайд 41

Слайд 42

Слайд 43

Лексические расширения с использованием автоматического тезауруса Те же проблемы, что и

Лексические расширения с использованием автоматического тезауруса

Те же проблемы, что и в

ручном:
Многозначность запроса или расширения
Проблемы с расширением устойчивых словосочетаний
Влияние контекста запроса и/или документа
Слайд 44

Примеры расширения (декабрь 2010 – февраль 2011) Запрос – документ речное

Примеры расширения (декабрь 2010 – февраль 2011)

Запрос – документ
речное судно –

морское судно
речной порт – морской порт (Находка)
присуждение имущества – передача имущества
ледяная горка – холодная гора
расширение отверстия – расширение канала (сети интернет)
договор поручительства – договор поручения
аварийное отключение – знак аварийной остановки
замкнутая граница – закрыть границу
Слайд 45

2011 год

2011 год

Слайд 46

2011г.

2011г.

Слайд 47

Слайд 48

2015 год

2015 год

Слайд 49

Заключение: методы расширения запроса Глобальные методы Ручные тезаурусы Автоматически порождаемый тезаурус

Заключение: методы расширения запроса

Глобальные методы
Ручные тезаурусы
Автоматически порождаемый тезаурус
Локальные методы (по конкретному

запросу)
Relevance feedback (обратная связь по релевантности)
Pseudo Relevance feedback (обратная связь по псевдорелевантности