Расширение запроса при поиске. Маннинг. Введение в информационный поиск

Август 8, 2022

Главная
Информатика
Расширение запроса при поиске. Маннинг. Введение в информационный поиск

Содержание

2. Методы расширения запроса Несовпадение слова запроса: самолет – лайнер Методы расширения запроса: Глобальные методы Ручной тезаурус
3. Обратная связь по релевантности Пользователь оценивает документы в поисковой выдаче Пользователь задает относительно простой, короткий запрос
4. Результаты для начального запроса Sec. 9.1.1
5. Разметка пользователя Sec. 9.1.1
6. Результаты после разметки Sec. 9.1.1
7. Выдача по запросу canine source: Fernando Diaz
8. Выдача по запросу canine-2 source: Fernando Diaz
9. Пользователь выбирает релевантное source: Fernando Diaz
10. Результаты (relevance feedback) source: Fernando Diaz
11. Начальный запрос и результаты Запрос: New space satellite applications 1. 0.539, 08/13/91, NASA Hasn’t Scrapped Imaging
12. Расширенные запрос после relevance feedback 2.074 new 15.106 space 30.816 satellite 5.660 application 5.991 nasa 5.196
13. Ключевое понятие: центроид Центроид – это центр масс совокупности точек Документы – это точки в многомерном
14. Алгоритм Роккьо (Rocchio) Алгоритм Rocchio использует векторное пространства найти наилучший запрос на основе пользовательской разметки Rocchio
15. Лучший запрос x x x x o o o Оптимальн. запрос x нерелевант. документы o релевантные
16. Rocchio 1971 алгоритм (SMART) На практике используется: Dr = множество известных релевантных doc векторов Dnr =
17. Особенности параметров Соотношение α vs. β/γ : Если у нас много оцененных документов, то лучше более
18. Relevance feedback по исходному запросу x x x x o o o Модиф. запрос x Известные
19. Relevance Feedback в векторных пространствах Можно модифицировать запрос на основе разметки пользователя и применить стандартную векторную
20. Позитивный vs Негативный Feedback Позитивный feedback более ценен, чем негативный feedback (обычно γ Многие системы позволяют
21. Relevance Feedback: предположения A1: Пользователь имеет достаточно знаний для исходного запроса A2: Прототипы релевантных/нерелевантных документов “ведут
22. Нарушение A1 У пользователя нет достаточного начального знания Примеры: Неправильное написание: Brittany Speers. Многоязыковой информационный поиск
23. Нарушение A2 Имеется несколько прототипов Примеры: Сейчас: Украина – две точки зрения Pop stars that worked
24. Relevance Feedback: Проблемы Длинные запросы – неэффективны для типичной поисковой машины Большее ожидание для пользователя Высокая
25. Relevance Feedback в вебе Некоторые поисковые машины предлагают возможность просмотра похожих страниц Тривиальная форма relevance feedback
26. Pseudo relevance feedback Pseudo-relevance feedback автоматизирует «ручнею» часть реального relevance feedback. Pseudo-relevance алгоритм: Строит поисковую выдачу
27. Методы расширения запроса Несовпадение слова запроса: самолет – лайнер Методы расширения запроса: Глобальные методы Ручной тезаурус
28. Расширение запроса, основанное на тезаурусных знаниях Для каждого термина t в запросе происходит расширение синонимичными словами
29. Расширение запроса, основанное на тезаурусных знаниях-2 Увеличивает полноту поиска Обычно снижает точность поиска, обычно для многозначных
30. Тезаурусные отношения при автоматич. расширении запросов Синонимы хорошо работает для однозначных слов (выражений) Родовидовые отношения (выше-ниже)
31. Тезаурусные отношения при автоматич. расширении запросов-2 Традиционные информационно-поисковые тезаурусы Отношение ассоциации Считается симметричным, но фактически часто
32. Методы расширения запроса Несовпадение слова запроса: самолет – лайнер Методы расширения запроса: Глобальные методы Информационно-поисковый тезаурус
33. Слайды доклада Расширение поисковых запросов А. Сокирко Е. Соловьев (Яндекс) http://romip.ru/russir2010/slides/yandex_lecture.pdf
34. Типы синонимов для расширения запроса С соответствиями между внутренними элементами: Словообразование: Москва – московский; компиляция -
36. Алгоритм составления базы Получение списка гипотез Машинное обучение Отсечение результатов – отсекается первый миллион и объявляется
37. Извлечение синонимов для автоматического расширения запросов Компания Яндекс: доклад Russir-2010 Признаки для извлечения синонимов Совместная встречаемость
38. Признаки синонимов: Скобочное написание Скобочное написание – это набор n-gram, которые встречаются с текстах рунета в
39. Признаки синонимов: Открытые словари Русская Википедия содержит около миллиона жестких перенаправлений, типа: Абрикос сибирский --- Даурсат
40. Оценка качества 1) Оценка пары синонимов без контекста 2) Оценка пары синонимов в контексте запроса 3)
43. Лексические расширения с использованием автоматического тезауруса Те же проблемы, что и в ручном: Многозначность запроса или
44. Примеры расширения (декабрь 2010 – февраль 2011) Запрос – документ речное судно – морское судно речной
45. 2011 год
46. 2011г.
48. 2015 год
49. Заключение: методы расширения запроса Глобальные методы Ручные тезаурусы Автоматически порождаемый тезаурус Локальные методы (по конкретному запросу)
51. Скачать презентацию

Слайд 2

Методы расширения запроса
Несовпадение слова запроса:
самолет – лайнер
Методы расширения запроса:
Глобальные

методы
Ручной тезаурус
Автоматически порождаемый тезаурус
Локальные методы (по конкретному запросу)
Relevance feedback (обратная связь по релевантности)
Pseudo Relevance feedback (обратная связь по псевдорелевантности

Слайд 3

Обратная связь по релевантности
Пользователь оценивает документы в поисковой выдаче
Пользователь задает относительно

простой, короткий запрос
Затем пользователь размечает часть результатов как релевантные и нерелевантные
Система вычисляет улучшает соответствие документов запросу на основе пользовательской разметки
Процедура может выполняться итеративно.
Основная идея: сформулировать хороший запрос трудно, если пользователь не знаком с коллекцией, поэтому – итеративное построение запроса

Sec. 9.1

Слайд 4

Результаты для начального запроса
Sec. 9.1.1

Слайд 5

Разметка пользователя
Sec. 9.1.1

Слайд 6

Результаты после разметки
Sec. 9.1.1

Слайд 7

Выдача по запросу canine source: Fernando Diaz

Слайд 8

Выдача по запросу canine-2 source: Fernando Diaz

Слайд 9

Пользователь выбирает релевантное source: Fernando Diaz

Слайд 10

Результаты (relevance feedback) source: Fernando Diaz

Слайд 11

Начальный запрос и результаты
Запрос: New space satellite applications
1. 0.539, 08/13/91, NASA

Hasn’t Scrapped Imaging Spectrometer
2. 0.533, 07/09/91, NASA Scratches Environment Gear From Satellite Plan
3. 0.528, 04/04/90, Science Panel Backs NASA Satellite Plan, But Urges Launches of Smaller Probes
4. 0.526, 09/09/91, A NASA Satellite Project Accomplishes Incredible Feat: Staying Within Budget
5. 0.525, 07/24/90, Scientist Who Exposed Global Warming Proposes Satellites for Climate Research
6. 0.524, 08/22/90, Report Provides Support for the Critics Of Using Big Satellites to Study Climate
7. 0.516, 04/13/87, Arianespace Receives Satellite Launch Pact From Telesat Canada
8. 0.509, 12/02/87, Telecommunications Tale of Two Companies
Пользователь отмечает релевантные результаты отметкой “+”.

Sec. 9.1.1

Слайд 12

Расширенные запрос после relevance feedback
2.074 new 15.106 space
30.816 satellite 5.660 application
5.991

nasa 5.196 eos
4.196 launch 3.972 aster
3.516 instrument 3.446 arianespace
3.004 bundespost 2.806 ss
2.790 rocket 2.053 scientist
2.003 broadcast 1.172 earth
0.836 oil 0.646 measure

Sec. 9.1.1

Слайд 13

Ключевое понятие: центроид
Центроид – это центр масс совокупности точек
Документы – это

точки в многомерном пространстве
Определение: Центроид
где C – множество документов.

Sec. 9.1.1

Слайд 14

Алгоритм Роккьо (Rocchio)
Алгоритм Rocchio использует векторное пространства найти наилучший запрос на

основе пользовательской разметки
Rocchio ищет запрос qopt , который максимизирует
Пытается отделить релевантные и нерелевантные документы
Проблема: мы не знаем все релевантные документы

Sec. 9.1.1

Слайд 15

Лучший запрос
x
x
x
x
o
o
o
Оптимальн. запрос
x нерелевант. документы
o релевантные документы
o
o
o
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Sec. 9.1.1

Слайд 16

Rocchio 1971 алгоритм (SMART)
На практике используется:
Dr = множество известных релевантных doc

векторов
Dnr = множество известных нерелевантных doc векторов
Отличны от Cr и Cnr
qm = модифицированный вектор запроса; q0 = исходный вектор запроса; α,β,γ: веса
Новый запрос «сдвигается» по направлению к релевантным документам и «уходит» от нерелевантных документов

Sec. 9.1.1

Слайд 17

Особенности параметров
Соотношение α vs. β/γ : Если у нас много оцененных

документов, то лучше более высокие β/γ.
Некоторые веса в модифицированном векторе запроса становятся отрицательными
Отрицательные веса слов игнорируются (устанавливаются равными 0)

Sec. 9.1.1

Слайд 18

Relevance feedback по исходному запросу
x
x
x
x
o
o
o
Модиф. запрос
x Известные нерелевантн. док-ты
o Известные

релевантные док-ты

Исх. запрос

Sec. 9.1.1

Слайд 19

Relevance Feedback в векторных пространствах
Можно модифицировать запрос на основе разметки пользователя

и применить стандартную векторную модель.
Используются только документы, которые размечены.
Relevance feedback может улучшить и полноту и точность
Relevance feedback наиболее полезен в увеличении полноты в тех ситуациях, когда полнота важна
Пользователи должны просматривать и размечать результаты
Несколько итераций

Sec. 9.1.1

Слайд 20

Позитивный vs Негативный Feedback
Позитивный feedback более ценен, чем негативный feedback (обычно

γ < β; например, γ = 0.25, β = 0.75).
Многие системы позволяют только позитивный feedback (γ=0).

Sec. 9.1.1

Слайд 21

Relevance Feedback: предположения
A1: Пользователь имеет достаточно знаний для исходного запроса
A2: Прототипы

релевантных/нерелевантных документов “ведут себя хорошо”
Распределение слов в релевантных документах сходно
Распределение слов в нерелевантных документах отлично от распределения слов в релевантных документах
1) Все релевантные документы похожи на один прототип
2) Имеется несколько прототипов, но у них значительное пересечение по составу
Сходство между релевантными и нерелевантными документами относительно небольшое

Sec. 9.1.3

Слайд 22

Нарушение A1
У пользователя нет достаточного начального знания
Примеры:
Неправильное написание: Brittany Speers.
Многоязыковой информационный

поиск (hígado).
Несоответствие словаря пользователя и словаря коллекции
Cosmonaut/astronaut

Sec. 9.1.3

Слайд 23

Нарушение A2
Имеется несколько прототипов
Примеры:
Сейчас: Украина – две точки зрения
Pop stars that

worked at Burger King
Часто: примеры более общего понятия

Sec. 9.1.3

Слайд 24

Relevance Feedback: Проблемы
Длинные запросы – неэффективны для типичной поисковой машины
Большее ожидание

для пользователя
Высокая стоимость для поисковой системы
Частичное решение:
Использование только слов с наиболее высоким весом
Например, 20 первых по весу
Пользователи часто не хотят размечать документы
Трудно понять, почему данный документ был выдан после relevance feedback

Слайд 25

Relevance Feedback в вебе
Некоторые поисковые машины предлагают возможность просмотра похожих страниц
Тривиальная

форма relevance feedback
Google (link-based)
Altavista
Stanford WebBase
Но результаты трудно объяснить среднему пользователю
Excite
вводил настоящий relevance feedback,
затем убрал – никто не пользовался

α/β/γ ??

Sec. 9.1.4

Слайд 26

Pseudo relevance feedback
Pseudo-relevance feedback автоматизирует «ручнею» часть реального relevance feedback.
Pseudo-relevance алгоритм:
Строит

поисковую выдачу по запросу
Предполагает, что первые k документов - релевантны
Выполняет relevance feedback
В среднем хорошо работает
Но может получить очень плохие результаты для некоторых запросов
Несколько итераций могут вызвать «искажение запроса»

Sec. 9.1.6

Слайд 27

Методы расширения запроса
Несовпадение слова запроса:
самолет – лайнер
Методы расширения запроса:
Глобальные

методы
Ручной тезаурус
Автоматически порождаемый тезаурус
Локальные методы
Relevance feedback (обратная связь по релевантности)
Pseudo Relevance feedback (обратная связь по псевдорелевантности

Слайд 28

Расширение запроса, основанное на тезаурусных знаниях
Для каждого термина t в запросе

происходит расширение синонимичными словами или близкими по смыслу (связанными отношениями с исходным словом) – из тезауруса
feline → feline cat
Как расширять:
Можно добавлять в вектор запроса (с более низкими весами и в зависимости от типа отношения к слову запроса)
Можно вставлять в булевское выражение
Налог →( НАЛОГ или НАЛОГОВЫЙ)
Используется в предметно-ориентированных системах
Современные тезаурусы, встроенные в ПО поисковые системы, могут иметь другие формы, чем описано в стандартах, например, только список синонимов и вариантов

Sec. 9.2.2

Слайд 29

Расширение запроса, основанное на тезаурусных знаниях-2
Увеличивает полноту поиска
Обычно снижает точность поиска,

обычно для многозначных слов
“interest rate” → “interest rate fascinate evaluate”
Можно вводить в тезаурус многословные термины «interest rate», но запросы все равно разнообразнее
Сложность создания и обновления тезаурусов
Поэтому в интернет-поиске
Долгое время не было расширения запросов
Затем стали расширять на однокоренные слова
Сейчас для расширения запроса используются статистически насчитанные «синонимы»

Sec. 9.2.2

Слайд 30

Тезаурусные отношения при автоматич. расширении запросов
Синонимы
хорошо работает для однозначных слов (выражений)

Родовидовые отношения (выше-ниже)
Хорошо работает, если запрос совпадает с термином тезауруса
В длинном запросе может приводить к снижению точности
Города Сибири -> город столица Сибири

Слайд 31

Тезаурусные отношения при автоматич. расширении запросов-2
Традиционные информационно-поисковые тезаурусы
Отношение ассоциации
Считается

симметричным, но фактически часто не симметрично
Принципы установления
EvroVoc: Монографии – асц - Типографии
Предложения:
ввести большую градацию отношений (причина, объект, место …)
ввести числовые оценки на отношения
Но: в любом случае контекст длинного запроса может сильно влиять на направление расширения

Слайд 32

Методы расширения запроса
Несовпадение слова запроса:
самолет – лайнер
Методы расширения запроса:
Глобальные

методы
Информационно-поисковый тезаурус
Автоматически порождаемый тезаурус
Локальные методы
Relevance feedback (обратная связь по релевантности)
Pseudo Relevance feedback (обратная связь по псевдорелевантности

Слайд 33

Слайды доклада Расширение поисковых запросов
А. Сокирко
Е. Соловьев (Яндекс)
http://romip.ru/russir2010/slides/yandex_lecture.pdf

Слайд 34

Типы синонимов для расширения запроса
С соответствиями между внутренними элементами:
Словообразование: Москва –

московский; компиляция - компилирование
Аббревиатуры: МГУ - Московский государственный университет
Транслиты: Гугл – Google
Слитно – раздельно: ватер-поло – ватерполо
Орфоварианты: colour - color
Без поддержки внутренних элементов
Переводы (стол – table)
Синонимы: бегемот – гипопотам
Подвиды: фильм - биопик

Слайд 35

Слайд 36

Алгоритм составления базы
Получение списка гипотез
Машинное обучение
Отсечение результатов – отсекается первый миллион

и объявляется словарем

~ 200 миллионов гипотез

~ 150 миллионов гипотез

Слайд 37

Извлечение синонимов для автоматического расширения запросов
Компания Яндекс: доклад Russir-2010
Признаки для извлечения

синонимов
Совместная встречаемость в одном документе (странице)
Совместная встречаемость в тексте ссылки (анкор)
Встречаемость в документе и в тексте ссылки
Как часто пользователь в запросах заменяет одно на другое
Клики пользователя на страницу, содержащую S2, при запросе, содержащем S1
сходство контекстов употребления S1 и S2 (запросы, документы) и др.

Слайд 38

Признаки синонимов: Скобочное написание
Скобочное написание – это набор n-gram, которые встречаются

с текстах рунета в контексте скобок:
Московский государственный университет (МГУ)
Владимир Путин (Vladimir Putin)

Слайд 39

Признаки синонимов: Открытые словари
Русская Википедия содержит около миллиона жестких перенаправлений, типа:
Абрикос

сибирский --- Даурсат
Авачинская бухта --- Авачинская губа

Слайд 40

Оценка качества
1) Оценка пары синонимов без контекста
2) Оценка пары синонимов в

контексте запроса
3) Оценка качества поисковой выдачи

Слайд 41

Слайд 42

Слайд 43

Лексические расширения с использованием автоматического тезауруса
Те же проблемы, что и в

ручном:
Многозначность запроса или расширения
Проблемы с расширением устойчивых словосочетаний
Влияние контекста запроса и/или документа

Слайд 44

Примеры расширения (декабрь 2010 – февраль 2011)
Запрос – документ
речное судно –

морское судно
речной порт – морской порт (Находка)
присуждение имущества – передача имущества
ледяная горка – холодная гора
расширение отверстия – расширение канала (сети интернет)
договор поручительства – договор поручения
аварийное отключение – знак аварийной остановки
замкнутая граница – закрыть границу

Слайд 45

2011 год

Слайд 46

2011г.

Слайд 47

Слайд 48

2015 год

Слайд 49

Заключение: методы расширения запроса
Глобальные методы
Ручные тезаурусы
Автоматически порождаемый тезаурус
Локальные методы (по конкретному

запросу)
Relevance feedback (обратная связь по релевантности)
Pseudo Relevance feedback (обратная связь по псевдорелевантности

Расширение запроса при поиске. Маннинг. Введение в информационный поиск

Содержание

Методы расширения запросаНесовпадение слова запроса: самолет – лайнерМетоды расширения запроса: Глобальные

Обратная связь по релевантностиПользователь оценивает документы в поисковой выдачеПользователь задает относительно

Результаты для начального запросаSec. 9.1.1

Разметка пользователяSec. 9.1.1

Результаты после разметкиSec. 9.1.1

Выдача по запросу canine source: Fernando Diaz

Выдача по запросу canine-2 source: Fernando Diaz

Пользователь выбирает релевантное source: Fernando Diaz

Результаты (relevance feedback) source: Fernando Diaz

Начальный запрос и результатыЗапрос: New space satellite applications1. 0.539, 08/13/91, NASA

Расширенные запрос после relevance feedback2.074 new 15.106 space30.816 satellite 5.660 application5.991

Ключевое понятие: центроидЦентроид – это центр масс совокупности точекДокументы – это

Алгоритм Роккьо (Rocchio)Алгоритм Rocchio использует векторное пространства найти наилучший запрос на

Лучший запрос xxxxoooОптимальн. запросx нерелевант. документыo релевантные документыoooxxxxxxxxxxxxxxSec. 9.1.1

Rocchio 1971 алгоритм (SMART)На практике используется:Dr = множество известных релевантных doc

Особенности параметровСоотношение α vs. β/γ : Если у нас много оцененных

Relevance feedback по исходному запросу xxxxoooМодиф. запросx Известные нерелевантн. док-тыo Известные

Relevance Feedback в векторных пространствахМожно модифицировать запрос на основе разметки пользователя

Позитивный vs Негативный FeedbackПозитивный feedback более ценен, чем негативный feedback (обычно

Relevance Feedback: предположенияA1: Пользователь имеет достаточно знаний для исходного запросаA2: Прототипы

Нарушение A1У пользователя нет достаточного начального знанияПримеры:Неправильное написание: Brittany Speers.Многоязыковой информационный

Нарушение A2Имеется несколько прототиповПримеры:Сейчас: Украина – две точки зренияPop stars that

Relevance Feedback: ПроблемыДлинные запросы – неэффективны для типичной поисковой машиныБольшее ожидание

Relevance Feedback в вебеНекоторые поисковые машины предлагают возможность просмотра похожих страницТривиальная

Pseudo relevance feedbackPseudo-relevance feedback автоматизирует «ручнею» часть реального relevance feedback.Pseudo-relevance алгоритм:Строит

Методы расширения запросаНесовпадение слова запроса: самолет – лайнерМетоды расширения запроса: Глобальные

Расширение запроса, основанное на тезаурусных знанияхДля каждого термина t в запросе

Расширение запроса, основанное на тезаурусных знаниях-2Увеличивает полноту поискаОбычно снижает точность поиска,

Тезаурусные отношения при автоматич. расширении запросовСинонимыхорошо работает для однозначных слов (выражений)

Тезаурусные отношения при автоматич. расширении запросов-2Традиционные информационно-поисковые тезаурусы Отношение ассоциации Считается

Методы расширения запросаНесовпадение слова запроса: самолет – лайнерМетоды расширения запроса: Глобальные

Слайды доклада Расширение поисковых запросовА. СокиркоЕ. Соловьев (Яндекс)http://romip.ru/russir2010/slides/yandex_lecture.pdf

Типы синонимов для расширения запросаС соответствиями между внутренними элементами:Словообразование: Москва –

Алгоритм составления базыПолучение списка гипотезМашинное обучениеОтсечение результатов – отсекается первый миллион

Извлечение синонимов для автоматического расширения запросовКомпания Яндекс: доклад Russir-2010Признаки для извлечения

Признаки синонимов: Скобочное написаниеСкобочное написание – это набор n-gram, которые встречаются

Признаки синонимов: Открытые словариРусская Википедия содержит около миллиона жестких перенаправлений, типа:Абрикос

Оценка качества1) Оценка пары синонимов без контекста2) Оценка пары синонимов в

Лексические расширения с использованием автоматического тезаурусаТе же проблемы, что и в

Примеры расширения (декабрь 2010 – февраль 2011)Запрос – документ речное судно –

2011 год

2011г.

2015 год

Заключение: методы расширения запросаГлобальные методыРучные тезаурусыАвтоматически порождаемый тезаурусЛокальные методы (по конкретному

Похожие презентации

Методы расширения запроса
Несовпадение слова запроса:
самолет – лайнер
Методы расширения запроса:
Глобальные

Обратная связь по релевантности
Пользователь оценивает документы в поисковой выдаче
Пользователь задает относительно

Результаты для начального запроса
Sec. 9.1.1

Разметка пользователя
Sec. 9.1.1

Результаты после разметки
Sec. 9.1.1

Начальный запрос и результаты
Запрос: New space satellite applications
1. 0.539, 08/13/91, NASA

Расширенные запрос после relevance feedback
2.074 new 15.106 space
30.816 satellite 5.660 application
5.991

Ключевое понятие: центроид
Центроид – это центр масс совокупности точек
Документы – это

Алгоритм Роккьо (Rocchio)
Алгоритм Rocchio использует векторное пространства найти наилучший запрос на

Лучший запрос
x
x
x
x
o
o
o
Оптимальн. запрос
x нерелевант. документы
o релевантные документы
o
o
o
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Sec. 9.1.1

Rocchio 1971 алгоритм (SMART)
На практике используется:
Dr = множество известных релевантных doc

Особенности параметров
Соотношение α vs. β/γ : Если у нас много оцененных

Relevance feedback по исходному запросу
x
x
x
x
o
o
o
Модиф. запрос
x Известные нерелевантн. док-ты
o Известные

Relevance Feedback в векторных пространствах
Можно модифицировать запрос на основе разметки пользователя

Позитивный vs Негативный Feedback
Позитивный feedback более ценен, чем негативный feedback (обычно

Relevance Feedback: предположения
A1: Пользователь имеет достаточно знаний для исходного запроса
A2: Прототипы

Нарушение A1
У пользователя нет достаточного начального знания
Примеры:
Неправильное написание: Brittany Speers.
Многоязыковой информационный

Нарушение A2
Имеется несколько прототипов
Примеры:
Сейчас: Украина – две точки зрения
Pop stars that

Relevance Feedback: Проблемы
Длинные запросы – неэффективны для типичной поисковой машины
Большее ожидание

Relevance Feedback в вебе
Некоторые поисковые машины предлагают возможность просмотра похожих страниц
Тривиальная

Pseudo relevance feedback
Pseudo-relevance feedback автоматизирует «ручнею» часть реального relevance feedback.
Pseudo-relevance алгоритм:
Строит

Методы расширения запроса
Несовпадение слова запроса:
самолет – лайнер
Методы расширения запроса:
Глобальные

Расширение запроса, основанное на тезаурусных знаниях
Для каждого термина t в запросе

Расширение запроса, основанное на тезаурусных знаниях-2
Увеличивает полноту поиска
Обычно снижает точность поиска,

Тезаурусные отношения при автоматич. расширении запросов
Синонимы
хорошо работает для однозначных слов (выражений)

Тезаурусные отношения при автоматич. расширении запросов-2
Традиционные информационно-поисковые тезаурусы
Отношение ассоциации
Считается

Методы расширения запроса
Несовпадение слова запроса:
самолет – лайнер
Методы расширения запроса:
Глобальные

Слайды доклада Расширение поисковых запросов
А. Сокирко
Е. Соловьев (Яндекс)
http://romip.ru/russir2010/slides/yandex_lecture.pdf

Типы синонимов для расширения запроса
С соответствиями между внутренними элементами:
Словообразование: Москва –

Алгоритм составления базы
Получение списка гипотез
Машинное обучение
Отсечение результатов – отсекается первый миллион

Извлечение синонимов для автоматического расширения запросов
Компания Яндекс: доклад Russir-2010
Признаки для извлечения

Признаки синонимов: Скобочное написание
Скобочное написание – это набор n-gram, которые встречаются

Признаки синонимов: Открытые словари
Русская Википедия содержит около миллиона жестких перенаправлений, типа:
Абрикос

Оценка качества
1) Оценка пары синонимов без контекста
2) Оценка пары синонимов в

Лексические расширения с использованием автоматического тезауруса
Те же проблемы, что и в

Примеры расширения (декабрь 2010 – февраль 2011)
Запрос – документ
речное судно –

Заключение: методы расширения запроса
Глобальные методы
Ручные тезаурусы
Автоматически порождаемый тезаурус
Локальные методы (по конкретному