Текстовое ранжирование

Содержание

Слайд 2

Что и для чего проходим? Текстовое ранжирование: TF/IDF, BM25, BM25f, LinkBM25

Что и для чего проходим?

Текстовое ранжирование: TF/IDF, BM25, BM25f, LinkBM25
Частота и

взвешивание терминов
PageRank и ссылочное ранжирование
HostRank, ТИЦ
TrustRank
Поведенческое ранжирование: поведенческие факторы, паттерны поведения
BrowseRank
ClickRank
Слайд 3

TF (term frequency — частота слова)

TF (term frequency — частота слова)

Слайд 4

Задание 1 Задание: посчитайте TF для слова «купить» в тексте “Влад

Задание 1

Задание: посчитайте TF для слова «купить» в тексте
“Влад давно собирался

купить новую Lada Vesta, но в итоге решил купить жене подарок”
Слайд 5

IDF (Document Frequency) инверсия частоты, с которой некоторое слово встречается в документах коллекции.

IDF (Document Frequency)

инверсия частоты, с которой некоторое слово встречается в документах коллекции. 

Слайд 6

IDF DF = количество документов, в которых встречается слово / количество

IDF

DF = количество документов, в которых встречается слово / количество документов

в корпусе
IDF – обратное значение DF (1/DF)
Слайд 7

IDF (Document Frequency)

IDF (Document Frequency)

Слайд 8

BM25

BM25

Слайд 9

Текстовое ранжирование: пассажи

Текстовое ранжирование: пассажи

Слайд 10

Текстовое ранжирование: расчет веса словопозиций

Текстовое ранжирование: расчет веса словопозиций

Слайд 11

Текстовое ранжирование: употребление частей речи

Текстовое ранжирование: употребление частей речи

Слайд 12

Текстовое ранжирование: контекстуальное сходство

Текстовое ранжирование: контекстуальное сходство

Слайд 13

Текстовое ранжирование: контрастность слова

Текстовое ранжирование: контрастность слова

Слайд 14

TF (term frequency — частота слова)

TF (term frequency — частота слова)

Слайд 15

TF (term frequency — частота слова)

TF (term frequency — частота слова)

Слайд 16

TF (term frequency — частота слова)

TF (term frequency — частота слова)

Слайд 17

TF (term frequency — частота слова)

TF (term frequency — частота слова)

Слайд 18

TF-IDF - важность слова в документе TF-IDF=TF*IDF

TF-IDF - важность слова в документе

TF-IDF=TF*IDF

Слайд 19

Задание #1 - cчитаем TF-IDF 1. Посчитать количество слов в каждом

Задание #1 - cчитаем TF-IDF

1. Посчитать количество слов в каждом тексте.
2.

Посчитать кол-во вхождений каждого слова(!) в документ.
3. Определить общее кол-во документов в индексе поисковой системы.
4. Определить кол-во документов, содержащих каждое слово(!), в индексе поисковой системы.
5. Посчитать TF, DF IDF, TF-IDF
6. Посчитать вес запросов
Слайд 20

Задание #1 - cчитаем TF-IDF https://docs.google.com/spreadsheets/d/1pVC2EHYghvXcBc_cURuLXgvPnatr76hMDPqjOkpu1ts/edit?usp=sharing

Задание #1 - cчитаем TF-IDF

https://docs.google.com/spreadsheets/d/1pVC2EHYghvXcBc_cURuLXgvPnatr76hMDPqjOkpu1ts/edit?usp=sharing

Слайд 21

PageRank (PR)

PageRank (PR)

Слайд 22

PageRank

PageRank

Слайд 23

Некоторые понятия PageRank

Некоторые понятия PageRank

Слайд 24

TF (term frequency — частота слова)

TF (term frequency — частота слова)

Слайд 25

1 итерация

1 итерация

Слайд 26

2 итерация

2 итерация

Слайд 27

Обратная связь PageRank

Обратная связь PageRank

Слайд 28

Что влияет на PageRank Кто на вас ссылается На кого вы ссылаетесь Навигация на сайте

Что влияет на PageRank

Кто на вас ссылается
На кого вы ссылаетесь
Навигация на

сайте
Слайд 29

Задание Вопрос: какая страница даст больше веса - PageRank 4, 20

Задание

Вопрос: какая страница даст больше веса
- PageRank 4, 20 исходящих ссылок
-

PageRank 3, 1 исходящая ссылка
Слайд 30

PageRank – архивные предсказания

PageRank – архивные предсказания

Слайд 31

Шаг 1

Шаг 1

Слайд 32

Шаг 2

Шаг 2

Слайд 33

Шаг 3

Шаг 3

Слайд 34

Шаг 4

Шаг 4

Слайд 35

Шаг 1

Шаг 1

Слайд 36

Шаг 2

Шаг 2

Слайд 37

Шаг 3

Шаг 3

Слайд 38

Шаг 4

Шаг 4

Слайд 39

PageRank

PageRank

Слайд 40

Иерархическая структура

Иерархическая структура

Слайд 41

Циклическая структура

Циклическая структура

Слайд 42

Все на всех

Все на всех

Слайд 43

Все на всех

Все на всех

Слайд 44

Все на всех

Все на всех

Слайд 45

Все на всех

Все на всех

Слайд 46

Задание #1 - cчитаем PageRank

Задание #1 - cчитаем PageRank

Слайд 47

Изменения при итерациях

Изменения при итерациях

Слайд 48

Задание: посчитайте сколько веса будет передано в 3 итерации 1.0 1.0 1.0 1.0 1.0

Задание: посчитайте сколько веса будет передано в 3 итерации

1.0

1.0

1.0

1.0

1.0

Слайд 49

Обратная связь PageRank

Обратная связь PageRank

Слайд 50

Утверждения о PageRank PR – это вероятность нахождения пользователя на заданной странице.

Утверждения о PageRank

PR – это вероятность нахождения пользователя на заданной странице.

Слайд 51

Алгоритм возврата: в случае наличия ссылки на штрафной документ, её голос

Алгоритм возврата: в случае наличия ссылки на штрафной документ, её голос

будет разделен между другими ссылками, а оставшееся значение будет возвращено страницам, которые вызвали увеличение её ранга, по итогам многочисленных итераций вес страницы уменьшиться

Утверждения о PageRank

Слайд 52

Утверждения о PageRank Если ссылок несколько: учитывается одна ссылка или все?

Утверждения о PageRank

Если ссылок несколько: учитывается одна ссылка или все? В

Google учитывается первая по коду, в Яндексе все
Слайд 53

Утверждения о PageRank Коэффициент затухания: страница не может голосовать так, чтобы

Утверждения о PageRank

Коэффициент затухания: страница не может голосовать так, чтобы другая

страница была так же важна, как она сама
Слайд 54

Утверждения о PageRank Чем больше страниц в индексе, тем выше изначальный PageRank

Утверждения о PageRank

Чем больше страниц в индексе, тем выше изначальный PageRank

Слайд 55

Утверждения о PageRank PageRank не зависит от содержания страницы, возраста документа и текста ссылки

Утверждения о PageRank

PageRank не зависит от содержания страницы, возраста документа и

текста ссылки
Слайд 56

Утверждения о PageRank Google объявил, что прекратит отображение тулбарного PageRank, так

Утверждения о PageRank

Google объявил, что прекратит отображение тулбарного PageRank, так что

узнать PageRank конкретной страницы будет нельзя
Слайд 57

Утверждения о PageRank Как влиять на ранжирование с помощью PageRank? Об этом на модуле «Поисковое продвижение».

Утверждения о PageRank

Как влиять на ранжирование с помощью PageRank? Об этом

на модуле «Поисковое продвижение».
Слайд 58

Все на всех

Все на всех

Слайд 59

Вес на главную

Вес на главную

Слайд 60

Вес на карточки

Вес на карточки

Слайд 61

PageRank (равномерная перелинковка)

PageRank (равномерная перелинковка)

Слайд 62

Задачи ПС: тИЦ

Задачи ПС:

тИЦ

Слайд 63

Утверждения о PageRank тИЦ – это PageRank, присвоенный домену

Утверждения о PageRank

тИЦ – это PageRank, присвоенный домену

Слайд 64

Утверждения о PageRank Тематический индекс цитирования (тИЦ) — технология поисковой машины

Утверждения о PageRank

Тематический индекс цитирования (тИЦ) — технология поисковой машины «Яндекс»,

заключающаяся в определении авторитетности интернет-ресурсов с учётом качественной характеристики — ссылок на них с других сайтов. ТИЦ рассчитывается по специально разработанному алгоритму, в котором особое значение придаётся тематической близости ресурса и ссылающихся на него сайтов.
Слайд 65

Утверждения о PageRank При расчете алгоритмом тИЦ не учитываются ссылки с

Утверждения о PageRank

При расчете алгоритмом тИЦ не учитываются ссылки с форумов,

блогов, досок объявлений, каталогов без модерации и других ресурсов, на которых любой пользователь может добавлять ссылки, которые никак не модерируются на сайте. Также при расчете тИЦ не учитываются ссылки с сайтов, расположенных на бесплатных хостингах, если их нет в Яндекс.Каталоге. Т.е. описанные выше ссылки при расчете весов алгоритмом Яндекса имеют значения нуль.
Слайд 66

Утверждения о PageRank Влияет ли тИЦ на ранжирование? тИЦ 10 тИЦ 180

Утверждения о PageRank

Влияет ли тИЦ на ранжирование?

тИЦ 10

тИЦ 180

Слайд 67

TrustRunk

TrustRunk

Слайд 68

TrustRank TrustRank — показатель авторитетность сайта. Передается за счёт ссылок с

TrustRank

TrustRank — показатель авторитетность сайта. Передается за счёт ссылок с самых авторитетных

сайтов, выбранных вручную. Не зависит от тематики сайта.
Невозможно достоверно проверить TrustRank сайта.
Можно по косвенным признакам определить сайты, которые с высокой вероятностью раздают TrustRank
Документы на «Трастовых» сайтах выше ранжируются
Слайд 69

TrustRank У этого сайта с TrustRank всё в порядке

TrustRank

У этого сайта с TrustRank всё в порядке

Слайд 70

TrustRank

TrustRank

Слайд 71

Задание #2 Задание #2 – назовите 5 авторитетных сайтов, которые, по-вашему мнению, могут передать TrustRank TrustRank

Задание #2

Задание #2 – назовите 5 авторитетных сайтов, которые, по-вашему

мнению, могут передать TrustRank TrustRank
Слайд 72

ПФ: BrowseRank

ПФ: BrowseRank

Слайд 73

BrowseRank В алгоритме BrowseRank голосующую способность имеют не ссылки, а поведение пользователейTrustRank

BrowseRank

В алгоритме BrowseRank голосующую способность имеют не ссылки, а поведение пользователейTrustRank

Слайд 74

BrowseRank оперирует 1. Надстройки для браузеров 2. Метрику (Яндекс.Метрика, Google Analytics

BrowseRank оперирует

1. Надстройки для браузеров
2. Метрику (Яндекс.Метрика, Google Analytics и др.)
3.

Специализированные браузеры (Chrome, Яндекс.Браузер)
Слайд 75

BrowseRank оперирует

BrowseRank оперирует

Слайд 76

User1 User2 User3 User4

User1
User2
User3
User4

Слайд 77

BrowseRank

BrowseRank

Слайд 78

Модификации: ClickRank Fresh BrowseRank

Модификации:
ClickRank
Fresh BrowseRank

Слайд 79

Fresh BrowseRank Более новые страницы, вероятно, более релевантны запросам, чувствительным к

Fresh BrowseRank

Более новые страницы, вероятно, более релевантны запросам, чувствительным к новизне, чем

старые страницы и, как следствие, временная характеристика релевантности документа позволяет провести более чёткое разграничение между релевантными и нерелевантными документами.
Слайд 80

Fresh BrowseRank

Fresh BrowseRank

Слайд 81

ПФ: pFound

ПФ: pFound

Слайд 82

pFound – вероятность перехода на сайт pRel - релевантность i-того документа

pFound – вероятность перехода на сайт

pRel - релевантность i-того документа (принимает

значение 0.4, если асессор пометил документ как релевантный)
pLook - вероятность просмотра i-того документа в выдаче
Слайд 83

pFound – вероятность перехода на сайт pRel - релевантность i-того документа

pFound – вероятность перехода на сайт

pRel - релевантность i-того документа (принимает

значение 0.4, если асессор пометил документ как релевантный)
pLook - вероятность просмотра i-того документа в выдаче
pBreak - вероятность того, что пользователь прекратит просмотр по каким-то внешним причинам. Принимается равной 0.15.
Хотя в статье об этом и не сказано, очевидно, что pLook(1) должен быть равен 1.
Слайд 84

ПФ: паттерны поведения

ПФ: паттерны поведения

Слайд 85

Дерево маршрута

Дерево маршрута

Слайд 86

Паттерны поведения Характеристики дерева маршрута

Паттерны поведения

Характеристики дерева маршрута

Слайд 87

Характеристики дерева маршрута

Характеристики дерева маршрута

Слайд 88

Характеристики дерева маршрута

Характеристики дерева маршрута

Слайд 89

Поведение пользователей

Поведение пользователей

Слайд 90

Классификация текстов и запросов

Классификация текстов и запросов

Слайд 91

Тематическая классификация К каким категориям отнести документ?

Тематическая классификация

К каким категориям отнести документ?

Слайд 92

Машинное обучение Тематическая классификация

Машинное обучение

Тематическая классификация

Слайд 93

F3 F7 > 2 F3 > 2 F3 > 1 2 1 4 3 Деревья вариантов

F3

F7 > 2

F3 > 2

F3 > 1

2

1

4

3

Деревья вариантов

Слайд 94

Инструкция Алгоритмы Машинное обучение

Инструкция

Алгоритмы

Машинное обучение

Слайд 95

Асессоры

Асессоры

Слайд 96

Асессоры

Асессоры

Слайд 97

Асессоры

Асессоры

Слайд 98

A/B тестирование

A/B тестирование

Слайд 99

Апдейты

Апдейты

Слайд 100

Апдейты

Апдейты

Слайд 101

BM25

BM25

Слайд 102

Okapi BM25 — функция ранжирования

Okapi BM25 — функция ранжирования

Слайд 103

Модификации BM25 BM11, BM15 BM25F LinkBM25

Модификации BM25

BM11, BM15
BM25F
LinkBM25