Содержание
- 2. Что и для чего проходим? Текстовое ранжирование: TF/IDF, BM25, BM25f, LinkBM25 Частота и взвешивание терминов PageRank
- 3. TF (term frequency — частота слова)
- 4. Задание 1 Задание: посчитайте TF для слова «купить» в тексте “Влад давно собирался купить новую Lada
- 5. IDF (Document Frequency) инверсия частоты, с которой некоторое слово встречается в документах коллекции.
- 6. IDF DF = количество документов, в которых встречается слово / количество документов в корпусе IDF –
- 7. IDF (Document Frequency)
- 8. BM25
- 9. Текстовое ранжирование: пассажи
- 10. Текстовое ранжирование: расчет веса словопозиций
- 11. Текстовое ранжирование: употребление частей речи
- 12. Текстовое ранжирование: контекстуальное сходство
- 13. Текстовое ранжирование: контрастность слова
- 14. TF (term frequency — частота слова)
- 15. TF (term frequency — частота слова)
- 16. TF (term frequency — частота слова)
- 17. TF (term frequency — частота слова)
- 18. TF-IDF - важность слова в документе TF-IDF=TF*IDF
- 19. Задание #1 - cчитаем TF-IDF 1. Посчитать количество слов в каждом тексте. 2. Посчитать кол-во вхождений
- 20. Задание #1 - cчитаем TF-IDF https://docs.google.com/spreadsheets/d/1pVC2EHYghvXcBc_cURuLXgvPnatr76hMDPqjOkpu1ts/edit?usp=sharing
- 21. PageRank (PR)
- 22. PageRank
- 23. Некоторые понятия PageRank
- 24. TF (term frequency — частота слова)
- 25. 1 итерация
- 26. 2 итерация
- 27. Обратная связь PageRank
- 28. Что влияет на PageRank Кто на вас ссылается На кого вы ссылаетесь Навигация на сайте
- 29. Задание Вопрос: какая страница даст больше веса - PageRank 4, 20 исходящих ссылок - PageRank 3,
- 30. PageRank – архивные предсказания
- 31. Шаг 1
- 32. Шаг 2
- 33. Шаг 3
- 34. Шаг 4
- 35. Шаг 1
- 36. Шаг 2
- 37. Шаг 3
- 38. Шаг 4
- 39. PageRank
- 40. Иерархическая структура
- 41. Циклическая структура
- 42. Все на всех
- 43. Все на всех
- 44. Все на всех
- 45. Все на всех
- 46. Задание #1 - cчитаем PageRank
- 47. Изменения при итерациях
- 48. Задание: посчитайте сколько веса будет передано в 3 итерации 1.0 1.0 1.0 1.0 1.0
- 49. Обратная связь PageRank
- 50. Утверждения о PageRank PR – это вероятность нахождения пользователя на заданной странице.
- 51. Алгоритм возврата: в случае наличия ссылки на штрафной документ, её голос будет разделен между другими ссылками,
- 52. Утверждения о PageRank Если ссылок несколько: учитывается одна ссылка или все? В Google учитывается первая по
- 53. Утверждения о PageRank Коэффициент затухания: страница не может голосовать так, чтобы другая страница была так же
- 54. Утверждения о PageRank Чем больше страниц в индексе, тем выше изначальный PageRank
- 55. Утверждения о PageRank PageRank не зависит от содержания страницы, возраста документа и текста ссылки
- 56. Утверждения о PageRank Google объявил, что прекратит отображение тулбарного PageRank, так что узнать PageRank конкретной страницы
- 57. Утверждения о PageRank Как влиять на ранжирование с помощью PageRank? Об этом на модуле «Поисковое продвижение».
- 58. Все на всех
- 59. Вес на главную
- 60. Вес на карточки
- 61. PageRank (равномерная перелинковка)
- 62. Задачи ПС: тИЦ
- 63. Утверждения о PageRank тИЦ – это PageRank, присвоенный домену
- 64. Утверждения о PageRank Тематический индекс цитирования (тИЦ) — технология поисковой машины «Яндекс», заключающаяся в определении авторитетности
- 65. Утверждения о PageRank При расчете алгоритмом тИЦ не учитываются ссылки с форумов, блогов, досок объявлений, каталогов
- 66. Утверждения о PageRank Влияет ли тИЦ на ранжирование? тИЦ 10 тИЦ 180
- 67. TrustRunk
- 68. TrustRank TrustRank — показатель авторитетность сайта. Передается за счёт ссылок с самых авторитетных сайтов, выбранных вручную.
- 69. TrustRank У этого сайта с TrustRank всё в порядке
- 70. TrustRank
- 71. Задание #2 Задание #2 – назовите 5 авторитетных сайтов, которые, по-вашему мнению, могут передать TrustRank TrustRank
- 72. ПФ: BrowseRank
- 73. BrowseRank В алгоритме BrowseRank голосующую способность имеют не ссылки, а поведение пользователейTrustRank
- 74. BrowseRank оперирует 1. Надстройки для браузеров 2. Метрику (Яндекс.Метрика, Google Analytics и др.) 3. Специализированные браузеры
- 75. BrowseRank оперирует
- 76. User1 User2 User3 User4
- 77. BrowseRank
- 78. Модификации: ClickRank Fresh BrowseRank
- 79. Fresh BrowseRank Более новые страницы, вероятно, более релевантны запросам, чувствительным к новизне, чем старые страницы и,
- 80. Fresh BrowseRank
- 81. ПФ: pFound
- 82. pFound – вероятность перехода на сайт pRel - релевантность i-того документа (принимает значение 0.4, если асессор
- 83. pFound – вероятность перехода на сайт pRel - релевантность i-того документа (принимает значение 0.4, если асессор
- 84. ПФ: паттерны поведения
- 85. Дерево маршрута
- 86. Паттерны поведения Характеристики дерева маршрута
- 87. Характеристики дерева маршрута
- 88. Характеристики дерева маршрута
- 89. Поведение пользователей
- 90. Классификация текстов и запросов
- 91. Тематическая классификация К каким категориям отнести документ?
- 92. Машинное обучение Тематическая классификация
- 93. F3 F7 > 2 F3 > 2 F3 > 1 2 1 4 3 Деревья вариантов
- 94. Инструкция Алгоритмы Машинное обучение
- 95. Асессоры
- 96. Асессоры
- 97. Асессоры
- 98. A/B тестирование
- 99. Апдейты
- 100. Апдейты
- 101. BM25
- 102. Okapi BM25 — функция ранжирования
- 103. Модификации BM25 BM11, BM15 BM25F LinkBM25
- 105. Скачать презентацию