Оптимизация тематического моделирования за счет изменения функции плотности в алгоритме семплирования Гиббса

Содержание

Слайд 2

Тематическое моделирование Тематическое моделирование - это способ построения модели коллекции текстовых

Тематическое моделирование

Тематическое моделирование - это способ построения модели коллекции текстовых документов,

которая определяет, к каким темам относится каждый из документов.
Тематическая модель (topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему.
Отвечает на вопросы:
1.Как выявлять смысл или тематику документов по их содержимому?
2. Как осуществлять классификацию документов на основе этих скрытых тематических закономерностей?
Слайд 3

Тематическая модель (topic model) — модель коллекции текстовых документов, которая определяет,

Тематическая
модель (topic model) —
модель коллекции
текстовых документов,
которая определяет, к каким
темам относится каждый
документ

коллекции.
Алгоритм построения
тематической модели
получает на входе
коллекцию текстовых
документов. На выходе для
каждого документа
выдаётся числовой вектор,
составленный из оценок
степени принадлежности
данного документа каждой
из тем.

Тематическое моделирование

Слайд 4

Тематическое моделирование (Latent Dirichlet allocation) Основное предположение тематической модели Latent Dirichlet

Тематическое моделирование (Latent Dirichlet allocation)

Основное предположение тематической модели Latent Dirichlet Allocation
состоит в

том, что каждый документ с некоторой вероятностью может
принадлежать множеству тематик. Тема - это совокупность слов, где каждое
слово имеет некоторую вероятность принадлежности к данной тематике.
Формально тема определяется как дискретное (мультиномиальное)
вероятностное распределение в пространстве слов заданного словаря.
Тематическим моделированием называется решение задачи, обратной
классификации . Каждый документ в корпусе текстов рассматривается как
наблюдаемая случайная независимая выборка слов (мешок слов), порождённая
некоторым, скрытым (латентным) множеством тем. По этим данным требуется
восстановить вероятностные распределения всех тем в корпусе и определить,
каким именно подмножеством тем порождён каждый документ.
Тематическое моделирование основано на применении формулы Байеса, в
которой распределение слов и тем выражено в виде смеси плотностей
распределений слов и документов.
Слайд 5

Тематическое моделирование

Тематическое моделирование

Слайд 6

Задача классификации заключается в расчете (оценке) апостериорной информации на основании априорной

Задача классификации заключается в расчете (оценке) апостериорной информации на основании априорной

информации. Такая оценка может быть реализована при помощи формулы Байеса.
- Апостериорная вероятность
- Априорная вероятность
Однако существует проблема оценивания априорной величины

Тематическое моделирование

Слайд 7

Задача восстановления априорного распределения p(x,y) Оценка функции p(x,y) может быть реализован

Задача восстановления априорного распределения p(x,y)

Оценка функции p(x,y) может быть реализован при

помощи трех методов.
1. Непараметрическое восстановление плотности основано на локальной
аппроксимации плотности p(x) в окрестности классифицируемого объекта
x ∈ X. Пример, Алгоритм Парзена-Розенблатта (метод парзеновского
окна).
2. Параметрическое восстановление плотности основано на предположении,
что плотность распределения известна с точностью до параметра, p(x,y) =ϕ(x; θ), где ϕ фиксированная функция.
3. Восстановление смеси плотностей. Если функцию плотности p(x,y) не
удаётся смоделировать параметрическим распределением, можно
попытаться описать её смесью нескольких распределений:
Собственно именно третий метод является основой тематического моделирования.
Слайд 8

Семплирование по Гиббсу — алгоритм для генерации выборки совместного распределения множества

Семплирование по Гиббсу — алгоритм для генерации выборки совместного распределения множества случайных величин. Он используется

для оценки совместного распределения и для вычисления интегралов методом Монте-Карло . Этот алгоритм является частным случаем алгоритма Метрополиса-Гастингса.
Семплирование по Гиббсу замечательно тем, что для него не требуется явно выраженное совместное распределение, а нужны лишь условные вероятности для каждой переменной, входящей в распределение. Алгоритм на каждом шаге берет одну случайную величину и выбирает ее значение при условии фиксированных остальных. Можно показать, что последовательность получаемых значений образуют возвратную цепь Маркова, устойчивое распределение которой является как раз искомым совместным распределением.
Применяется семплирование по Гиббсу в тех случаях, когда совместное распределение случайных величин очень велико или неизвестно явно, но условные вероятности известны и имеют простую форму.

Семплирование по Гиббсу