Слайд 3
![Вероятностная модель коллекции документов Пусть D – множество (коллекция) текстовых документов,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/447904/slide-2.jpg)
Вероятностная модель коллекции документов
Пусть D – множество (коллекция) текстовых документов, W
– множество (словарь) всех употребляемых в них терминов [слов или словосочетаний]. Каждый документ d D представляет собой последовательность n терминов (w1, w2,…, wn) из словаря W. Термин может повторяться в документе много раз.
Вероятностное пространство и гипотеза независимости. Предполагается, что существует конечное множество тем Т, и каждое употребление термина w в каждом документе d связано с некоторой неизвестной темой t T. Коллекция документов рассматривается как множество троек (d, w, t), выбранных случайно из дискретного распределения р (d, w, t), заданного на конечном множестве D х W х Т. Документы и термины – наблюдаемые переменные, тема – латентная (скрытая) переменная. Гипотеза о независимости элементов выборки (гипотеза «мешка слов» (bag of words)): порядок терминов в документах не важен для выявления тематики. Порядок документов в коллекции также не имеет значения (гипотеза «мешка документов»).
Постановка задачи тематического моделирования. Построить тематическую модель коллекции документов – значит найти множество тем Т, распределения р (w I t) для всех тем и распределения р ( t I d) для всех документов. «Мягкая» кластеризация означает, что каждый документ или термин не жестко приписывается какой-то одной теме, а распределяется по нескольким темам.