Наивный Байесовский классификатор

Содержание

Слайд 2

Теоретические основы Наивный байесовский алгоритм – это алгоритм классификации, основанный на

Теоретические основы

Наивный байесовский алгоритм – это алгоритм классификации, основанный на теореме

Байеса с допущением о независимости признаков.
Теорема Байеса позволяет рассчитать апостериорную вероятность P(c|x) на основе P(c), P(x) и P(x|c).
Слайд 3

Формулы P(c|x) – апостериорная вероятность данного класса c (т.е. данного значения

Формулы
P(c|x) – апостериорная вероятность данного класса c (т.е. данного значения целевой

переменной) при данном значении признака x.
P(c) – априорная вероятность данного класса.
P(x|c) – правдоподобие, т.е. вероятность данного значения признака при данном классе.
P(x) – априорная вероятность данного значения признака.
Слайд 4

Пример Рассмотрим обучающий набор данных, содержащий один признак «Погодные условия» (weather)

Пример

Рассмотрим обучающий набор данных, содержащий один признак «Погодные условия» (weather) и

целевую переменную «Игра» (play), которая обозначает возможность проведения матча. На основе погодных условий мы должны определить, состоится ли матч. Чтобы сделать это, необходимо выполнить следующие шаги.
Шаг 1. Преобразуем набор данных в частотную таблицу (frequency table).
Шаг 2. Создадим таблицу правдоподобия (likelihood table), рассчитав соответствующие вероятности. Например, вероятность облачной погоды (overcast) составляет 0,29, а вероятность того, что матч состоится (yes) – 0,64.
Слайд 5

Пример(2)

Пример(2)

Слайд 6

Пример(3) Шаг 3. С помощью теоремы Байеса рассчитаем апостериорную вероятность для

Пример(3)

Шаг 3. С помощью теоремы Байеса рассчитаем апостериорную вероятность для каждого

класса при данных погодных условиях. Класс с наибольшей апостериорной вероятностью будет результатом прогноза.
Задача. Состоится ли матч при солнечной погоде (sunny)?
P(Yes | Sunny) = P(Sunny | Yes) * P(Yes) / P(Sunny)
P(Sunny | Yes) = 3 / 9 = 0,33
P(Sunny) = 5 / 14 = 0,36
P(Yes) = 9 / 14 = 0,64
P(Yes | Sunny) = 0,33 * 0,64 / 0,36 = 0,60
Значит, при солнечной погоде более вероятно, что матч состоится.
Слайд 7

Положительные стороны Классификация, в том числе многоклассовая, выполняется легко и быстро.

Положительные стороны

Классификация, в том числе многоклассовая, выполняется легко и быстро.
Когда

допущение о независимости выполняется, НБА превосходит другие алгоритмы, такие как логистическая регрессия (logistic regression), и при этом требует меньший объем обучающих данных.
НБА лучше работает с категорийными признаками, чем с непрерывными. Для непрерывных признаков предполагается нормальное распределение, что является достаточно сильным допущением.
Слайд 8

Отрицательные стороны Если в тестовом наборе данных присутствует некоторое значение категорийного

Отрицательные стороны

Если в тестовом наборе данных присутствует некоторое значение категорийного

признака, которое не встречалось в обучающем наборе данных, тогда модель присвоит нулевую вероятность этому значению и не сможет сделать прогноз. Это явление известно под названием «нулевая частота» (zero frequency). Данную проблему можно решить с помощью сглаживания. Одним из самых простых методов является сглаживание по Лапласу (Laplace smoothing).
Хотя НБА является хорошим классификатором, значения спрогнозированных вероятностей не всегда являются достаточно точными. Поэтому не следует слишком полагаться на результаты, полученные методом НБА.
Еще одним ограничением НБА является допущение о независимости признаков. В реальности наборы полностью независимых признаков встречаются крайне редко.