Наивный Байесовский классификатор

Июль 31, 2022

Главная
Информатика
Наивный Байесовский классификатор

Содержание

2. Теоретические основы Наивный байесовский алгоритм – это алгоритм классификации, основанный на теореме Байеса с допущением о
3. Формулы P(c|x) – апостериорная вероятность данного класса c (т.е. данного значения целевой переменной) при данном значении
4. Пример Рассмотрим обучающий набор данных, содержащий один признак «Погодные условия» (weather) и целевую переменную «Игра» (play),
5. Пример(2)
6. Пример(3) Шаг 3. С помощью теоремы Байеса рассчитаем апостериорную вероятность для каждого класса при данных погодных
7. Положительные стороны Классификация, в том числе многоклассовая, выполняется легко и быстро. Когда допущение о независимости выполняется,
8. Отрицательные стороны Если в тестовом наборе данных присутствует некоторое значение категорийного признака, которое не встречалось в
10. Скачать презентацию

Слайд 2

Теоретические основы
Наивный байесовский алгоритм – это алгоритм классификации, основанный на теореме

Байеса с допущением о независимости признаков.
Теорема Байеса позволяет рассчитать апостериорную вероятность P(c|x) на основе P(c), P(x) и P(x|c).

Слайд 3

Формулы
P(c|x) – апостериорная вероятность данного класса c (т.е. данного значения целевой

переменной) при данном значении признака x.
P(c) – априорная вероятность данного класса.
P(x|c) – правдоподобие, т.е. вероятность данного значения признака при данном классе.
P(x) – априорная вероятность данного значения признака.

Слайд 4

Пример
Рассмотрим обучающий набор данных, содержащий один признак «Погодные условия» (weather) и

целевую переменную «Игра» (play), которая обозначает возможность проведения матча. На основе погодных условий мы должны определить, состоится ли матч. Чтобы сделать это, необходимо выполнить следующие шаги.
Шаг 1. Преобразуем набор данных в частотную таблицу (frequency table).
Шаг 2. Создадим таблицу правдоподобия (likelihood table), рассчитав соответствующие вероятности. Например, вероятность облачной погоды (overcast) составляет 0,29, а вероятность того, что матч состоится (yes) – 0,64.

Слайд 5

Пример(2)

Слайд 6

Пример(3)
Шаг 3. С помощью теоремы Байеса рассчитаем апостериорную вероятность для каждого

класса при данных погодных условиях. Класс с наибольшей апостериорной вероятностью будет результатом прогноза.
Задача. Состоится ли матч при солнечной погоде (sunny)?
P(Yes | Sunny) = P(Sunny | Yes) * P(Yes) / P(Sunny)
P(Sunny | Yes) = 3 / 9 = 0,33
P(Sunny) = 5 / 14 = 0,36
P(Yes) = 9 / 14 = 0,64
P(Yes | Sunny) = 0,33 * 0,64 / 0,36 = 0,60
Значит, при солнечной погоде более вероятно, что матч состоится.

Слайд 7

Положительные стороны
Классификация, в том числе многоклассовая, выполняется легко и быстро.
Когда

допущение о независимости выполняется, НБА превосходит другие алгоритмы, такие как логистическая регрессия (logistic regression), и при этом требует меньший объем обучающих данных.
НБА лучше работает с категорийными признаками, чем с непрерывными. Для непрерывных признаков предполагается нормальное распределение, что является достаточно сильным допущением.

Слайд 8

Отрицательные стороны
Если в тестовом наборе данных присутствует некоторое значение категорийного

признака, которое не встречалось в обучающем наборе данных, тогда модель присвоит нулевую вероятность этому значению и не сможет сделать прогноз. Это явление известно под названием «нулевая частота» (zero frequency). Данную проблему можно решить с помощью сглаживания. Одним из самых простых методов является сглаживание по Лапласу (Laplace smoothing).
Хотя НБА является хорошим классификатором, значения спрогнозированных вероятностей не всегда являются достаточно точными. Поэтому не следует слишком полагаться на результаты, полученные методом НБА.
Еще одним ограничением НБА является допущение о независимости признаков. В реальности наборы полностью независимых признаков встречаются крайне редко.

Наивный Байесовский классификатор

Содержание

Теоретические основыНаивный байесовский алгоритм – это алгоритм классификации, основанный на теореме

ФормулыP(c|x) – апостериорная вероятность данного класса c (т.е. данного значения целевой

ПримерРассмотрим обучающий набор данных, содержащий один признак «Погодные условия» (weather) и

Пример(2)

Пример(3)Шаг 3. С помощью теоремы Байеса рассчитаем апостериорную вероятность для каждого

Положительные стороныКлассификация, в том числе многоклассовая, выполняется легко и быстро. Когда

Отрицательные стороны Если в тестовом наборе данных присутствует некоторое значение категорийного

Похожие презентации