Методы машинного обучения

Содержание

Слайд 2

Что мы уже знаем Этапы обучения В формальных логических алгоритмах все

Что мы уже знаем

Этапы обучения

В формальных логических алгоритмах все зависимости выявляются

и задаются «вручную».

Классическое обучение требует наличия признаков, которые разрабатываются «вручную», но решающее правило строится автоматически в процессе обучения.

Глубокие модели предполагают автоматическую генерацию и признаков и решающего правила.

Слайд 3

Основные понятия теории распознавания образов Классификация (распознавания образов, объектов, сигналов, ситуаций,

Основные понятия теории распознавания образов

Классификация (распознавания образов, объектов, сигналов, ситуаций, явлений

или процессов) – задача идентификации объекта т.е. определения его принадлежности к группе однотипных, по его описанию т.е. набору характеристик или признаков.

Множество – набор неповторяющихся однотипных элементов.

Признаковое пространство – набор характеристик в системе классификации, выделяющий определенную группу (класс) объектов от остальных или разделяющий все объекты на несколько групп (классов).

Прецедент – характеристики конкретного объекта или его набор признаков (признаковое описание).

Слайд 4

Решающим правилом (классификатором) называется методика или правило отнесения объекта к какому-либо

Решающим правилом (классификатором) называется методика или правило отнесения объекта к

какому-либо классу.

Обучение – определение по имеющимся прецедентам решающего правила.
Т.е. по имеющимся парам «признаки»–«ответ» необходимо восстановить зависимость F(«признаки»)= «ответ».

Слайд 5

Этапы решения задачи распознавания образов: 1 Выбор свойств, характеристик, признаков класса

Этапы решения задачи распознавания образов:
1 Выбор свойств, характеристик, признаков класса

объектов, наилучшим образом отличающих их от объектов других классов.
Проблема: в реальных задачах «хорошие» признаки либо отсутствуют, либо их сложно измерять (вычислять), поэтому приходится пользоваться многими «не очень хорошими».

2 Формирование априорных наборов описаний объектов в выбранном признаковом пространстве.
Проблема: чем больше размерность признакового пространства, тем большее количество данных необходимо иметь для решения задачи. Возникает «проклятие размерности» - экспоненциальный рост размера обучающей выборки от размерности признакового пространства.

3 Выбор алгоритма, реализующего один из методов теории распознавания образов, позволяющего решать задачу различения объектов в рамках принятого их описания.
Проблема: не существует состоятельных рекомендаций по выбору конкретного метода распознавания из множества существующих. Разработчик вынужден полагаться на свой опыт и интуицию, либо реализовывать всё подряд, пока не найдётся приемлемое решение.

Слайд 6

4 Выбор функционала качества (функции потерь) функционирования алгоритма. Определяется решаемой задачей

4 Выбор функционала качества (функции потерь) функционирования алгоритма. Определяется решаемой задачей

и используемым алгоритмом.
Часто используется эмпирический риск - это средняя величина ошибки алгоритма на обучающих данных. Обучение проводится с целью минимизации эмпирического риска.
Проблема: возникает явление переобучения - когда количество ошибок алгоритма на тестовой выборке оказывается существенно выше, на обучающей.
Например, после простого запоминания всех обучающих объектов каждый новый сравнивается с ними. Правильный ответ выдаётся при полном соответсвии предъявляемого объекта одному из запомненных.

5 Настройка параметров алгоритма, с использованием априорного набора описаний объектов, оптимизирующих выбранный функционал качества. Этот этап часто называют обучением алгоритма.
Проблема: не все параметры алгоритмов являются автоматически настраиваемыми, некоторые из них необходимо задавать разработчику.

Слайд 7

Виды алгоритмов распознавания образов Общая постановка задачи распознавания образов: Существует множество

Виды алгоритмов распознавания образов

Общая постановка задачи распознавания образов:
Существует множество объектов X

и множество имён классов объектов Y.
Существует неизвестная функция осуществляющая отображение пространства объектов в пространство имён классов:
y*: X →Y.
Значения функции y* известны лишь на объектах обучающей выборки
XN = (xi, yi)i=1…N, yi = y*(xi), где N – количество объектов обучающей выборки.
Необходимо построить алгоритм распознавания a: X→Y, аппроксимирующий зависимость y*(x) на всём множестве X.
Слайд 8

Метрические методы распознавания образов Гипотеза компактности – «близкие объекты, как правило,

Метрические методы распознавания образов

Гипотеза компактности – «близкие объекты, как правило, лежат

в одном классе».

Формализованным понятием сходства является введённая в пространстве объектов X функция расстояния между объектами ρ : X×X→(0,∞].

Слайд 9

Евклидово расстояние: Расстояние Махаланобиса: Взвешенная норма: - вектор признаков объекта xi

Евклидово расстояние:

Расстояние Махаланобиса:

Взвешенная норма:

- вектор признаков объекта xi ;

- вектор признаков

объекта xj .

Норма векторов:

S – ковариационная матрица.

Слайд 10

Простейший метрический алгоритм Для каждого объекта x можно вычислить расстояния до

Простейший метрический алгоритм

Для каждого объекта x можно вычислить расстояния до

всех имеющихся в обучающей выборке объектов, и проранжировав все объекты по значению расстояния:

Получим ряд «соседей» объекта x:

И ряд ответов y на каждом из «соседей»:

Будем относить классифицируемый объект к тому классу, к которому относится его ближайший сосед т.е.

Слайд 11

Преимущества: прост в реализации; решение легко интерпретируется. Недостатки: необходимость хранения всей

Преимущества:
прост в реализации;
решение легко интерпретируется.
Недостатки:
необходимость хранения всей обучающей выборки;
- чувствительность

к влиянию «шумовых» данных, и как следствие низкое качество решений.

1-й сосед

2-й сосед

3-й сосед

Классифицируемый
объект

Слайд 12

Алгоритм k-ближайших соседей Алгоритм относит объект x к тому классу, к

Алгоритм k-ближайших соседей

Алгоритм относит объект x к тому

классу, к которому относится большее число среди k его ближайших соседей.
Это позволяет уменьшить влияние выбросов.

Преимущества:
прост в реализации;
решение легко интерпретируется;
менее чувствителен к выбросам по сравнению с предыдущим алгоритмом.
Недостатки:
необходимость хранения всей обучающей выборки;
- может возникать неоднозначное решение, когда соседей из разных классов поровну.

1-й сосед

2-й сосед

3-й сосед

Классифицируемый
объект

Слайд 13

Алгоритм k-ближайших соседей k=1 k=10 k=5 k=3

Алгоритм k-ближайших соседей

k=1

k=10

k=5

k=3

Слайд 14

Алгоритм взвешенных k-ближайших соседей Устранение неоднозначных решений возможно путём введения весов

Алгоритм взвешенных k-ближайших соседей

Устранение неоднозначных решений возможно путём

введения весов для каждого из обучающих объектов, определяющих их важность для решения:

Недостатки алгоритмов типа kNN:
необходимость хранить обучающую выборку целиком;
при наличии погрешностей данных снижается точность классификации вблизи границы классов;
поиск ближайшего соседа предполагает сравнение классифицируемого объекта
со всеми объектами выборки.

Веса зависят от номера соседа. Неоднозначность снижается при линейно убывающей последовательности весов, и устраняется при нелинейной последовательности:

Слайд 15

Метод парзеновского окна Веса можно задавать в зависимости не от номера

Метод парзеновского окна

Веса можно задавать в зависимости не от номера

соседа, а от значения расстояния до него:

Функция K, называемая ядром, должна быть невозрастающей положительной на отрезке [0,1] и равной нулю вне его.

Параметр h - ширина окна, аналог числа соседей k.
Параметр h можно задавать априори. Слишком узкие окна приводят к неустойчивой классификации, а слишком широкие к вырождению алгоритма в константу.
Ширину окна можно определять по скользящему контролю.

Ширину окна можно задавать в зависимости от обучающего, а не классифицируемого объекта:

Получаем метод потенциальных функций.

Слайд 16

Метод парзеновского окна h=1 h=10 h=5 h=3

Метод парзеновского окна

h=1

h=10

h=5

h=3