Методы машинного обучения

Июль 22, 2022

Главная
Информатика
Методы машинного обучения

Содержание

2. Что мы уже знаем Этапы обучения В формальных логических алгоритмах все зависимости выявляются и задаются «вручную».
3. Основные понятия теории распознавания образов Классификация (распознавания образов, объектов, сигналов, ситуаций, явлений или процессов) – задача
4. Решающим правилом (классификатором) называется методика или правило отнесения объекта к какому-либо классу. Обучение – определение по
5. Этапы решения задачи распознавания образов: 1 Выбор свойств, характеристик, признаков класса объектов, наилучшим образом отличающих их
6. 4 Выбор функционала качества (функции потерь) функционирования алгоритма. Определяется решаемой задачей и используемым алгоритмом. Часто используется
7. Виды алгоритмов распознавания образов Общая постановка задачи распознавания образов: Существует множество объектов X и множество имён
8. Метрические методы распознавания образов Гипотеза компактности – «близкие объекты, как правило, лежат в одном классе». Формализованным
9. Евклидово расстояние: Расстояние Махаланобиса: Взвешенная норма: - вектор признаков объекта xi ; - вектор признаков объекта
10. Простейший метрический алгоритм Для каждого объекта x можно вычислить расстояния до всех имеющихся в обучающей выборке
11. Преимущества: прост в реализации; решение легко интерпретируется. Недостатки: необходимость хранения всей обучающей выборки; - чувствительность к
12. Алгоритм k-ближайших соседей Алгоритм относит объект x к тому классу, к которому относится большее число среди
13. Алгоритм k-ближайших соседей k=1 k=10 k=5 k=3
14. Алгоритм взвешенных k-ближайших соседей Устранение неоднозначных решений возможно путём введения весов для каждого из обучающих объектов,
15. Метод парзеновского окна Веса можно задавать в зависимости не от номера соседа, а от значения расстояния
16. Метод парзеновского окна h=1 h=10 h=5 h=3
18. Скачать презентацию

Слайд 2

Что мы уже знаем
Этапы обучения
В формальных логических алгоритмах все зависимости выявляются

и задаются «вручную».

Классическое обучение требует наличия признаков, которые разрабатываются «вручную», но решающее правило строится автоматически в процессе обучения.

Глубокие модели предполагают автоматическую генерацию и признаков и решающего правила.

Слайд 3

Основные понятия теории распознавания образов
Классификация (распознавания образов, объектов, сигналов, ситуаций, явлений

или процессов) – задача идентификации объекта т.е. определения его принадлежности к группе однотипных, по его описанию т.е. набору характеристик или признаков.

Множество – набор неповторяющихся однотипных элементов.

Признаковое пространство – набор характеристик в системе классификации, выделяющий определенную группу (класс) объектов от остальных или разделяющий все объекты на несколько групп (классов).

Прецедент – характеристики конкретного объекта или его набор признаков (признаковое описание).

Слайд 4

Решающим правилом (классификатором) называется методика или правило отнесения объекта к

какому-либо классу.

Обучение – определение по имеющимся прецедентам решающего правила.
Т.е. по имеющимся парам «признаки»–«ответ» необходимо восстановить зависимость F(«признаки»)= «ответ».

Слайд 5

Этапы решения задачи распознавания образов:
1 Выбор свойств, характеристик, признаков класса

объектов, наилучшим образом отличающих их от объектов других классов.
Проблема: в реальных задачах «хорошие» признаки либо отсутствуют, либо их сложно измерять (вычислять), поэтому приходится пользоваться многими «не очень хорошими».

2 Формирование априорных наборов описаний объектов в выбранном признаковом пространстве.
Проблема: чем больше размерность признакового пространства, тем большее количество данных необходимо иметь для решения задачи. Возникает «проклятие размерности» - экспоненциальный рост размера обучающей выборки от размерности признакового пространства.

3 Выбор алгоритма, реализующего один из методов теории распознавания образов, позволяющего решать задачу различения объектов в рамках принятого их описания.
Проблема: не существует состоятельных рекомендаций по выбору конкретного метода распознавания из множества существующих. Разработчик вынужден полагаться на свой опыт и интуицию, либо реализовывать всё подряд, пока не найдётся приемлемое решение.

Слайд 6

4 Выбор функционала качества (функции потерь) функционирования алгоритма. Определяется решаемой задачей

и используемым алгоритмом.
Часто используется эмпирический риск - это средняя величина ошибки алгоритма на обучающих данных. Обучение проводится с целью минимизации эмпирического риска.
Проблема: возникает явление переобучения - когда количество ошибок алгоритма на тестовой выборке оказывается существенно выше, на обучающей.
Например, после простого запоминания всех обучающих объектов каждый новый сравнивается с ними. Правильный ответ выдаётся при полном соответсвии предъявляемого объекта одному из запомненных.

5 Настройка параметров алгоритма, с использованием априорного набора описаний объектов, оптимизирующих выбранный функционал качества. Этот этап часто называют обучением алгоритма.
Проблема: не все параметры алгоритмов являются автоматически настраиваемыми, некоторые из них необходимо задавать разработчику.

Слайд 7

Виды алгоритмов распознавания образов
Общая постановка задачи распознавания образов:
Существует множество объектов X

и множество имён классов объектов Y.
Существует неизвестная функция осуществляющая отображение пространства объектов в пространство имён классов:
y*: X →Y.
Значения функции y* известны лишь на объектах обучающей выборки
XN = (xi, yi)i=1…N, yi = y*(xi), где N – количество объектов обучающей выборки.
Необходимо построить алгоритм распознавания a: X→Y, аппроксимирующий зависимость y*(x) на всём множестве X.

Слайд 8

Метрические методы распознавания образов
Гипотеза компактности – «близкие объекты, как правило, лежат

в одном классе».

Формализованным понятием сходства является введённая в пространстве объектов X функция расстояния между объектами ρ : X×X→(0,∞].

Слайд 9

Евклидово расстояние:
Расстояние Махаланобиса:
Взвешенная норма:
- вектор признаков объекта xi ;
- вектор признаков

объекта xj .

Норма векторов:

S – ковариационная матрица.

Слайд 10

Простейший метрический алгоритм
Для каждого объекта x можно вычислить расстояния до

всех имеющихся в обучающей выборке объектов, и проранжировав все объекты по значению расстояния:

Получим ряд «соседей» объекта x:

И ряд ответов y на каждом из «соседей»:

Будем относить классифицируемый объект к тому классу, к которому относится его ближайший сосед т.е.

Слайд 11

Преимущества:
прост в реализации;
решение легко интерпретируется.
Недостатки:
необходимость хранения всей обучающей выборки;
- чувствительность

к влиянию «шумовых» данных, и как следствие низкое качество решений.

1-й сосед

2-й сосед

3-й сосед

Классифицируемый
объект

Слайд 12

Алгоритм k-ближайших соседей
Алгоритм относит объект x к тому

классу, к которому относится большее число среди k его ближайших соседей.
Это позволяет уменьшить влияние выбросов.

Преимущества:
прост в реализации;
решение легко интерпретируется;
менее чувствителен к выбросам по сравнению с предыдущим алгоритмом.
Недостатки:
необходимость хранения всей обучающей выборки;
- может возникать неоднозначное решение, когда соседей из разных классов поровну.

1-й сосед

2-й сосед

3-й сосед

Классифицируемый
объект

Слайд 13

Алгоритм k-ближайших соседей
k=1
k=10
k=5
k=3

Слайд 14

Алгоритм взвешенных k-ближайших соседей
Устранение неоднозначных решений возможно путём

введения весов для каждого из обучающих объектов, определяющих их важность для решения:

Недостатки алгоритмов типа kNN:
необходимость хранить обучающую выборку целиком;
при наличии погрешностей данных снижается точность классификации вблизи границы классов;
поиск ближайшего соседа предполагает сравнение классифицируемого объекта
со всеми объектами выборки.

Веса зависят от номера соседа. Неоднозначность снижается при линейно убывающей последовательности весов, и устраняется при нелинейной последовательности:

Слайд 15

Метод парзеновского окна
Веса можно задавать в зависимости не от номера

соседа, а от значения расстояния до него:

Функция K, называемая ядром, должна быть невозрастающей положительной на отрезке [0,1] и равной нулю вне его.

Параметр h - ширина окна, аналог числа соседей k.
Параметр h можно задавать априори. Слишком узкие окна приводят к неустойчивой классификации, а слишком широкие к вырождению алгоритма в константу.
Ширину окна можно определять по скользящему контролю.

Ширину окна можно задавать в зависимости от обучающего, а не классифицируемого объекта:

Получаем метод потенциальных функций.

Слайд 16

Методы машинного обучения

Содержание

Что мы уже знаемЭтапы обученияВ формальных логических алгоритмах все зависимости выявляются

Основные понятия теории распознавания образовКлассификация (распознавания образов, объектов, сигналов, ситуаций, явлений

Решающим правилом (классификатором) называется методика или правило отнесения объекта к

Этапы решения задачи распознавания образов:1 Выбор свойств, характеристик, признаков класса

4 Выбор функционала качества (функции потерь) функционирования алгоритма. Определяется решаемой задачей

Виды алгоритмов распознавания образовОбщая постановка задачи распознавания образов:Существует множество объектов X

Метрические методы распознавания образовГипотеза компактности – «близкие объекты, как правило, лежат

Евклидово расстояние:Расстояние Махаланобиса:Взвешенная норма:- вектор признаков объекта xi ;- вектор признаков

Простейший метрический алгоритм Для каждого объекта x можно вычислить расстояния до

Преимущества: прост в реализации;решение легко интерпретируется.Недостатки:необходимость хранения всей обучающей выборки;- чувствительность

Алгоритм k-ближайших соседей Алгоритм относит объект x к тому

Алгоритм k-ближайших соседей k=1 k=10 k=5 k=3

Алгоритм взвешенных k-ближайших соседей Устранение неоднозначных решений возможно путём

Метод парзеновского окна Веса можно задавать в зависимости не от номера

Метод парзеновского окна h=1 h=10 h=5 h=3

Похожие презентации