Методы многомерной классификации

Содержание

Слайд 2

Основные понятия Классификация – разделение рассматриваемой совокупности объектов или явлений на

Основные понятия

Классификация – разделение рассматриваемой совокупности объектов или явлений на однородные,

в определенном смысле, группы либо отнесение каждого объекта (из заданного множества) к одному из заранее известных классов.
Слайд 3

Пусть каждый i-ый из анализируемых объектов характеризуется значениями определенного набора признаков

Пусть каждый i-ый из анализируемых объектов характеризуется значениями определенного набора признаков

(свойств) , т.е. речь идет о классификации многомерных наблюдений , где - в-р столбец значений признаков для i-го объекта.
Обучающие выборки , j = 1, 2,…, k,
каждая (j-ая) из которых определяет значения анализируемых признаков на n объектах, о которых априори известно, что они принадлежат j-му классу, причем число k различных выборок равно общему числу всех возможных классов.

Исходная информация

Слайд 4

Результат 1. если число классов k и их смысл известны заранее,

Результат

1. если число классов k и их смысл известны заранее, то

каждое из n классифицируемых многомерных наблюдений должно быть снабжено «адресом» (номером) класса, к которому оно принадлежит.
или
2. если число классов k и (или) их смысл выявляются в процессе классификации, то результатом классификации является разделение множества классифицируемых объектов на определенное число однородных (в определенном смысле) групп, каждая из которых объявляется классом.
Слайд 5

Если в начале располагают не только классифицируемыми данными, но и обучающими

Если в начале располагают не только классифицируемыми данными, но и обучающими

выборками, то имеем задачу классификации при наличии обучающих выборок или «классификации с обучением» (методы дискриминантного анализа);
в противном случае – задача «классификации без обучения» (методы кластерного анализа).
Слайд 6

Кластерный анализ Постановка задачи. Пусть исследуется совокупность n объектов, каждый из

Кластерный анализ

Постановка задачи.
Пусть исследуется совокупность n объектов, каждый из которых характеризуется

по k замеренным на нем признакам X.
Требуется разбить эту совокупность на однородные в некотором смысле группы (классы).
Полученные в результате разбиения группы обычно называются кластерами.
Слайд 7

Расстояние между объектами и мера близости Понятие однородности объектов задается либо

Расстояние между объектами и мера близости

Понятие однородности объектов
задается либо введением правила

вычисления расстояния ρ(Xi,Xj) между любой парой исследуемых объектов (X1,X2,…,Xn), либо заданием некоторой функции r(Xi,Xj), характеризующей степень близости i-го и j-го объектов.
Слайд 8

x2 x1

x2

x1

Слайд 9

Расстояние между объектами и мера близости обычное евклидово расстояние; xil –

Расстояние между объектами и мера близости

обычное евклидово расстояние;
xil – значение l-го

признака у i-го объекта.
Для приведения признаков к одинаковым единицам прибегают к нормировке каждого признака:
Слайд 10

Расстояние между объектами и мера близости (продолжение) «взвешенное» евклидово расстояние; Каждой

Расстояние между объектами и мера близости (продолжение)

«взвешенное» евклидово расстояние;
Каждой компоненте xl

вектора X приписывают некоторый вес wl, учитывающий степень важности данного признака в задаче классификации.
Обычно полагают 0 ≤ wl ≤ 1, где l = 1, 2, …, k.
Слайд 11

Расстояние между объектами и мера близости (продолжение) хеммингово расстояние; Используется как

Расстояние между объектами и мера близости (продолжение)

хеммингово расстояние;
Используется как мера различия

объектов, задаваемых дихотомическими признаками. Хеммингово расстояние равно числу несовпадений значений соответствующих признаков в рассматриваемых i-ом и j-ом объектах.
Слайд 12

Расстояние между кластерами Пусть Si – i-я группа (кластер), состоящая из

Расстояние между кластерами

Пусть Si – i-я группа (кластер), состоящая из ni

объектов.
Способы вычисления расстояния между кластерами:
расстояние по принципу «ближайшего соседа»:
Слайд 13

Расстояние между кластерами расстояние по принципу «дальнего соседа»: расстояние между центрами

Расстояние между кластерами

расстояние по принципу «дальнего соседа»:
расстояние между центрами тяжести классов
где

- «центр тяжести» l-ой группы.
Слайд 14

Расстояние между кластерами расстояние по принципу «средней связи»: - среднее арифметическое

Расстояние между кластерами

расстояние по принципу «средней связи»:
- среднее арифметическое всех попарных

расстояний между представителями рассматриваемых групп.
Слайд 15

Иерархические процедуры классификации позволяют получить представление о структуре классифицируемой совокупности наблюдений

Иерархические процедуры классификации позволяют получить представление о структуре классифицируемой совокупности наблюдений

в форме дендрограммы.
Различают агломеративные и дивизимные иерархические процедуры классификации .

Иерархические процедуры классификации

Слайд 16

Агломеративные иерархические процедуры классификации на первом шаге рассматривают каждое из классифицируемых

Агломеративные иерархические процедуры классификации на первом шаге рассматривают каждое из классифицируемых

наблюдений как отдельный кластер.
Далее на каждом шаге алгоритма происходит объединение двух самых близких наблюдений, затем – двух самых близких групп наблюдений (кластеров). Работа алгоритма заканчивается, когда все исходящие наблюдения оказались объединенными в один класс.

Иерархические процедуры классификации

Слайд 17

Иерархические процедуры классификации ПРИМЕР По приведенным данным провести классификацию 5 семей

Иерархические процедуры классификации

ПРИМЕР
По приведенным данным провести классификацию 5 семей по двум

показателям: уровень расходов за летние месяцы на культурные нужды, спорт и отдых (x1), уровень расходов на питание (x2).
Слайд 18

Иерархические процедуры классификации x2 x1

Иерархические процедуры классификации

x2

x1

Слайд 19

Иерархические процедуры классификации РЕШЕНИЕ 1.1. Евклидова метрика. Принцип «ближнего соседа».

Иерархические процедуры классификации

РЕШЕНИЕ
1.1. Евклидова метрика. Принцип «ближнего соседа».

Слайд 20

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1, S2, S3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1, S2, S3, S4,5

Слайд 21

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Расстояние между кластерами S1 и S4,5 равно:

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Расстояние между кластерами S1 и S4,5 равно:

Слайд 22

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1,2, S3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1,2, S3, S4,5

Слайд 23

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Расстояние между кластерами S1,2 и S4,5 равно:

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Расстояние между кластерами S1,2 и S4,5 равно:

Слайд 24

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1,2,3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1,2,3, S4,5

Слайд 25

Иерархические процедуры классификации

Иерархические процедуры классификации


Слайд 26

Иерархические процедуры классификации

Иерархические процедуры классификации


Слайд 27

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) 1.2. Принцип «дальнего соседа». Имеем: S1, S2, S3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
1.2. Принцип «дальнего соседа».
Имеем: S1, S2, S3, S4,5

Слайд 28

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Расстояние между кластерами S1 и S4,5 равно:

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Расстояние между кластерами S1 и S4,5 равно:

Слайд 29

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1,2, S3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1,2, S3, S4,5

Слайд 30

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Расстояние между кластерами S1,2 и S4,5 равно:

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Расстояние между кластерами S1,2 и S4,5 равно:

Слайд 31

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1,2, S3,4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1,2, S3,4,5

Слайд 32

Иерархические процедуры классификации

Иерархические процедуры классификации

Слайд 33

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) 1.3. Принцип «центра тяжести». Имеем: S1, S2, S3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
1.3. Принцип «центра тяжести».
Имеем: S1, S2, S3, S4,5

Слайд 34

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Кластер S4,5 характеризуется центром тяжести: Расстояние

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Кластер S4,5 характеризуется центром тяжести:
Расстояние между кластерами S1

и S4,5 равно:
Слайд 35

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1,2, S3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1,2, S3, S4,5

Слайд 36

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Кластер S1,2 характеризуется центром тяжести: Расстояние

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Кластер S1,2 характеризуется центром тяжести:
Расстояние между кластерами S1,2

и S4,5 равно:
Слайд 37

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1,2,3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1,2,3, S4,5

Слайд 38

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Кластер S1,2,3 характеризуется центром тяжести: Расстояние

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Кластер S1,2,3 характеризуется центром тяжести:
Расстояние между кластерами S1,2,3

и S4,5 равно:
Слайд 39

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) 1.4. Принцип «средней связи». Имеем: S1, S2, S3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
1.4. Принцип «средней связи».
Имеем: S1, S2, S3, S4,5

Слайд 40

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Расстояние между кластерами S1 и S4,5 равно:

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Расстояние между кластерами S1 и S4,5 равно:

Слайд 41

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1,2, S3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1,2, S3, S4,5

Слайд 42

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Расстояние между кластерами S1,2 и S4,5 равно:

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Расстояние между кластерами S1,2 и S4,5 равно:

Слайд 43

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1,2,3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1,2,3, S4,5

Слайд 44

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Расстояние между кластерами S1,2,3 и S4,5 равно:

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Расстояние между кластерами S1,2,3 и S4,5 равно:

Слайд 45

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) 2.1. Взвешенное евклидово расстояние. Принцип «ближнего

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
2.1. Взвешенное евклидово расстояние. Принцип «ближнего соседа».
w1=0,05

и w2 = 0,95.
Слайд 46

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1, S2,3,S4, S5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1, S2,3,S4, S5

Слайд 47

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1, S2,3, S4,5

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1, S2,3, S4,5

Слайд 48

Иерархические процедуры классификации РЕШЕНИЕ (продолжение) Имеем: S1,,4,5, S2,3

Иерархические процедуры классификации

РЕШЕНИЕ (продолжение)
Имеем: S1,,4,5, S2,3

Слайд 49

СТЭФ-2017

СТЭФ-2017

Слайд 50

Метод Метод K-средних

Метод

Метод K-средних

Слайд 51

Метод К-средних предназначен для разбиения многомерных наблюдений на заданное число К

Метод К-средних предназначен для разбиения многомерных наблюдений на заданное число К

кластеров, однородных в смысле геометрической взаимной близости элементов, принадлежащих к одному классу.

Метод K-средних

Слайд 52

Метод К-средних обычно используется при достаточно больших объемах n классифицируемых данных

Метод К-средних обычно используется при достаточно больших объемах n классифицируемых данных

и реализуется по следующей схеме.
На 1-м этапе производится последовательное (итерационное) уточнение местоположения центров тяжести классов (v – номер итерации).
При этом нулевое приближение строится с помощью случайно выбранных первых К точек исследуемой совокупности, т.е.

Метод K-средних

Слайд 53

Затем на j-й итерации «извлекается» точка и выясняется, к какому из

Затем на j-й итерации «извлекается» точка и выясняется, к какому из

эталонов она оказалась ближе всего. Именно этот, самый близкий к эталон заменяется новым, определяемым как центр тяжести старого эталона и присоединенной к нему точки .

Метод K-средних

Слайд 54

Имеем нулевое приближение: , i = 1, 2, …, k После

Имеем нулевое приближение:
, i = 1, 2, …, k
После «извлечения» новой

точки xk+ν пересчет центров тяжести и весов новых эталонов осуществляется по следующим формулам:

Метод K-средних

Слайд 55

Метод K-средних


Метод K-средних

Слайд 56

2-й этап метода K-средних посвящен соответственно процедуре классификации. Окончательное разбиение S

2-й этап метода K-средних посвящен соответственно процедуре классификации.
Окончательное разбиение S исследуемой

совокупности на K классов производится в соответствии с правилом «минимального дистанционного разбиения» относительно центров тяжести:
наблюдение xi относится к классу j0 , если

Метод K-средних

Слайд 57

СТЭФ-2017

СТЭФ-2017

Слайд 58

Метод K-средних


Метод K-средних