Кластерный анализ

Содержание

Слайд 2

Цели Что такое кластерный анализ и для чего он может понадобиться?

Цели

Что такое кластерный анализ и для чего он может понадобиться?

Слайд 3

Кластерный анализ Если долго пытать данные, то они в конце концов сознаются…

Кластерный анализ

Если долго пытать данные, то они в конце концов сознаются…

Слайд 4

Кластерный анализ это общее название множества вычислительных процедур, используемых при создании

Кластерный анализ

это общее название множества вычислительных процедур, используемых при создании классификации.


Главная цель кластерного анализа – нахождение групп схожих объектов в выборке данных. Эти группы удобно называть кластерами.
Слайд 5

Кластерный анализ Кластерный анализ – это метод, который позволяет разделить объекты СРАЗУ по нескольким характеристикам

Кластерный анализ

Кластерный анализ – это метод, который позволяет разделить объекты СРАЗУ

по нескольким характеристикам
Слайд 6

Кластерный анализ Не существует общепринятого определения термина «кластер», однако считается, что

Кластерный анализ

Не существует общепринятого определения термина «кластер», однако считается, что кластеры

обладают некоторыми свойствами, наиболее важными из которых являются плотность, дисперсия, размеры, форма и отделимость.
Слайд 7

Свойства кластеров Плотность – это свойство, которое позволяет определить кластер как

Свойства кластеров

Плотность – это свойство, которое позволяет определить кластер как скопление

точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащими их вовсе.
Слайд 8

Свойства кластеров Дисперсия характеризует степень рассеяния точек в пространстве относительно центра

Свойства кластеров

Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера,

т.е. насколько близко друг к другу расположены точки кластера.
Слайд 9

Свойства кластеров Размеры тесно связано с дисперсией; если кластер можно идентифицировать,

Свойства кластеров

Размеры тесно связано с дисперсией; если кластер можно идентифицировать, то

можно измерить и его «радиус». Это свойство полезно лишь в том случае, если рассматриваемые кластеры являются гиперсферами (т.е. имеют круглую форму) в многомерном пространстве, описываемом признаками.
Слайд 10

Свойства кластеров Форма – это расположение точек в пространстве. Если кластеры

Свойства кластеров

Форма – это расположение точек в пространстве. Если кластеры имеют

удлиненную форму, то вместо размера можно вычислить его «связность» - относительную меру расстояния между точками.
Слайд 11

Свойства кластеров Отделимость характеризует степень перекрытия кластеров и насколько далеко друг

Свойства кластеров

Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от

друга они расположены в пространстве.
Слайд 12

Кластерный анализ Таким образом, кластеры – это непрерывные области некоторого пространства

Кластерный анализ

Таким образом, кластеры – это непрерывные области некоторого пространства с

относительно высокой плотностью точек, отделенные от других таких же областей областями с относительно низкой плотностью точек.
Слайд 13

Кластерный анализ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺

Кластерный анализ











Слайд 14

Кластерный анализ можно сделать в программе STATISTICA, в специальном модуле Cluster

Кластерный анализ

можно сделать в программе STATISTICA,
в специальном модуле
Cluster Analysis
Statistics ⇒

Multivariate Exploratory Techniques ⇒ Cluster Analysis
Слайд 15

Кластерный анализ

Кластерный анализ

Слайд 16

ПРЕДОСТЕРЕЖЕНИЯ! 1) Многие методы кластерного анализа – довольно простые процедуры, которые,

ПРЕДОСТЕРЕЖЕНИЯ!

1) Многие методы кластерного анализа – довольно простые процедуры, которые, как

правило, не имеют достаточного статистического обоснования (то есть большинство методов являются эвристическими).
Слайд 17

ПРЕДОСТЕРЕЖЕНИЯ! 2) Методы кластерного анализа разрабатывались для многих дисциплин, а потому

ПРЕДОСТЕРЕЖЕНИЯ!

2) Методы кластерного анализа разрабатывались для многих дисциплин, а потому несут

на себе отпечатки специфики этих дисциплин.
Слайд 18

ПРЕДОСТЕРЕЖЕНИЯ! 3) Разные кластерные методы могут порождать и порождают различные решения

ПРЕДОСТЕРЕЖЕНИЯ!

3) Разные кластерные методы могут порождать и порождают различные решения для

одних и тех же данных.
Слайд 19

ПРЕДОСТЕРЕЖЕНИЯ! 4) Цель кластерного анализа заключается в поиске существующих структур. В

ПРЕДОСТЕРЕЖЕНИЯ!

4) Цель кластерного анализа заключается в поиске существующих структур. В то

же время его действие состоит в привнесении структуры в анализируемые данные, и эта структура может не совпадать с искомой «реальной».
Слайд 20

Выбор переменных Основная проблема состоит в том, чтобы найти ту совокупность

Выбор переменных

Основная проблема состоит в том, чтобы найти ту совокупность переменных,

которая наилучшим образом отражает понятие сходства. В идеале переменные должны выбираться в соответствии с ясно сформулированной теорией, которая лежит в основе классификации.
Слайд 21

Выбор переменных - нормировка Обычно при выполнении кластерного анализа данные подвергаются

Выбор переменных - нормировка

Обычно при выполнении кластерного анализа данные подвергаются нормировке

таким образом, чтобы среднее у всех переменных равнялось нулю, а дисперсия – единице.
Зачем?
Чтобы можно было сравнить все переменные между собой!
Слайд 22

Выбор переменных - нормировка где х – среднее значение показателя в

Выбор переменных - нормировка

где х – среднее значение показателя в группе;
хi

– значение показателя конкретного обследуемого;
S – стандартное отклонение;
Z – оценка индивидуального показателя.
Слайд 23

Выбор переменных - нормировка В программе Statistica выбираем (выделяем) переменные, которые

Выбор переменных - нормировка

В программе Statistica
выбираем (выделяем) переменные, которые хотим

нормировать,
затем нажимаем ПРАВУЮ кнопку мыши, и
Fill/Standardize Block → Standardize Columns…
Слайд 24

Выбор переменных - нормировка

Выбор переменных - нормировка

Слайд 25

Выбор переменных - нормировка Переменные после нормировки

Выбор переменных - нормировка

Переменные после нормировки

Слайд 26

Выбор переменных - нормировка Имеются, однако, некоторые разногласия относительно того, должна

Выбор переменных - нормировка

Имеются, однако, некоторые разногласия относительно того, должна ли

нормировка быть стандартной процедурой в кластерном анализе.
Нормировка к единичной дисперсии и нулевому среднему уменьшает различия между группами по тем переменным, по которым наилучшим образом обнаруживались групповые различия.
Слайд 27

Выбор переменных - нормировка Более целесообразно проводить нормировку внутри групп (т.е.

Выбор переменных - нормировка

Более целесообразно проводить нормировку внутри групп (т.е. внутри

кластеров), но, очевидно, этого нельзя сделать, пока объекты не разнесены по группам.
Гм ….
Слайд 28

Выбор переменных - нормировка Решение о проведении нормировки должно приниматься с

Выбор переменных - нормировка

Решение о проведении нормировки должно приниматься с учетом

специфики решаемой задачи, при этом пользователь должен понимать, что результаты могут различаться в зависимости от принятого решения, хотя величина воздействия будет меняться от одного множества данных к другому.
Слайд 29

Выбор переменных - взвешивание Взвешивание – это манипулирование значением переменной, позволяющее

Выбор переменных - взвешивание

Взвешивание – это манипулирование значением переменной, позволяющее ей

играть большую или меньшую роль в измерении сходства между объектами. Хотя эта идея и проста, ее практическое применение затруднительно. Видимо, имеет смысл взвешивать некоторые переменные априори, если для этого есть хорошее теоретическое обоснование.
Слайд 30

Методы кластерного анализа Разные методы кластерного анализа соответствуют различным подходам к

Методы кластерного анализа

Разные методы кластерного анализа соответствуют различным подходам к созданию

групп, и применение различных методов к одним и тем же данным может привести к сильно различающимся результатам.
Слайд 31

Методы кластерного анализа Важно помнить, что выбранный метод должен находиться в

Методы кластерного анализа

Важно помнить, что выбранный метод должен находиться в согласии

с ожидаемым характером классификации, применяемыми признаками и мерой сходства.
Слайд 32

Методы кластерного анализа В программе STATISTICA реализованы следующие методы кластеризации: ☺

Методы кластерного анализа

В программе STATISTICA реализованы следующие методы кластеризации:
☺ иерархический

агломеративный (объединительный) метод – joining (tree clustering),
☺ итеративный метод k-средних (k-means clustering)
☺ двухвходовое объединение (two-way joining).
Слайд 33

Методы кластерного анализа

Методы кластерного анализа

Слайд 34

Агломеративный метод В агломеративных методах происходит последовательное объединение наиболее близких объектов

Агломеративный метод

В агломеративных методах происходит последовательное объединение наиболее близких объектов в

один кластер. Процесс такого последовательного объединения можно показать на графике в виде дендрограммы, или дерева объединения.
Слайд 35

Агломеративный метод 1 3 6 5 4 2 1,0 0,9 0,8

Агломеративный метод

1
3
6
5
4
2

1,0 0,9 0,8 0,7 0,6 0,5 сходство
0,0 0,1 0,2 0,3

0,4 0,5 различие
Слайд 36

Агломеративный метод Рубить дерево можно в любом месте!

Агломеративный метод
Рубить дерево можно в любом месте!

Слайд 37

Агломеративный метод 1 3 6 5 4 2 1,0 0,9 0,8

Агломеративный метод

1
3
6
5
4
2

1,0 0,9 0,8 0,7 0,6 0,5 сходство
0,0 0,1 0,2 0,3

0,4 0,5 различие
Слайд 38

Агломеративный метод 1 3 6 5 4 2 1,0 0,9 0,8

Агломеративный метод

1
3
6
5
4
2

1,0 0,9 0,8 0,7 0,6 0,5 сходство
0,0 0,1 0,2 0,3

0,4 0,5 различие
Слайд 39

Меры сходства Количественное оценивание сходства отталкивается от понятия метрики или расстояния

Меры сходства

Количественное оценивание сходства отталкивается от понятия метрики или расстояния (distance)

между объектами. Интуитивно понятно, что чем меньше расстояние между объектами, тем больше сходство между ними.
Слайд 40

Меры сходства ☺ Евклидова метрика – наиболее часто используемая мера сходства.

Меры сходства

☺ Евклидова метрика – наиболее часто используемая мера сходства. Вы

просто возводите в квадрат расстояния по каждой координате, суммируете их и из полученной суммы извлекаете квадратный корень.
Слайд 41

Меры сходства Расстояние (x,y)= А В

Меры сходства

Расстояние (x,y)=

А

В

Слайд 42

Меры сходства ☺ Квадрат евклидовой метрики. Расстояние (x,y)=

Меры сходства

☺ Квадрат евклидовой метрики.
Расстояние (x,y)=

Слайд 43

Меры сходства ☺ Манхэттенское расстояние, или «расстояние городских кварталов». В этом

Меры сходства

☺ Манхэттенское расстояние, или «расстояние городских кварталов». В этом случае

просто берутся абсолютные значения покоординатных расстояний и суммируются.

А

В



Слайд 44

Меры сходства Аналогия в декартовой плоскости приводит к перемещениям только по

Меры сходства

Аналогия в декартовой плоскости приводит к перемещениям только по линиям,

параллельным осям координат, и соответственно, к манхэттенскому расстоянию.
Расстояние (x,y)=
Слайд 45

Меры сходства ☺ Метрика Чебышева Расстояние (x,y)=

Меры сходства

☺ Метрика Чебышева
Расстояние (x,y)=

Слайд 46

Меры сходства ☺ Метрика Минковского. Расстояние (x,y)=

Меры сходства

☺ Метрика Минковского.
Расстояние (x,y)=

Слайд 47

Меры сходства ☺ Коэффициент корреляции Пирсона (точнее, 1 - коэффициент корреляции Пирсона)

Меры сходства

☺ Коэффициент корреляции Пирсона (точнее, 1 - коэффициент корреляции Пирсона)


Слайд 48

Меры сходства ☺ Коэффициент совстречаемости – метрика, наиболее пригодная для данных,

Меры сходства

☺ Коэффициент совстречаемости – метрика, наиболее пригодная для данных, представленных

в шкалах наименований. Вычисляется как
Расстояние (x,y)=
Слайд 49

Меры сходства Однозначного ответа на вопрос, какую из мер сходства выбрать,

Меры сходства

Однозначного ответа на вопрос, какую из мер сходства выбрать, не

существует. Ответ зависит от типа данных и природы решаемой задачи.
Слайд 50

Правила объединения Кроме выбора меры сходства, исследователю предстоит задача выбора правила

Правила объединения

Кроме выбора меры сходства, исследователю предстоит задача выбора правила иерархического

объединения кластеров. В программе реализованы следующие методы:
Слайд 51

Правила объединения Single linkage – метод одиночной связи. На первом шаге

Правила объединения

Single linkage – метод одиночной связи. На первом шаге объединяются

два объекта, имеющие между собой максимальную меру сходства. На следующем шаге к ним присоединяется объект с максимальной мерой сходства с одним из объектов кластера. Таким образом процесс продолжается дальше. Для включения объекта в кластер требуется максимальное сходство лишь с одним членом кластера.
Слайд 52

Правила объединения Complete linkage – метод полной связи. Этот метод позволяет

Правила объединения

Complete linkage – метод полной связи. Этот метод позволяет устранить

указанный недостаток. Здесь мера сходства между объектом – кандидатом на включение в кластер и всеми членами кластера не может быть меньше некоторого порогового значения.
Слайд 53

Правила объединения Unweighted pair group average –метод «средней связи». В этом

Правила объединения

Unweighted pair group average –метод «средней связи». В этом методе

вычисляется среднее сходство рассматриваемого объекта со всеми объектами в уже существующем кластере, а затем, если найденное среднее значение сходства достигает или превосходит некоторый заданный пороговый уровень сходства, объект присоединяется к этому кластеру. Чаще всего берется просто среднее арифметическое мер сходства между объектами кластера и кандидатом на включение.
Слайд 54

Правила объединения Weighted pair group average – взвешенный метод «средней связи».

Правила объединения

Weighted pair group average – взвешенный метод «средней связи». Аналогичен

предыдущему, за исключением того, что в данном случае в качестве весов берутся размеры соответствующих кластеров (т.е., число объектов в кластере). Этот метод лучше использовать, если есть подозрения, что кластеры будут иметь размеры, сильно различающиеся между собой.
Слайд 55

Правила объединения Unweighted pair group centroid –центроидный метод. Расстояние между двумя

Правила объединения

Unweighted pair group centroid –центроидный метод. Расстояние между двумя кластерами

определяется как евклидово расстояние между центрами (средними) этих кластеров. Кластеризация осуществляется поэтапно: на каждом шаге объединяют два кластера, расстояние между которыми минимально.
Слайд 56

Правила объединения Weighted pair group centroid – взвешенный центроидный метод. Аналогичен

Правила объединения

Weighted pair group centroid – взвешенный центроидный метод. Аналогичен предыдущему,

за исключением того, что в данном случае в качестве весов берутся размеры соответствующих кластеров (т.е., число объектов в кластере).
Слайд 57

Правила объединения Ward method – метод Уорда. Идея этого метода состоит

Правила объединения

   Ward method – метод Уорда. Идея этого метода состоит

в том, чтобы проводить объединение, дающее минимальное приращение внутригрупповой суммы квадратов отклонений, то есть оптимизировать минимальную дисперсию внутри кластеров.

Это хороший метод!

Слайд 58

Метод k-средних Это итеративный метод, который работает непосредственно с объектами, а

Метод k-средних

Это итеративный метод, который работает непосредственно с объектами, а не

c матрицей сходства.
Он отличается тем, что позволяет заранее задать число кластеров. Это число определяет сам пользователь, исходя из имеющейся задачи и предсказаний теории.
Слайд 59

Метод k-средних Метод k-средних разобьет все объекты на заданное количество кластеров,

Метод k-средних

Метод k-средних разобьет все объекты на заданное количество кластеров, которые

будут максимально различаться между собой.
Слайд 60

Метод k-средних В этом методе объект относится к тому классу, расстояние

Метод k-средних

В этом методе объект относится к тому классу, расстояние до

которого минимально. Расстояние понимается как евклидово расстояние, то есть объекты рассматриваются как точки евклидова пространства.
Слайд 61

Метод k-средних Вначале задается некоторое разбиение данных на кластеры (число кластеров

Метод k-средних

Вначале задается некоторое разбиение данных на кластеры (число кластеров определяется

пользователем) и вычисляются центры тяжести кластеров. Затем происходит перемещение каждой точки в ближайшей к ней кластер.
Слайд 62

Метод k-средних Затем снова вычисляются центры тяжести новых кластеров и процесс

Метод k-средних

Затем снова вычисляются центры тяжести новых кластеров и процесс повторяется,

пока не будет найдена стабильная конфигурация (то есть кластеры перестанут изменяться) или число итераций не превысит заданное пользователем.
Слайд 63

Метод k-средних Можно сказать, что вычислительная процедура данного метода представляет собой

Метод k-средних

Можно сказать, что вычислительная процедура данного метода представляет собой дисперсионный

анализ «наоборот». Программа начинает работу с k случайных кластеров, а затем перемещает объекты из одного кластера в другой с целью (1) минимизировать вариативность (дисперсию) внутри кластера и (2) максимизировать вариативность между кластерами.
Слайд 64

Метод k-средних Это аналогично дисперсионному анализу «наоборот» в том смысле, что

Метод k-средних

Это аналогично дисперсионному анализу «наоборот» в том смысле, что в

дисперсионном анализе при определении значимости различий в средних значениях групп оценивается межгрупповая дисперсия в сравнении с внутригрупповой дисперсией.
Слайд 65

Метод k-средних В методе k-средних программа пытается перемещать объекты между группами

Метод k-средних

В методе k-средних программа пытается перемещать объекты между группами (кластерами)

таким образом, чтобы получить наиболее значимые результаты дисперсионного анализа. Поэтому и результаты этого самого дисперсионного анализа приводятся в разделе результатов применения данного метода.
Слайд 66

Метод k-средних Кроме числа кластеров, пользователю также необходимо выбрать условие, которое

Метод k-средних

Кроме числа кластеров, пользователю также необходимо выбрать условие, которое задает

начальные центры кластеров. Существует три возможности:
∙ Maximize between-cluster distances.
∙ Sort distances and take observations at constant intervals.
∙ Choose the first N (number of clusters) clusters observations.
Слайд 67

Maximize between-cluster distances Если выбрано это условие, то за центр кластера

Maximize between-cluster distances

Если выбрано это условие, то за центр кластера принимается

наблюдение или объект, а выбор объектов следует правилу максимизации начальных расстояний между кластерами.
Слайд 68

Maximize between-cluster distances В этом случае программа выберет сначала первые N

Maximize between-cluster distances

В этом случае программа
выберет сначала первые N

(число кластеров, заданное вами) наблюдений в качестве центров кластеров;
(2) последующие наблюдения заменят выбранные центры кластеров, если наименьшее расстояние от них до любого другого центра кластера больше, чем наименьшее расстояние между кластерами.
Слайд 69

Sort distances and take observations at constant intervals Если выбрано это

Sort distances and take observations at constant intervals

Если выбрано это условие,

расстояния между объектами сначала будут упорядочены, а затем объекты с одинаковыми расстояниями будут выбраны в качестве центров кластеров.
(Выбирается по умолчанию)
Слайд 70

Choose the first N (number of clusters) clusters observations При выборе

Choose the first N (number of clusters) clusters observations

При выборе этого

условия первые N (количество кластеров) наблюдений будут выбраны в качестве начальных центров кластеров. Таким образом, это условие дает пользователю возможность контроля выбора начальной конфигурации. Это бывает полезно, если исследователь хочет проверить какие-то начальные предположения о составе кластеров. В этом случае передвиньте те наблюдения, вокруг которых вы хотите сгруппировать все остальные, в начало файла.
Слайд 71

Тwo-way joining применяется в тех (сравнительно редких) случаях, когда исследователь полагает,

Тwo-way joining

применяется в тех (сравнительно редких) случаях, когда исследователь полагает,

что и переменные, и наблюдения одновременно вносят вклад в определение «реальной» структуры. Результаты этого метода достаточно сложно интерпретировать, так как сходство между различными кластерами может объясняться различными подмножествами переменных, что приводит к неоднородности результирующей структуры.
Слайд 72

Алгоритм кластерного анализа Заносим данные в программу. Возможно проводим процедуру нормировки.

Алгоритм кластерного анализа

Заносим данные в программу. Возможно проводим процедуру нормировки.
Выбираем метод

- агломеративный (объединительный) метод (joining (tree clustering)), итеративный метод k-средних (k-means clustering) или двухвходовое объединение (two-way joining).
Слайд 73

Алгоритм кластерного анализа Если выбран метод tree clustering, то выбираем метод

Алгоритм кластерного анализа

Если выбран метод tree clustering, то выбираем метод объединения

объектов в кластеры.
Затем выбираем правило определения сходства.
Если полученная структура не устраивает исследователя по каким-то параметрам или не поддается осмысленной интерпретации, то пробуем другие правила определения сходства (возвращаемся на п. 4).
Слайд 74

Алгоритм кластерного анализа Если ничего не получается, то можно попробовать разные

Алгоритм кластерного анализа

Если ничего не получается, то можно попробовать разные методы

объединения объектов в кластеры (возвращаемся на п.3).
Если это ничего не дает, то можно попробовать другой метод кластеризации (возвращаемся на п. 2)
Слайд 75

Алгоритм кластерного анализа Если выбран метод k-средних (k-means clustering), то выбираем

Алгоритм кластерного анализа

Если выбран метод k-средних (k-means clustering), то выбираем число

кластеров.
Затем выбираем условие, которое задает начальные центры кластеров.
Задаем минимальное число итераций побольше.
Если результаты не нравятся, можно попробовать другое условие для вычисления начальных центров (возвращаемся на п. 9).
Слайд 76

Алгоритм кластерного анализа Если и это ничего не дает, то можно

Алгоритм кластерного анализа

Если и это ничего не дает, то можно попробовать

взять другое количество кластеров (возвращаемся на п. 8).
Если это ничего не дает, то можно попробовать другой метод кластеризации (возвращаемся на п. 2)
Слайд 77

Алгоритм кластерного анализа Если выбран метод two-way joining, то возможности изменить

Алгоритм кластерного анализа

Если выбран метод two-way joining, то возможности изменить что-либо,

кроме переменных, участвующих в анализе, у пользователя нет. Поэтому следует просто попытаться интерпретировать результаты. Если это не получается, то, видимо, вы выбрали неудачный метод, и следует вернуться на п. 2.
Слайд 78

Полезная литература Просто и доходчиво кластерный анализ изложен в ☺ Боровиков

Полезная литература

Просто и доходчиво кластерный анализ изложен в
☺      Боровиков В. Программа

STATISTICA для студентов и инженеров. – Компьютер Пресс: Москва – 2001. – 301 с.
Слайд 79

Полезная литература Более подробное описание можно найти в книге: ☺ Факторный,

Полезная литература

Более подробное описание можно найти в книге:
☺      Факторный, дискриминантный и

кластерный анализ. – М.: Финансы и статистика
Слайд 80

Пример Цели дипломной работы: 1) выделить группы подростков, характеризующиеся различными предпочтениями

Пример

Цели дипломной работы:
1) выделить группы подростков, характеризующиеся различными предпочтениями жанров киноискусства

и телепередач
2) изучить взаимосвязь агрессивности подростков с передачами и фильмами, которые они любят и смотрят регулярно
Слайд 81

Пример Попытаемся разделить учащихся на основании сразу нескольких критериев, т.е. всех

Пример

Попытаемся разделить учащихся на основании сразу нескольких критериев, т.е. всех

перечисленных жанров киноискусства и телепередач, а для решения этой задачи используем кластерный анализ (метод k-средних).
Слайд 82

Пример

Пример

Слайд 83

Пример

Пример

Слайд 84

Пример

Пример

Слайд 85

Пример Таблица Х Уровни статистической значимости апостериорного критерия Дункана для сравнения

Пример

Таблица Х
Уровни статистической значимости апостериорного критерия Дункана для сравнения выраженности физической

агрессивности у трех групп испытуемых