Кластерный анализ

Август 6, 2022

Главная
Математика
Кластерный анализ

Содержание

2. Цели Что такое кластерный анализ и для чего он может понадобиться?
3. Кластерный анализ Если долго пытать данные, то они в конце концов сознаются…
4. Кластерный анализ это общее название множества вычислительных процедур, используемых при создании классификации. Главная цель кластерного анализа
5. Кластерный анализ Кластерный анализ – это метод, который позволяет разделить объекты СРАЗУ по нескольким характеристикам
6. Кластерный анализ Не существует общепринятого определения термина «кластер», однако считается, что кластеры обладают некоторыми свойствами, наиболее
7. Свойства кластеров Плотность – это свойство, которое позволяет определить кластер как скопление точек в пространстве данных,
8. Свойства кластеров Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера, т.е. насколько близко друг
9. Свойства кластеров Размеры тесно связано с дисперсией; если кластер можно идентифицировать, то можно измерить и его
10. Свойства кластеров Форма – это расположение точек в пространстве. Если кластеры имеют удлиненную форму, то вместо
11. Свойства кластеров Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от друга они расположены в
12. Кластерный анализ Таким образом, кластеры – это непрерывные области некоторого пространства с относительно высокой плотностью точек,
13. Кластерный анализ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺
14. Кластерный анализ можно сделать в программе STATISTICA, в специальном модуле Cluster Analysis Statistics ⇒ Multivariate Exploratory
15. Кластерный анализ
16. ПРЕДОСТЕРЕЖЕНИЯ! 1) Многие методы кластерного анализа – довольно простые процедуры, которые, как правило, не имеют достаточного
17. ПРЕДОСТЕРЕЖЕНИЯ! 2) Методы кластерного анализа разрабатывались для многих дисциплин, а потому несут на себе отпечатки специфики
18. ПРЕДОСТЕРЕЖЕНИЯ! 3) Разные кластерные методы могут порождать и порождают различные решения для одних и тех же
19. ПРЕДОСТЕРЕЖЕНИЯ! 4) Цель кластерного анализа заключается в поиске существующих структур. В то же время его действие
20. Выбор переменных Основная проблема состоит в том, чтобы найти ту совокупность переменных, которая наилучшим образом отражает
21. Выбор переменных - нормировка Обычно при выполнении кластерного анализа данные подвергаются нормировке таким образом, чтобы среднее
22. Выбор переменных - нормировка где х – среднее значение показателя в группе; хi – значение показателя
23. Выбор переменных - нормировка В программе Statistica выбираем (выделяем) переменные, которые хотим нормировать, затем нажимаем ПРАВУЮ
24. Выбор переменных - нормировка
25. Выбор переменных - нормировка Переменные после нормировки
26. Выбор переменных - нормировка Имеются, однако, некоторые разногласия относительно того, должна ли нормировка быть стандартной процедурой
27. Выбор переменных - нормировка Более целесообразно проводить нормировку внутри групп (т.е. внутри кластеров), но, очевидно, этого
28. Выбор переменных - нормировка Решение о проведении нормировки должно приниматься с учетом специфики решаемой задачи, при
29. Выбор переменных - взвешивание Взвешивание – это манипулирование значением переменной, позволяющее ей играть большую или меньшую
30. Методы кластерного анализа Разные методы кластерного анализа соответствуют различным подходам к созданию групп, и применение различных
31. Методы кластерного анализа Важно помнить, что выбранный метод должен находиться в согласии с ожидаемым характером классификации,
32. Методы кластерного анализа В программе STATISTICA реализованы следующие методы кластеризации: ☺ иерархический агломеративный (объединительный) метод –
33. Методы кластерного анализа
34. Агломеративный метод В агломеративных методах происходит последовательное объединение наиболее близких объектов в один кластер. Процесс такого
35. Агломеративный метод 1 3 6 5 4 2 1,0 0,9 0,8 0,7 0,6 0,5 сходство 0,0
36. Агломеративный метод Рубить дерево можно в любом месте!
37. Агломеративный метод 1 3 6 5 4 2 1,0 0,9 0,8 0,7 0,6 0,5 сходство 0,0
38. Агломеративный метод 1 3 6 5 4 2 1,0 0,9 0,8 0,7 0,6 0,5 сходство 0,0
39. Меры сходства Количественное оценивание сходства отталкивается от понятия метрики или расстояния (distance) между объектами. Интуитивно понятно,
40. Меры сходства ☺ Евклидова метрика – наиболее часто используемая мера сходства. Вы просто возводите в квадрат
41. Меры сходства Расстояние (x,y)= А В
42. Меры сходства ☺ Квадрат евклидовой метрики. Расстояние (x,y)=
43. Меры сходства ☺ Манхэттенское расстояние, или «расстояние городских кварталов». В этом случае просто берутся абсолютные значения
44. Меры сходства Аналогия в декартовой плоскости приводит к перемещениям только по линиям, параллельным осям координат, и
45. Меры сходства ☺ Метрика Чебышева Расстояние (x,y)=
46. Меры сходства ☺ Метрика Минковского. Расстояние (x,y)=
47. Меры сходства ☺ Коэффициент корреляции Пирсона (точнее, 1 - коэффициент корреляции Пирсона)
48. Меры сходства ☺ Коэффициент совстречаемости – метрика, наиболее пригодная для данных, представленных в шкалах наименований. Вычисляется
49. Меры сходства Однозначного ответа на вопрос, какую из мер сходства выбрать, не существует. Ответ зависит от
50. Правила объединения Кроме выбора меры сходства, исследователю предстоит задача выбора правила иерархического объединения кластеров. В программе
51. Правила объединения Single linkage – метод одиночной связи. На первом шаге объединяются два объекта, имеющие между
52. Правила объединения Complete linkage – метод полной связи. Этот метод позволяет устранить указанный недостаток. Здесь мера
53. Правила объединения Unweighted pair group average –метод «средней связи». В этом методе вычисляется среднее сходство рассматриваемого
54. Правила объединения Weighted pair group average – взвешенный метод «средней связи». Аналогичен предыдущему, за исключением того,
55. Правила объединения Unweighted pair group centroid –центроидный метод. Расстояние между двумя кластерами определяется как евклидово расстояние
56. Правила объединения Weighted pair group centroid – взвешенный центроидный метод. Аналогичен предыдущему, за исключением того, что
57. Правила объединения Ward method – метод Уорда. Идея этого метода состоит в том, чтобы проводить объединение,
58. Метод k-средних Это итеративный метод, который работает непосредственно с объектами, а не c матрицей сходства. Он
59. Метод k-средних Метод k-средних разобьет все объекты на заданное количество кластеров, которые будут максимально различаться между
60. Метод k-средних В этом методе объект относится к тому классу, расстояние до которого минимально. Расстояние понимается
61. Метод k-средних Вначале задается некоторое разбиение данных на кластеры (число кластеров определяется пользователем) и вычисляются центры
62. Метод k-средних Затем снова вычисляются центры тяжести новых кластеров и процесс повторяется, пока не будет найдена
63. Метод k-средних Можно сказать, что вычислительная процедура данного метода представляет собой дисперсионный анализ «наоборот». Программа начинает
64. Метод k-средних Это аналогично дисперсионному анализу «наоборот» в том смысле, что в дисперсионном анализе при определении
65. Метод k-средних В методе k-средних программа пытается перемещать объекты между группами (кластерами) таким образом, чтобы получить
66. Метод k-средних Кроме числа кластеров, пользователю также необходимо выбрать условие, которое задает начальные центры кластеров. Существует
67. Maximize between-cluster distances Если выбрано это условие, то за центр кластера принимается наблюдение или объект, а
68. Maximize between-cluster distances В этом случае программа выберет сначала первые N (число кластеров, заданное вами) наблюдений
69. Sort distances and take observations at constant intervals Если выбрано это условие, расстояния между объектами сначала
70. Choose the first N (number of clusters) clusters observations При выборе этого условия первые N (количество
71. Тwo-way joining применяется в тех (сравнительно редких) случаях, когда исследователь полагает, что и переменные, и наблюдения
72. Алгоритм кластерного анализа Заносим данные в программу. Возможно проводим процедуру нормировки. Выбираем метод - агломеративный (объединительный)
73. Алгоритм кластерного анализа Если выбран метод tree clustering, то выбираем метод объединения объектов в кластеры. Затем
74. Алгоритм кластерного анализа Если ничего не получается, то можно попробовать разные методы объединения объектов в кластеры
75. Алгоритм кластерного анализа Если выбран метод k-средних (k-means clustering), то выбираем число кластеров. Затем выбираем условие,
76. Алгоритм кластерного анализа Если и это ничего не дает, то можно попробовать взять другое количество кластеров
77. Алгоритм кластерного анализа Если выбран метод two-way joining, то возможности изменить что-либо, кроме переменных, участвующих в
78. Полезная литература Просто и доходчиво кластерный анализ изложен в ☺ Боровиков В. Программа STATISTICA для студентов
79. Полезная литература Более подробное описание можно найти в книге: ☺ Факторный, дискриминантный и кластерный анализ. –
80. Пример Цели дипломной работы: 1) выделить группы подростков, характеризующиеся различными предпочтениями жанров киноискусства и телепередач 2)
81. Пример Попытаемся разделить учащихся на основании сразу нескольких критериев, т.е. всех перечисленных жанров киноискусства и телепередач,
82. Пример
83. Пример
84. Пример
85. Пример Таблица Х Уровни статистической значимости апостериорного критерия Дункана для сравнения выраженности физической агрессивности у трех
87. Скачать презентацию

Слайд 2

Цели
Что такое кластерный анализ и для чего он может понадобиться?

Слайд 3

Кластерный анализ
Если долго пытать данные, то они в конце концов сознаются…

Слайд 4

Кластерный анализ
это общее название множества вычислительных процедур, используемых при создании классификации.

Главная цель кластерного анализа – нахождение групп схожих объектов в выборке данных. Эти группы удобно называть кластерами.

Слайд 5

Кластерный анализ
Кластерный анализ – это метод, который позволяет разделить объекты СРАЗУ

по нескольким характеристикам

Слайд 6

Кластерный анализ
Не существует общепринятого определения термина «кластер», однако считается, что кластеры

обладают некоторыми свойствами, наиболее важными из которых являются плотность, дисперсия, размеры, форма и отделимость.

Слайд 7

Свойства кластеров
Плотность – это свойство, которое позволяет определить кластер как скопление

точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащими их вовсе.

Слайд 8

Свойства кластеров
Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера,

т.е. насколько близко друг к другу расположены точки кластера.

Слайд 9

Свойства кластеров
Размеры тесно связано с дисперсией; если кластер можно идентифицировать, то

можно измерить и его «радиус». Это свойство полезно лишь в том случае, если рассматриваемые кластеры являются гиперсферами (т.е. имеют круглую форму) в многомерном пространстве, описываемом признаками.

Слайд 10

Свойства кластеров
Форма – это расположение точек в пространстве. Если кластеры имеют

удлиненную форму, то вместо размера можно вычислить его «связность» - относительную меру расстояния между точками.

Слайд 11

Свойства кластеров
Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от

друга они расположены в пространстве.

Слайд 12

Кластерный анализ
Таким образом, кластеры – это непрерывные области некоторого пространства с

относительно высокой плотностью точек, отделенные от других таких же областей областями с относительно низкой плотностью точек.

Слайд 13

Кластерный анализ
☺
☺
☺
☺
☺
☺
☺
☺
☺
☺

Слайд 14

Кластерный анализ
можно сделать в программе STATISTICA,
в специальном модуле
Cluster Analysis
Statistics ⇒

Multivariate Exploratory Techniques ⇒ Cluster Analysis

Слайд 15

Кластерный анализ

Слайд 16

ПРЕДОСТЕРЕЖЕНИЯ!
1) Многие методы кластерного анализа – довольно простые процедуры, которые, как

правило, не имеют достаточного статистического обоснования (то есть большинство методов являются эвристическими).

Слайд 17

ПРЕДОСТЕРЕЖЕНИЯ!
2) Методы кластерного анализа разрабатывались для многих дисциплин, а потому несут

на себе отпечатки специфики этих дисциплин.

Слайд 18

ПРЕДОСТЕРЕЖЕНИЯ!
3) Разные кластерные методы могут порождать и порождают различные решения для

одних и тех же данных.

Слайд 19

ПРЕДОСТЕРЕЖЕНИЯ!
4) Цель кластерного анализа заключается в поиске существующих структур. В то

же время его действие состоит в привнесении структуры в анализируемые данные, и эта структура может не совпадать с искомой «реальной».

Слайд 20

Выбор переменных
Основная проблема состоит в том, чтобы найти ту совокупность переменных,

которая наилучшим образом отражает понятие сходства. В идеале переменные должны выбираться в соответствии с ясно сформулированной теорией, которая лежит в основе классификации.

Слайд 21

Выбор переменных - нормировка
Обычно при выполнении кластерного анализа данные подвергаются нормировке

таким образом, чтобы среднее у всех переменных равнялось нулю, а дисперсия – единице.
Зачем?
Чтобы можно было сравнить все переменные между собой!

Слайд 22

Выбор переменных - нормировка
где х – среднее значение показателя в группе;
хi

– значение показателя конкретного обследуемого;
S – стандартное отклонение;
Z – оценка индивидуального показателя.

Слайд 23

Выбор переменных - нормировка
В программе Statistica
выбираем (выделяем) переменные, которые хотим

нормировать,
затем нажимаем ПРАВУЮ кнопку мыши, и
Fill/Standardize Block → Standardize Columns…

Слайд 24

Выбор переменных - нормировка

Слайд 25

Выбор переменных - нормировка
Переменные после нормировки

Слайд 26

Выбор переменных - нормировка
Имеются, однако, некоторые разногласия относительно того, должна ли

нормировка быть стандартной процедурой в кластерном анализе.
Нормировка к единичной дисперсии и нулевому среднему уменьшает различия между группами по тем переменным, по которым наилучшим образом обнаруживались групповые различия.

Слайд 27

Выбор переменных - нормировка
Более целесообразно проводить нормировку внутри групп (т.е. внутри

кластеров), но, очевидно, этого нельзя сделать, пока объекты не разнесены по группам.
Гм ….

Слайд 28

Выбор переменных - нормировка
Решение о проведении нормировки должно приниматься с учетом

специфики решаемой задачи, при этом пользователь должен понимать, что результаты могут различаться в зависимости от принятого решения, хотя величина воздействия будет меняться от одного множества данных к другому.

Слайд 29

Выбор переменных - взвешивание
Взвешивание – это манипулирование значением переменной, позволяющее ей

играть большую или меньшую роль в измерении сходства между объектами. Хотя эта идея и проста, ее практическое применение затруднительно. Видимо, имеет смысл взвешивать некоторые переменные априори, если для этого есть хорошее теоретическое обоснование.

Слайд 30

Методы кластерного анализа
Разные методы кластерного анализа соответствуют различным подходам к созданию

групп, и применение различных методов к одним и тем же данным может привести к сильно различающимся результатам.

Слайд 31

Методы кластерного анализа
Важно помнить, что выбранный метод должен находиться в согласии

с ожидаемым характером классификации, применяемыми признаками и мерой сходства.

Слайд 32

Методы кластерного анализа
В программе STATISTICA реализованы следующие методы кластеризации:
☺ иерархический

агломеративный (объединительный) метод – joining (tree clustering),
☺ итеративный метод k-средних (k-means clustering)
☺ двухвходовое объединение (two-way joining).

Слайд 33

Методы кластерного анализа

Слайд 34

Агломеративный метод
В агломеративных методах происходит последовательное объединение наиболее близких объектов в

один кластер. Процесс такого последовательного объединения можно показать на графике в виде дендрограммы, или дерева объединения.

Слайд 35

Агломеративный метод
1
3
6
5
4
2
1,0 0,9 0,8 0,7 0,6 0,5 сходство
0,0 0,1 0,2 0,3

0,4 0,5 различие

Слайд 36

Агломеративный метод
Рубить дерево можно в любом месте!

Слайд 37

Агломеративный метод
1
3
6
5
4
2
1,0 0,9 0,8 0,7 0,6 0,5 сходство
0,0 0,1 0,2 0,3

0,4 0,5 различие

Слайд 38

Агломеративный метод
1
3
6
5
4
2
1,0 0,9 0,8 0,7 0,6 0,5 сходство
0,0 0,1 0,2 0,3

0,4 0,5 различие

Слайд 39

Меры сходства
Количественное оценивание сходства отталкивается от понятия метрики или расстояния (distance)

между объектами. Интуитивно понятно, что чем меньше расстояние между объектами, тем больше сходство между ними.

Слайд 40

Меры сходства
☺ Евклидова метрика – наиболее часто используемая мера сходства. Вы

просто возводите в квадрат расстояния по каждой координате, суммируете их и из полученной суммы извлекаете квадратный корень.

Слайд 41

Меры сходства
Расстояние (x,y)=
А
В

Слайд 42

Меры сходства
☺ Квадрат евклидовой метрики.
Расстояние (x,y)=

Слайд 43

Меры сходства
☺ Манхэттенское расстояние, или «расстояние городских кварталов». В этом случае

просто берутся абсолютные значения покоординатных расстояний и суммируются.



Слайд 44

Меры сходства
Аналогия в декартовой плоскости приводит к перемещениям только по линиям,

параллельным осям координат, и соответственно, к манхэттенскому расстоянию.
Расстояние (x,y)=

Слайд 45

Меры сходства
☺ Метрика Чебышева
Расстояние (x,y)=

Слайд 46

Меры сходства
☺ Метрика Минковского.
Расстояние (x,y)=

Слайд 47

Меры сходства
☺ Коэффициент корреляции Пирсона (точнее, 1 - коэффициент корреляции Пирсона)

Слайд 48

Меры сходства
☺ Коэффициент совстречаемости – метрика, наиболее пригодная для данных, представленных

в шкалах наименований. Вычисляется как
Расстояние (x,y)=

Слайд 49

Меры сходства
Однозначного ответа на вопрос, какую из мер сходства выбрать, не

существует. Ответ зависит от типа данных и природы решаемой задачи.

Слайд 50

Правила объединения
Кроме выбора меры сходства, исследователю предстоит задача выбора правила иерархического

объединения кластеров. В программе реализованы следующие методы:

Слайд 51

Правила объединения
Single linkage – метод одиночной связи. На первом шаге объединяются

два объекта, имеющие между собой максимальную меру сходства. На следующем шаге к ним присоединяется объект с максимальной мерой сходства с одним из объектов кластера. Таким образом процесс продолжается дальше. Для включения объекта в кластер требуется максимальное сходство лишь с одним членом кластера.

Слайд 52

Правила объединения
Complete linkage – метод полной связи. Этот метод позволяет устранить

указанный недостаток. Здесь мера сходства между объектом – кандидатом на включение в кластер и всеми членами кластера не может быть меньше некоторого порогового значения.

Слайд 53

Правила объединения
Unweighted pair group average –метод «средней связи». В этом методе

вычисляется среднее сходство рассматриваемого объекта со всеми объектами в уже существующем кластере, а затем, если найденное среднее значение сходства достигает или превосходит некоторый заданный пороговый уровень сходства, объект присоединяется к этому кластеру. Чаще всего берется просто среднее арифметическое мер сходства между объектами кластера и кандидатом на включение.

Слайд 54

Правила объединения
Weighted pair group average – взвешенный метод «средней связи». Аналогичен

предыдущему, за исключением того, что в данном случае в качестве весов берутся размеры соответствующих кластеров (т.е., число объектов в кластере). Этот метод лучше использовать, если есть подозрения, что кластеры будут иметь размеры, сильно различающиеся между собой.

Слайд 55

Правила объединения
Unweighted pair group centroid –центроидный метод. Расстояние между двумя кластерами

определяется как евклидово расстояние между центрами (средними) этих кластеров. Кластеризация осуществляется поэтапно: на каждом шаге объединяют два кластера, расстояние между которыми минимально.

Слайд 56

Правила объединения
Weighted pair group centroid – взвешенный центроидный метод. Аналогичен предыдущему,

за исключением того, что в данном случае в качестве весов берутся размеры соответствующих кластеров (т.е., число объектов в кластере).

Слайд 57

Правила объединения
Ward method – метод Уорда. Идея этого метода состоит

в том, чтобы проводить объединение, дающее минимальное приращение внутригрупповой суммы квадратов отклонений, то есть оптимизировать минимальную дисперсию внутри кластеров.

Это хороший метод!

Слайд 58

Метод k-средних
Это итеративный метод, который работает непосредственно с объектами, а не

c матрицей сходства.
Он отличается тем, что позволяет заранее задать число кластеров. Это число определяет сам пользователь, исходя из имеющейся задачи и предсказаний теории.

Слайд 59

Метод k-средних
Метод k-средних разобьет все объекты на заданное количество кластеров, которые

будут максимально различаться между собой.

Слайд 60

Метод k-средних
В этом методе объект относится к тому классу, расстояние до

которого минимально. Расстояние понимается как евклидово расстояние, то есть объекты рассматриваются как точки евклидова пространства.

Слайд 61

Метод k-средних
Вначале задается некоторое разбиение данных на кластеры (число кластеров определяется

пользователем) и вычисляются центры тяжести кластеров. Затем происходит перемещение каждой точки в ближайшей к ней кластер.

Слайд 62

Метод k-средних
Затем снова вычисляются центры тяжести новых кластеров и процесс повторяется,

пока не будет найдена стабильная конфигурация (то есть кластеры перестанут изменяться) или число итераций не превысит заданное пользователем.

Слайд 63

Метод k-средних
Можно сказать, что вычислительная процедура данного метода представляет собой дисперсионный

анализ «наоборот». Программа начинает работу с k случайных кластеров, а затем перемещает объекты из одного кластера в другой с целью (1) минимизировать вариативность (дисперсию) внутри кластера и (2) максимизировать вариативность между кластерами.

Слайд 64

Метод k-средних
Это аналогично дисперсионному анализу «наоборот» в том смысле, что в

дисперсионном анализе при определении значимости различий в средних значениях групп оценивается межгрупповая дисперсия в сравнении с внутригрупповой дисперсией.

Слайд 65

Метод k-средних
В методе k-средних программа пытается перемещать объекты между группами (кластерами)

таким образом, чтобы получить наиболее значимые результаты дисперсионного анализа. Поэтому и результаты этого самого дисперсионного анализа приводятся в разделе результатов применения данного метода.

Слайд 66

Метод k-средних
Кроме числа кластеров, пользователю также необходимо выбрать условие, которое задает

начальные центры кластеров. Существует три возможности:
∙ Maximize between-cluster distances.
∙ Sort distances and take observations at constant intervals.
∙ Choose the first N (number of clusters) clusters observations.

Слайд 67

Maximize between-cluster distances
Если выбрано это условие, то за центр кластера принимается

наблюдение или объект, а выбор объектов следует правилу максимизации начальных расстояний между кластерами.

Слайд 68

Maximize between-cluster distances
В этом случае программа
выберет сначала первые N

(число кластеров, заданное вами) наблюдений в качестве центров кластеров;
(2) последующие наблюдения заменят выбранные центры кластеров, если наименьшее расстояние от них до любого другого центра кластера больше, чем наименьшее расстояние между кластерами.

Слайд 69

Sort distances and take observations at constant intervals
Если выбрано это условие,

расстояния между объектами сначала будут упорядочены, а затем объекты с одинаковыми расстояниями будут выбраны в качестве центров кластеров.
(Выбирается по умолчанию)

Слайд 70

Choose the first N (number of clusters) clusters observations
При выборе этого

условия первые N (количество кластеров) наблюдений будут выбраны в качестве начальных центров кластеров. Таким образом, это условие дает пользователю возможность контроля выбора начальной конфигурации. Это бывает полезно, если исследователь хочет проверить какие-то начальные предположения о составе кластеров. В этом случае передвиньте те наблюдения, вокруг которых вы хотите сгруппировать все остальные, в начало файла.

Слайд 71

Тwo-way joining
применяется в тех (сравнительно редких) случаях, когда исследователь полагает,

что и переменные, и наблюдения одновременно вносят вклад в определение «реальной» структуры. Результаты этого метода достаточно сложно интерпретировать, так как сходство между различными кластерами может объясняться различными подмножествами переменных, что приводит к неоднородности результирующей структуры.

Слайд 72

Алгоритм кластерного анализа
Заносим данные в программу. Возможно проводим процедуру нормировки.
Выбираем метод

- агломеративный (объединительный) метод (joining (tree clustering)), итеративный метод k-средних (k-means clustering) или двухвходовое объединение (two-way joining).

Слайд 73

Алгоритм кластерного анализа
Если выбран метод tree clustering, то выбираем метод объединения

объектов в кластеры.
Затем выбираем правило определения сходства.
Если полученная структура не устраивает исследователя по каким-то параметрам или не поддается осмысленной интерпретации, то пробуем другие правила определения сходства (возвращаемся на п. 4).

Слайд 74

Алгоритм кластерного анализа
Если ничего не получается, то можно попробовать разные методы

объединения объектов в кластеры (возвращаемся на п.3).
Если это ничего не дает, то можно попробовать другой метод кластеризации (возвращаемся на п. 2)

Слайд 75

Алгоритм кластерного анализа
Если выбран метод k-средних (k-means clustering), то выбираем число

кластеров.
Затем выбираем условие, которое задает начальные центры кластеров.
Задаем минимальное число итераций побольше.
Если результаты не нравятся, можно попробовать другое условие для вычисления начальных центров (возвращаемся на п. 9).

Слайд 76

Алгоритм кластерного анализа
Если и это ничего не дает, то можно попробовать

взять другое количество кластеров (возвращаемся на п. 8).
Если это ничего не дает, то можно попробовать другой метод кластеризации (возвращаемся на п. 2)

Слайд 77

Алгоритм кластерного анализа
Если выбран метод two-way joining, то возможности изменить что-либо,

кроме переменных, участвующих в анализе, у пользователя нет. Поэтому следует просто попытаться интерпретировать результаты. Если это не получается, то, видимо, вы выбрали неудачный метод, и следует вернуться на п. 2.

Слайд 78

Полезная литература
Просто и доходчиво кластерный анализ изложен в
☺ Боровиков В. Программа

STATISTICA для студентов и инженеров. – Компьютер Пресс: Москва – 2001. – 301 с.

Слайд 79

Полезная литература
Более подробное описание можно найти в книге:
☺ Факторный, дискриминантный и

кластерный анализ. – М.: Финансы и статистика

Слайд 80

Пример
Цели дипломной работы:
1) выделить группы подростков, характеризующиеся различными предпочтениями жанров киноискусства

и телепередач
2) изучить взаимосвязь агрессивности подростков с передачами и фильмами, которые они любят и смотрят регулярно

Слайд 81

Пример
Попытаемся разделить учащихся на основании сразу нескольких критериев, т.е. всех

перечисленных жанров киноискусства и телепередач, а для решения этой задачи используем кластерный анализ (метод k-средних).

Слайд 82

Пример

Слайд 83

Пример

Слайд 84

Пример

Слайд 85

Пример
Таблица Х
Уровни статистической значимости апостериорного критерия Дункана для сравнения выраженности физической

агрессивности у трех групп испытуемых

Кластерный анализ

Содержание

ЦелиЧто такое кластерный анализ и для чего он может понадобиться?

Кластерный анализЕсли долго пытать данные, то они в конце концов сознаются…

Кластерный анализэто общее название множества вычислительных процедур, используемых при создании классификации.

Кластерный анализКластерный анализ – это метод, который позволяет разделить объекты СРАЗУ

Кластерный анализНе существует общепринятого определения термина «кластер», однако считается, что кластеры

Свойства кластеровПлотность – это свойство, которое позволяет определить кластер как скопление

Свойства кластеровДисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера,

Свойства кластеровРазмеры тесно связано с дисперсией; если кластер можно идентифицировать, то

Свойства кластеровФорма – это расположение точек в пространстве. Если кластеры имеют

Свойства кластеровОтделимость характеризует степень перекрытия кластеров и насколько далеко друг от

Кластерный анализТаким образом, кластеры – это непрерывные области некоторого пространства с

Кластерный анализ☺☺☺☺☺☺☺☺☺☺

Кластерный анализможно сделать в программе STATISTICA, в специальном модулеCluster AnalysisStatistics ⇒

Кластерный анализ

ПРЕДОСТЕРЕЖЕНИЯ!1) Многие методы кластерного анализа – довольно простые процедуры, которые, как

ПРЕДОСТЕРЕЖЕНИЯ!2) Методы кластерного анализа разрабатывались для многих дисциплин, а потому несут

ПРЕДОСТЕРЕЖЕНИЯ!3) Разные кластерные методы могут порождать и порождают различные решения для

ПРЕДОСТЕРЕЖЕНИЯ!4) Цель кластерного анализа заключается в поиске существующих структур. В то

Выбор переменныхОсновная проблема состоит в том, чтобы найти ту совокупность переменных,

Выбор переменных - нормировкаОбычно при выполнении кластерного анализа данные подвергаются нормировке

Выбор переменных - нормировкагде х – среднее значение показателя в группе;хi

Выбор переменных - нормировкаВ программе Statistica выбираем (выделяем) переменные, которые хотим

Выбор переменных - нормировка

Выбор переменных - нормировкаПеременные после нормировки

Выбор переменных - нормировкаИмеются, однако, некоторые разногласия относительно того, должна ли

Выбор переменных - нормировкаБолее целесообразно проводить нормировку внутри групп (т.е. внутри

Выбор переменных - нормировкаРешение о проведении нормировки должно приниматься с учетом

Выбор переменных - взвешиваниеВзвешивание – это манипулирование значением переменной, позволяющее ей

Методы кластерного анализаРазные методы кластерного анализа соответствуют различным подходам к созданию

Методы кластерного анализаВажно помнить, что выбранный метод должен находиться в согласии

Методы кластерного анализаВ программе STATISTICA реализованы следующие методы кластеризации: ☺ иерархический

Методы кластерного анализа

Агломеративный методВ агломеративных методах происходит последовательное объединение наиболее близких объектов в

Агломеративный метод1365421,0 0,9 0,8 0,7 0,6 0,5 сходство0,0 0,1 0,2 0,3

Агломеративный методРубить дерево можно в любом месте!

Агломеративный метод1365421,0 0,9 0,8 0,7 0,6 0,5 сходство0,0 0,1 0,2 0,3

Агломеративный метод1365421,0 0,9 0,8 0,7 0,6 0,5 сходство0,0 0,1 0,2 0,3

Меры сходстваКоличественное оценивание сходства отталкивается от понятия метрики или расстояния (distance)

Меры сходства☺ Евклидова метрика – наиболее часто используемая мера сходства. Вы

Меры сходстваРасстояние (x,y)= АВ

Меры сходства☺ Квадрат евклидовой метрики. Расстояние (x,y)=

Меры сходства☺ Манхэттенское расстояние, или «расстояние городских кварталов». В этом случае

Меры сходстваАналогия в декартовой плоскости приводит к перемещениям только по линиям,

Меры сходства☺ Метрика Чебышева Расстояние (x,y)=

Меры сходства☺ Метрика Минковского. Расстояние (x,y)=

Меры сходства☺ Коэффициент корреляции Пирсона (точнее, 1 - коэффициент корреляции Пирсона)

Меры сходства☺ Коэффициент совстречаемости – метрика, наиболее пригодная для данных, представленных

Меры сходстваОднозначного ответа на вопрос, какую из мер сходства выбрать, не

Правила объединенияКроме выбора меры сходства, исследователю предстоит задача выбора правила иерархического

Правила объединенияSingle linkage – метод одиночной связи. На первом шаге объединяются

Правила объединенияComplete linkage – метод полной связи. Этот метод позволяет устранить

Правила объединенияUnweighted pair group average –метод «средней связи». В этом методе

Правила объединенияWeighted pair group average – взвешенный метод «средней связи». Аналогичен

Правила объединенияUnweighted pair group centroid –центроидный метод. Расстояние между двумя кластерами

Правила объединенияWeighted pair group centroid – взвешенный центроидный метод. Аналогичен предыдущему,

Правила объединения Ward method – метод Уорда. Идея этого метода состоит

Метод k-среднихЭто итеративный метод, который работает непосредственно с объектами, а не

Метод k-среднихМетод k-средних разобьет все объекты на заданное количество кластеров, которые

Метод k-среднихВ этом методе объект относится к тому классу, расстояние до

Метод k-среднихВначале задается некоторое разбиение данных на кластеры (число кластеров определяется

Метод k-среднихЗатем снова вычисляются центры тяжести новых кластеров и процесс повторяется,

Метод k-среднихМожно сказать, что вычислительная процедура данного метода представляет собой дисперсионный

Метод k-среднихЭто аналогично дисперсионному анализу «наоборот» в том смысле, что в

Метод k-среднихВ методе k-средних программа пытается перемещать объекты между группами (кластерами)

Метод k-среднихКроме числа кластеров, пользователю также необходимо выбрать условие, которое задает

Maximize between-cluster distancesЕсли выбрано это условие, то за центр кластера принимается

Maximize between-cluster distancesВ этом случае программа выберет сначала первые N

Sort distances and take observations at constant intervalsЕсли выбрано это условие,

Choose the first N (number of clusters) clusters observationsПри выборе этого

Тwo-way joining применяется в тех (сравнительно редких) случаях, когда исследователь полагает,

Алгоритм кластерного анализаЗаносим данные в программу. Возможно проводим процедуру нормировки.Выбираем метод

Алгоритм кластерного анализаЕсли выбран метод tree clustering, то выбираем метод объединения

Алгоритм кластерного анализаЕсли ничего не получается, то можно попробовать разные методы

Алгоритм кластерного анализаЕсли выбран метод k-средних (k-means clustering), то выбираем число

Цели
Что такое кластерный анализ и для чего он может понадобиться?

Кластерный анализ
Если долго пытать данные, то они в конце концов сознаются…

Кластерный анализ
это общее название множества вычислительных процедур, используемых при создании классификации.

Кластерный анализ
Кластерный анализ – это метод, который позволяет разделить объекты СРАЗУ

Кластерный анализ
Не существует общепринятого определения термина «кластер», однако считается, что кластеры

Свойства кластеров
Плотность – это свойство, которое позволяет определить кластер как скопление

Свойства кластеров
Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера,

Свойства кластеров
Размеры тесно связано с дисперсией; если кластер можно идентифицировать, то

Свойства кластеров
Форма – это расположение точек в пространстве. Если кластеры имеют

Свойства кластеров
Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от

Кластерный анализ
Таким образом, кластеры – это непрерывные области некоторого пространства с

Кластерный анализ
☺
☺
☺
☺
☺
☺
☺
☺
☺
☺

Кластерный анализ
можно сделать в программе STATISTICA,
в специальном модуле
Cluster Analysis
Statistics ⇒

ПРЕДОСТЕРЕЖЕНИЯ!
1) Многие методы кластерного анализа – довольно простые процедуры, которые, как

ПРЕДОСТЕРЕЖЕНИЯ!
2) Методы кластерного анализа разрабатывались для многих дисциплин, а потому несут

ПРЕДОСТЕРЕЖЕНИЯ!
3) Разные кластерные методы могут порождать и порождают различные решения для

ПРЕДОСТЕРЕЖЕНИЯ!
4) Цель кластерного анализа заключается в поиске существующих структур. В то

Выбор переменных
Основная проблема состоит в том, чтобы найти ту совокупность переменных,

Выбор переменных - нормировка
Обычно при выполнении кластерного анализа данные подвергаются нормировке

Выбор переменных - нормировка
где х – среднее значение показателя в группе;
хi

Выбор переменных - нормировка
В программе Statistica
выбираем (выделяем) переменные, которые хотим

Выбор переменных - нормировка
Переменные после нормировки

Выбор переменных - нормировка
Имеются, однако, некоторые разногласия относительно того, должна ли

Выбор переменных - нормировка
Более целесообразно проводить нормировку внутри групп (т.е. внутри

Выбор переменных - нормировка
Решение о проведении нормировки должно приниматься с учетом

Выбор переменных - взвешивание
Взвешивание – это манипулирование значением переменной, позволяющее ей

Методы кластерного анализа
Разные методы кластерного анализа соответствуют различным подходам к созданию

Методы кластерного анализа
Важно помнить, что выбранный метод должен находиться в согласии

Методы кластерного анализа
В программе STATISTICA реализованы следующие методы кластеризации:
☺ иерархический

Агломеративный метод
В агломеративных методах происходит последовательное объединение наиболее близких объектов в

Агломеративный метод
1
3
6
5
4
2
1,0 0,9 0,8 0,7 0,6 0,5 сходство
0,0 0,1 0,2 0,3

Агломеративный метод
Рубить дерево можно в любом месте!

Агломеративный метод
1
3
6
5
4
2
1,0 0,9 0,8 0,7 0,6 0,5 сходство
0,0 0,1 0,2 0,3

Агломеративный метод
1
3
6
5
4
2
1,0 0,9 0,8 0,7 0,6 0,5 сходство
0,0 0,1 0,2 0,3

Меры сходства
Количественное оценивание сходства отталкивается от понятия метрики или расстояния (distance)

Меры сходства
☺ Евклидова метрика – наиболее часто используемая мера сходства. Вы

Меры сходства
Расстояние (x,y)=
А
В

Меры сходства
☺ Квадрат евклидовой метрики.
Расстояние (x,y)=

Меры сходства
☺ Манхэттенское расстояние, или «расстояние городских кварталов». В этом случае

Меры сходства
Аналогия в декартовой плоскости приводит к перемещениям только по линиям,

Меры сходства
☺ Метрика Чебышева
Расстояние (x,y)=

Меры сходства
☺ Метрика Минковского.
Расстояние (x,y)=

Меры сходства
☺ Коэффициент корреляции Пирсона (точнее, 1 - коэффициент корреляции Пирсона)

Меры сходства
☺ Коэффициент совстречаемости – метрика, наиболее пригодная для данных, представленных

Меры сходства
Однозначного ответа на вопрос, какую из мер сходства выбрать, не

Правила объединения
Кроме выбора меры сходства, исследователю предстоит задача выбора правила иерархического

Правила объединения
Single linkage – метод одиночной связи. На первом шаге объединяются

Правила объединения
Complete linkage – метод полной связи. Этот метод позволяет устранить

Правила объединения
Unweighted pair group average –метод «средней связи». В этом методе

Правила объединения
Weighted pair group average – взвешенный метод «средней связи». Аналогичен

Правила объединения
Unweighted pair group centroid –центроидный метод. Расстояние между двумя кластерами

Правила объединения
Weighted pair group centroid – взвешенный центроидный метод. Аналогичен предыдущему,

Правила объединения
Ward method – метод Уорда. Идея этого метода состоит

Метод k-средних
Это итеративный метод, который работает непосредственно с объектами, а не

Метод k-средних
Метод k-средних разобьет все объекты на заданное количество кластеров, которые

Метод k-средних
В этом методе объект относится к тому классу, расстояние до

Метод k-средних
Вначале задается некоторое разбиение данных на кластеры (число кластеров определяется

Метод k-средних
Затем снова вычисляются центры тяжести новых кластеров и процесс повторяется,

Метод k-средних
Можно сказать, что вычислительная процедура данного метода представляет собой дисперсионный

Метод k-средних
Это аналогично дисперсионному анализу «наоборот» в том смысле, что в

Метод k-средних
В методе k-средних программа пытается перемещать объекты между группами (кластерами)

Метод k-средних
Кроме числа кластеров, пользователю также необходимо выбрать условие, которое задает

Maximize between-cluster distances
Если выбрано это условие, то за центр кластера принимается

Maximize between-cluster distances
В этом случае программа
выберет сначала первые N

Sort distances and take observations at constant intervals
Если выбрано это условие,

Choose the first N (number of clusters) clusters observations
При выборе этого

Тwo-way joining
применяется в тех (сравнительно редких) случаях, когда исследователь полагает,

Алгоритм кластерного анализа
Заносим данные в программу. Возможно проводим процедуру нормировки.
Выбираем метод

Алгоритм кластерного анализа
Если выбран метод tree clustering, то выбираем метод объединения

Алгоритм кластерного анализа
Если ничего не получается, то можно попробовать разные методы

Алгоритм кластерного анализа
Если выбран метод k-средних (k-means clustering), то выбираем число