Кластерный анализ. Практическое занятие №3

Июль 30, 2022

Главная
Математика
Кластерный анализ. Практическое занятие №3

Содержание

2. План занятия 1. Кластерный анализ. 2. Построение кластеров в программе Excel.
3. Методы многомерного анализа (multivariate analysis methods) МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ [multidimensional, multivariate statistical analysis] — раздел математической
4. Классификация многомерных методов По назначению: Методы предсказания (экстраполяции): множественный регрессионный и дискриминантный анализ Методы классификации: варианты
5. Кластерный анализ Цихончик Н.В., 2016 Кластерный анализ объединяет кластеры и переменные (объекты), похожие друг на друга.
6. Кластерный анализ Кластерный анализ предназначен для разбиения совокупности объектов на однородные группы (кластеры или классы). По
7. По сути, кластерный анализ – это совокупность инструментов для классификации многомерных объектов. Метод подразумевает определение расстояния
8. Преимущества метода: позволяет разбивать многомерный ряд сразу по целому набору параметров; можно рассматривать данные практически любой
9. Данные для кластерного анализа Кластерный анализ можно применять к интервальным данным, частотам, бинарными данным. Важно, чтобы
10. Кластер Кластер – это совокупность однородных элементов, идентичных объектов, образующих группу единиц Кластер имеет следующие математические
11. Методы кластерного анализа Методы кластерного анализа можно разделить на две группы: иерархические; неиерархические. В качестве основных
12. Методы кластерного анализа: иерархические Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или
13. Дендрограмма Дендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из которых соответствует одному из шагов
14. Определение количества кластеров способ сводится к определению скачкообразного увеличения некоторого коэффициента, который характеризует переход от сильно
15. Методы кластерного анализа: неиерархические основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности В
16. Практическая часть - построение кластеров в программе Excel
17. С помощью кластерного анализа можно проводить выборку по признаку, который исследуется. Его основная задача – разбиение
18. Пример использования Имеем пять объектов, которые характеризуются по двум изучаемым параметрам.
19. Шаг 1 Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется по шаблону: =КОРЕНЬ((x2-x1)^2+(y2-y1)^2) Данное значение
20. Шаг 1 =КОРЕНЬ((D3-C3)^2+(D4-C4)^2)
21. Шаг 2 Смотрим, между какими значениями дистанция меньше всего. В нашем примере — это объекты 1
22. Шаг 2
23. Шаг 3 Опять смотрим, между какими элементами расстояние минимально. На этот раз – это объект 5
24. Шаг 3 Добавляем указанные элементы в общий кластер. Формируем новую матрицу по тому же принципу, что
25. Шаг 4 Добавляем указанные элементы в общий кластер. Формируем новую матрицу по тому же принципу, что
26. Шаг 4 Таким образом, мы видим, что нашу совокупность данных можно разбить на два кластера. В
27. Шаг 5 На этом завершается процедура разбиения совокупности на группы. 1 кластер – респонденты, у которых
28. Задание 1
29. Задание 2
30. Задание 3
32. Скачать презентацию

Слайд 2

План занятия
1. Кластерный анализ.
2. Построение кластеров в программе Excel.

Слайд 3

Методы многомерного анализа (multivariate analysis methods)
МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ [multidimensional, multivariate statistical

analysis] — раздел математической статистики, объединяющий методы изучения статистических данных, которые являются значениями многомерных качественных или количественных признаков

Цихончик Н.В., 2016

Слайд 4

Классификация многомерных методов
По назначению:
Методы предсказания (экстраполяции): множественный регрессионный и дискриминантный анализ
Методы

классификации: варианты кластерного анализа (без обучения) и дискриминантный анализ
Структурные методы: факторный анализ и многомерное шкалирование

Цихончик Н.В., 2016

Слайд 5

Кластерный анализ
Цихончик Н.В., 2016
Кластерный анализ объединяет кластеры и переменные (объекты), похожие

друг на друга.
Он позволяет разбить выборку на несколько групп по исследуемому признаку, проанализировать группы (как группируются переменные), группировку объектов (как группируются объекты).

Слайд 6

Кластерный анализ
Кластерный анализ предназначен для разбиения совокупности объектов на однородные группы

(кластеры или классы). По сути это задача многомерной классификации данных

Цихончик Н.В., 2016

Слайд 7

По сути, кластерный анализ – это совокупность инструментов для классификации многомерных

объектов. Метод подразумевает определение расстояния между переменными (дельты) и последующее выделение групп наблюдений (кластеров).
Техника кластеризации применяется в самых разнообразных областях. Главное задача – разбить многомерный ряд исследуемых значений (объектов, переменных, признаков) на однородные группы, кластеры. То есть данные классифицируются и структурируются.
Вопрос, который задает исследователь при использовании кластерного анализа, – как организовать многомерную выборку в наглядные структуры.
Примеры использования кластерного анализа:
В биологии – для определения видов животных на Земле.
В медицине – для классификации заболеваний по группам симптомов и способам терапии.
В психологии – для определения типов поведения личности в определенных ситуациях.
В экономическом анализе – при изучении и прогнозировании экономической депрессии, исследовании конъюнктуры.
В разнообразных маркетинговых исследованиях.
Когда нужно преобразовать «горы» информации в пригодные для дальнейшего изучения группы, используют кластерный анализ.

Слайд 8

Преимущества метода:
позволяет разбивать многомерный ряд сразу по целому набору параметров;
можно рассматривать

данные практически любой природы (нет ограничений на вид исследуемых объектов);
можно обрабатывать значительные объемы информации, резко сжимать их, делать компактными и наглядными;
может применяться циклически (проводится до тех пор, пока не будет достигнут нужный результат; а после каждого цикла возможно значительное изменение направленности дальнейшего исследования).
Кластерный анализ имеет и свои недостатки:
состав и количество кластеров зависит от заданного критерия разбиения;
при преобразовании исходного набора данных в компактные группы исходная информация может искажаться, отдельные объекты могут терять свою индивидуальность;
часто игнорируется отсутствие в анализируемой совокупности некоторых значений кластеров.

Слайд 9

Данные для кластерного анализа
Кластерный анализ можно применять к интервальным данным, частотам,

бинарными данным. Важно, чтобы переменные изменялись в сравнимых шкалах
Чтобы устранить неоднородность измерения исходных данных, все их значения предварительно нормируются, т.е. выражаются через отношение этих значений к некоторой величине, отражающей определенные свойства данного показателя

Цихончик Н.В., 2016

Слайд 10

Кластер
Кластер – это совокупность однородных элементов, идентичных объектов, образующих группу единиц
Кластер

имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера.
Центр кластера - это среднее геометрическое место точек в пространстве переменных.
Радиус кластера - максимальное расстояние точек от центра кластера.

Цихончик Н.В., 2016

Слайд 11

Методы кластерного анализа
Методы кластерного анализа можно разделить на две группы:

иерархические;
неиерархические.
В качестве основных методов анализа пакет STATISTICA предлагает Joining (tree clustering) – группу иерархических методов (7 видов), которые используются в том случае, если число кластеров заранее неизвестно, и K-Means Clustering (метод К-средних), в котором пользователь заранее определяет количество кластеров.

Цихончик Н.В., 2016

Слайд 12

Методы кластерного анализа: иерархические
Суть иерархической кластеризации состоит в последовательном объединении

меньших кластеров в большие или разделении больших кластеров на меньшие
используются при небольших объемах наборов данных
Преимуществом является их наглядность
связаны с построением дендрограмм

Цихончик Н.В., 2016

Слайд 13

Дендрограмма
Дендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из которых

соответствует одному из шагов процесса последовательного укрупнения кластеров.

Цихончик Н.В., 2016

Слайд 14

Определение количества кластеров
способ сводится к определению скачкообразного увеличения некоторого коэффициента,

который характеризует переход от сильно связанного к слабо связанному состоянию объектов

Цихончик Н.В., 2016

Слайд 15

Методы кластерного анализа: неиерархические
основанные на разделении, которые представляют собой итеративные

методы дробления исходной совокупности
В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки

Цихончик Н.В., 2016

Слайд 16

Практическая часть - построение кластеров в программе Excel

Слайд 17

С помощью кластерного анализа можно проводить выборку по признаку, который исследуется.

Его основная задача – разбиение многомерного массива на однородные группы.
В качестве критерия группировки применяется парный коэффициент корреляции или эвклидово расстояние между объектами по заданному параметру. Наиболее близкие друг к другу значения группируются вместе.
Кластерный анализ можно применять, используя для этих целей стандартный набор инструментов Эксель.

Слайд 18

Пример использования
Имеем пять объектов, которые характеризуются по двум изучаемым параметрам.

Слайд 19

Шаг 1
Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется по

шаблону:
=КОРЕНЬ((x2-x1)^2+(y2-y1)^2)
Данное значение вычисляем между каждым из пяти объектов. Результаты расчета помещаем в матрице расстояний.

Слайд 20

Шаг 1
=КОРЕНЬ((D3-C3)^2+(D4-C4)^2)

Слайд 21

Шаг 2
Смотрим, между какими значениями дистанция меньше всего. В нашем примере

— это объекты 1 и 2. Расстояние между ними составляет 13,41641, что меньше, чем между любыми другими элементами данной совокупности.
Объединяем эти данные в группу и формируем новую матрицу, в которой значения 1,2 выступают отдельным элементом. При составлении матрицы оставляем наименьшие значения из предыдущей таблицы для объединенного элемента.

Слайд 22

Шаг 2

Слайд 23

Шаг 3
Опять смотрим, между какими элементами расстояние минимально.
На этот раз

– это объект 5 и группа объектов 1,2. Дистанция составляет 15,65248.

Слайд 24

Шаг 3
Добавляем указанные элементы в общий кластер. Формируем новую матрицу по

тому же принципу, что и в предыдущий раз. То есть, ищем самые меньшие значения.

Слайд 25

Шаг 4
Добавляем указанные элементы в общий кластер. Формируем новую матрицу по

тому же принципу, что и в предыдущий раз. То есть, ищем самые меньшие значения.

Слайд 26

Шаг 4
Таким образом, мы видим, что нашу совокупность данных можно разбить

на два кластера. В первом кластере находятся наиболее близкие между собой элементы – 1,2,4,5. Во втором кластере в нашем случае представлен только один элемент — 3. Он находится сравнительно в отдалении от других объектов. Расстояние между кластерами составляет 38,69936.

Слайд 27

Шаг 5
На этом завершается процедура разбиения совокупности на группы.
1 кластер –

респонденты, у которых расходы на питание составляют большую часть дохода (4 из 5 человек, т.е. 80%)
2 кластер – это респондент, расходы на питание которого составляют меньшую часть бюджета (1 из 5 человек, т.е. 20% выборки).

Слайд 28

Задание 1

Слайд 29

Задание 2

Слайд 30

Кластерный анализ. Практическое занятие №3

Содержание

План занятия1. Кластерный анализ. 2. Построение кластеров в программе Excel.

Методы многомерного анализа (multivariate analysis methods)МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ [multidimensional, multivariate statistical

Классификация многомерных методовПо назначению:Методы предсказания (экстраполяции): множественный регрессионный и дискриминантный анализМетоды

Кластерный анализЦихончик Н.В., 2016Кластерный анализ объединяет кластеры и переменные (объекты), похожие

Кластерный анализКластерный анализ предназначен для разбиения совокупности объектов на однородные группы

По сути, кластерный анализ – это совокупность инструментов для классификации многомерных

Преимущества метода:позволяет разбивать многомерный ряд сразу по целому набору параметров;можно рассматривать

Данные для кластерного анализаКластерный анализ можно применять к интервальным данным, частотам,

КластерКластер – это совокупность однородных элементов, идентичных объектов, образующих группу единицКластер

Методы кластерного анализа Методы кластерного анализа можно разделить на две группы:

Методы кластерного анализа: иерархические Суть иерархической кластеризации состоит в последовательном объединении

ДендрограммаДендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из которых

Определение количества кластеров способ сводится к определению скачкообразного увеличения некоторого коэффициента,

Методы кластерного анализа: неиерархические основанные на разделении, которые представляют собой итеративные

Практическая часть - построение кластеров в программе Excel

С помощью кластерного анализа можно проводить выборку по признаку, который исследуется.

Пример использованияИмеем пять объектов, которые характеризуются по двум изучаемым параметрам.

Шаг 1Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется по

Шаг 1=КОРЕНЬ((D3-C3)^2+(D4-C4)^2)

Шаг 2Смотрим, между какими значениями дистанция меньше всего. В нашем примере

Шаг 2

Шаг 3Опять смотрим, между какими элементами расстояние минимально. На этот раз

Шаг 3Добавляем указанные элементы в общий кластер. Формируем новую матрицу по

Шаг 4Добавляем указанные элементы в общий кластер. Формируем новую матрицу по

Шаг 4Таким образом, мы видим, что нашу совокупность данных можно разбить

Шаг 5На этом завершается процедура разбиения совокупности на группы.1 кластер –

Задание 1

Задание 2

Задание 3

Похожие презентации

План занятия
1. Кластерный анализ.
2. Построение кластеров в программе Excel.

Методы многомерного анализа (multivariate analysis methods)
МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ [multidimensional, multivariate statistical

Классификация многомерных методов
По назначению:
Методы предсказания (экстраполяции): множественный регрессионный и дискриминантный анализ
Методы

Кластерный анализ
Цихончик Н.В., 2016
Кластерный анализ объединяет кластеры и переменные (объекты), похожие

Кластерный анализ
Кластерный анализ предназначен для разбиения совокупности объектов на однородные группы

Преимущества метода:
позволяет разбивать многомерный ряд сразу по целому набору параметров;
можно рассматривать

Данные для кластерного анализа
Кластерный анализ можно применять к интервальным данным, частотам,

Кластер
Кластер – это совокупность однородных элементов, идентичных объектов, образующих группу единиц
Кластер

Методы кластерного анализа
Методы кластерного анализа можно разделить на две группы:

Методы кластерного анализа: иерархические
Суть иерархической кластеризации состоит в последовательном объединении

Дендрограмма
Дендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из которых

Определение количества кластеров
способ сводится к определению скачкообразного увеличения некоторого коэффициента,

Методы кластерного анализа: неиерархические
основанные на разделении, которые представляют собой итеративные

Пример использования
Имеем пять объектов, которые характеризуются по двум изучаемым параметрам.

Шаг 1
Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется по

Шаг 1
=КОРЕНЬ((D3-C3)^2+(D4-C4)^2)

Шаг 2
Смотрим, между какими значениями дистанция меньше всего. В нашем примере

Шаг 3
Опять смотрим, между какими элементами расстояние минимально.
На этот раз

Шаг 3
Добавляем указанные элементы в общий кластер. Формируем новую матрицу по

Шаг 4
Добавляем указанные элементы в общий кластер. Формируем новую матрицу по

Шаг 4
Таким образом, мы видим, что нашу совокупность данных можно разбить

Шаг 5
На этом завершается процедура разбиения совокупности на группы.
1 кластер –