Кластерный анализ. Практическое занятие №3

Содержание

Слайд 2

План занятия 1. Кластерный анализ. 2. Построение кластеров в программе Excel.

План занятия

1. Кластерный анализ.
2. Построение кластеров в программе Excel.

Слайд 3

Методы многомерного анализа (multivariate analysis methods) МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ [multidimensional, multivariate

Методы многомерного анализа (multivariate analysis methods)

МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ [multidimensional, multivariate statistical

analysis] — раздел математической статистики, объединяющий методы изучения статистических данных, которые являются значениями многомерных качественных или количественных признаков

Цихончик Н.В., 2016

Слайд 4

Классификация многомерных методов По назначению: Методы предсказания (экстраполяции): множественный регрессионный и

Классификация многомерных методов

По назначению:
Методы предсказания (экстраполяции): множественный регрессионный и дискриминантный анализ
Методы

классификации: варианты кластерного анализа (без обучения) и дискриминантный анализ
Структурные методы: факторный анализ и многомерное шкалирование

Цихончик Н.В., 2016

Слайд 5

Кластерный анализ Цихончик Н.В., 2016 Кластерный анализ объединяет кластеры и переменные

Кластерный анализ

Цихончик Н.В., 2016

Кластерный анализ объединяет кластеры и переменные (объекты), похожие

друг на друга.
Он позволяет разбить выборку на несколько групп по исследуемому признаку, проанализировать группы (как группируются переменные), группировку объектов (как группируются объекты).
Слайд 6

Кластерный анализ Кластерный анализ предназначен для разбиения совокупности объектов на однородные

Кластерный анализ

Кластерный анализ предназначен для разбиения совокупности объектов на однородные группы

(кластеры или классы). По сути это задача многомерной классификации данных

Цихончик Н.В., 2016

Слайд 7

По сути, кластерный анализ – это совокупность инструментов для классификации многомерных

По сути, кластерный анализ – это совокупность инструментов для классификации многомерных

объектов. Метод подразумевает определение расстояния между переменными (дельты) и последующее выделение групп наблюдений (кластеров).
Техника кластеризации применяется в самых разнообразных областях. Главное задача – разбить многомерный ряд исследуемых значений (объектов, переменных, признаков) на однородные группы, кластеры. То есть данные классифицируются и структурируются.
Вопрос, который задает исследователь при использовании кластерного анализа, – как организовать многомерную выборку в наглядные структуры.
Примеры использования кластерного анализа:
В биологии – для определения видов животных на Земле.
В медицине – для классификации заболеваний по группам симптомов и способам терапии.
В психологии – для определения типов поведения личности в определенных ситуациях.
В экономическом анализе – при изучении и прогнозировании экономической депрессии, исследовании конъюнктуры.
В разнообразных маркетинговых исследованиях.
Когда нужно преобразовать «горы» информации в пригодные для дальнейшего изучения группы, используют кластерный анализ.
Слайд 8

Преимущества метода: позволяет разбивать многомерный ряд сразу по целому набору параметров;

Преимущества метода:
позволяет разбивать многомерный ряд сразу по целому набору параметров;
можно рассматривать

данные практически любой природы (нет ограничений на вид исследуемых объектов);
можно обрабатывать значительные объемы информации, резко сжимать их, делать компактными и наглядными;
может применяться циклически (проводится до тех пор, пока не будет достигнут нужный результат; а после каждого цикла возможно значительное изменение направленности дальнейшего исследования).
Кластерный анализ имеет и свои недостатки:
состав и количество кластеров зависит от заданного критерия разбиения;
при преобразовании исходного набора данных в компактные группы исходная информация может искажаться, отдельные объекты могут терять свою индивидуальность;
часто игнорируется отсутствие в анализируемой совокупности некоторых значений кластеров.
Слайд 9

Данные для кластерного анализа Кластерный анализ можно применять к интервальным данным,

Данные для кластерного анализа

Кластерный анализ можно применять к интервальным данным, частотам,

бинарными данным. Важно, чтобы переменные изменялись в сравнимых шкалах
Чтобы устранить неоднородность измерения исходных данных, все их значения предварительно нормируются, т.е. выражаются через отношение этих значений к некоторой величине, отражающей определенные свойства данного показателя

Цихончик Н.В., 2016

Слайд 10

Кластер Кластер – это совокупность однородных элементов, идентичных объектов, образующих группу

Кластер

Кластер – это совокупность однородных элементов, идентичных объектов, образующих группу единиц
Кластер

имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера.
Центр кластера - это среднее геометрическое место точек в пространстве переменных.
Радиус кластера - максимальное расстояние точек от центра кластера.

Цихончик Н.В., 2016

Слайд 11

Методы кластерного анализа Методы кластерного анализа можно разделить на две группы:

Методы кластерного анализа

Методы кластерного анализа можно разделить на две группы:


иерархические;
неиерархические.
В качестве основных методов анализа пакет STATISTICA предлагает Joining (tree clustering) – группу иерархических методов (7 видов), которые используются в том случае, если число кластеров заранее неизвестно, и K-Means Clustering (метод К-средних), в котором пользователь заранее определяет количество кластеров.

Цихончик Н.В., 2016

Слайд 12

Методы кластерного анализа: иерархические Суть иерархической кластеризации состоит в последовательном объединении

Методы кластерного анализа: иерархические

Суть иерархической кластеризации состоит в последовательном объединении

меньших кластеров в большие или разделении больших кластеров на меньшие
используются при небольших объемах наборов данных
Преимуществом является их наглядность
связаны с построением дендрограмм

Цихончик Н.В., 2016

Слайд 13

Дендрограмма Дендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из

Дендрограмма

Дендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из которых

соответствует одному из шагов процесса последовательного укрупнения кластеров.

Цихончик Н.В., 2016

Слайд 14

Определение количества кластеров способ сводится к определению скачкообразного увеличения некоторого коэффициента,

Определение количества кластеров

способ сводится к определению скачкообразного увеличения некоторого коэффициента,

который характеризует переход от сильно связанного к слабо связанному состоянию объектов

Цихончик Н.В., 2016

Слайд 15

Методы кластерного анализа: неиерархические основанные на разделении, которые представляют собой итеративные

Методы кластерного анализа: неиерархические

основанные на разделении, которые представляют собой итеративные

методы дробления исходной совокупности
В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки

Цихончик Н.В., 2016

Слайд 16

Практическая часть - построение кластеров в программе Excel

Практическая часть - построение кластеров в программе Excel

Слайд 17

С помощью кластерного анализа можно проводить выборку по признаку, который исследуется.

С помощью кластерного анализа можно проводить выборку по признаку, который исследуется.

Его основная задача – разбиение многомерного массива на однородные группы.
В качестве критерия группировки применяется парный коэффициент корреляции или эвклидово расстояние между объектами по заданному параметру. Наиболее близкие друг к другу значения группируются вместе.
Кластерный анализ можно применять, используя для этих целей стандартный набор инструментов Эксель.
Слайд 18

Пример использования Имеем пять объектов, которые характеризуются по двум изучаемым параметрам.

Пример использования

Имеем пять объектов, которые характеризуются по двум изучаемым параметрам.

Слайд 19

Шаг 1 Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется

Шаг 1

Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется по

шаблону:
=КОРЕНЬ((x2-x1)^2+(y2-y1)^2)
Данное значение вычисляем между каждым из пяти объектов. Результаты расчета помещаем в матрице расстояний.
Слайд 20

Шаг 1 =КОРЕНЬ((D3-C3)^2+(D4-C4)^2)

Шаг 1

=КОРЕНЬ((D3-C3)^2+(D4-C4)^2)

Слайд 21

Шаг 2 Смотрим, между какими значениями дистанция меньше всего. В нашем

Шаг 2

Смотрим, между какими значениями дистанция меньше всего. В нашем примере

— это объекты 1 и 2. Расстояние между ними составляет 13,41641, что меньше, чем между любыми другими элементами данной совокупности.
Объединяем эти данные в группу и формируем новую матрицу, в которой значения 1,2 выступают отдельным элементом. При составлении матрицы оставляем наименьшие значения из предыдущей таблицы для объединенного элемента.
Слайд 22

Шаг 2

Шаг 2

Слайд 23

Шаг 3 Опять смотрим, между какими элементами расстояние минимально. На этот

Шаг 3

Опять смотрим, между какими элементами расстояние минимально.
На этот раз

– это объект 5 и группа объектов 1,2. Дистанция составляет 15,65248.
Слайд 24

Шаг 3 Добавляем указанные элементы в общий кластер. Формируем новую матрицу

Шаг 3

Добавляем указанные элементы в общий кластер. Формируем новую матрицу по

тому же принципу, что и в предыдущий раз. То есть, ищем самые меньшие значения. 
Слайд 25

Шаг 4 Добавляем указанные элементы в общий кластер. Формируем новую матрицу

Шаг 4

Добавляем указанные элементы в общий кластер. Формируем новую матрицу по

тому же принципу, что и в предыдущий раз. То есть, ищем самые меньшие значения. 
Слайд 26

Шаг 4 Таким образом, мы видим, что нашу совокупность данных можно

Шаг 4

Таким образом, мы видим, что нашу совокупность данных можно разбить

на два кластера. В первом кластере находятся наиболее близкие между собой элементы – 1,2,4,5. Во втором кластере в нашем случае представлен только один элемент — 3. Он находится сравнительно в отдалении от других объектов. Расстояние между кластерами составляет 38,69936.
Слайд 27

Шаг 5 На этом завершается процедура разбиения совокупности на группы. 1

Шаг 5

На этом завершается процедура разбиения совокупности на группы.
1 кластер –

респонденты, у которых расходы на питание составляют большую часть дохода (4 из 5 человек, т.е. 80%)
2 кластер – это респондент, расходы на питание которого составляют меньшую часть бюджета (1 из 5 человек, т.е. 20% выборки).
Слайд 28

Задание 1

Задание 1

Слайд 29

Задание 2

Задание 2

Слайд 30

Задание 3

Задание 3