Содержание
- 2. Цели Что такое кластерный анализ и для чего он может понадобиться?
- 3. Кластерный анализ Если долго пытать данные, то они в конце концов сознаются…
- 4. Кластерный анализ это общее название множества вычислительных процедур, используемых при создании классификации. Главная цель кластерного анализа
- 5. Кластерный анализ Кластерный анализ – это метод, который позволяет разделить объекты СРАЗУ по нескольким характеристикам
- 6. Кластерный анализ Не существует общепринятого определения термина «кластер», однако считается, что кластеры обладают некоторыми свойствами, наиболее
- 7. Свойства кластеров Плотность – это свойство, которое позволяет определить кластер как скопление точек в пространстве данных,
- 8. Свойства кластеров Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера, т.е. насколько близко друг
- 9. Свойства кластеров Размеры тесно связано с дисперсией; если кластер можно идентифицировать, то можно измерить и его
- 10. Свойства кластеров Форма – это расположение точек в пространстве. Если кластеры имеют удлиненную форму, то вместо
- 11. Свойства кластеров Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от друга они расположены в
- 12. Кластерный анализ Таким образом, кластеры – это непрерывные области некоторого пространства с относительно высокой плотностью точек,
- 13. Кластерный анализ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺
- 14. Кластерный анализ можно сделать в программе STATISTICA, в специальном модуле Cluster Analysis Statistics ⇒ Multivariate Exploratory
- 15. Кластерный анализ
- 16. ПРЕДОСТЕРЕЖЕНИЯ! 1) Многие методы кластерного анализа – довольно простые процедуры, которые, как правило, не имеют достаточного
- 17. ПРЕДОСТЕРЕЖЕНИЯ! 2) Методы кластерного анализа разрабатывались для многих дисциплин, а потому несут на себе отпечатки специфики
- 18. ПРЕДОСТЕРЕЖЕНИЯ! 3) Разные кластерные методы могут порождать и порождают различные решения для одних и тех же
- 19. ПРЕДОСТЕРЕЖЕНИЯ! 4) Цель кластерного анализа заключается в поиске существующих структур. В то же время его действие
- 20. Выбор переменных Основная проблема состоит в том, чтобы найти ту совокупность переменных, которая наилучшим образом отражает
- 21. Выбор переменных - нормировка Обычно при выполнении кластерного анализа данные подвергаются нормировке таким образом, чтобы среднее
- 22. Выбор переменных - нормировка где х – среднее значение показателя в группе; хi – значение показателя
- 23. Выбор переменных - нормировка В программе Statistica выбираем (выделяем) переменные, которые хотим нормировать, затем нажимаем ПРАВУЮ
- 24. Выбор переменных - нормировка
- 25. Выбор переменных - нормировка Переменные после нормировки
- 26. Выбор переменных - нормировка Имеются, однако, некоторые разногласия относительно того, должна ли нормировка быть стандартной процедурой
- 27. Выбор переменных - нормировка Более целесообразно проводить нормировку внутри групп (т.е. внутри кластеров), но, очевидно, этого
- 28. Выбор переменных - нормировка Решение о проведении нормировки должно приниматься с учетом специфики решаемой задачи, при
- 29. Выбор переменных - взвешивание Взвешивание – это манипулирование значением переменной, позволяющее ей играть большую или меньшую
- 30. Методы кластерного анализа Разные методы кластерного анализа соответствуют различным подходам к созданию групп, и применение различных
- 31. Методы кластерного анализа Важно помнить, что выбранный метод должен находиться в согласии с ожидаемым характером классификации,
- 32. Методы кластерного анализа В программе STATISTICA реализованы следующие методы кластеризации: ☺ иерархический агломеративный (объединительный) метод –
- 33. Методы кластерного анализа
- 34. Агломеративный метод В агломеративных методах происходит последовательное объединение наиболее близких объектов в один кластер. Процесс такого
- 35. Агломеративный метод 1 3 6 5 4 2 1,0 0,9 0,8 0,7 0,6 0,5 сходство 0,0
- 36. Агломеративный метод Рубить дерево можно в любом месте!
- 37. Агломеративный метод 1 3 6 5 4 2 1,0 0,9 0,8 0,7 0,6 0,5 сходство 0,0
- 38. Агломеративный метод 1 3 6 5 4 2 1,0 0,9 0,8 0,7 0,6 0,5 сходство 0,0
- 39. Меры сходства Количественное оценивание сходства отталкивается от понятия метрики или расстояния (distance) между объектами. Интуитивно понятно,
- 40. Меры сходства ☺ Евклидова метрика – наиболее часто используемая мера сходства. Вы просто возводите в квадрат
- 41. Меры сходства Расстояние (x,y)= А В
- 42. Меры сходства ☺ Квадрат евклидовой метрики. Расстояние (x,y)=
- 43. Меры сходства ☺ Манхэттенское расстояние, или «расстояние городских кварталов». В этом случае просто берутся абсолютные значения
- 44. Меры сходства Аналогия в декартовой плоскости приводит к перемещениям только по линиям, параллельным осям координат, и
- 45. Меры сходства ☺ Метрика Чебышева Расстояние (x,y)=
- 46. Меры сходства ☺ Метрика Минковского. Расстояние (x,y)=
- 47. Меры сходства ☺ Коэффициент корреляции Пирсона (точнее, 1 - коэффициент корреляции Пирсона)
- 48. Меры сходства ☺ Коэффициент совстречаемости – метрика, наиболее пригодная для данных, представленных в шкалах наименований. Вычисляется
- 49. Меры сходства Однозначного ответа на вопрос, какую из мер сходства выбрать, не существует. Ответ зависит от
- 50. Правила объединения Кроме выбора меры сходства, исследователю предстоит задача выбора правила иерархического объединения кластеров. В программе
- 51. Правила объединения Single linkage – метод одиночной связи. На первом шаге объединяются два объекта, имеющие между
- 52. Правила объединения Complete linkage – метод полной связи. Этот метод позволяет устранить указанный недостаток. Здесь мера
- 53. Правила объединения Unweighted pair group average –метод «средней связи». В этом методе вычисляется среднее сходство рассматриваемого
- 54. Правила объединения Weighted pair group average – взвешенный метод «средней связи». Аналогичен предыдущему, за исключением того,
- 55. Правила объединения Unweighted pair group centroid –центроидный метод. Расстояние между двумя кластерами определяется как евклидово расстояние
- 56. Правила объединения Weighted pair group centroid – взвешенный центроидный метод. Аналогичен предыдущему, за исключением того, что
- 57. Правила объединения Ward method – метод Уорда. Идея этого метода состоит в том, чтобы проводить объединение,
- 58. Метод k-средних Это итеративный метод, который работает непосредственно с объектами, а не c матрицей сходства. Он
- 59. Метод k-средних Метод k-средних разобьет все объекты на заданное количество кластеров, которые будут максимально различаться между
- 60. Метод k-средних В этом методе объект относится к тому классу, расстояние до которого минимально. Расстояние понимается
- 61. Метод k-средних Вначале задается некоторое разбиение данных на кластеры (число кластеров определяется пользователем) и вычисляются центры
- 62. Метод k-средних Затем снова вычисляются центры тяжести новых кластеров и процесс повторяется, пока не будет найдена
- 63. Метод k-средних Можно сказать, что вычислительная процедура данного метода представляет собой дисперсионный анализ «наоборот». Программа начинает
- 64. Метод k-средних Это аналогично дисперсионному анализу «наоборот» в том смысле, что в дисперсионном анализе при определении
- 65. Метод k-средних В методе k-средних программа пытается перемещать объекты между группами (кластерами) таким образом, чтобы получить
- 66. Метод k-средних Кроме числа кластеров, пользователю также необходимо выбрать условие, которое задает начальные центры кластеров. Существует
- 67. Maximize between-cluster distances Если выбрано это условие, то за центр кластера принимается наблюдение или объект, а
- 68. Maximize between-cluster distances В этом случае программа выберет сначала первые N (число кластеров, заданное вами) наблюдений
- 69. Sort distances and take observations at constant intervals Если выбрано это условие, расстояния между объектами сначала
- 70. Choose the first N (number of clusters) clusters observations При выборе этого условия первые N (количество
- 71. Тwo-way joining применяется в тех (сравнительно редких) случаях, когда исследователь полагает, что и переменные, и наблюдения
- 72. Алгоритм кластерного анализа Заносим данные в программу. Возможно проводим процедуру нормировки. Выбираем метод - агломеративный (объединительный)
- 73. Алгоритм кластерного анализа Если выбран метод tree clustering, то выбираем метод объединения объектов в кластеры. Затем
- 74. Алгоритм кластерного анализа Если ничего не получается, то можно попробовать разные методы объединения объектов в кластеры
- 75. Алгоритм кластерного анализа Если выбран метод k-средних (k-means clustering), то выбираем число кластеров. Затем выбираем условие,
- 76. Алгоритм кластерного анализа Если и это ничего не дает, то можно попробовать взять другое количество кластеров
- 77. Алгоритм кластерного анализа Если выбран метод two-way joining, то возможности изменить что-либо, кроме переменных, участвующих в
- 78. Полезная литература Просто и доходчиво кластерный анализ изложен в ☺ Боровиков В. Программа STATISTICA для студентов
- 79. Полезная литература Более подробное описание можно найти в книге: ☺ Факторный, дискриминантный и кластерный анализ. –
- 80. Пример Цели дипломной работы: 1) выделить группы подростков, характеризующиеся различными предпочтениями жанров киноискусства и телепередач 2)
- 81. Пример Попытаемся разделить учащихся на основании сразу нескольких критериев, т.е. всех перечисленных жанров киноискусства и телепередач,
- 82. Пример
- 83. Пример
- 84. Пример
- 85. Пример Таблица Х Уровни статистической значимости апостериорного критерия Дункана для сравнения выраженности физической агрессивности у трех
- 87. Скачать презентацию