Содержание
- 2. План лекции Введение Формальная постановка задачи Метод k-средних Метод ISODATA Агломеративный метод Дивизимный метод
- 3. Введение Задача кластеризации состоит в разделении исследуемого множества объектов на группы «похожих» объектов, называемых кластерами Решение
- 4. Введение Кластеризация отличается от классификации тем, что этап обучения на примерах отсутствует В задачах классификации множество
- 5. Введение Эта задача решается на начальных этапах исследования, когда о данных мало что известно Ее решение
- 6. Введение Кластерный анализ позволяет рассматривать достаточно большой объем информации и сжимать большие массивы информации, делать их
- 7. Формальная постановка задачи Дано множество данных, состоящее из N объектов (векторов): S1, S2, …, SN Каждый
- 8. Формальная постановка задачи Таким образом, i-й объект можно записать в виде: Si = (xi1, xi2, …,
- 9. Формальная постановка задачи Требуется: найти способ сравнения d(Sp, Sq) объектов между собой (меру сходства, функцию расстояния)
- 10. Формальная постановка задачи В качестве меры сходства используются: евклидово расстояние квадрат евклидова расстояния расстояние Хэмминга расстояние
- 11. Формальная постановка задачи Методы кластерного анализа можно разделить на две группы: неиерархические иерархические
- 12. Метод k-средних Неиерархическим методом кластеризации является метод k-средних (k-means) Предварительно необходимо выбрать вероятное число кластеров k
- 13. Метод k-средних 1. Выбирается k произвольных исходных центров кластеров – обычно выбираются k объектов 2. Все
- 14. Метод k-средних Выбор числа кластеров является сложным вопросом Если нет предположений относительно этого числа, рекомендуют создать
- 15. Метод k-средних Начальный выбор центров кластеров осуществляется следующим образом: выбор k объектов для максимизации начального расстояния
- 16. Метод k-средних Центры кластеров вычисляются по формулам: … где NC – количество объектов, входящих в кластер
- 17. Метод k-средних Пример. Примем k = 3 Начальные центры – объекты 1, 3, 4
- 18. Метод k-средних Пример. Примем k = 3 Начальные центры – объекты 1, 3, 4 Разобьем все
- 19. Метод k-средних Найдем новые центры кластеров
- 20. Метод k-средних Найдем новые центры кластеров Разобьем все объекты по новым кластерам
- 21. Метод k-средних Пересчитаем центры кластеров
- 22. Метод k-средних Разбивка объектов по новым кластерам не меняет расположение центров
- 23. Метод ISODATA ISODATA – Iterative Self-Organizing Data Analysis Techniques – итеративный самоорганизующийся метод анализа данных Более
- 24. Метод ISODATA Если в кластер входит менее заданного минимального числа объектов, кластер удаляется Если среднее расстояние
- 25. Метод ISODATA Если расстояние между центрами двух кластеров меньше заданного минимального порога, кластеры сливаются В алгоритме
- 26. Иерархические методы К иерархическим методам кластеризации относятся: агломеративный алгоритм (Agglomerative Nesting, AGNES) дивизимный алгоритм (Divisive ANAlysis,
- 27. Агломеративный метод В начале работы алгоритма все объекты являются отдельными кластерами На первом шаге наиболее похожие
- 28. Агломеративный метод Расстояние между кластерами можно определить различными способами: расстояние между центрами кластеров расстояние между двумя
- 29. Агломеративный метод Пример. Каждый объект формирует свой кластер
- 30. Агломеративный метод Выбираем и объединяем два наиболее близких кластера
- 31. Агломеративный метод Выбираем и объединяем два наиболее близких кластера
- 32. Агломеративный метод Выбираем и объединяем два наиболее близких кластера
- 33. Дивизимный метод На первом шаге все объекты помещаются в один кластер С1 Выбирается объект, у которого
- 34. Дивизимный метод Выбранный объект удаляется из кластера С1 и формирует первый элемент второго кластера С2 На
- 35. Дивизимный метод Переносы элементов из С1 в С2 продолжаются до тех пор, пока соответствующие разности средних
- 36. Дивизимный метод В результате один кластер делится на два дочерних, один из которых расщепляется на следующем
- 37. Дивизимный метод Кластер для расщепления выбирается, например, по наибольшему диаметру Диаметр кластера – расстояние между двумя
- 38. Иерархические методы
- 39. Иерархические методы Проблема определения оптимального числа кластеров: иногда можно априорно определить число кластеров однако в большинстве
- 40. Иерархические методы В иерархических методах существует способ, позволяющий определить оптимальное число кластеров Процессу группировки объектов в
- 42. Скачать презентацию