Презентация "Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ" - скачать презентации по Информатик

Содержание

Слайд 2

Критерий качества кластеризации в той или иной мере отражает следующие неформальные

Критерий качества кластеризации в той или иной мере отражает следующие неформальные

требования:
а) внутри групп объекты должны быть тесно связаны между собой;
б) объекты разных групп должны быть далеки друг от друга;
в) при прочих равных условиях распределения объектов по группам должны быть равномерными.
Требования а) и б) выражают стандартную концепцию компактности классов разбиения; требование в) состоит в том, чтобы критерий не навязывал объединения отдельных групп объектов.
Слайд 3

Узловым моментом в кластерном анализе считается выбор метрики (или меры близости

Узловым моментом в кластерном анализе считается выбор метрики (или меры близости

объектов), от которого решающим образом зависит окончательный вариант разбиения объектов на группы при заданном алгоритме разбиения.
В каждой конкретной задаче этот выбор производится по-своему, с учетом главных целей исследования, физической и статистической природы используемой информации и т. п. При применении экстенсиональных методов распознавания, как было показано в предыдущих разделах, выбор метрики достигается с помощью специальных алгоритмов преобразования исходного пространства признаков.
Слайд 4

Другой важной величиной в кластерном анализе является расстояние между целыми группами

Другой важной величиной в кластерном анализе является расстояние между целыми группами

объектов.
Приведем примеры наиболее распространенных расстояний и мер близости, характеризующих взаимное расположение отдельных групп объектов.
Пусть — i-я группа (класс, кластер) объектов, — число объектов, образующих группу , вектор — среднее арифметическое объектов, входящих в (другими словами: — “центр тяжести” i-й группы), a
— расстояние между группами и
Слайд 5

Рис. 1. Различные способы определения расстояния между кластерами и : 1

Рис. 1. Различные способы определения расстояния между кластерами и
:

1 — по центрам тяжести, 2 — по ближайшим объектам, 3 — по самым далеким объектам
Слайд 6

Расстояние ближайшего соседа есть расстояние между ближайшими объектами кластеров: (1) Расстояние

Расстояние ближайшего соседа есть расстояние между ближайшими объектами кластеров:

(1)

Расстояние дальнего

соседа — расстояние между самыми дальними объектами кластеров:

Расстояние центров тяжести равно расстоянию между центральными точками кластеров:

(2)

(3)

Слайд 7

Обобщенное (по Колмогорову) расстояние между классами, или обобщенное K-расстояние, вычисляется по

Обобщенное (по Колмогорову) расстояние между классами, или обобщенное K-расстояние, вычисляется по

формуле

(4)

в частности, при

и при имеем:

(5)

(6)

Слайд 8

Выбор той или иной меры расстояния между кластерами влияет, главным образом,

Выбор той или иной меры расстояния между кластерами влияет, главным образом,

на вид выделяемых алгоритмами кластерного анализа геометрических группировок объектов в пространстве признаков.
Так, алгоритмы, основанные на расстоянии ближайшего соседа, хорошо работают в случае группировок, имеющих сложную, в частности, цепочечную структуру.
Расстояние дальнего соседа применяется, когда искомые группировки образуют в пространстве признаков шаровидные облака.
И промежуточное место занимают алгоритмы, использующие расстояния центров тяжести и средней связи, которые лучше всего работают в случае группировок эллипсоидной формы.