Дискриминантный, факторный, кластерный анализ

Сентябрь 13, 2022

Главная
Математика
Дискриминантный, факторный, кластерный анализ

Содержание

2. Дискриминантный анализ У нас есть зверьки разного возраста, у которых измеряли 20 показателей. По каким из
3. Для решения таких задач создан ДИСКРИМИНАНТНЫЙ АНАЛИЗ (discriminant function analysis) Основная идея: Мы измерили целый набор
4. Дискриминантный анализ Суть анализа: Очень близок ANOVA. Проверяет, отличаются ли группы на основе СРЕДНИХ ЗНАЧЕНИЙ переменных.
5. На каждом шаге (для каждой переменной) считается статистика F, т.е. мы сравниваем группы по этой переменной.
6. Мы изучаем лемуров на Мадагаскаре. У нас 3 вида лемуров, мы поймали зверьков разных видов, взвесили,
7. масса Оказалось, что, несмотря на то, что средние значения для каждой переменной у разных видов отличаются,
8. Z Переменная Z (дискриминантная функция) строится таким образом, чтобы как можно больше зверьков одного из видов
9. Создание дискриминантной функции Из выбранных нами переменных (на основе F to enter) рассчитываем новую переменную Z
10. Дискриминантный анализ Программа сама выбирает «лучшую» дискриминантную функцию и строит её первой, потом «лучшую» из оставшихся
11. Дискриминантный анализ Интерпретация дискриминантных (=канонических) функций: Каждую дискриминантную функцию характеризует Root (канонический корень), и мы можем
12. Теперь, когда мы построили такую функцию, мы сможем поймать зверька неизвестного вида, измерить у него X1
13. Дискриминантный анализ Теперь можно предсказать, к какой группе относится та или иная особь, и оценить точность
14. Итак: Дискриминантная функция рассчитывается только для тех измерений, для которых известно, к какой группе они принадлежат
15. Discriminant function analysis
16. Выберем переменные для анализа. Выберем пошаговый анализ. Критерии, по которым мы будем включать переменные для построения
17. Прежде чем приступить к анализу, посмотрим, есть ли разделение на группы по нашим переменным.
18. Предварительный анализ переменных: насколько по ним вообще различаются группы (на основе ANOVA) Wilk’s lambda – статистика,
19. Пройдём Шаг 1 и Шаг 2. Можно посмотреть, какие переменные уже включены в анализ. Partial lambda
20. Последний Шаг 3: дискриминация между видами значима Partial lambda: Переменная Голова даёт вклад больше всех, а
21. Ступень 2: создание дискриминантной функции Предпримем канонический анализ Дискриминантных функций у нас 2 Значимой оказалась только
22. Посмотрим, какой вклад внесли переменные в различение групп нашими дискриминантными функциями. Standardized coefficients – коэффициенты для
23. Наибольший вклад в первую функцию вносит Голова (она сильнее всего коррелирует с ней). Структура факторов (дискриминантных
24. Мы можем посмотреть на разницу средних значений функций между группами. Кошачий лемур сильно отличается от других
25. Ступень 3: классификация Функции классификации : мы получаем для них коэффициенты, и можем классифицировать новых лемуров:
26. Можно посмотреть, сколько лемуров правильно и неправильно причислено к той или иной группе на основе функций
27. На основе дистанций Махаланобиса от каждого измерения до центра группы можно посмотреть, к какому виду тот
28. Требования к выборкам для проведения дискриминантного анализа 3. Не должно быть корреляции средних значений и дисперсий
29. ФАКТОРНЫЙ АНАЛИЗ Мы много лет изучаем пищевые предпочтения павианов и разработали комплексные оценки того, как они
30. Итак, Мы хотим Найти те факторы, которые определяют изменчивость (объясняют действие) большого количества измеренных нами реальных
31. Цели факторного анализа в биологии: Преобразование взаимодействия многих переменных во взаимодействие небольшого числа факторов. Уменьшение числа
32. Поясняющий пример: Мы изучаем кроликов. Сначала взвешиваем каждого из 100 кроликов на безмене, потом на весах
33. Факторный анализ: Анализ главных компонент (principal component analysis); Основная идея: получить факторы, объясняющие как можно больше
34. Подразумевается, что наши реально измеренные переменные являются линейными комбинациями этих подлежащих факторов. Факторы (главные компоненты) находят
35. Итак, мы изучаем питание павианов. Типов пищи у павианов 10: апельсины, бананы, яблоки, помидоры, огурцы, мясо,
36. Principal component analysis (прежде, чем проводить факторный анализ, рекомендуется построить матрицу корреляций: исключить переменные, слишком сильно
37. Просмотрим матрицу корреляций: Не должно быть слишком сильно коррелирующих друг с другом переменных (иначе матрица не
38. Собственные значения (eigenvalues)– определяют, какую долю общей дисперсии объясняет данный фактор.
39. Этот график показывает, что первые два фактора лучше остальных, они объясняют большую часть общей изменчивости (the
40. Посмотрим, как полученные факторы связаны с реальными переменными
41. Можно выбрать два фактора, расположить в их пространстве переменные; потом повернуть факторы (оси координат) так, чтобы
42. Фактор 1 в основном связан с растительной пищей, фактор 2 – с животной. После вращения факторов
43. Посмотрим, как исходные переменные расположились в пространстве новых факторов
44. Если мы в дальнейшем хотим проводить анализ связи питания павианов с другими переменными, мы можем заменить
45. Требования к выборкам для проведения факторного анализа Внутри групп должно быть многомерное нормальное распределение (оценка –
46. Если распределение не нормальное, связь переменных нелинейная, выборка небольшая: Многомерное шкалирование (Multidimentional scaling) На основе сходства
47. Но если данные более-менее удовлетворяют требованиям факторного анализа, лучше проводить его, т.к.: 1. Факторный анализ -
48. Мы наблюдаем поведение молодых сурков. У нас есть 15 переменных, описывающих социальное поведение. Это частоты контактов,
49. Данные для анализа должны быть представлены МАТРИЦЕЙ ДИСТАНЦИЙ (как её получать – рассказ дальше) Число измерений
50. Программа вращает наши наблюдения в пространстве так, чтобы расстояния между ними в полученной модели лучше всего
51. Мы получили итоговую конфигурацию. Посмотрим, насколько она хороша. D-star и D-hat – вычисленные программой дистанции между
52. Диаграмма Шепарда покажет, хорошо ли модель согласуется с исходными данными: чем ближе точки к красной линии,
53. Наконец, получим значения новых переменных для наших наблюдений и построим картинку, где они расположены в пространстве
54. Интерпретация результатов многомерного шкалирования – исключительно на основе картинки, где наблюдения расположены в пространстве новых переменных.
55. КЛАСТЕРНЫЙ АНАЛИЗ Это вообще не статистический метод, а чисто описательная математическая процедура группировки и классификации данных.
56. Идея анализа – Рассчитываются дистанции между измерениями в пространстве исходных переменных; Евклидовы дистанции; Квадрат евклидова расстояния
57. Пример. У нас есть молодые лемуры, которые после расселения заняли дупла в лесу. Известны координаты каждого
58. Cluster analysis
59. Мы будем рассматривать древовидную кластеризацию; Кластеры будем строить на основе евклидовых дистанций методом ближайшего соседа.
60. Можно нарисовать деревья разного вида и посмотреть, на каких уровнях выделяются кластеры Можно получить матрицу дистанций
61. Посмотрим, на каких расстояниях какие особи объединяются в кластеры
62. По этому графику можно посмотреть, на каком расстоянии происходят скачки в дистанциях присоединения. Если такие скачки
63. Дискриминантный анализ Кластерный анализ У нас есть исходно существующие группы. Мы ищем переменные, которые лучше всего
65. Скачать презентацию

Слайд 2

Дискриминантный анализ
У нас есть зверьки разного возраста, у которых измеряли 20

показателей. По каким из них лучше всего определяется возраст?
Собирали данные про школьников 11-го класса (20 разнокачественных переменных); после этого школьники поступили в ВУЗ, колледж или вообще никуда не поступили. Какие показатели лучше всего предсказывают судьбу школьника?

Слайд 3

Для решения таких задач создан
ДИСКРИМИНАНТНЫЙ АНАЛИЗ (discriminant function analysis)
Основная идея:
Мы измерили

целый набор переменных, и у нас ИЗНАЧАЛЬНО ЕСТЬ ГРУППЫ.
Мы хотим понять, чем отличаются между собой эти группы (на основе данных переменных).
(скажем, когда мы потом измерим эти переменные у новой особи, мы сможем с известной вероятностью отнести её к той или иной группе).

Слайд 4

Дискриминантный анализ
Суть анализа:
Очень близок ANOVA. Проверяет, отличаются ли группы на основе

СРЕДНИХ ЗНАЧЕНИЙ переменных. (Пример про мужчин и женщин, которые высокого и низкого роста). Если в ANOVA переменная одна, мы считаем F-статистику на основе внутригрупповой и межгрупповой дисперсий. Когда переменных много (MANOVA и дискриминантный анализ) – создают матрицу дисперсий.

Строим «Модель» - способ определения, к какой группе относится данное измерение.
Переменные включаем в модель по одной, начиная с той, которая лучше всех разделяет группы (Forward stepwise analysis) (Backward stepwise analysis – наоборот, сначала в модели все переменные и их по одной убирают).

Слайд 5

На каждом шаге (для каждой переменной) считается статистика F, т.е. мы

сравниваем группы по этой переменной.
F to enter: показывает, насколько хорошо группы отличаются по этой переменной (для Forward stepwise analysis) Можно задать минимальное значение, ниже которого переменная не будет включена в модель (когда анализ дойдёт до соответствующего шага, он остановится).
F to remove: то же самое; показывает, насколько «плохо» группы отличаются по этой переменной (для Backward stepwise analysis).

Дискриминантный анализ

(нельзя использовать эти статистики в качестве результатов ANOVA)

Слайд 6

Мы изучаем лемуров на Мадагаскаре.
У нас 3 вида лемуров, мы поймали

зверьков разных видов, взвесили, померили голову и зубы.
Вопрос: по какой из переменных мы лучше всего отличим виды?

Дискриминантный анализ

Слайд 7

масса
Оказалось, что, несмотря на то, что средние значения для каждой переменной

у разных видов отличаются, их распределения сильно перекрываются и для массы, и для головы, и для зубов!

Как же быть?

Дискриминантный анализ

Слайд 8

Z
Переменная Z (дискриминантная функция) строится таким образом, чтобы как можно больше

зверьков одного из видов получили высокие значения Z, и как можно больше зверьков другого вида – низкие значения Z.

масса

Поиск такой переменной ведётся на основе ANOVA и регрессионного анализа

Дискриминантный анализ

Слайд 9

Создание дискриминантной функции
Из выбранных нами переменных (на основе F to enter)

рассчитываем новую переменную Z (дискриминантную функцию) –линейную комбинацию исходных переменных, которая наилучшим образом разделит группы (напр., виды).

Xi - исходные переменные

Дискриминантный анализ

Если группы две: получается одно уравнение Group = a + b1x1 + b2x2 + ... + bmxm.
Когда групп много, получают несколько дискриминантных функций, «перпендикулярных» друг другу. Чем больше коэффициент при переменной, тем лучше она разделяет группы (не говорит, какие именно).

Слайд 10

Дискриминантный анализ
Программа сама выбирает «лучшую» дискриминантную функцию и строит её первой,

потом «лучшую» из оставшихся возможных, и.т.д. – всего k-1 или j-1 функций (k – число групп, j – число переменных, выбирают меньшее из этих чисел).
Выбор и построение функций осуществляется с помощью Канонического анализа (Canonical analysis) – это один из вариантов регрессионного анализа.
Коэффициенты в дискриминантной функции (b или β) соответствуют тому, какой вклад вносит данная переменная в разделение групп.

Слайд 11

Дискриминантный анализ
Интерпретация дискриминантных (=канонических) функций:
Каждую дискриминантную функцию характеризует Root (канонический корень),

и мы можем проверить, сколько функций в нашем анализе действительно помогает различить группы, и какую часть изменчивости они объясняют (и исключить недостоверные).
standardized b coefficient – позволяют оценить вклад каждой из переменных в различение групп данной дискриминантной функцией.
Структура факторов (factor structure coefficients) – позволяет понять, насколько какие переменные коррелируют с дискриминантными функциями.

Слайд 12

Теперь, когда мы построили такую функцию, мы сможем поймать зверька неизвестного

вида, измерить у него X1 и X2 , рассчитать значение Z на основе уже посчитанных коэффициентов, и с некоторой точностью причислить его к тому или другом виду.

Дискриминантный анализ

Слайд 13

Дискриминантный анализ
Теперь можно предсказать, к какой группе относится та или иная

особь, и оценить точность этого предсказания!
Строятся классификационные функции (для каждой группы), и можно для каждой особи посчитать их и отнести в ту или иную группу.
Можно провести на основе уже посчитанных функций классификацию тестовой выборки.

Классификация:

Слайд 14

Итак:
Дискриминантная функция рассчитывается только для тех измерений, для которых известно, к

какой группе они принадлежат (т.е., только для тех особей, для которых вид известен).
Если у нас есть набор признаков, и мы их на основе хотим создать группы (например, поделить вид на подвиды), это – задача для другого анализа! (для количественной таксономии, numerical taxonomy).

Дискриминантный анализ

Слайд 15

Discriminant function analysis

Слайд 16

Выберем переменные для анализа.
Выберем пошаговый анализ.
Критерии, по которым мы будем включать

переменные для построения дискриминантной функции.
Толерантность – позволяет задать минимальный необходимый вклад переменной по сравнению с другими переменными, т.е., исключить избыточные переменные.

Ступень 1: создание модели

Слайд 17

Прежде чем приступить к анализу, посмотрим, есть ли разделение на группы

по нашим переменным.

Слайд 18

Предварительный анализ переменных: насколько по ним вообще различаются группы (на основе

ANOVA)

Wilk’s lambda – статистика, оценивает мощность дискриминации модели после введения в неё переменной. Чем она меньше – тем больше вклад
F to enter – статистика для оценки достоверности вклада переменной в дискриминацию.

Слайд 19

Пройдём Шаг 1 и Шаг 2. Можно посмотреть, какие переменные уже

включены в анализ.

Partial lambda - статистика для вклада переменной в дискриминацию между совокупностями. Чем она меньше, тем больше вклад переменной.
Переменная Голова лучше помогает различать виды, чем Масса.

Слайд 20

Последний Шаг 3:
дискриминация между видами значима
Partial lambda: Переменная Голова даёт вклад

больше всех, а вклад Зуба – недостоверный.

Слайд 21

Ступень 2: создание дискриминантной функции
Предпримем канонический анализ
Дискриминантных функций у нас 2
Значимой

оказалась только первая функция (root)

Слайд 22

Посмотрим, какой вклад внесли переменные в различение групп нашими дискриминантными функциями.
Standardized

coefficients – коэффициенты для сравнения значимости. «Голова» лучше всех позволяет различать группы

Первая функция объясняет 99,4% изменчивости

Слайд 23

Наибольший вклад в первую функцию вносит Голова (она сильнее всего коррелирует

с ней).

Структура факторов (дискриминантных функций)

Слайд 24

Мы можем посмотреть на разницу средних значений функций между группами.
Кошачий лемур

сильно отличается от других видов по значения первой функции

Слайд 25

Ступень 3: классификация
Функции классификации : мы получаем для них коэффициенты, и

можем классифицировать новых лемуров: взять новую особь, посчитать для неё функцию для каждой группы, и отнести её в ту группу, для которой значение будет наибольшим!
Значения p – вероятности случайного причисления лемура к той или иной группе, исходя из размеров группы.

Слайд 26

Можно посмотреть, сколько лемуров правильно и неправильно причислено к той или

иной группе на основе функций классификации.

Теперь можно взять других особей (они должны стоять в той же таблице) и посмотреть процент правильного причисления в группы

Слайд 27

На основе дистанций Махаланобиса от каждого измерения до центра группы можно

посмотреть, к какому виду тот или иной лемур причисляется. Неправильные причисления помечены звёздочками

Слайд 28

Требования к выборкам для проведения дискриминантного анализа
3. Не должно быть корреляции

средних значений и дисперсий в группах;
4. Не должно быть чрезмерно коррелирующих друг с другом переменных.

1. Внутри групп должно быть многомерное нормальное распределение (оценка – на основе построения гистограмм частот);
2. Гомогенность внутригрупповых дисперсий (не очень критичное требование);

Слайд 29

ФАКТОРНЫЙ АНАЛИЗ
Мы много лет изучаем пищевые предпочтения павианов и разработали комплексные

оценки того, как они относятся к разным типам пищи. Павианы едят разную еду, поэтому типов пищи – 10.
Но реальных факторов, определяющих эти предпочтения, наверняка меньше.

Мы хотим узнать, сколько (и каких) факторов определяют пищевые предпочтения павиана.

Слайд 30

Итак,
Мы хотим
Найти те факторы, которые определяют изменчивость (объясняют действие) большого количества

измеренных нами реальных переменных.
Подразумевается, что таких факторов гораздо меньше, чем исходных переменных.

Слайд 31

Цели факторного анализа в биологии:
Преобразование взаимодействия многих переменных во взаимодействие небольшого

числа факторов.
Уменьшение числа переменных в анализе (что, например, уменьшит эффект множественных сравнений).
Выявление реальных действующих факторов (причинно-следственных связей), лежащих в основе биологических корреляций, или просто выявление структуры взаимосвязи переменных.

Например, поиск трендов в морфологии из корреляций многих морфологических признаков.

Слайд 32

Поясняющий пример:
Мы изучаем кроликов. Сначала взвешиваем каждого из 100 кроликов на

безмене, потом на весах с гирьками, потом на электронных кухонных весах.

Потом мы хотим исследовать влияние питания на вес кроликов.
Неужели мы возьмём в анализ все три переменные? Ведь, очевидно, вес кролика – только одна его характеристика, а не три. Скорее всего, мы захотим превратить все переменные в одну.

Слайд 33

Факторный анализ:
Анализ главных компонент (principal component analysis);
Основная идея: получить факторы, объясняющие

как можно больше общей изменчивости; больше подходит, если основная цель – сократить число переменных в анализе;
Анализ главных факторов (principal factor analysis)
Основная идея: для каждой переменной используется только доля изменчивости, общая с другими переменными; больше подходит для поиска структуры переменных, определения их иерархии.

Слайд 34

Подразумевается, что наши реально измеренные переменные являются линейными комбинациями этих подлежащих

факторов.

Факторы (главные компоненты) находят на основании матрицы корреляции переменных – на основе линий регрессии.

Процедура анализа подобна вращению, максимизирующему дисперсию исходного пространства переменных.

Примерно так будет проходить новая ось OX.

Анализ главных компонент

После выделения первого фактора выделяется следующий, который должен тоже максимизирует оставшуюся дисперсию и т.д. – все факторы будут ортогональны.

Слайд 35

Итак, мы изучаем питание павианов. Типов пищи у павианов 10:
апельсины,
бананы,
яблоки,
помидоры,
огурцы,
мясо,
курица,
рыба,
насекомые,
червяки.
Сколько факторов

скрывается за разными предпочтениями павианов в еде?

Слайд 36

Principal component analysis
(прежде, чем проводить факторный анализ, рекомендуется построить матрицу корреляций:

исключить переменные, слишком сильно коррелирующие с другими)

Слайд 37

Просмотрим матрицу корреляций:
Не должно быть слишком сильно коррелирующих друг с другом

переменных (иначе матрица не может быть транспонирована: matrix ill-conditioning)

Можно задать min количество дисперсии, которое должен объяснять фактор, чтобы его включили в анализ (обычно min = 1, что соответствует случайной изменчивости одной переменной (критерий Кайзера))

Слайд 38

Собственные значения (eigenvalues)– определяют, какую долю общей дисперсии объясняет данный фактор.

Слайд 39

Этот график показывает, что первые два фактора лучше остальных, они объясняют

большую часть общей изменчивости (the scree test).

Слайд 40

Посмотрим, как полученные факторы связаны с реальными переменными

Слайд 41

Можно выбрать два фактора, расположить в их пространстве переменные; потом повернуть

факторы (оси координат) так, чтобы максимизировать изменчивость переменных по ним.

Слайд 42

Фактор 1 в основном связан с растительной пищей, фактор 2 –

с животной.

После вращения факторов их структура становится более ясной:

Итак, пищевые предпочтения павианов составлены из двух основных факторов – отношением к животной и растительной пище.

Слайд 43

Посмотрим, как исходные переменные расположились в пространстве новых факторов

Слайд 44

Если мы в дальнейшем хотим проводить анализ связи питания павианов с

другими переменными, мы можем заменить наши 10 переменных на полученных два фактора.

Слайд 45

Требования к выборкам для проведения факторного анализа
Внутри групп должно быть многомерное

нормальное распределение (оценка – на основе построения гистограмм частот);
Гомогенность дисперсий (для метода главных компонент; не очень критичное требование);
Связь переменных должна быть линейной;
Размер выборки не должен быть меньше 50, оптимальный – ≥100 наблюдений.
Между переменными должна быть ненулевая корреляция, но коэффициентов корреляции, близких единице, тоже быть не должно.

Слайд 46

Если распределение не нормальное, связь переменных нелинейная, выборка небольшая:
Многомерное шкалирование

(Multidimentional scaling)

На основе сходства (любых дистанций!) между наблюдениями позволяет расположить их в пространстве нескольких новых факторов так, чтобы факторы объясняли как можно больше изменчивости.

Слайд 47

Но если данные более-менее удовлетворяют требованиям факторного анализа, лучше проводить его,

т.к.:

1. Факторный анализ - гораздо более мощная процедура, намного лучше оценивает связи исходных переменных;
2. Результаты гораздо проще интерпретировать: в многомерном шкалировании очень трудно объяснить, что же значат полученные факторы.
Это просто уменьшение числа переменных, а не статистический метод

Слайд 48

Мы наблюдаем поведение молодых сурков. У нас есть 15 переменных, описывающих

социальное поведение. Это частоты контактов, которые имеют распределение, далёкое от нормального.

Мы хотим из 15 переменных получить 2-3, которые бы хорошо объясняли изменчивость в выборке.

Слайд 49

Данные для анализа должны быть представлены МАТРИЦЕЙ ДИСТАНЦИЙ (как её получать

– рассказ дальше)

Число измерений (строк) не может быть больше 90

Слайд 50

Программа вращает наши наблюдения в пространстве так, чтобы расстояния между ними

в полученной модели лучше всего соответствовали исходным расстояниям между наблюдениями (чем больше измерений в модели, тем лучше модель будет отражать реальность, но тем она будет сложнее)

Слайд 51

Мы получили итоговую конфигурацию. Посмотрим, насколько она хороша.
D-star и D-hat –

вычисленные программой дистанции между измерениями; расстояния упорядочены по ним.
Distance – реальные дистанции, должны стоять в том же порядке.

Слайд 52

Диаграмма Шепарда покажет, хорошо ли модель согласуется с исходными данными: чем

ближе точки к красной линии, тем лучше.

Слайд 53

Наконец, получим значения новых переменных для наших наблюдений и построим картинку,

где они расположены в пространстве этих переменных

Слайд 54

Интерпретация результатов многомерного шкалирования –
исключительно на основе картинки, где наблюдения

расположены в пространстве новых переменных.
Посмотреть, какая исходная переменная какой вклад вносит в полученные переменные, нельзя.

Слайд 55

КЛАСТЕРНЫЙ АНАЛИЗ
Это вообще не статистический метод, а чисто описательная математическая процедура

группировки и классификации данных.

Здесь вообще неприменима проверка статистической значимости

Классификация: программа начинает с кластеров, содержащих не более одного элемента; потом – не больше двух, и.т.д, и в конце в одном большом кластере оказываются все элементы.

Слайд 56

Идея анализа –
Рассчитываются дистанции между измерениями в пространстве исходных переменных;
Евклидовы

дистанции;
Квадрат евклидова расстояния (если хотим увеличить вес отдельных больших разностей);
Манхэттенское расстояние (если хотим уменьшить вес отдельных больших расстояний)
…
На основе этих дистанций разными способами объекты объединяют в кластеры
Метод ближайшего соседа (Single linkage = nearest neighbor; расстояние между кластерами = расстоянию между ближайшими объектами в них);
Полная связь (Complete linkage; расстояние между кластерами определяется наиболее дальними объектами в них; не годится, если кластеры формируют цепочки);
В целом, можно выбирать метод, который даёт лучший результат

Основной результат – получение иерархического дерева

Слайд 57

Пример.
У нас есть молодые лемуры, которые после расселения заняли дупла в

лесу. Известны координаты каждого дупла.
Мы хотим узнать, формируют ли зверьки пространственные кластеры?

Слайд 58

Cluster analysis

Слайд 59

Мы будем рассматривать древовидную кластеризацию;
Кластеры будем строить на основе евклидовых дистанций

методом ближайшего соседа.

Слайд 60

Можно нарисовать деревья разного вида и посмотреть, на каких уровнях выделяются

кластеры

Можно получить матрицу дистанций между наблюдениями (например, для многомерного шкалирования)

Слайд 61

Посмотрим, на каких расстояниях какие особи объединяются в кластеры

Слайд 62

По этому графику можно посмотреть, на каком расстоянии происходят скачки в

дистанциях присоединения. Если такие скачки есть, значит, есть и кластеры соответствующего размера

Слайд 63

Дискриминантный анализ
Кластерный анализ
У нас есть исходно существующие группы. Мы ищем переменные,

которые лучше всего их разделяют.

У нас есть несколько переменных. Мы на основе них хотим классифицировать выборку – проверить, не объединяются ли наблюдения в группы.

Факторный анализ; многомерное шкалирование

У нас есть несколько переменных. Мы хотим классифицировать их или уменьшить их число

Дискриминантный, факторный, кластерный анализ

Содержание

Дискриминантный анализУ нас есть зверьки разного возраста, у которых измеряли 20

Для решения таких задач созданДИСКРИМИНАНТНЫЙ АНАЛИЗ (discriminant function analysis)Основная идея:Мы измерили

Дискриминантный анализСуть анализа:Очень близок ANOVA. Проверяет, отличаются ли группы на основе

На каждом шаге (для каждой переменной) считается статистика F, т.е. мы

Мы изучаем лемуров на Мадагаскаре.У нас 3 вида лемуров, мы поймали

массаОказалось, что, несмотря на то, что средние значения для каждой переменной

ZПеременная Z (дискриминантная функция) строится таким образом, чтобы как можно больше

Создание дискриминантной функцииИз выбранных нами переменных (на основе F to enter)

Дискриминантный анализПрограмма сама выбирает «лучшую» дискриминантную функцию и строит её первой,

Дискриминантный анализИнтерпретация дискриминантных (=канонических) функций:Каждую дискриминантную функцию характеризует Root (канонический корень),

Теперь, когда мы построили такую функцию, мы сможем поймать зверька неизвестного

Дискриминантный анализТеперь можно предсказать, к какой группе относится та или иная

Итак:Дискриминантная функция рассчитывается только для тех измерений, для которых известно, к

Discriminant function analysis

Выберем переменные для анализа.Выберем пошаговый анализ.Критерии, по которым мы будем включать

Прежде чем приступить к анализу, посмотрим, есть ли разделение на группы

Предварительный анализ переменных: насколько по ним вообще различаются группы (на основе

Пройдём Шаг 1 и Шаг 2. Можно посмотреть, какие переменные уже

Последний Шаг 3:дискриминация между видами значимаPartial lambda: Переменная Голова даёт вклад

Ступень 2: создание дискриминантной функцииПредпримем канонический анализДискриминантных функций у нас 2Значимой

Посмотрим, какой вклад внесли переменные в различение групп нашими дискриминантными функциями.Standardized

Наибольший вклад в первую функцию вносит Голова (она сильнее всего коррелирует

Мы можем посмотреть на разницу средних значений функций между группами.Кошачий лемур

Ступень 3: классификацияФункции классификации : мы получаем для них коэффициенты, и

Можно посмотреть, сколько лемуров правильно и неправильно причислено к той или

На основе дистанций Махаланобиса от каждого измерения до центра группы можно

Требования к выборкам для проведения дискриминантного анализа3. Не должно быть корреляции

ФАКТОРНЫЙ АНАЛИЗМы много лет изучаем пищевые предпочтения павианов и разработали комплексные

Итак,Мы хотимНайти те факторы, которые определяют изменчивость (объясняют действие) большого количества

Цели факторного анализа в биологии:Преобразование взаимодействия многих переменных во взаимодействие небольшого

Поясняющий пример:Мы изучаем кроликов. Сначала взвешиваем каждого из 100 кроликов на

Факторный анализ:Анализ главных компонент (principal component analysis);Основная идея: получить факторы, объясняющие

Подразумевается, что наши реально измеренные переменные являются линейными комбинациями этих подлежащих

Итак, мы изучаем питание павианов. Типов пищи у павианов 10:апельсины,бананы,яблоки,помидоры,огурцы,мясо,курица,рыба,насекомые,червяки.Сколько факторов

Principal component analysis(прежде, чем проводить факторный анализ, рекомендуется построить матрицу корреляций:

Просмотрим матрицу корреляций:Не должно быть слишком сильно коррелирующих друг с другом

Собственные значения (eigenvalues)– определяют, какую долю общей дисперсии объясняет данный фактор.

Этот график показывает, что первые два фактора лучше остальных, они объясняют

Посмотрим, как полученные факторы связаны с реальными переменными

Можно выбрать два фактора, расположить в их пространстве переменные; потом повернуть

Фактор 1 в основном связан с растительной пищей, фактор 2 –

Посмотрим, как исходные переменные расположились в пространстве новых факторов

Если мы в дальнейшем хотим проводить анализ связи питания павианов с

Требования к выборкам для проведения факторного анализаВнутри групп должно быть многомерное

Если распределение не нормальное, связь переменных нелинейная, выборка небольшая: Многомерное шкалирование

Но если данные более-менее удовлетворяют требованиям факторного анализа, лучше проводить его,

Мы наблюдаем поведение молодых сурков. У нас есть 15 переменных, описывающих

Данные для анализа должны быть представлены МАТРИЦЕЙ ДИСТАНЦИЙ (как её получать

Программа вращает наши наблюдения в пространстве так, чтобы расстояния между ними

Мы получили итоговую конфигурацию. Посмотрим, насколько она хороша.D-star и D-hat –

Диаграмма Шепарда покажет, хорошо ли модель согласуется с исходными данными: чем

Наконец, получим значения новых переменных для наших наблюдений и построим картинку,

Интерпретация результатов многомерного шкалирования – исключительно на основе картинки, где наблюдения

КЛАСТЕРНЫЙ АНАЛИЗЭто вообще не статистический метод, а чисто описательная математическая процедура

Идея анализа – Рассчитываются дистанции между измерениями в пространстве исходных переменных;Евклидовы

Пример.У нас есть молодые лемуры, которые после расселения заняли дупла в

Cluster analysis

Мы будем рассматривать древовидную кластеризацию;Кластеры будем строить на основе евклидовых дистанций

Можно нарисовать деревья разного вида и посмотреть, на каких уровнях выделяются

Посмотрим, на каких расстояниях какие особи объединяются в кластеры

По этому графику можно посмотреть, на каком расстоянии происходят скачки в

Дискриминантный анализКластерный анализУ нас есть исходно существующие группы. Мы ищем переменные,

Похожие презентации

Дискриминантный анализ
У нас есть зверьки разного возраста, у которых измеряли 20

Для решения таких задач создан
ДИСКРИМИНАНТНЫЙ АНАЛИЗ (discriminant function analysis)
Основная идея:
Мы измерили

Дискриминантный анализ
Суть анализа:
Очень близок ANOVA. Проверяет, отличаются ли группы на основе

Мы изучаем лемуров на Мадагаскаре.
У нас 3 вида лемуров, мы поймали

масса
Оказалось, что, несмотря на то, что средние значения для каждой переменной

Z
Переменная Z (дискриминантная функция) строится таким образом, чтобы как можно больше

Создание дискриминантной функции
Из выбранных нами переменных (на основе F to enter)

Дискриминантный анализ
Программа сама выбирает «лучшую» дискриминантную функцию и строит её первой,

Дискриминантный анализ
Интерпретация дискриминантных (=канонических) функций:
Каждую дискриминантную функцию характеризует Root (канонический корень),

Дискриминантный анализ
Теперь можно предсказать, к какой группе относится та или иная

Итак:
Дискриминантная функция рассчитывается только для тех измерений, для которых известно, к

Выберем переменные для анализа.
Выберем пошаговый анализ.
Критерии, по которым мы будем включать

Последний Шаг 3:
дискриминация между видами значима
Partial lambda: Переменная Голова даёт вклад

Ступень 2: создание дискриминантной функции
Предпримем канонический анализ
Дискриминантных функций у нас 2
Значимой

Посмотрим, какой вклад внесли переменные в различение групп нашими дискриминантными функциями.
Standardized

Мы можем посмотреть на разницу средних значений функций между группами.
Кошачий лемур

Ступень 3: классификация
Функции классификации : мы получаем для них коэффициенты, и

Требования к выборкам для проведения дискриминантного анализа
3. Не должно быть корреляции

ФАКТОРНЫЙ АНАЛИЗ
Мы много лет изучаем пищевые предпочтения павианов и разработали комплексные

Итак,
Мы хотим
Найти те факторы, которые определяют изменчивость (объясняют действие) большого количества

Цели факторного анализа в биологии:
Преобразование взаимодействия многих переменных во взаимодействие небольшого

Поясняющий пример:
Мы изучаем кроликов. Сначала взвешиваем каждого из 100 кроликов на

Факторный анализ:
Анализ главных компонент (principal component analysis);
Основная идея: получить факторы, объясняющие

Итак, мы изучаем питание павианов. Типов пищи у павианов 10:
апельсины,
бананы,
яблоки,
помидоры,
огурцы,
мясо,
курица,
рыба,
насекомые,
червяки.
Сколько факторов

Principal component analysis
(прежде, чем проводить факторный анализ, рекомендуется построить матрицу корреляций:

Просмотрим матрицу корреляций:
Не должно быть слишком сильно коррелирующих друг с другом

Требования к выборкам для проведения факторного анализа
Внутри групп должно быть многомерное

Если распределение не нормальное, связь переменных нелинейная, выборка небольшая:
Многомерное шкалирование

Мы получили итоговую конфигурацию. Посмотрим, насколько она хороша.
D-star и D-hat –

Интерпретация результатов многомерного шкалирования –
исключительно на основе картинки, где наблюдения

КЛАСТЕРНЫЙ АНАЛИЗ
Это вообще не статистический метод, а чисто описательная математическая процедура

Идея анализа –
Рассчитываются дистанции между измерениями в пространстве исходных переменных;
Евклидовы

Пример.
У нас есть молодые лемуры, которые после расселения заняли дупла в

Мы будем рассматривать древовидную кластеризацию;
Кластеры будем строить на основе евклидовых дистанций

Дискриминантный анализ
Кластерный анализ
У нас есть исходно существующие группы. Мы ищем переменные,