Содержание
- 2. Дискриминантный анализ У нас есть зверьки разного возраста, у которых измеряли 20 показателей. По каким из
- 3. Для решения таких задач создан ДИСКРИМИНАНТНЫЙ АНАЛИЗ (discriminant function analysis) Основная идея: Мы измерили целый набор
- 4. Дискриминантный анализ Суть анализа: Очень близок ANOVA. Проверяет, отличаются ли группы на основе СРЕДНИХ ЗНАЧЕНИЙ переменных.
- 5. На каждом шаге (для каждой переменной) считается статистика F, т.е. мы сравниваем группы по этой переменной.
- 6. Мы изучаем лемуров на Мадагаскаре. У нас 3 вида лемуров, мы поймали зверьков разных видов, взвесили,
- 7. масса Оказалось, что, несмотря на то, что средние значения для каждой переменной у разных видов отличаются,
- 8. Z Переменная Z (дискриминантная функция) строится таким образом, чтобы как можно больше зверьков одного из видов
- 9. Создание дискриминантной функции Из выбранных нами переменных (на основе F to enter) рассчитываем новую переменную Z
- 10. Дискриминантный анализ Программа сама выбирает «лучшую» дискриминантную функцию и строит её первой, потом «лучшую» из оставшихся
- 11. Дискриминантный анализ Интерпретация дискриминантных (=канонических) функций: Каждую дискриминантную функцию характеризует Root (канонический корень), и мы можем
- 12. Теперь, когда мы построили такую функцию, мы сможем поймать зверька неизвестного вида, измерить у него X1
- 13. Дискриминантный анализ Теперь можно предсказать, к какой группе относится та или иная особь, и оценить точность
- 14. Итак: Дискриминантная функция рассчитывается только для тех измерений, для которых известно, к какой группе они принадлежат
- 15. Discriminant function analysis
- 16. Выберем переменные для анализа. Выберем пошаговый анализ. Критерии, по которым мы будем включать переменные для построения
- 17. Прежде чем приступить к анализу, посмотрим, есть ли разделение на группы по нашим переменным.
- 18. Предварительный анализ переменных: насколько по ним вообще различаются группы (на основе ANOVA) Wilk’s lambda – статистика,
- 19. Пройдём Шаг 1 и Шаг 2. Можно посмотреть, какие переменные уже включены в анализ. Partial lambda
- 20. Последний Шаг 3: дискриминация между видами значима Partial lambda: Переменная Голова даёт вклад больше всех, а
- 21. Ступень 2: создание дискриминантной функции Предпримем канонический анализ Дискриминантных функций у нас 2 Значимой оказалась только
- 22. Посмотрим, какой вклад внесли переменные в различение групп нашими дискриминантными функциями. Standardized coefficients – коэффициенты для
- 23. Наибольший вклад в первую функцию вносит Голова (она сильнее всего коррелирует с ней). Структура факторов (дискриминантных
- 24. Мы можем посмотреть на разницу средних значений функций между группами. Кошачий лемур сильно отличается от других
- 25. Ступень 3: классификация Функции классификации : мы получаем для них коэффициенты, и можем классифицировать новых лемуров:
- 26. Можно посмотреть, сколько лемуров правильно и неправильно причислено к той или иной группе на основе функций
- 27. На основе дистанций Махаланобиса от каждого измерения до центра группы можно посмотреть, к какому виду тот
- 28. Требования к выборкам для проведения дискриминантного анализа 3. Не должно быть корреляции средних значений и дисперсий
- 29. ФАКТОРНЫЙ АНАЛИЗ Мы много лет изучаем пищевые предпочтения павианов и разработали комплексные оценки того, как они
- 30. Итак, Мы хотим Найти те факторы, которые определяют изменчивость (объясняют действие) большого количества измеренных нами реальных
- 31. Цели факторного анализа в биологии: Преобразование взаимодействия многих переменных во взаимодействие небольшого числа факторов. Уменьшение числа
- 32. Поясняющий пример: Мы изучаем кроликов. Сначала взвешиваем каждого из 100 кроликов на безмене, потом на весах
- 33. Факторный анализ: Анализ главных компонент (principal component analysis); Основная идея: получить факторы, объясняющие как можно больше
- 34. Подразумевается, что наши реально измеренные переменные являются линейными комбинациями этих подлежащих факторов. Факторы (главные компоненты) находят
- 35. Итак, мы изучаем питание павианов. Типов пищи у павианов 10: апельсины, бананы, яблоки, помидоры, огурцы, мясо,
- 36. Principal component analysis (прежде, чем проводить факторный анализ, рекомендуется построить матрицу корреляций: исключить переменные, слишком сильно
- 37. Просмотрим матрицу корреляций: Не должно быть слишком сильно коррелирующих друг с другом переменных (иначе матрица не
- 38. Собственные значения (eigenvalues)– определяют, какую долю общей дисперсии объясняет данный фактор.
- 39. Этот график показывает, что первые два фактора лучше остальных, они объясняют большую часть общей изменчивости (the
- 40. Посмотрим, как полученные факторы связаны с реальными переменными
- 41. Можно выбрать два фактора, расположить в их пространстве переменные; потом повернуть факторы (оси координат) так, чтобы
- 42. Фактор 1 в основном связан с растительной пищей, фактор 2 – с животной. После вращения факторов
- 43. Посмотрим, как исходные переменные расположились в пространстве новых факторов
- 44. Если мы в дальнейшем хотим проводить анализ связи питания павианов с другими переменными, мы можем заменить
- 45. Требования к выборкам для проведения факторного анализа Внутри групп должно быть многомерное нормальное распределение (оценка –
- 46. Если распределение не нормальное, связь переменных нелинейная, выборка небольшая: Многомерное шкалирование (Multidimentional scaling) На основе сходства
- 47. Но если данные более-менее удовлетворяют требованиям факторного анализа, лучше проводить его, т.к.: 1. Факторный анализ -
- 48. Мы наблюдаем поведение молодых сурков. У нас есть 15 переменных, описывающих социальное поведение. Это частоты контактов,
- 49. Данные для анализа должны быть представлены МАТРИЦЕЙ ДИСТАНЦИЙ (как её получать – рассказ дальше) Число измерений
- 50. Программа вращает наши наблюдения в пространстве так, чтобы расстояния между ними в полученной модели лучше всего
- 51. Мы получили итоговую конфигурацию. Посмотрим, насколько она хороша. D-star и D-hat – вычисленные программой дистанции между
- 52. Диаграмма Шепарда покажет, хорошо ли модель согласуется с исходными данными: чем ближе точки к красной линии,
- 53. Наконец, получим значения новых переменных для наших наблюдений и построим картинку, где они расположены в пространстве
- 54. Интерпретация результатов многомерного шкалирования – исключительно на основе картинки, где наблюдения расположены в пространстве новых переменных.
- 55. КЛАСТЕРНЫЙ АНАЛИЗ Это вообще не статистический метод, а чисто описательная математическая процедура группировки и классификации данных.
- 56. Идея анализа – Рассчитываются дистанции между измерениями в пространстве исходных переменных; Евклидовы дистанции; Квадрат евклидова расстояния
- 57. Пример. У нас есть молодые лемуры, которые после расселения заняли дупла в лесу. Известны координаты каждого
- 58. Cluster analysis
- 59. Мы будем рассматривать древовидную кластеризацию; Кластеры будем строить на основе евклидовых дистанций методом ближайшего соседа.
- 60. Можно нарисовать деревья разного вида и посмотреть, на каких уровнях выделяются кластеры Можно получить матрицу дистанций
- 61. Посмотрим, на каких расстояниях какие особи объединяются в кластеры
- 62. По этому графику можно посмотреть, на каком расстоянии происходят скачки в дистанциях присоединения. Если такие скачки
- 63. Дискриминантный анализ Кластерный анализ У нас есть исходно существующие группы. Мы ищем переменные, которые лучше всего
- 65. Скачать презентацию