Дисперсионный анализ

Содержание

Слайд 2

Дисперсионный анализ

Дисперсионный анализ

Слайд 3

Рассмотренный ранее t-критерий-критерий Стьюдента (равно как и его непараметрические аналоги) предназначен

Рассмотренный ранее t-критерий-критерий Стьюдента (равно как и его непараметрические аналоги) предназначен для сравнения исключительно

двух совокупностей. Однако часто он неверно используется для попарного сравнения большего количества групп (рис. 1), что вызывает т.н. эффект множественных сравнений

Рис. Пример неверного использования критерия Стьюдента для попарных сравнений трех групп - А, B и  C.

Слайд 4

В 1920 г. английский математик Рональд Фишер предложил концепцию дисперсионного анализа.

В 1920 г. английский математик Рональд Фишер предложил концепцию дисперсионного анализа.


Общие принципы дисперсионного анализа

от латинского Dispersio – рассеивание,
Analysis of variance (ANOVA) – анализ варианс

- Применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).

Слайд 5

Откуда произошло название дисперсионный анализ? При исследовании статистической значимости различия между

Откуда произошло название дисперсионный анализ?

При исследовании статистической значимости различия

между средними двух (или нескольких) групп сравниваются (анализируются) выборочные дисперсии.
Слайд 6

Метод применялся для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная

Метод применялся для оценки экспериментов в растениеводстве.
В дальнейшем выяснилась общенаучная

значимость дисперсионного анализа для экспериментов в
психологии,
педагогике,
медицине и др.
Слайд 7

Основные понятия Факторы - независимые переменные. это те признаки, которые влияют

Основные понятия

Факторы - независимые переменные.
это те признаки, которые влияют на

изучаемое явление. в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
Зависимая переменная - результативные признаки
- это те признаки, которые изменяются под влиянием факторных признаков.
Слайд 8

Слайд 9

Слайд 10

Основная цель дисперсионного анализа (ANOVA): - является исследование значимости различия между

Основная цель дисперсионного анализа (ANOVA):
- является исследование значимости различия между средними

с помощью сравнения (анализа) дисперсий.
Слайд 11

Сущность дисперсионного анализа Разложение общей дисперсии изучаемого признака на отдельные компоненты,

Сущность дисперсионного анализа

Разложение общей дисперсии изучаемого признака на отдельные компоненты,

обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак.
Это достигается посредством установления значимости различия между выборочными средними.
Слайд 12

Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием

Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную

различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью.
Слайд 13

Слайд 14

При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений,

При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений,

выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии.
Слайд 15

Постановка задачи Имеются данные о весе томатов (все растение целиком (weight,

Постановка задачи

Имеются данные о весе томатов (все растение целиком (weight, в кг),

которые выращивали в течение 2 месяцев при трех разных экспериментальных условиях (trt, от  treatment)  
на воде (water),
в среде с добавлением удобрения (nutrient),
а также в среде с добавлением удобрения и гербицида 2,4-D (nutrient+24D):
Слайд 16

Рассматриваемый пример соответствует случаю однофакторного дисперсионного анализа: изучается действие одного фактора

Рассматриваемый пример соответствует случаю однофакторного дисперсионного анализа:
изучается действие одного фактора - условий

выращивания (с тремя уровнями - Water, Nutrient иNutrient+24D)
на интересующую нас переменную-отклик - вес растений.
Слайд 17

Результаты 1.5, 1.9, 1.3, 1.5, 2.4, 1.5, # water 1.5, 1.2,

Результаты

1.5, 1.9, 1.3, 1.5, 2.4, 1.5, # water
1.5, 1.2, 1.2,

2.1, 2.9, 1.6, # nutrient
1.9, 1.6, 0.8, 1.15, 0.9, 1.6 # nutrient+24D

Переменная trt представляет собой фактор с тремя уровнями.

 trt

Слайд 18

Визуализация данных при помощи одномерной диаграммы рассеяния Рис. 2. Результаты измерений

Визуализация данных при помощи одномерной диаграммы рассеяния 

Рис. 2. Результаты измерений веса растений

томатов, выращенных при
разных экспериментальных условиях.

Значения веса растений достаточно близки для всех трех
экспериментальных условий, хотя и есть некоторая тенденция к снижению веса в группе "Nutrient+24D".

Слайд 19

Water 1.683333 Nutrient 1.750000 Nutrient+24D 1.325000 Подлежащую проверке нулевую гипотезу можно

Water 1.683333
Nutrient 1.750000
Nutrient+24D 1.325000
Подлежащую проверке нулевую гипотезу можно сформулировать так: исследованные условия

выращивания растений не оказывают никакого влияния на вес последних.
Другими словами, нулевая гипотеза утверждает, что наблюдаемые различия между групповыми средними несущественны и вызваны влиянием случайных факторов(т.е. в действительности все  полученные измерения веса растений происходят из одной нормально распределенной генеральной совокупности):
Слайд 20

Слайд 21

К сожалению, исследователь почти никогда не имеет возможности изучить всю генеральную

К сожалению, исследователь почти никогда не имеет возможности изучить всю генеральную

совокупность.
Как же узнать, верна ли приведенная выше нулевая гипотеза, располагая только выборочными данными?
Мы можем сформулировать этот вопрос иначе: какова вероятность  получить наблюдаемые различия между групповыми средними, извлекая случайные выборки из одной нормально распределенной генеральной совокупности? 
Слайд 22

Рис. 3. То же, что рис. 2, но с добавлением точек,

Рис. 3.  То же, что рис. 2, но с добавлением точек,

отражающих средние
значения в каждой экспериментальной группе (Means).
Слайд 23

Теперь (исключительно с целью продемонстрировать принцип!) несколько изменим исходные данные

Теперь (исключительно с целью продемонстрировать принцип!) несколько изменим исходные данные

Слайд 24

Группы точек, отражающих экспериментальные данные, оказались значительно раздвинутыми вдоль оси X.

Группы точек, отражающих экспериментальные данные, оказались значительно раздвинутыми вдоль оси X.

Результатом этого стало также расхождение групповых средних (Means). Теперь, глядя на рис. 4, почти любой скажет, что экспериментальные группы различаются по весу растений. Почему? Сравните разброс значений внутри экспериментальных групп с разбросом трех групповых средних:разброс групповых средних на рис. 4 в целом превышает разброс значений в экспериментальных группах (тогда как на рис. 3 мы имели обратную ситуацию).
Следовательно, для оценки различий между группами следует каким-то образом сравнить разброс групповых средних с разбросом значений внутри групп. Это ключевая идея дисперсионного анализа, уяснив которую, вы не будете испытывать трудности с пониманием излагаемого ниже материала.
Слайд 25

Итак, чем больше разброс выборочных средних и чем меньше разброс значений

Итак, чем больше разброс выборочных средних и чем меньше разброс значений

внутри групп, тем меньше вероятность того, что наши группы являются случайными выборками из одной совокупности. Дисперсию генеральной совокупности можно оценить двумя способами. С одной стороны, оценкой дисперсии генеральной совокупностью будет дисперсия, вычисленная для каждой группы. Такая оценка не будет зависеть от различий групповых средних. С другой стороны, при верной нулевой гипотезе (см. выше) разброс  групповых средних тоже позволит оценить дисперсию генеральной совокупности. Очевидно, что такая оценка уже будет зависеть от различий между группами.
Слайд 26

Если экспериментальные группы - это случайные выборки из одной и той

Если экспериментальные группы - это случайные выборки из одной и той

же нормально распределенной генеральной совокупности, то оба способа оценки генеральной дисперсии должны давать примерно одинаковые результаты. Соответственно, если эти оценки действительно оказываются близки, то мы не можем отвергнуть нулевую гипотезу. И наоборот: если разница между этими оценками оказывается существенной, мы можем принять альтернативную гипотезу: маловероятно, что мы получили бы наблюдаемые различия между группами, если бы они были просто случайными выборками из одной нормально распределенной генеральной совокупности.
Слайд 27

Сравнивая компоненты дисперсии друг с другом посредством F—критерия Фишера, можно определить,

Сравнивая компоненты дисперсии друг с другом посредством F—критерия Фишера, можно определить,

какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.
Слайд 28

Слайд 29

Слайд 30

Слайд 31

Слайд 32

Слайд 33

Слайд 34

Слайд 35

Слайд 36

Слайд 37

Слайд 38

Слайд 39

Слайд 40

Слайд 41

Слайд 42

Слайд 43

Слайд 44

Слайд 45

Слайд 46

Результаты измерений урожайности

Результаты измерений урожайности

Слайд 47

Результаты измерения урожайности в относительных единицах

Результаты измерения урожайности в относительных единицах

Слайд 48

Схема однофакторного дисперсионного анализа

Схема однофакторного дисперсионного анализа

Слайд 49

Слайд 50

Для нашего примера таблица однофакторного анализа будет иметь следующий вид Дисперсионный

Для нашего примера таблица однофакторного анализа будет иметь следующий вид Дисперсионный анализ

урожайности на различных типах почвы
Слайд 51

Произведя теперь проверку нулевой гипотезы (4) с помощью распределения, находим При

Произведя теперь проверку нулевой гипотезы (4) с помощью  распределения, находим
При

двух степенях свободы большей дисперсии (k1 = 2) и 12 е свободы меньшей дисперсии (k2 = 12) по табл. в приложении II находим критические границы для F, равные при 5%-м уровне pзначимости и 3.88 и 1%-м уровне — 6.93.
Полученное нами из наблюдений значение  превышает указанные границы, и потому нулевая гипотеза должна быть отвергнута, т.е. урожайность на рассматриваемых типах почвы неодинакова.
Слайд 52

Двухфакторный дисперсионный анализ с повторениями В таблице. приведены суточные привесы (г)

Двухфакторный дисперсионный анализ с повторениями

В таблице. приведены суточные привесы (г)

собранных для исследования 18 поросят в зависимости от метода удержания поросят (фактор А) и качества их кормления (фактор В).
Слайд 53

Формируем таблицу, сочетая в каждом варианте опыта уровни каждого из факторов:

Формируем таблицу, сочетая в каждом варианте опыта уровни каждого из факторов:

Слайд 54

Слайд 55

Слайд 56

Слайд 57

Взаимодействие Эффекты факторов, накладываясь друг на друга в разных сочетаниях, приводят

Взаимодействие
Эффекты факторов, накладываясь друг на друга в разных

сочетаниях, приводят к разным последствиям.
Например, если уровень В2 повышает значение признака на 20% в первой строке данных (т.е. в сочетании с уровнем А1), то во второй строке он может его не изменять или даже уменьшать.
Слайд 58

В фиксированной модели проверка нулевой гипотезы (определение критерия Фишера) производится так

В фиксированной модели проверка нулевой гипотезы (определение критерия Фишера) производится так

же, как и в однофакторном анализе, т.е. сравнением среднего квадрата каждого фактора со случайным средним квадратом.
В случайной модели приходится делить средний квадрат фактора на средний квадрат взаимодействия.
Необходимость заранее определять, с какой моделью мы имеем дело.
Слайд 59

Очевидно, данные факторы имеют фиксированные уровни, т.е. мы находимся в рамках

Очевидно, данные факторы имеют фиксированные уровни, т.е. мы находимся в рамках

модели I. Поэтому для проверки существенности влияния факторов А, В и их взаимодействия АВ необходимо найти отношения
Слайд 60

Двухфакторный дисперсионный анализ без повторений Задача : Необходимо определить, влияет ли

Двухфакторный дисперсионный анализ без повторений

Задача : Необходимо определить, влияет

ли сорт и тип удобрения на урожайность пшеницы.
Слайд 61