Дисперсионный анализ

Содержание

Слайд 2

Постановка проблемы Дисперсионный анализ является статистическим методом анализа результатов наблюдений, зависящих

Постановка проблемы

Дисперсионный анализ является статистическим методом анализа результатов наблюдений, зависящих от

различных одновременно действующих факторов, с целью выбора наиболее значимых факторов и оценки их влияния на исследуемый процесс.

Методами дисперсионного анализа устанавливается наличие влияния заданного фактора на изучаемый процесс (на выходную переменную процесса) за счёт статистической обработки наблюдаемой совокупности выборочных данных.

Слайд 3

Основной целью дисперсионного анализа является исследование значимости различия между средними. Установить

Основной целью дисперсионного анализа является исследование значимости различия между средними.
Установить

различаются ли три группы или более по какому-либо одному количественному признаку
Например определить, зависит ли активность фермента от стадии заболевания
Слайд 4

Классификация методов дисперсионного анализа По количеству анализируемых признаков Однофакторный (ANOVA) (Анализ

Классификация методов дисперсионного анализа

По количеству анализируемых признаков

Однофакторный
(ANOVA)
(Анализ различий групп
по

одному признаку)

Многофакторный
(МANOVA)
(Анализ различий групп
Одновременно по двум
признакам и более)

Слайд 5

Классификация методов дисперсионного анализа По принципам анализа Параметрический (Для анализа нормально

Классификация методов дисперсионного анализа

По принципам анализа

Параметрический
(Для анализа нормально
распределенных признаков


в группах)

Непараметрический
(для анализа количественного
признака независимо от
вида его распределения
в группах)

Слайд 6

Классификация методов дисперсионного анализа По анализируемым данным Данные, полученные в несвязанных

Классификация методов дисперсионного анализа

По анализируемым данным

Данные, полученные в несвязанных
(независимых) выборках

(в частности данные
однократных наблюдении)

Данные, полученные в связанных
(зависимых) выборках (в частности данные
повторных наблюдений)

Слайд 7

Сравнить три или более группы по количественному нормально распределенному признаку В

Сравнить три или более группы по количественному нормально распределенному признаку
В

процедуре параметрического анализа вариаций общая вариация данных рассматривается как сумма двух видов вариаций:

Параметрический дисперсионный анализ

Слайд 8

1. Межгрупповая вариация – вариация между средним каждой группы и общим

1. Межгрупповая вариация – вариация между средним каждой группы и общим

средним значением всей выборки
2. Внутригрупповая вариация – вариация между каждым объектом исследования группы и средним значением соответствующей группы

Параметрический дисперсионный анализ

Слайд 9

Этапы выполнения: Проверка гипотез о равенстве дисперсий Собственно анализ вариаций Апостериорное

Этапы выполнения:
Проверка гипотез о равенстве дисперсий
Собственно анализ вариаций
Апостериорное сравнение групп

с помощью специализированных процедур, отличных от Т-критерия

Параметрический дисперсионный анализ

Слайд 10

Происходит проверка нулевой гипотезы об отсутствии различий дисперсий в группах Если

Происходит проверка нулевой гипотезы
об отсутствии различий дисперсий в группах
Если

результат свидетельствует об отсутствии различия дисперсий ( р>0,05), то применение параметрического дисперсионного анализа обосновано
Если различие дисперсий имеется ( р<0,05), то применять параметрический дисперсионный анализ не следует

Проверка гипотез о равенстве дисперсий ( тест Левена )

Слайд 11

Используется в случае необходимости сопоставить несколько групп по одному количественному или

Используется в случае необходимости сопоставить несколько групп по одному количественному

или порядковому признаку независимо от вида его распределения в группах

Непараметрические методы исследования независимых групп (м-д Краскела-Уоллиса, медианный тест)

Слайд 12

Мощность - вероятность отвергнуть Н0 в эксперименте, когда Н0 действительно неверна. Мощность

Мощность - вероятность отвергнуть Н0 в эксперименте, когда Н0 действительно неверна.

Мощность

Слайд 13

Мощность Мощность предполагаемого статистического теста - ключевой элемент планирования исследования «Реальное

Мощность

Мощность предполагаемого статистического теста - ключевой элемент планирования исследования

«Реальное значение» параметра:
Во

всей мировой популяции землероек μ = 90 г.
Пусть «реальное значение» средней массы в заповеднике = 94 г.
Слайд 14

Мощность Нарисуем распределения выборочных средних для μ = 90 и μ

Мощность

Нарисуем распределения выборочных средних для μ = 90 и μ =

94 (стандартное отклонение σ = 20).

Размер выборки n = 25 зверей

Слайд 15

Мощность Как увеличить мощность? Большей МОЩНОСТИ критерия способствуют: Большой размер выборки;

Мощность

Как увеличить мощность?

Большей МОЩНОСТИ критерия способствуют:
Большой размер выборки;
Большие различия между популяциями

(effect size);
Маленькое стандартное отклонение;
Большой уровень значимости (α=0.05 а не α=0.01);
Выбор одностороннего теста вместо двустороннего
Слайд 16

Базовая модель Математическая основа базовой модели: SSобщ = SSA + SSB

Базовая модель

Математическая основа базовой модели:
SSобщ = SSA + SSB + SSост
Где

SS – это сумма квадратов отклонений от среднего.
Рассмотрим случай, когда комбинация определенных значений A и B встречается у равного количества человек r, число возможных значений B равно b и число возможных значений A равно a. (сбалансированная модель).
Слайд 17

Слайд 18

Базовая модель Тогда общее число человек в выборке n = a x b x r

Базовая модель

Тогда общее число человек в выборке
n = a x

b x r
Слайд 19

Базовая модель В основе лежит все та же основная модель дисперсионного

Базовая модель
В основе лежит все та же основная модель дисперсионного анализа,

что и в случае однофакторной статистики, только теперь мы изучаем действие двух или более факторов:
x = m + α + β + … + ε
Слайд 20

Базовая модель

Базовая модель

Слайд 21

Модель с эффектом взаимодействия Эффект взаимодействия предусматривает то, что дисперсия общего

Модель с эффектом взаимодействия

Эффект взаимодействия предусматривает то, что дисперсия общего влияния

факторов не равна простой сумме их дисперсий:
SSобщ = SSA + SSB + SSAB + SSост
Вводится еще один компонент – взаимодействие A и B.
Слайд 22

Модель с эффектом взаимодействия

Модель с эффектом взаимодействия

Слайд 23

Модель со случайными эффектами Случайные факторы предусматривают другой подход к вычислению

Модель со случайными эффектами

Случайные факторы предусматривают другой подход к вычислению компонентов

дисперсии. Если все факторы случайны, то в модели
x = m + a + b + e
при справедливости нулевой гипотезы a, b и e распределены нормально со средним = 0 и разными дисперсиями.
Слайд 24

Модель со случайными эффектами

Модель со случайными эффектами

Слайд 25

Модель со случайными эффектами Поскольку подход к SSB иной, рассчитывается он

Модель со случайными эффектами

Поскольку подход к SSB иной, рассчитывается он тоже

по-другому:
Если в модели со случайными эффектами есть взаимодействия, их дисперсия считается так же, как и в модели постоянных эффектов.
Слайд 26

Модель с несколькими эффектами Чем больше факторов в модели, тем сложнее

Модель с несколькими эффектами

Чем больше факторов в модели, тем сложнее ее

расчет и построение.
Так, например, если в модели три фактора, то оценка влияния одного фактора на модель в целом можно провести только после исключения его взаимодействия с другими факторами:
MSABC / MSост – взаимодействие всех факторов
MSAB / MSABC - взаимодействие двух факторов
MSAС / MSABC - взаимодействие двух факторов
Слайд 27

Немного терминологии Уровень (level) – это одно из возможных значений фактора.

Немного терминологии

Уровень (level) – это одно из возможных значений фактора. В

англоязычной литературе фактор принято обозначать в виде его номера и количества уровней: 2x2, 3x4 и т.п.
Ячейка/гнездо (cell) – это группа значений при заданной комбинации факторов (например, ячейка A=1, B=2, C=10)
Слайд 28

Немного терминологии Полный перекрестный дизайн (Completely crossed design) – каждый уровень

Немного терминологии

Полный перекрестный дизайн (Completely crossed design) – каждый уровень каждого

фактора встречается в комбинации со всеми уровнями остальных факторов.
Сбалансированный дизайн (balanced design) - в каждой ячейке равное количество значений.
Ортогональный дизайн (orthogonal design) – сбалансированный, полный перекрестный дизайн при условии случайной выборки.
Слайд 29

Простой пример Изучаются 2 фактора, влияющих на сдачу экзамена: Употребление кофе

Простой пример

Изучаются 2 фактора, влияющих на сдачу экзамена:
Употребление кофе (да/нет)
Наличие конспекта

(да/нет)
Результат оценивается в количестве правильных ответов на вопросы единого междисциплинарного теста.
Слайд 30

Простой пример Основные эффекты:

Простой пример

Основные эффекты:

Слайд 31

Простой пример Основные эффекты и их взаимодействие

Простой пример

Основные эффекты и их взаимодействие

Слайд 32

Простой пример Основные эффекты и их взаимодействие Эффекты факторов видны по

Простой пример

Основные эффекты и их взаимодействие
Эффекты факторов видны по наклону линий

на графике (первый эффект) и точках пересечения линий с вертикальной осью (второй эффект)
Взаимодействие факторов проявляется в виде нарушения параллельности линий на графике.
Слайд 33

Простой пример Единственный основной эффект за счет B (только кофе)

Простой пример Единственный основной эффект за счет B (только кофе)

Слайд 34

Простой пример Единственный основной эффект за счет А (только конспект)

Простой пример Единственный основной эффект за счет А (только конспект)

Слайд 35

Простой пример Оба основных эффекта A и B (кофе и конспект)

Простой пример Оба основных эффекта A и B (кофе и конспект)

Слайд 36

Однофакторный дисперсионный анализ Рассмотрим оценки различных дисперсий, возникающие при анализе таблицы

Однофакторный дисперсионный анализ

Рассмотрим оценки различных дисперсий, возникающие при анализе таблицы результатов

наблюдений. Для оценки дисперсии, характеризующей изменение данных на уровне Ai (по строкам таблицы), имеем:

Из предпосылок дисперсионного анализа следует, что должно иметь место равенство всех дисперсий. При выполнении этого условия находим оценку дисперсии, характеризующей рассеяние значений xij вне влияния фактора A, по формуле:

Слайд 37

Если , то влияние A – значимо. Сравниваем и устанавливаем наличие

Если , то влияние A – значимо.

Сравниваем и устанавливаем наличие влияния

фактора A.

Однофакторный дисперсионный анализ

Для упрощения вычислений приведем алгоритм их выполнения. Вычисляем последовательно суммы:

Слайд 38

Двухфакторный дисперсионный анализ Рассмотренный ранее однофакторный дисперси-онный анализ обладает информативностью, не

Двухфакторный дисперсионный анализ

Рассмотренный ранее однофакторный дисперси-онный анализ обладает информативностью, не большей,

чем методы множественного сравнения средних. Информативность дисперсионного анализа возрастает при одновременном изучении влияния нескольких факторов.

Рассмотрим случай, когда анализируется влияние одновременно двух факторов A и B.

Слайд 39

Двухфакторный дисперсионный анализ Пусть результаты эксперимента представлены таблицей:

Двухфакторный дисперсионный анализ

Пусть результаты эксперимента представлены таблицей:

Слайд 40

Если , то влияние фактора A признается значимым. Двухфакторный дисперсионный анализ

Если , то влияние фактора A признается значимым.

Двухфакторный дисперсионный анализ

Дисперсионный анализ

для двухфакторных таблиц проводится в следующей последовательности. Вычисляются суммы:

Далее находятся оценки дисперсий:

Если , то влияние фактора B признается значимым.

Слайд 41

Для оценки влияния взаимодействия факторов AB вычисляем дополнительную сумму: Двухфакторный дисперсионный

Для оценки влияния взаимодействия факторов AB вычисляем дополнительную сумму:

Двухфакторный дисперсионный анализ

Приведенный

анализ предполагает независимость факторов A и B. Если они зависимы, то взаимодействие факторов C=AB также является фактором, которому соответствует своя дисперсия. Для того чтобы выделить такое взаимодействие, необходимы параллельные наблюдения в каждой клетке таблицы, т.е. при каждом сочетании факторов A и B на уровнях Ai и Bj соответственно необходимо не одно наблюдение, а серия наблюдений.

Далее анализ проводится, как и ранее, с той лишь разницей, что в клетках таблицы вместо отдельных значений используется их средние значения. Вычисляется оценка дисперсии и проверяется значимость взаимодействия факторов:

Слайд 42

Планирование эксперимента при дисперсионном анализе Дисперсионный анализ тесно связан с соответствующим

Планирование эксперимента при дисперсионном анализе

Дисперсионный анализ тесно связан с соответствующим планированием

эксперимента. Удачно спланированный эксперимент, выявляя все необходимые эффекты, оказывается всегда либо более точным, либо менее трудоемким по сравнению с непродуманным экспериментом.

Если на результат эксперимента действуют одновременно несколько факторов, то наилучший эффект дает одновременный дисперсионный анализ всех этих факторов (многофакторный анализ).

Методы дисперсионного анализа позволяют исследовать и такой случай, когда некоторые сочетания уровней пропущены. Такой эксперимент называется дробным факторным экспериментом (ДФЭ). Планирование при ДФЭ приобретает особо важную роль, ибо пропущенные сочетания уровней не так-то просто нейтрализовать.

Слайд 43

Планирование эксперимента при дисперсионном анализе Такие способы планирования существуют и притом

Планирование эксперимента при дисперсионном анализе

Такие способы планирования существуют и притом не

единственные; согласно Фишеру их называют латинскими квадратами. Эти расположения приводятся в специальных справочниках; для примера приведен один вид такого квадрата:
Слайд 44

Планирование эксперимента при дисперсионном анализе Схема расчетов для латинского квадрата очень

Планирование эксперимента при дисперсионном анализе

Схема расчетов для латинского квадрата очень похожа

на обычный двухфакторный анализ:

Находим сумму квадратов по столбцам, деленную на число наблюдений в столбце:

Находим сумму квадратов итогов по строкам, деленную на число наблюдений в строке:

Находим квадрат общего итога, деленный на число всех наблюдений:

Находим сумму квадратов итогов по уровням фактора C, деленную на число уровней: