Краткий обзор методов статистического анализа количественных переменных

Содержание

Слайд 2

ПЛАН ОБЩИЕ ТРЕБОВАНИЯ К ВЫПОЛНЕНИЮ СТАТИСТИЧЕСКИХ ТЕСТОВ СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

ПЛАН

ОБЩИЕ ТРЕБОВАНИЯ К ВЫПОЛНЕНИЮ СТАТИСТИЧЕСКИХ ТЕСТОВ
СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН
СРАВНЕНИЕ 3-Х И

БОЛЕЕ СРЕДНИХ ВЕЛИЧИН
КОРЕЛЛЯЦИОННЫЙ АНАЛИЗ
ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА
Слайд 3

ОБЩИЕ ТРЕБОВАНИЯ К ВЫПОЛНЕНИЮ СТАТИСТИЧЕСКИХ ТЕСТОВ

ОБЩИЕ ТРЕБОВАНИЯ К ВЫПОЛНЕНИЮ СТАТИСТИЧЕСКИХ ТЕСТОВ

Слайд 4

ПЕРЕМЕННЫЕ КОЛИЧЕСТВЕННЫЕ КАТЕГОРИАЛЬНЫЕ ДИСКРЕТНЫЕ (DISCRETE) НЕПРЕРЫВНЫЕ (CONTINUOUS) ПОРЯДКОВЫЕ (ORDINAL) НОМИНАЛЬНЫЕ (NOMINAL)

ПЕРЕМЕННЫЕ

КОЛИЧЕСТВЕННЫЕ

КАТЕГОРИАЛЬНЫЕ

ДИСКРЕТНЫЕ
(DISCRETE)

НЕПРЕРЫВНЫЕ
(CONTINUOUS)

ПОРЯДКОВЫЕ
(ORDINAL)

НОМИНАЛЬНЫЕ
(NOMINAL)

ТИП ПЕРЕМЕННОЙ ОПРЕДЕЛЯЕТ
НАБОР МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА

Слайд 5

ПРИМЕР: ФАКТИЧЕСКАЯ СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, -

ПРИМЕР: ФАКТИЧЕСКАЯ СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, -

ЖИТЕЛЕЙ АРХАНГЕЛЬСКОЙ ОБЛАСТИ, УМЕРШИХ В 2012 Г.

ЖЕНЩИНЫ

МУЖЧИНЫ

X = 73,3 лет
SD = 15,4
N = 2021

X = 61,4 лет
SD = 15,9
N = 2027

Слайд 6

СРЕДНЕЕ АРИФМЕТИЧЕСКИЕ ДЛЯ ВЫБОРКИ (X / m) СРЕДНЕЕ АРИФМЕТИЧЕСКИЕ ДЛЯ ГЕНЕРАЛЬНОЙ

СРЕДНЕЕ АРИФМЕТИЧЕСКИЕ
ДЛЯ ВЫБОРКИ (X / m)

СРЕДНЕЕ АРИФМЕТИЧЕСКИЕ
ДЛЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ (M)

X (женщины)

= 73,3
SD = 15,4
N = 2021

X (мужчины) = 61,4
SD = 15,9
N = 2027

Слайд 7

НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА ГИПОТЕЗА (HYPOTHESIS) – предположение о свойстве популяции (параметре…) ФОРМУЛИРУЕМ ДВЕ ВЗАИМОИСКЛЮЧАЮЩИЕ ГИПОТЕЗЫ:

НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА

ГИПОТЕЗА (HYPOTHESIS) – предположение о свойстве популяции (параметре…)
ФОРМУЛИРУЕМ

ДВЕ ВЗАИМОИСКЛЮЧАЮЩИЕ ГИПОТЕЗЫ:
Слайд 8

НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА X (женщины) = 73,3 года SD =

НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА

X (женщины) = 73,3 года
SD = 15,4
N =

2021

X (мужчины) = 61,4 года
SD = 15,9
N = 2027

Слайд 9

2 ВИДА АЛЬТЕРНАТИВНЫХ ГИПОТЕЗ

2 ВИДА АЛЬТЕРНАТИВНЫХ ГИПОТЕЗ

Слайд 10

ТЕСТИРОВАНИЕ ГИПОТЕЗ

ТЕСТИРОВАНИЕ ГИПОТЕЗ

Слайд 11

СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ (методы статистического анализа) – математические

СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ

СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ (методы статистического анализа) – математические

расчеты, позволяющие оценить ВЕРОЯТНОСТЬ ОШИБКИ 1 ТИПА (p / significance (Sig.))
СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ (методы статистического анализа) – математические расчеты, результаты которых позволяют c определенной долей вероятности принять нулевую гипотезу (accept) или ее отвергнуть (reject)
«Приемлемая» вероятность ошибки 1 типа (α-ошибки) = 0.05 (5%)
«КОНСЕНСУС ФИШЕРА»
ЭТО ОТНОСИТЕЛЬНАЯ ВЕЛИЧИНА !!!!!!!!!
Слайд 12

СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ ПОЧЕМУ ВАЖНО ???

СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ

ПОЧЕМУ ВАЖНО ???

Слайд 13

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

1 ЭТАП:
ФОРМУЛИРУЕМ Н0 и На

Слайд 14

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 2 ЭТАП: ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

2 ЭТАП:
ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ

Н0)

БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа (α-ошибки) менее 0.05 (5%)
«КОНСЕНСУС ФИШЕРА»
p < 0.05 «достаточно», если имеем дело с социологическими исследованиями, «ориентировочными» исследованиями, «пилотными» исследованиями
В клинических испытаниях “p” устанавливается индивидуально (в зависимости от клинической значимости искомого результата) – в т.ч. устанавливается в «SD»

Слайд 15

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ

ОПРЕДЕЛЯЕТСЯ НАБОРОМ ПАРАМЕТРОВ !!!
И СТРОГО ИНДИВИДУАЛЬНО

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

СТАТИСТИЧЕСКИЕ ПРОГРАММЫ
(IBM SPSS, STATA, STATISTICA, PASW, R)

Слайд 16

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 5 ЭТАП: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ПРИНИМАЕМ H0 /

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

5 ЭТАП:
ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ

ПРИНИМАЕМ H0 / ОТВЕРГАЕМ Ha (если

“p” < 0.05)
ПРИНИМАЕМ Hа / ОТВЕРГАЕМ Н0 (если “p” ≥ 0.05)
+ ОЦЕНИВАЕМ ВОЗМОЖНОСТЬ ЭКСТРАПОЛЯЦИИ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ
НА ГЕНЕРАЛЬНУЮ СОВОКУПНОСТЬ
+ ОЦЕНИВАЕМ СТАТИСТИЧЕСКУЮ МОЩНОСТЬ РЕЗУЛЬТАТА
+ ОЦЕНИВАЕМ ПРАКТИЧЕСКУЮ ЗНАЧИМОСТЬ РЕЗУЛЬТАТОВ
Слайд 17

СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

Слайд 18

ПЕРЕМЕННЫЕ КОЛИЧЕСТВЕННЫЕ КАТЕГОРИАЛЬНЫЕ ДИСКРЕТНЫЕ (DISCRETE) НЕПРЕРЫВНЫЕ (CONTINUOUS) ПОРЯДКОВЫЕ (ORDINAL) НОМИНАЛЬНЫЕ (NOMINAL)

ПЕРЕМЕННЫЕ

КОЛИЧЕСТВЕННЫЕ

КАТЕГОРИАЛЬНЫЕ

ДИСКРЕТНЫЕ
(DISCRETE)

НЕПРЕРЫВНЫЕ
(CONTINUOUS)

ПОРЯДКОВЫЕ
(ORDINAL)

НОМИНАЛЬНЫЕ
(NOMINAL)

СРЕДНИЕ ВЕЛИЧИНЫ МОЖНО ВЫЧИСЛИТЬ ТОЛЬКО ДЛЯ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ВЕЛИЧИН

Слайд 19

ПРИМЕР: СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ

ПРИМЕР: СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ АРХАНГЕЛЬСКОЙ

ОБЛАСТИ, УМЕРШИХ В 2012 Г.

ЖЕНЩИНЫ

МУЖЧИНЫ

X = 73,3
SD = 15,4
N = 2021

X = 61,4
SD = 15,9
N = 2027

Слайд 20

ВЫБОР КОНКРЕТНОГО СТАТИСТИЧЕСКОГО МЕТОДА ПРИ СРАВНЕНИИ СРЕДНИХ ВЕЛИЧИН ОПРЕДЕЛЯЕТСЯ: ПОПРАВКА БОНФЕРРОНИ:

ВЫБОР КОНКРЕТНОГО СТАТИСТИЧЕСКОГО МЕТОДА ПРИ СРАВНЕНИИ СРЕДНИХ ВЕЛИЧИН ОПРЕДЕЛЯЕТСЯ:

ПОПРАВКА БОНФЕРРОНИ: 2 /

3+ групп

ГОМОГЕННОСТЬ / ГОМОСКЕДАСТИЧНОСТЬ ДИСПЕРСИИ: НЕ КРИТИЧНОЕ ТРЕБОВАНИЕ; ПРИ РАВЕНСТВЕ ОБЪЕМОВ ВЫБОРОК «ПОЧТИ НЕКРИТИЧНОЕ»

Слайд 21

СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

Слайд 22

Independent Samples T-test (Student test) Т-тест Стьюдента Ho: ν 1 =

Independent Samples T-test (Student test) Т-тест Стьюдента

Ho: ν 1 = ν

2
Ha: ν 1 ≠ ν 2
Слайд 23

2-Independent Samples test (Mann-Whitney U test) U-тест Манна-Уитни

2-Independent Samples test (Mann-Whitney U test) U-тест Манна-Уитни

Слайд 24

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На 2

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

1 ЭТАП:
ФОРМУЛИРУЕМ Н0 и На

2 ЭТАП:
ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ

КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ Н0)

БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа (α-ошибки) менее 0.05 (5%)

Слайд 25

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

Ho: РАСПРЕДЕЛЕНИЕ В

ВЫБОРКЕ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО
Ha: РАСПРЕДЕЛЕНИЕ В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО

p (женщины) < 0,0001
p (мужчины) < 0,0001
т.е. МОЖЕМ принять Ha
вероятность ошибки 1 типа (ошибочно принять На - найти то, чего нет) < 0,1%

Слайд 26

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

2-Independent Samples test

(Mann-Whitney U test) U-тест Манна-Уитни
Слайд 27

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ho: m1 = m2 (средняя продолжительность жизни

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ho: m1 = m2 (средняя продолжительность жизни мужчин

не отличается от средней продолжительности жизни женщин)
Ha: m1 ≠ m2 (средняя продолжительность жизни мужчин отличается от средней продолжительности жизни женщин)

p < 0,0001
т.е. МОЖЕМ принять Ha
вероятность ошибки 1 типа (ошибочно принять На - найти то, чего нет) < 0,1%

формулируем H0 и Hа для теста Манна-Уитни

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

Слайд 28

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 5 ЭТАП: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ + ОЦЕНИВАЕМ ПРАКТИЧЕСКУЮ

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

5 ЭТАП:
ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ

+ ОЦЕНИВАЕМ ПРАКТИЧЕСКУЮ ЗНАЧИМОСТЬ РЕЗУЛЬТАТОВ
Средняя продолжительность

жизни мужчин меньше, чем средняя продолжительность жизни женщин на 11,9 лет

X = 73,3
SD = 15,4
N = 2021

X = 61,4
SD = 15,9
N = 2027

Слайд 29

2-Independent Samples test (Mann-Whitney U test) тест Манна-Уитни КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ

2-Independent Samples test (Mann-Whitney U test) тест Манна-Уитни

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ»)
Х

(мужчины) = 61,4 лет (95% ДИ: 60,7 – 62,1)
Х (женщины) = 73,3 лет (95% ДИ: 72,6 – 74,0)
Различия являются статистически значимыми (p < 0,0001)
РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ «р»
(необходимо продемонстрировать вероятность ошибки)
Слайд 30

ПРИМЕР: СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ

ПРИМЕР: СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ АРХАНГЕЛЬСКОЙ

ОБЛАСТИ, УМЕРШИХ В 2012 Г.

ЖЕНЩИНЫ

МУЖЧИНЫ

X = 73,3
SD = 15,4
N = 2021

X = 61,4
SD = 15,9
N = 2027

Слайд 31

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

Ho: РАСПРЕДЕЛЕНИЕ В

ВЫБОРКЕ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО
Ha: РАСПРЕДЕЛЕНИЕ В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО

p (женщины) = 0,298
p (мужчины) = 0,345
т.е. НЕ МОЖЕМ принять Ha
вероятность ошибки 1 типа (ошибочно принять На - найти то, чего нет) = 29,8% и 34,5%

,298
,345

Слайд 32

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

Independent Samples T-test

(Student test) Т-тест Стьюдента

,298
,345

Слайд 33

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ho: m1 = m2 (средняя продолжительность жизни

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ho: m1 = m2 (средняя продолжительность жизни мужчин

не отличается
от средней продолжительности жизни женщин)
Ha: m1 ≠ m2 (средняя продолжительность жизни мужчин отличается
от средней продолжительности жизни женщин)

формулируем H0 и Hа для теста Стьюдента

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

Слайд 34

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ho: σ 1 = σ 2 (дисперсия

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ho: σ 1 = σ 2 (дисперсия средней

продолжительности жизни мужчин
не отличается от дисперсии средней продолжительности жизни женщин)
Ha: σ 1 ≠ σ 2 (дисперсия средней продолжительности жизни мужчин отличается от дисперсии средней продолжительности жизни женщин)

формулируем H0 и Hа для теста ЛЕВЕНЕ
(тест равенства дисперсий)

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

Слайд 35

Independent Samples T-test (Student test) тест Стьюдента КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ Х

Independent Samples T-test (Student test) тест Стьюдента

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ
Х (мужчины) = 61,4

лет (95% ДИ: 60,7 – 62,1)
Х (женщины) = 73,3 лет (95% ДИ: 72,6 – 74,0)
Средняя продолжительность жизни мужчин на 11,9 лет меньше
(95% ДИ: 11,9 – 12,9), чем женщин (p < 0,0001)
РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ «р»
(необходимо продемонстрировать вероятность ошибки)
Слайд 36

СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

Слайд 37

Paired Samples T-test тест Стьюдента для парных выборок

Paired Samples T-test тест Стьюдента для парных выборок

Слайд 38

2-Related Samples test (Wilcoxon) тест Вилкоксона

2-Related Samples test (Wilcoxon) тест Вилкоксона

Слайд 39

ПРИМЕР: УРОВЕНЬ АРТЕРИАЛЬНОГО ДАВЛЕНИЯ В ГРУППЕ ПАЦИЕНТОВ, ПРИНИМАЮЩИХ АНТИГИПЕРТЕНЗИВНЫЙ ПРЕПАРАТ X

ПРИМЕР: УРОВЕНЬ АРТЕРИАЛЬНОГО ДАВЛЕНИЯ В ГРУППЕ ПАЦИЕНТОВ, ПРИНИМАЮЩИХ АНТИГИПЕРТЕНЗИВНЫЙ ПРЕПАРАТ

X =

172,1
SD = 13,9
N = 174

X = 156,7
SD = 15,2
N = 174

ДО НАЧАЛА
ПРИЕМА ПРЕПАРАТА

ЧЕРЕЗ 1 МЕСЯЦ ПОСЛЕ НАЧАЛА
ПРИЕМА ПРЕПАРАТА

Слайд 40

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На 2

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

1 ЭТАП:
ФОРМУЛИРУЕМ Н0 и На

2 ЭТАП:
ОПРЕДЕЛЯЕМ УСЛОВИЯ,
ПРИ

КОТОРЫХ ПРИМЕМ На (И ОТВЕРГНЕМ Н0)

БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа (α-ошибки) менее 0.01 / 0.05 (1% / 5%)

Слайд 41

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

Ho: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ

СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО
Ha: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО

p (женщины) < 0,0001
p (мужчины) < 0,0001
т.е. МОЖЕМ принять Ha
вероятность ошибки 1 типа (ошибочно принять На - найти то, чего нет) < 0,1%

Слайд 42

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

2-Related Samples test

(Wilcoxon) тест Вилкоксона
Слайд 43

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ho: m1 = m2 (среднее АД до

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ho: m1 = m2 (среднее АД до начала

приема препарата не отличается от среднего АД через 1 месяц после начала приема препарата)
Ha: m1 ≠ m2 (среднее АД до начала приема препарата отличается от среднего АД через 1 месяц после начала приема препарата)

формулируем H0 и Hа для теста Вилкоксона

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

p < 0,0001
т.е. МОЖЕМ принять Ha
вероятность ошибки 1 типа (ошибочно принять На - найти то, чего нет) < 0,1%

Слайд 44

2-Related Samples test (Wilcoxon) тест Вилкоксона КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ»)

2-Related Samples test (Wilcoxon) тест Вилкоксона

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ»)
M (до) =

172,1 мм рт.ст.
M (после) = 156,7 мм рт.ст.
Различия являются статистически значимыми
(p < 0,0001)
РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ «p»
Слайд 45

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

Ho: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ

СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО
Ha: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО

p (мужчины) = 0,298
т.е. НЕ МОЖЕМ принять Ha
вероятность ошибки 1 типа (ошибочно принять На - найти то, чего нет) < 0,1%

,298

Слайд 46

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

,298

Paired Samples T-test тест

Стьюдента для парных выборок
Слайд 47

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ho: m1 = m2 (среднее АД до

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ho: m1 = m2 (среднее АД до начала

приема препарата не отличается от среднего АД через 1 месяц после начала приема препарата)
Ha: m1 ≠ m2 (среднее АД до начала приема препарата отличается от среднего АД через 1 месяц после начала приема препарата)

формулируем H0 и Hа для парного теста Стьюдента

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

Слайд 48

Paired Samples T-test тест Стьюдента для парных выборок КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ

Paired Samples T-test тест Стьюдента для парных выборок

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ»)
M

(до) = 172,1 мм рт.ст.
M (после) = 156,7 мм рт.ст.
Различия являются статистически значимыми
(p < 0,0001)
РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ «p»
Слайд 49

СРАВНЕНИЕ 3-Х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

СРАВНЕНИЕ 3-Х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

Слайд 50

СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН ИССЛЕДОВАТЕЛЬСКИЙ

СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС:
УРОВЕНЬ

ОБРАЗОВАНИЯ ВЛИЯЕТ
НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ?

X = 66,9
SD = 14,7
N = 515

ВЫСШЕЕ
ОБРАЗОВАНИЕ

СРЕДНЕЕ СПЕЦИАЛЬНОЕ
ОБРАЗОВАНИЕ

X = 65,9
SD = 16,1
N = 1627

СРЕДНЕЕ
ОБРАЗОВАНИЕ

X = 70,1
SD = 17,3
N = 1543

Слайд 51

СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН ИССЛЕДОВАТЕЛЬСКИЙ

СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС:
УРОВЕНЬ

ОБРАЗОВАНИЯ ВЛИЯЕТ
НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ?

X = 66,9
SD = 14,7
N = 515

X = 65,9
SD = 16,1
N = 1627

X = 70,1
SD = 17,3
N = 1543

ВЫСШЕЕ
ОБРАЗОВАНИЕ

СРЕДНЕЕ СПЕЦИАЛЬНОЕ
ОБРАЗОВАНИЕ

СРЕДНЕЕ
ОБРАЗОВАНИЕ

Почему нельзя сравнить группы попарно с помощью t-критерия Стьюдента?

ЭФФЕКТ МНОЖЕСТВЕННЫХ СРАВНЕНИЙ

При уровне значимости α = 0,05 вероятность ошибиться хотя бы в одном из k сравнений Рошибки=1-(1-0,05)k

Рошибки=1-(1-0,05)k =1-(1-0,05)3 = 14,3%

ВЫПОЛНЯЯ СЕРИЮ ПОПАРНЫХ
СРАВНЕНИЙ, В КАЖДОМ СЛУЧАЕ
МЫ УМЕНЬШАЕМ ОБЪЕМ ВЫБОРКИ !!!

Слайд 52

СРАВНЕНИЕ 3-Х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН НО ! Считается, что нарушение

СРАВНЕНИЕ 3-Х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

НО ! Считается, что нарушение нормальности

распределения не оказывает существенного влияния на результаты)

НО ! Считается, что нарушение равенства дисперсии выборок оказывает значимое влияние в том случае, если сравниваемые выборки отличаются по численности)

Слайд 53

ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

Слайд 54

K-Independent Samples test (Kruskall-Wallis H test) Тест Краскелла-Уоллиса ДИСПЕРСИЯ НЕ ПРОВЕРЯЕТСЯ

K-Independent Samples test (Kruskall-Wallis H test) Тест Краскелла-Уоллиса

ДИСПЕРСИЯ НЕ ПРОВЕРЯЕТСЯ

Слайд 55

ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9

ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС:
УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ
НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ?

X = 66,9
SD =

14,7
N = 515

ВЫСШЕЕ
ОБРАЗОВАНИЕ

СРЕДНЕЕ СПЕЦИАЛЬНОЕ
ОБРАЗОВАНИЕ

X = 65,9
SD = 16,1
N = 1627

СРЕДНЕЕ
ОБРАЗОВАНИЕ

X = 70,1
SD = 17,3
N = 1543

Слайд 56

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На 2

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

1 ЭТАП:
ФОРМУЛИРУЕМ Н0 и На

2 ЭТАП:
ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ

КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ Н0)

БУДЕМ считать результаты теста
«статистически значимыми» (т.е. примем Ha)
при вероятности ошибки 1 типа (α-ошибки)
менее 0.05 (5%)

Слайд 57

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

Слайд 58

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

Ho: РАСПРЕДЕЛЕНИЕ ПРИЗНАКА

В ГРУППАХ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО
Ha: РАСПРЕДЕЛЕНИЕ В ГРУППАХ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО

p (высшее) < 0,0001
p (сред.спец.) < 0,0001
p (среднее) < 0,0001
т.е. МОЖЕМ принять Ha
вероятность ошибки 1 типа < 0,1%
(ошибочно принять На - найти то, чего нет)

K-Independent Samples test
(Kruskall-Wallis H test) Тест Краскелла-Уоллиса

Слайд 59

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ho: m1 = m2 = m3 Ha:

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ho: m1 = m2 = m3
Ha: m1 ≠

m2 / m1 ≠ m3 / m2 ≠ m3

формулируем H0 и Hа для теста Краскелла-Уоллиса

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

p < 0,0001
т.е. МОЖЕМ принять Ha
вероятность ошибки 1 типа (ошибочно принять На - найти то, чего нет) < 0,1%

Слайд 60

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ha: m1 ≠ m2 / m1 ≠

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ha: m1 ≠ m2 / m1 ≠ m3

/ m2 ≠ m3

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

ДАЛЕЕ НЕОБХОДИМА СЕРИЯ ПРОЦЕДУР
ТЕСТА МАННА-УИТНИ

H0: m1 = m2
Ha: m1 ≠ m2

H0: m1 = m3
Ha: m1 ≠ m3

H0: m2 = m3
Ha: m2 ≠ m3

1

2

3

Слайд 61

H0: m1 = m2 Средняя продолжительность жизни лиц с высшим образованием

H0: m1 = m2
Средняя продолжительность жизни лиц с высшим образованием не

отличается от средней продолжительности жизни лиц со средним специальным образованием

Hа: m1 ≠ m3
Средняя продолжительность жизни лиц с высшим образованием отличается от средней продолжительности жизни лиц со средним образованием

Hа: m2 ≠ m3
Средняя продолжительность жизни лиц со средним специальным образованием отличается от средней продолжительности жизни лиц со средним образованием

ПОПРАВКА БОНФЕРРОНИ: критический уровень “p” < 0.05/3 = < 0.017

Слайд 62

ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9

ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС:
УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ
НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ?

X = 66,9
SD =

14,7
N = 515

ВЫСШЕЕ
ОБРАЗОВАНИЕ

СРЕДНЕЕ СПЕЦИАЛЬНОЕ
ОБРАЗОВАНИЕ

X = 65,9
SD = 16,1
N = 1627

СРЕДНЕЕ
ОБРАЗОВАНИЕ

X = 70,1
SD = 17,3
N = 1543

Слайд 63

K-Independent Samples test (Kruskall-Wallis H test) Тест Краскелла-Уоллиса КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ

K-Independent Samples test (Kruskall-Wallis H test) Тест Краскелла-Уоллиса

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ»)
m1

= 66,9 (95% ДИ: 65,7 – 68,2)
m2 = 65,9 (95% ДИ: 65,1 – 66,7)
m3 = 70,1 (95% ДИ: 69,2 – 70,9)

«…средняя продолжительность жизни зависит от уровня образования человека (H = 79,6; p < 0,0001). Продолжительность жизни лиц, имевших среднее образование, была статистически значимо выше, чем у лиц, имевших высшее и среднее специальное образование; средняя продолжительность жизни лиц, имевших высшее и среднее специальной образование, была равной»

ПОПРАВКА БОНФЕРРОНИ:
ОШИБКА 1 ТИПА: α / n = 0.05/3 = 0,017

Слайд 64

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

Ho: РАСПРЕДЕЛЕНИЕ ПРИЗНАКА

В ГРУППАХ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО
Ha: РАСПРЕДЕЛЕНИЕ ПРИЗНАКА В ГРУППАХ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО

p (высшее) = 0,298
p (сред.спец.) < 0,345
p (среднее) < 0,455
т.е. ОТКЛОНЯЕМ Ha
вероятность ошибки 1 типа > 5%

,298
,345
,455

ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

Слайд 65

ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ ЦЕЛЬ: с помощью ДА исследуют влияние одной

ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

ЦЕЛЬ: с помощью ДА исследуют влияние одной (одномерный анализ)

или нескольких (многомерный анализ) независимых переменных на одну зависимую переменную или на несколько зависимых переменных
Независимые переменные КАК ПРАВИЛО принимают только дискретные значения (относятся к номинальной или порядковой шкале) - это ФАКТОРНЫЙ АНАЛИЗ
Если независимые переменные принадлежат к интервальной шкале или к шкале отношений, то их называют ковариациями - это КОВАРИАЦИОННЫЙ АНАЛИЗ
Слайд 66

ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ Оценка общей дисперсии по разбросу МЕЖДУ группами

ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ

 

Оценка общей дисперсии по разбросу МЕЖДУ группами

средние в каждой

группе

общее среднее

число групп

MSB – mean square between groups оценка расстояния между средними
в группах

размер группы

Слайд 67

ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ Оценка общей дисперсии по разбросу ВНУТРИ групп

ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ

 

Оценка общей дисперсии по разбросу ВНУТРИ групп

сумма квадратов стандартных

отклонений внутри групп

число групп

dfW = nG - k

Слайд 68

ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ Расчет F-статистики ANOVA

ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ

 

Расчет F-статистики ANOVA

Слайд 69

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ho: σ 1 = σ 2 =

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ho: σ 1 = σ 2 = σ

3 (дисперсии средней продолжительности жизни в группах лиц в зависимости от уровня образования равны между собой)
Ha: σ 1 ≠ σ 2 ≠ σ 3 (дисперсии средней продолжительности жизни в группах лиц в зависимости от уровня образования НЕ равны между собой)

формулируем H0 и Hа для теста ЛЕВЕНЕ
(тест равенства дисперсий)

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

NB:
НЕОБХОДИМА ПОПРАВКА БРОУНА-ФОРСИТА / УЭЛЧА

Слайд 70

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ho: m1 = m2 = m3 Ha:

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ho: m1 = m2 = m3
Ha: m1 ≠

m2 / m1 ≠ m3 / m2 ≠ m3

формулируем H0 и Hа для ANOVA

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

p < 0,0001
т.е. МОЖЕМ принять Ha
вероятность ошибки 1 типа (ошибочно принять На - найти то, чего нет) < 0,1%

Слайд 71

ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9

ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС:
УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ
НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ?

X = 66,9
SD =

14,7
N = 515

ВЫСШЕЕ
ОБРАЗОВАНИЕ

СРЕДНЕЕ СПЕЦИАЛЬНОЕ
ОБРАЗОВАНИЕ

X = 65,9
SD = 16,1
N = 1627

СРЕДНЕЕ
ОБРАЗОВАНИЕ

X = 70,1
SD = 17,3
N = 1543

В КАКОЙ ИМЕННО ПАРЕ СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ ОТЛИЧАЕТСЯ ???

Ho: m1 = m2 = m3
Ha: m1 ≠ m2 / m1 ≠ m3 / m2 ≠ m3

Слайд 72

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ha: m1 ≠ m2 / m1 ≠

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ha: m1 ≠ m2 / m1 ≠ m3

/ m2 ≠ m3

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

ДАЛЕЕ НЕОБХОДИМА СЕРИЯ
POST HOC тестов

H0: m1 = m2
Ha: m1 ≠ m2

H0: m1 = m3
Ha: m1 ≠ m3

H0: m2 = m3
Ha: m2 ≠ m3

1

2

3

Слайд 73

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ УСЛОВИЕ О РАВЕНСТВЕ ДИСПЕРСИЙ СОБЛЮДЕНО Bonferroni –

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

УСЛОВИЕ О РАВЕНСТВЕ ДИСПЕРСИЙ СОБЛЮДЕНО
Bonferroni – если число

групп не более 5
Tukey – если число групп более 5
УСЛОВИЕ О РАВЕНСТВЕ ДИСПЕРСИЙ НЕ СОБЛЮДЕНО
Games-Howell – если группы равны, большие группы

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

ДАЛЕЕ НЕОБХОДИМА СЕРИЯ
POST HOC тестов

Слайд 74

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ ПРОБЛЕМА БОНФЕРРОНИ: НЕОБХОДИМО ВНЕСТИ ПОПРАВКУ НА КОЛИЧЕСТВО

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

ПРОБЛЕМА БОНФЕРРОНИ:
НЕОБХОДИМО ВНЕСТИ ПОПРАВКУ НА КОЛИЧЕСТВО ГРУПП

ОШИБКА

1 ТИПА: α / n = 0.05/3 = 0,017
Слайд 75

ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9

ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС:
УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ
НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ?

X = 66,9
SD =

14,7
N = 515

ВЫСШЕЕ
ОБРАЗОВАНИЕ

СРЕДНЕЕ СПЕЦИАЛЬНОЕ
ОБРАЗОВАНИЕ

X = 65,9
SD = 16,1
N = 1627

СРЕДНЕЕ
ОБРАЗОВАНИЕ

X = 70,1
SD = 17,3
N = 1543

Слайд 76

ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ») m1 =

ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ»)
m1 = 66,9 (95% ДИ:

65,7 – 68,2)
m2 = 65,9 (95% ДИ: 65,1 – 66,7)
m3 = 70,1 (95% ДИ: 69,2 – 70,9)

«…средняя продолжительность жизни зависит от уровня образования человека (F = 25,4 (Welch); p < 0,0001). Продолжительность жизни лиц, имевших среднее образование, была статистически значимо выше, чем у лиц, имевших высшее и среднее специальное образование»; средняя продолжительность жизни лиц, имевших высшее и среднее специальной образование, была равной

Слайд 77

ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ «доля объяснённой вариабельности» 5 ЭТАП: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ

ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

«доля объяснённой вариабельности»

5 ЭТАП:
ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ / оценка практической значимости

SS

- суммы квадратов отклонений (sum of squares):
SSB - средних в группах от общего среднего = Effect
SSW – измерений от средних в группах = Error

R2 = 0.01 – «незначительный» эффект
R2 = 0.06 – «средний» эффект
R2 = 0.14 – «значительный» эффект

Слайд 78

ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ «практическая значимость» результата: f = 0,1 –

ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

«практическая значимость» результата:

f = 0,1 – «незначительный» эффект
f =

0.25 – «средний» эффект
f = 0.4 – «значительный» эффект

Общая дисперсия по разбросу ВНУТРИ групп

5 ЭТАП:
ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ / оценка практической значимости

Слайд 79

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Слайд 80

Математическая зависимость величин Наличие математической зависимости / корреляции НЕ ОЗНАЧАЕТ наличия

Математическая зависимость величин

Наличие математической зависимости / корреляции НЕ ОЗНАЧАЕТ наличия ПРИЧИННО-СЛЕДСТВЕННОЙ

взаимосвязи между переменными

НАПРАВЛЕНИЕ ЗАВИСИМОСТИ:
Положительная
Отрицательная

СИЛА ЗАВИСИМОСТИ:
- Отсутствует
Слабая
Средняя
Сильная
Абсолютная

Слайд 81

ЗАДАНИЕ: ОПРЕДЕЛИТЬ НАПРАВЛЕНИЕ И СИЛУ ЗАВИСИМОСТИ ПЕРЕМЕННЫХ

ЗАДАНИЕ: ОПРЕДЕЛИТЬ НАПРАВЛЕНИЕ И СИЛУ ЗАВИСИМОСТИ ПЕРЕМЕННЫХ

Слайд 82

МНОЖЕСТВО КОРРЕЛЯЦИОННЫХ ПОЛЕЙ Множество корреляционных полей. https://ru.wikipedia.org/wiki/Корреляция

МНОЖЕСТВО КОРРЕЛЯЦИОННЫХ ПОЛЕЙ

Множество корреляционных полей. https://ru.wikipedia.org/wiki/Корреляция

Слайд 83

Как можно количественно выразить математическую зависимость 2-х величин ? КОВАРИАЦИЯ КОРРЕЛЯЦИЯ

Как можно количественно выразить математическую зависимость 2-х величин ?

КОВАРИАЦИЯ

КОРРЕЛЯЦИЯ

КОВАРИАЦИЯ – это

степень согласованности отклонений двух переменных
cov(x,y) = Σ[(x - среднееx)(y - среднееy)]
Смысл: если 1 варианта отклоняется от средней, можно ожидать, что 2-я отклонится в ту же сторону

КОРРЕЛЯЦИЯ – это ковариация стандартизованных переменных
r = cov(x,y) / SDxy
Смысл: отношение наблюдаемой ковариации двух стандартизованных
переменных к максимально возможной ковариации

Слайд 84

КОРРЕЛЯЦИЯ КОРРЕЛЯЦИЯ – это двумерное измерение силы и направления математической взаимосвязи

КОРРЕЛЯЦИЯ

КОРРЕЛЯЦИЯ – это двумерное измерение силы и направления математической взаимосвязи

между двумя переменными

0

+1

-1

случайная связь

абсолютная
положителная
линейная связь

абсолютная
негативная
линейная связь

Слайд 85

КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ Единственный параметрический критерий

КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

Единственный
параметрический критерий

Слайд 86

Пример расчета коэффициента корреляции Пирсона 1 ЭТАП. Расчет суммы значений переменных

Пример расчета коэффициента корреляции Пирсона

1 ЭТАП. Расчет суммы значений переменных X

и Y:
Σ(X) = 951 + 874 + 957 + 1084 + 903 = 4769
Σ(Y) = 83 + 76 + 84 + 89 + 79 = 441

http://medstatistic.ru/theory/pirson.html

Слайд 87

Пример расчета коэффициента корреляции Пирсона 2 ЭТАП. Расчет средних арифметических для

Пример расчета коэффициента корреляции Пирсона

2 ЭТАП. Расчет средних арифметических для X

и Y:
Mx = Σ(X) / n = 4769 / 5 = 953.8
My = Σ(Y) / n = 441 / 5 = 82.2

http://medstatistic.ru/theory/pirson.html

Слайд 88

Пример расчета коэффициента корреляции Пирсона 3 ЭТАП. Расчет для каждого значения

Пример расчета коэффициента корреляции Пирсона

3 ЭТАП. Расчет для каждого значения сопоставляемых

показателей величину отклонения от среднего арифметического
dx = X - Mx
dy = Y - My

http://medstatistic.ru/theory/pirson.html

Слайд 89

Пример расчета коэффициента корреляции Пирсона 4 ЭТАП. Возвести в квадрат каждое

Пример расчета коэффициента корреляции Пирсона

4 ЭТАП. Возвести в квадрат каждое значение

отклонения dx и dy

http://medstatistic.ru/theory/pirson.html

Слайд 90

Пример расчета коэффициента корреляции Пирсона 5 ЭТАП. Расчет для каждой пары

Пример расчета коэффициента корреляции Пирсона

5 ЭТАП. Расчет для каждой пары анализируемых

значений произведение отклонений dx x dy:

http://medstatistic.ru/theory/pirson.html

Слайд 91

Пример расчета коэффициента корреляции Пирсона 6 ЭТАП. Расчет значения суммы квадратов

Пример расчета коэффициента корреляции Пирсона

6 ЭТАП. Расчет значения суммы квадратов отклонений

Σ(dx2) и Σ(dy2)
Σ(dx2) = 25918.8
Σ(dy2) = 98.8
7 ЭТАП. Расчет значения суммы произведений отклонений Σ(dx x dy)
Σ(dx x dy) = 1546.2
8 ЭТАП. Расчет значения коэффициента корреляции Пирсона rxy

http://medstatistic.ru/theory/pirson.html

Слайд 92

Пример расчета коэффициента корреляции Пирсона 9 ЭТАП. Оценка достоверности результата –

Пример расчета коэффициента корреляции Пирсона

9 ЭТАП. Оценка достоверности результата – расчет

t-критерия

http://medstatistic.ru/theory/pirson.html

Критическое значение t-критерия можно найти
по специальной статистической таблице

Слайд 93

УСЛОВИЯ ПРИМЕНЕНИЯ КОРРЕЛЯЦИИ ПИРСОНА

УСЛОВИЯ ПРИМЕНЕНИЯ КОРРЕЛЯЦИИ ПИРСОНА

Слайд 94

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА Корреляция является симметричной, поэтому она не может говорить о направлении каузальной связи

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА

Корреляция является симметричной,
поэтому она не может говорить о

направлении каузальной связи
Слайд 95

Коэффициент детерминации R2 R2 - коэффициент детерминации - доля дисперсии переменной

Коэффициент детерминации R2

R2 - коэффициент детерминации - доля дисперсии переменной X,

объясняемая вариабельностью переменной Y
rxy = 0,5
R2 = 0,25

Таким образом, вариабельность переменной Х объясняет 25% вариабельности переменной Y

Слайд 96

УСЛОВИЯ ПРИМЕНЕНИЯ КОЭФФИЦИЕНТА РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА, КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ КЕНДАЛЛА (тау)

УСЛОВИЯ ПРИМЕНЕНИЯ КОЭФФИЦИЕНТА РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА, КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ КЕНДАЛЛА (тау)

Слайд 97

ОСНОВНОЙ НЕДОСТАТОК КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ Коэффициент корреляции демонстрирует А) направление взаимосвязи переменных

ОСНОВНОЙ НЕДОСТАТОК КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Коэффициент корреляции демонстрирует
А) направление взаимосвязи переменных
Б) силу взаимосвязи

переменных

НО коэффициент корреляции бесполезен, если мы
хотим ПРЕДСКАЗАТЬ значение переменной X
по значению переменной Y

РЕГРЕССИОННЫЙ АНАЛИЗ

Слайд 98

ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА

ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА

Слайд 99

КОРРЕЛЯЦИЯ VS. РЕГРЕССИЯ МЕЖДУ ПЕРЕМЕННЫМИ ЕСТЬ ЗАВИСИМОСТЬ? КОРРЕЛЯЦИОННЫЙ АНАЛИЗ – демонстрирует

КОРРЕЛЯЦИЯ VS. РЕГРЕССИЯ

МЕЖДУ ПЕРЕМЕННЫМИ ЕСТЬ ЗАВИСИМОСТЬ?
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ – демонстрирует лишь

направление взаимосвязи переменных и силу взаимосвязи переменных

ИССЛЕДОВАТЕЛЯ МОГУТ ДОПОЛНИТЕЛЬНО ИНТЕРЕСОВАТЬ ВОПРОСЫ:
1) как сильно влияет на зависимую (1) переменную
А) другая (1) независимая переменная?
Б) одновременно 2 и > независимых переменных?
2) какие именно переменные влияют на зависимую переменную (отсеять из набора переменных «лишние»)?
3) какие именно переменные влияют одновременно на 2 и более зависимых переменных из набора?
4) можно ли по значениям одной (нескольких) переменных ПРЕДСКАЗАТЬ значение другой (других) переменных

Слайд 100

РЕГРЕССИЯ: ОСНОВНАЯ ИДЕЯ Y = f(X) Зависимость между переменными может быть

РЕГРЕССИЯ: ОСНОВНАЯ ИДЕЯ

Y = f(X)

Зависимость между переменными может быть выражена УРАВНЕНИЕМ

ОСНОВНАЯ

ИДЕЯ РЕГРЕССИИОННОГО АНАЛИЗА:
математически рассчитать параметры
УРАВНЕНИЯ РЕГРЕССИИ
(с какой силой / в каком направлении переменные влияют на зависимую переменную)
Слайд 101

РЕГРЕССИЯ: ОСНОВНАЯ ПРОБЛЕМА КАКАЯ ФОРМА ЗАВИСИМОСТИ ОДНОЙ ПЕРЕМЕННОЙ ОТ ДРУГОЙ ПЕРЕМЕННОЙ?

РЕГРЕССИЯ: ОСНОВНАЯ ПРОБЛЕМА

КАКАЯ ФОРМА ЗАВИСИМОСТИ ОДНОЙ ПЕРЕМЕННОЙ ОТ ДРУГОЙ ПЕРЕМЕННОЙ?
КАКАЯ ФОРМА

ЗАВИСИМОСТЬ ОДНОЙ ПЕРЕМЕННЫХ ОТ НЕСКОЛЬКИХ ПЕРЕМЕННЫХ?

линейная зависимость

нелинейная зависимость

ЛИНЕЙНЫЙ
РЕГРЕССИОННЫЙ АНАЛИЗ

НЕЛИНЕЙНЫЙ
РЕГРЕССИОННЫЙ АНАЛИЗ

Слайд 102

ВЫБОР МОДЕЛИ РЕГРЕССИОННОГО АНАЛИЗА ДИХОТОМИЧЕСКАЯ ЗАВИСИМАЯ ПЕРЕМЕННАЯ НЕПРЕРЫВНАЯ КАТЕГОРИАЛЬНАЯ МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ

ВЫБОР МОДЕЛИ РЕГРЕССИОННОГО АНАЛИЗА

ДИХОТОМИЧЕСКАЯ

ЗАВИСИМАЯ ПЕРЕМЕННАЯ

НЕПРЕРЫВНАЯ

КАТЕГОРИАЛЬНАЯ

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ

РЕГРЕССИЯ

БИНАРНАЯ ЛОГИСТИЧЕСКАЯ

МУЛЬТИНОМИАЛЬНАЯ ЛОГИСТИЧЕСКАЯ

ПОРЯДКОВАЯ

ОРДИНАЛЬНАЯ ЛОГИСТИЧЕСКАЯ

КАТЕГОРИАЛЬНАЯ

LOG-LINEAR ANALYSIS

+++ другие

методы регрессионного анализа (напр., регрессия Пуассона…)
Слайд 103

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ Y –

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Y –

зависимая переменная / переменная отклика
B0 – константа
Bn – коэффициент регрессии / градиент
E - ошибка

+ E

Слайд 104

Идея LRA: построить прямую, наиболее точно предсказывающую значение зависимой переменной от

Идея LRA: построить прямую, наиболее точно предсказывающую значение зависимой переменной от

предиктора (-ов) (и рассчитать ее параметры, т.е. ФОРМУЛУ)
– «линейный» анализ

В ЭТОМ «МИНУС» ЛРА – в природе нет линейной зависимости (тем более 1 зависимой переменной от нескольких)

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Слайд 105

H0 (LRA): - Зависимая переменная лучше всего описывается средней арифметической Ha

H0 (LRA):
- Зависимая переменная лучше всего описывается средней арифметической
Ha (LRA):
-

Зависимая переменная лучше всего описывается некоторой линейной моделью
Далее программа (по методу «наименьших квадратов») «подбирает» линию (модель), которая наилучшим образом «предсказывает» зависимую переменную по значению независимого предиктора

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Слайд 106

SSт общая сумма различий между фактическими данными и средней арифметической СНАЧАЛА

SSт общая сумма различий между фактическими данными и средней арифметической

СНАЧАЛА ПРОГРАММА АНАЛИЗИРУЕТ,


НАСКОЛЬКО ХОРОШО СРЕДНЯЯ АРИФМЕТИЧЕСКАЯ (H0) ПРЕДСКАЗЫВАЕТ ЗАВИСИМУЮ ПЕРЕМЕННУЮ:

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Слайд 107

SSR общая сумма различий между фактическими данными и моделью ДАЛЕЕ ПРОГРАММА

SSR
общая сумма различий между фактическими данными и моделью

ДАЛЕЕ ПРОГРАММА АНАЛИЗИРУЕТ,
НАСКОЛЬКО

ХОРОШО МОДЕЛЬ (Hа) ПРЕДСКАЗЫВАЕТ ЗАВИСИМУЮ ПЕРЕМЕННУЮ

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Слайд 108

SSМ = SSт – SSR ПОКАЗЫВАЕТ УЛУЧШЕНИЕ В ПРЕДСКАЗАТЕЛЬНОЙ СИЛЕ МОДЕЛИ

SSМ = SSт – SSR ПОКАЗЫВАЕТ УЛУЧШЕНИЕ В ПРЕДСКАЗАТЕЛЬНОЙ СИЛЕ МОДЕЛИ В

СРАВНЕНИИ С ПРОСТОЙ СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ

 

 

ДАЛЕЕ ПРОГРАММА АНАЛИЗИРУЕТ,
НАСКОЛЬКО ХОРОШО МОДЕЛЬ (Hа) ПРЕДСКАЗЫВАЕТ ЗАВИСИМУЮ ПЕРЕМЕННУЮ
В СРАВНЕНИИ С ПРОСТОЙ СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ (H0)

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Слайд 109

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ ПРОГРАММА РАССЧИТЫВАЕТ СТАТИСТИКУ РЕГРЕССИОННОЙ МОДЕЛИ (F – TEST)

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

ПРОГРАММА РАССЧИТЫВАЕТ СТАТИСТИКУ РЕГРЕССИОННОЙ МОДЕЛИ (F – TEST)
СПОСОБНОСТЬ МОДЕЛИ

УЛУЧШАТЬ ПРЕДСКАЗАНИЕ ЗАВИСИМОЙ ПЕРЕМЕННОЙ В СРАВНЕНИИ СО СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ

 

 

 

p (F – test) < 0,05
МОДЕЛЬ «РАБОТАЕТ», т.е.
предсказывает зависимую переменную лучше, чем средняя арифметическая (H0)

Слайд 110

+ E Bn – коэффициент регрессии / градиент - демонстрирует изменение

+ E

Bn – коэффициент регрессии / градиент - демонстрирует изменение значения

зависимой переменной (Y) при изменении предиктора (Хn) на “1” (единицу)
Статистическую значимость каждого коэффициента регрессии необходимо оценить
H0: b1 = 0
Ha: b1 ≠ 0

ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

СТАТИСТИКА РЕГРЕССИОННОЙ МОДЕЛИ (F – TEST)
демонстрирует статистическую значимость
всего уравнения регрессии

Слайд 111

А) ЗАВИСИМАЯ ПЕРЕМЕННАЯ: количественная непрерывная (неограниченная) Б) НЕЗАВИСИМЫЕ ПЕРЕМЕННЫЕ (ПРЕДИКТОРЫ): количественные

А) ЗАВИСИМАЯ ПЕРЕМЕННАЯ: количественная непрерывная (неограниченная)
Б) НЕЗАВИСИМЫЕ ПЕРЕМЕННЫЕ (ПРЕДИКТОРЫ): количественные непрерывные

и дихотомические (0;1)
В) ЛИНЕЙНАЯ СВЯЗЬ: Graphs – Scatter/Dot (можно проверить для простой регрессии)
Г) ГОМОСКЕДАСТИЧНОСТЬ - предполагается, что дисперсия ошибки остается той
же самой в любой точке на протяжении всей линейной связи
Д) НЕЗАВИСИМЫЕ НАБЛЮДЕНИЯ (DURBIN-WATSON ≈ 2 (DW ϵ [1;3]))
Е) НОРМАЛЬНО РАСПРЕДЕЛЕННЫЕ ОСТАТКИ (residuals)
Ж) НЕ Д.Б. МУЛЬТИКОЛЛИНЕАРНОСТИ (R > 0,8 – проблема; VIF > 10 - проблема)

УСЛОВИЯ ПРИМЕНЕНИЯ (ASSUMPTIONS)
ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА

Слайд 112

OUTLIER: случаи, значительно влияющие на тренд (>2,58 – проблема) INFLUENTIAL CASES:

OUTLIER: случаи, значительно влияющие на тренд (>2,58 – проблема)
INFLUENTIAL CASES: случаи,

заметно влияющие на модель (ее значимость)
COOK’S DISTANCE – д.б. < 1 – мера влияния случая на модель
MAHALANOBIS – разница м/д случаем и средней арифметической
N = 500 – д.б. < 25
N = 100 – д.б. < 15
N = 30 – д.б. < 11

УСЛОВИЯ ПРИМЕНЕНИЯ (ASSUMPTIONS)
ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА

Слайд 113

ПРИМЕР ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА ВЕЛИЧИНА РАСХОДОВ ПАЦИЕНТОВ НА МЕДИКАМЕНТЫ ПОЛ ПАЦИЕНТА ДОХОД ПАЦИЕНТА ВОЗРАСТ ПАЦИЕНТА

ПРИМЕР ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА

ВЕЛИЧИНА РАСХОДОВ ПАЦИЕНТОВ НА МЕДИКАМЕНТЫ

ПОЛ ПАЦИЕНТА

ДОХОД ПАЦИЕНТА

ВОЗРАСТ ПАЦИЕНТА

Слайд 114

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На 2

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

1 ЭТАП:
ФОРМУЛИРУЕМ Н0 и На

2 ЭТАП:
ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ

КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ Н0)

БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа (α-ошибки) менее 0.05 (5%)

Слайд 115

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

3 ЭТАП:
ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

ВЕЛИЧИНА РАСХОДОВ ПАЦИЕНТОВ

НА МЕДИКАМЕНТЫ

зависимая переменная: количественная непрерывная

ПОЛ ПАЦИЕНТА:
дихотомическая

предикторы:
количественная непрерывная / дихотомическая

ВОЗРАСТ ПАЦИЕНТА:
количественная непрерывная

BMI ПАЦИЕНТА:
количественная непрерывная

ПОДХОДИТ МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Слайд 116

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ho: F-статистика модели стат.незначима Ha: F-статистика модели

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ho: F-статистика модели стат.незначима
Ha: F-статистика модели стат.значима

формулируем H0

и Hа

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

p < 0,0001
т.е. МОЖЕМ принять Ha
вероятность ошибки 1 типа (ошибочно принять На - найти то, чего нет) < 0,1%

МОДЕЛЬ РЕГРЕССИИ «РАБОТАЕТ»
(описывает данные лучше, чем средняя арифметическая)

Слайд 117

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ МОДЕЛЬ ОБЪЯСНЯЕТ 8,1% ДИСПЕРСИИ ЗАВИСИМОЙ ПЕРЕМЕННОЙ

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

МОДЕЛЬ ОБЪЯСНЯЕТ
8,1% ДИСПЕРСИИ ЗАВИСИМОЙ ПЕРЕМЕННОЙ

Слайд 118

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ Ho: t-статистика b стат.незначима Ha: t-статистика b

ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Ho: t-статистика b стат.незначима
Ha: t-статистика b стат.значима

формулируем H0

и Hа для t-статистики коэффициентов b

4 ЭТАП:
МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

Слайд 119

ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ Y = расходы на медикаменты B0 = CONSTANT =

ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ

Y = расходы на медикаменты
B0 = CONSTANT = 551,1
B1 =

ВОЗРАСТ = 30,9
B2 = ПОЛ = -478,3 (для мужчин)

ДЛЯ 50-ЛЕТНЕГО МУЖЧИН ВЕЛИЧИНА РАСХОДОВ
НА МЕДИКАМЕНТЫ
РАСХОДЫ = 551,1 + 30,9 × 50 – 478,3 = 1617,8 руб. + ERROR