Проверка статистических гипотез. Версия 2

Содержание

Слайд 2

Определение Статистическая гипотеза – утверждение о свойствах распределения вероятностей случайной величины

Определение

Статистическая гипотеза – утверждение о свойствах распределения вероятностей случайной величины

(или случайного вектора).
Гипотеза нуждается в проверке.
Проверка основывается на результатах эксперимента, на наблюдениях.
Слайд 3

Напоминание Что такое функция распределения? Что такое плотность распределения?

Напоминание


Что такое функция распределения?
Что такое плотность распределения?

Слайд 4

Раздел 1 Зачем проверяют статистические гипотезы Обсудим наиболее важные статистические гипотезы.

Раздел 1
Зачем проверяют
статистические гипотезы
Обсудим наиболее важные статистические гипотезы.

Слайд 5

1. Гипотеза согласия. Обозначим функцию распределения случайной величины Х. Пусть -

1. Гипотеза согласия.

Обозначим функцию распределения случайной величины Х.
Пусть - некоторая

заданная функция распределения.
Гипотеза : функции распределения совпадают, то есть =
Кому и когда приходится проверять гипотезу согласия?
Слайд 6

Пример гипотезы согласия Гипотеза о нормальности распределения В этом случае

Пример гипотезы согласия

Гипотеза о нормальности распределения
В этом случае

Слайд 7

Слайд 8

Почему гипотеза нормальности важна? 1. Нормальное распределение часто встречается (вспомним центральную предельную теорему).

Почему гипотеза нормальности важна?
1. Нормальное распределение часто встречается
(вспомним центральную предельную

теорему).
Слайд 9

Почему гипотеза нормальности важна? 2. Когда распределение нормальное, экономим деньги: если

Почему гипотеза нормальности важна?

2. Когда распределение нормальное, экономим деньги: если
А)

распределение можно считать нормальным и
Б) задана необходимая погрешность результата,
то при проведении анализа можно обойтись меньшим числом наблюдений.
Например, опросить меньше покупателей.
Слайд 10

Пример гипотезы согласия 2 Гипотеза об экспоненциальности распределения. В этом случае функция распределения

Пример гипотезы согласия 2

Гипотеза об экспоненциальности распределения.
В этом случае функция распределения

Слайд 11

Почему важна гипотеза экспоненциальности? Экспоненциальное распределение часто встречается, когда изучается «время ожидания».

Почему важна гипотеза экспоненциальности?
Экспоненциальное распределение часто встречается, когда изучается «время ожидания».

Слайд 12

Например, Время до аварии (нужно для расчета страховой премии). Время обслуживания

Например,

Время до аварии (нужно для расчета страховой премии).
Время обслуживания покупателя кассиром

(нужно для определения числа касс в супермаркете).
Время до поломки изделия (нужно для планирования расходов на гарантийный ремонт).
Слайд 13

2. Гипотеза однородности. Обозначим функцию распределения случайной величины Х. Обозначим функцию

2. Гипотеза однородности.

Обозначим функцию распределения случайной величины Х.
Обозначим функцию распределения

случайной величины Y
Гипотеза : функции распределения совпадают
Кому и когда приходится проверять гипотезу согласия?
Слайд 14

Например, Распределение продаж до рекламной акции и после нее. Если распределение

Например,

Распределение продаж до рекламной акции и после нее.
Если распределение продаж не

изменилось, то улучшения нет.
Может сравниваться распределение покупателей по возрасту. Например, если реклама была нацелена на конкретный сегмент, например, на молодых мам.
Слайд 15

3. Гипотеза независимости. Гипотеза : случайные величины X и Y независимы

3. Гипотеза независимости.
Гипотеза : случайные величины X и Y независимы


Кому и когда приходится проверять гипотезу независимости?
Слайд 16

Например, Если возраст покупателей и объем покупки зависимы, то возраст надо

Например,

Если возраст покупателей и объем покупки зависимы, то возраст надо учитывать

при сегментации покупателей.
Иногда зависимость бывает неочевидной.
Длина волос и рост людей – зависимые переменные.
Слайд 17

Вопрос: наличие балкона влияет на цену квартиры?

Вопрос:

наличие балкона влияет на цену квартиры?

Слайд 18

На шаг дальше… В эконометрике редко интересен сам факт зависимости. Обычно

На шаг дальше…

В эконометрике редко интересен сам факт зависимости. Обычно идут

дальше, пытаются описать зависимость.
Подобные задачи решаются, в частности, методами регрессионного анализа.
Регрессионный анализ – сдедующая тема.
Слайд 19

4. Гипотезы о параметре распределения. Очень часто не так важно распределение

4. Гипотезы о параметре распределения.

Очень часто не так важно распределение случайной

величины. Интересна лишь одна характеристика распределения.
Слайд 20

Если анализируются продажи магазина, то в первую очередь интересно… Математическое ожидание

Если анализируются продажи магазина, то в первую очередь интересно…

Математическое ожидание
Так

как математическое ожидание – вероятностная модель для среднего значения.
В данном случае для средних продаж.
Слайд 21

Гипотеза. Математические ожидания случайных величин X и Y одинаковы. EX = EY

Гипотеза. Математические ожидания случайных величин X и Y одинаковы.
EX = EY

Слайд 22

Если сравниваются медианы: Гипотеза. Медианы случайных величин X и Y одинаковы. Med(X) = med(Y)

Если сравниваются медианы:
Гипотеза. Медианы случайных величин X и Y одинаковы.
Med(X)

= med(Y)
Слайд 23

Основные условия применения статистических тестов Вопрос должен касаться какой-либо характеристики массового

Основные условия применения статистических тестов

Вопрос должен касаться какой-либо характеристики массового явления.


Характеристика меняется случайным образом от наблюдения к наблюдению.
Вопрос должен быть относительно простым и четко сформулированным
Слайд 24

Пример 1 В обычных условиях зафиксирован некоторый уровень продаж. Затем была

Пример 1

В обычных условиях зафиксирован некоторый уровень продаж. Затем была проведена

рекламная акция.
Руководству фирмы надо оценить результат.
Для этого нужно выяснить, было ли существенное увеличение продаж. В частности, окупились ли затраты на рекламу.
Слайд 25

Основная проблема: Увеличение продаж могло быть вызвано случайными факторами. Продажи все

Основная проблема:

Увеличение продаж могло быть вызвано случайными факторами.
Продажи все время

меняются, случайным образом отклоняются от заданного значения.
Статистически значимое отклонение должно превышать эти случайные отклонения.
Слайд 26

Пример 2 Разработан новый варианта упаковки товара. Требуется проверить предположение, что

Пример 2

Разработан новый варианта упаковки товара.
Требуется проверить предположение, что товар

в новой упаковке имеет в данном регионе больший уровень продаж, чем вариант в старой упаковке.
Слайд 27

Пример 3 Верно ли, что основной конкурент действует на том же

Пример 3

Верно ли, что основной конкурент действует на том же сегменте

рынка, что и фирма «Х»?
При ответе на этот вопрос может потребоваться проверить, одинаково ли распределение по возрасту у покупателей товаров фирмы «Х» и ее основного конкурента.
Слайд 28

Пример 4 Фирма изучает постоянных покупателей своей продукции, чтобы увеличить их

Пример 4

Фирма изучает постоянных покупателей своей продукции, чтобы увеличить их лояльность

и количество.
В рамках этой задачи аналитик проверяет, зависит ли лояльность потребителя от его пола, возраста, уровня образования.
Слайд 29

Пример 4. Часть 2 Статистическая формулировка: проверить гипотезы о независимости уровня

Пример 4. Часть 2

Статистическая формулировка: проверить гипотезы о независимости уровня лояльности

и
а) пола покупателя;
б) возраста покупателя;
в) уровня образования покупателя.
Далее, можно проверить, различаются ли средние значения изучаемых показателей у лояльных и не лояльных покупателей.
Слайд 30

Раздел 2 Технологии проверки статистических гипотез Основные понятия


Раздел 2
Технологии проверки статистических гипотез
Основные понятия

Слайд 31

Выбираем из двух гипотез! Гипотеза принимается или отвергается Так неудобно Надо: выбираем между двумя статистическими гипотезами.

Выбираем из двух гипотез!

Гипотеза принимается или отвергается
Так неудобно
Надо: выбираем между

двумя статистическими гипотезами.
Слайд 32

Определение Проверку гипотез на основе выборочных статистических данных называют статистической проверкой гипотез.

Определение

Проверку гипотез на основе выборочных статистических данных называют статистической проверкой гипотез.

Слайд 33

Основная и альтернативная гипотезы Одну из гипотез называют основной и обозначают,

Основная и альтернативная гипотезы

Одну из гипотез называют основной и обозначают, как

правило, Н, а другую — альтернативной (конкурирующей) и обозначают К.
Если не уточняется, о какой гипотеза идет речь, то имеется в виду основная гипотеза.
Чаще всего (но не всегда) одна гипотеза утверждает, что предположение верно, другая – что нет.
Слайд 34

Неточно говорить «…выбрана основная гипотеза…» или «…выбрана альтернативная гипотеза…», Неточно говорить

Неточно говорить «…выбрана основная гипотеза…» или «…выбрана альтернативная гипотеза…»,
Неточно говорить


«…основная гипотеза принята…» или «основная гипотеза отвергнута…».
Слайд 35

Важное уточнение. Правильно говорить «основная гипотеза отвергнута…» и «основная гипотеза не

Важное уточнение.

Правильно говорить
«основная гипотеза отвергнута…» и
«основная гипотеза не

отвергнута…».
Так как обычно проверяют лишь достаточное условие.
Слайд 36

Комментарий 1: Гипотеза: число делится на 6 нацело. Фактически проверяем, делится ли число на 2 нацело.

Комментарий 1:
Гипотеза: число делится на 6 нацело.
Фактически проверяем, делится ли число

на 2 нацело.
Слайд 37

Комментарий 2: Часто случается, что у аналитика недостаточно данных, чтобы проявился

Комментарий 2:

Часто случается, что у аналитика недостаточно данных, чтобы проявился изучаемый

эффект.
Например,
фармацевтическая компания выпускает лекарство, аналогичное уже существующему, так называемый "дженерик" (generic) вместо оригинального, производимого разработчиком ("brand-named").
Компания проводит исследование, проверяющее, что лекарство-аналог эквивалентно уже существующему.
Слайд 38

Отвергнуть гипотезу недостаточно Основная гипотеза при анализе: отличия между лекарствами нет.

Отвергнуть гипотезу недостаточно

Основная гипотеза при анализе: отличия между лекарствами нет.
Дело

касается здоровья людей, и не отвергнуть гипотезу недостаточно.
Необходимы более жесткие требования к процедуре. Надо проверить еще и побочные эффекты у лиц страдающих заболеванием «х1», «х2», и так далее…
Слайд 39

Вывод Хотя часто можно услышать, что (основная) гипотеза принята, такое выражение

Вывод

Хотя часто можно услышать, что (основная) гипотеза принята, такое выражение неточно.


Точнее говорить, что (основная) гипотеза не отвергнута
Слайд 40

Ошибки первого и второго рода Ошибка первого рода состоит в том,

Ошибки первого и второго рода

Ошибка первого рода состоит в том, что

отвергается основная гипотеза, когда на самом деле она верна.
Ошибка второго рода состоит в том, что отвергается конкурирующая гипотеза, когда она верна.
Слайд 41

Аналогия В больнице врач принимает решение, направлять пациента на операцию, или нет.

Аналогия
В больнице врач принимает решение, направлять пациента на операцию, или нет.


Слайд 42

Когда врач делает ошибку первого рода? Когда врач делает ошибку второго рода?

Когда врач делает ошибку первого рода?
Когда врач делает ошибку второго

рода?
Слайд 43

Гипотеза: нужна срочная операция

Гипотеза: нужна срочная операция

Слайд 44

Может ли врач свести частоту (вероятность) ошибок первого рода к нулю?

Может ли врач свести частоту (вероятность) ошибок первого рода к нулю?


Может ли врач свести частоту (вероятность) ошибок второго рода к нулю?
Слайд 45

Есть исключения Например, если мы будем вакцинацию считать операцией, то получается,

Есть исключения

Например,
если мы будем вакцинацию считать операцией,
то получается, что

врачи предпочитают делать маленькую "превентивную" операцию всем, чтобы исключить ошибки первого рода.
Слайд 46

Последствия ошибок могут быть различными Ошибка первого рода (обычно) опаснее, но

Последствия ошибок могут быть различными
Ошибка первого рода (обычно) опаснее, но полностью

избежать ее не удастся.
При проверке статистических гипотез исходят именно из этой предпосылки
Слайд 47

Уровень значимости Долю ошибок первого рода ограничивают сверху числом, называемым уровень

Уровень значимости

Долю ошибок первого рода ограничивают сверху числом, называемым уровень

значимости.
Исторически сложилось так, что в качестве уровня значимости чаще всего выбирают одно из чисел 0.005, 0.01, 0.05.
То есть аналитик допускает, что (в среднем) одна проверка из 200, 100, 20 будет давать неверный результат.
Слайд 48

Для новичков! Чаще всего уровень значимости равен 0,05 На самом деле

Для новичков!

Чаще всего уровень значимости равен 0,05
На самом деле выбор уровня

значимости – большая проблема! Зависит, например, от числа наблюдений!
Смотрите литературу
Слайд 49

«медицинский» пример На что влияет выбор уровня значимости? Проектирование атомной электростанции

«медицинский» пример
На что влияет выбор уровня значимости?
Проектирование атомной электростанции
Трелевочный трактор
Генетика:

теперь уровень значимости не 0.05, а 0.01
Слайд 50

Ошибка второго рода и мощность Как добиться того, чтобы вероятность ошибки

Ошибка второго рода и мощность

Как добиться того, чтобы вероятность ошибки второго

рода была малой?
Очень сложно.
Состоятельные критерии.
Ошибку можно уменьшить, если увеличить число анализируемых наблюдений.
Необходимы большие выборки.
Слайд 51

Дополнительно Если выборка маленькая (часто границей между большой и маленькой выборкой

Дополнительно

Если выборка маленькая (часто границей между большой и маленькой выборкой рекомендуют

считать 30 наблюдений), проверить гипотезу по малой выборке удастся.
Но
Платой за малый размер будет неприемлемо большая вероятность ошибки второго рода.
Большинство практиков игнорируют ошибку второго рода.
Это неверно.
Профессиональные статистики в таких ситуациях часто увеличивают уровень значимости (например до 0.15 или 0.2), чтобы сделать вероятности ошибок сопоставимыми.
Слайд 52

Задача. Вместо врача рассмотрим банковского служащего, принимающего решение, выдавать заем или

Задача.

Вместо врача рассмотрим банковского служащего, принимающего решение, выдавать заем или

нет.
Как будут интерпретироваться статистические понятия в этом случае?
Слайд 53

Алгоритм проверки статистических гипотез 1. Имеются n наблюдений , то есть

Алгоритм проверки статистических гипотез

1. Имеются n наблюдений , то есть

n чисел, полученных, например, в результате опроса.
2. Заранее задан уровень значимости α. Обычно это одно из чисел 0.005, 0.01, 0.05.
Слайд 54

3. Задан статистический критерий, то есть функция от наблюдений . 4.

3. Задан статистический критерий, то есть функция от наблюдений .
4.

Найдено p-значение (p-value).
Иногда переводится как значимость (Significance).
Слайд 55

5. Проверяются все условия, при которых критерий будет работать. Условия –

5. Проверяются все условия, при которых критерий будет работать.
Условия – Из

учебника или справочника.
Несколько важных критериев будет рассмотрено далее
Слайд 56

6. Если p α - не отвергаем. Напомним: α – уровень значимости p - p-value.

6.
Если p< α - гипотезу отвергаем, если p> α -

не отвергаем.
Напомним:
α – уровень значимости
p - p-value.
Слайд 57

Комментарии Наблюдения не обязательно являются числами. Выбор того статистического критерия, который

Комментарии

Наблюдения не обязательно являются числами.
Выбор того статистического критерия, который

подходит для задачи – важная и сложная задача
Слайд 58

Проверка условий применимости Например, для применения t – критерия Стьюдента или

Проверка условий применимости

Например, для применения t – критерия Стьюдента или для

проверка гипотезы независимости с помощью критерия Пирсона надо проверить близость распределения переменных к нормальному.
Слайд 59

Статистика критерия или тестовая статистикой Иногда используют статистику критерия или тестовую

Статистика критерия или тестовая статистикой

Иногда используют статистику критерия или тестовую статистику.


Изредка она важна сама по себе (например, коэффициент корреляции), в таких конкретных случаях мы будем ее указывать.
Слайд 60

Интерпретация статистики критерия Значение статистики критерия (обычно) измеряет, насколько данные согласуются с гипотезой.

Интерпретация статистики критерия

Значение статистики критерия (обычно) измеряет, насколько данные согласуются с

гипотезой.
Слайд 61

"Маленькие" значения статистики критерия указывают, что данные «ведут себя» в соответствии

"Маленькие" значения статистики критерия указывают, что данные «ведут себя» в соответствии

с гипотезой.
В этом случае гипотеза не отвергается.
Слайд 62

"Большие" значения статистики критерия указывают, что данные не соответствуют гипотезе, противоречат ей. Гипотеза отвергается.

"Большие" значения статистики критерия указывают, что данные не соответствуют гипотезе, противоречат

ей.
Гипотеза отвергается.
Слайд 63

Пример Нормальное распределение с дисперсией 1 Имеется n наблюдений Основная гипотеза:

Пример

Нормальное распределение с дисперсией 1
Имеется n наблюдений
Основная гипотеза: математическое ожидание

равно 11
Альтернативная гипотеза: математическое ожидание равно 12
Слайд 64

Напоминание из теории вероятностей Среднее арифметическое n независимых одинаково распределенных случайных

Напоминание из теории вероятностей

Среднее арифметическое n независимых одинаково распределенных случайных величин

с общим нормальным распределением N(a, b) имеет нормальное распределение N(a, b/n)
Слайд 65

Вопрос: Где на графике ошибка первого рода, где ошибка второго рода?

Вопрос:
Где на графике ошибка первого рода, где ошибка второго рода?

Слайд 66

Интерпретация статистики критерия В статистике жестко прописано, что именно задавать в качестве основной гипотезы. Примеры.

Интерпретация статистики критерия
В статистике жестко прописано, что именно задавать в качестве

основной гипотезы.
Примеры.
Слайд 67

Раздел 3 Важные частные случаи

Раздел 3
Важные частные случаи

Слайд 68

Проверка гипотезы о нормальности распределения случайной величины


Проверка гипотезы о нормальности распределения случайной величины

Слайд 69

Статистическая формулировка Гипотеза: Случайная величина имеет нормальное распределение, значения параметров распределения

Статистическая формулировка

Гипотеза: Случайная величина имеет нормальное распределение, значения параметров распределения заранее

не известны.
Конкурирующая гипотеза: Распределение случайной величины отличается от нормального.
Слайд 70

Литература Thode Testing For Normality CRC Press 2002 368c

Литература

Thode
Testing For Normality
CRC Press 2002 368c

Слайд 71

Критерий Шапиро-Уилка Критерий Шапиро-Уилка. shapiro.test(data) От 3 до 5000 наблюдений

Критерий Шапиро-Уилка
Критерий Шапиро-Уилка.
shapiro.test(data)
От 3 до 5000 наблюдений

Слайд 72

Package "nortest" Критерий Anderson-Darling library(nortest) ad.test(data) Критерий Lilliefors (Kolmogorov-Smirnov) library(nortest) lillie.test(x)

Package "nortest"

Критерий Anderson-Darling
library(nortest)
ad.test(data)
Критерий Lilliefors (Kolmogorov-Smirnov)
library(nortest)
lillie.test(x)

Слайд 73

Число наблюдений Если меньше 2000 наблюдений, рекомендуется использовать критерий Шапиро-Уилка если больше 2000, то критерий Колмогорова-Смирнова.

Число наблюдений

Если меньше 2000 наблюдений, рекомендуется использовать критерий Шапиро-Уилка
если больше 2000,

то критерий Колмогорова-Смирнова.
Слайд 74

А нужно ли проверять гипотезу нормальности?


А нужно ли проверять гипотезу нормальности?

Слайд 75

Методы, которые рассматриваются в курсе, работают не только когда переменные имеют

Методы, которые рассматриваются в курсе, работают не только когда переменные имеют

нормальное распределение, но и когда «распределение данных несущественно отличается от нормального».
Слайд 76

допустим известно, что распределение случайной величины не нормальное. В каком случае отклонение от нормальности не существенное?

допустим известно, что распределение случайной величины не нормальное.
В каком случае

отклонение от нормальности не существенное?
Слайд 77

Итак, гипотеза о нормальности распределения изучаемой переменной уже отвергнута.

Итак,

гипотеза о нормальности распределения изучаемой переменной уже отвергнута.

Слайд 78

Существенные отклонения 1. Наличие выбросов в данных. 2. Явная асимметрия гистограммы.

Существенные отклонения

1. Наличие выбросов в данных.
2. Явная асимметрия гистограммы.
3.

Очень сильное отклонение формы гистограммы от колоколообразной формы.
Слайд 79

Рекомендуется строго относиться к присутствию выбросов, снисходительно к отклонениям от симметрии.

Рекомендуется

строго относиться к присутствию выбросов,
снисходительно к отклонениям от симметрии.
Наше отношение

к колоколообразной форме гистограммы зависит от числа наблюдений. Если имеется меньше 30 наблюдений, наше отношение в высшей степени либерально, если число наблюдений находится между 30 и 150, мы относимся к отклонениям снисходительно, если имеется больше 150 наблюдений – строго.
Слайд 80

Слайд 81

Слайд 82

Слайд 83

Лекарство Иногда оно опаснее болезни... Выбросы — удаляем (осторожно!) Асимметрия —

Лекарство Иногда оно опаснее болезни...

Выбросы — удаляем (осторожно!)
Асимметрия — преобразуем

данные (например, логарифмируем, или преобразование Бокса-Кокса)
Бимодальность — разбиваем выборку на подвыборки
Слайд 84

Пример 1 Население городов России в 1959 году Исходные данные Логарифм населения

Пример 1
Население городов России в 1959 году
Исходные данные
Логарифм населения

Слайд 85

Пример 2 Альбукерк – продажи домов

Пример 2

Альбукерк – продажи домов

Слайд 86

Сравнение центров распределений


Сравнение центров распределений

Слайд 87

Сравнение центров распределений Центр распределения - то одно единственное число, которое

Сравнение центров распределений
Центр распределения - то одно единственное число, которое

описывало, характеризовало бы выборку.
В качестве центра чаще всего используют среднее арифметическое, медиану или усеченное среднее.
Слайд 88

Другие методы оценки центра распределения Andrews; Bickel; Hampel; Huber; Rogers, Tukey.

Другие методы оценки центра распределения


Andrews; Bickel; Hampel; Huber; Rogers, Tukey.


Robust estimates of location: survey and advances.
1972 Princeton University Press
Слайд 89

Среднее арифметическое или медиана? Если распределение хотя бы одной из выборок

Среднее арифметическое или медиана?

Если распределение хотя бы одной из выборок существенно

отличается от нормального, в качестве центра предлагается использовать медиану.
В остальных случаях, то есть если распределение каждой выборки можно считать нормальным или несущественно отличающимся от нормального, в качестве центра предлагается использовать среднее арифметическое.
Слайд 90

Выбор центра распределения Если центром распределения выбрана медиана, центры сравниваются с

Выбор центра распределения

Если центром распределения выбрана медиана, центры сравниваются с помощью

критерия Манна – Уитни-Вилкоксона.
Если центром распределения выбрано среднее арифметическое, центры сравниваются с помощью одной из версий критерия Стьюдента.
Слайд 91

Прагматичный подход Применить оба теста. Если выводы совпадают, ответ есть Если выводы различны, начинаем разбираться.

Прагматичный подход

Применить оба теста. Если выводы совпадают, ответ есть
Если выводы различны, начинаем

разбираться.
Слайд 92

Примеры Обучение менеджеров Магазины

Примеры

Обучение менеджеров
Магазины

Слайд 93

Парные и независимые выборки В случае парных выборок имеются пары наблюдений

Парные и независимые выборки

В случае парных выборок имеются пары наблюдений (измерений)

одного и того же объекта.
Вариант: пары измерений делались в один и тот же момент.
Слайд 94

Независимые выборки В случае независимых выборок каждое наблюдение соответствует отдельному объекту,

Независимые выборки

В случае независимых выборок каждое наблюдение соответствует отдельному объекту, т.е.

измеряются разные объекты.
Принадлежность объектов выборкам определяется по значениям дополнительной группирующей переменной.
Слайд 95

Независимые и парные выборки Если выборки парные, используется опция paired =

Независимые и парные выборки

Если выборки парные, используется опция paired = TRUE.
Если

выборки независимые, используется опция paired = FALSE.
Слайд 96

Примеры Время в магазинах Альбукерк

Примеры

Время в магазинах
Альбукерк

Слайд 97

Сравнение медиан выборок Гипотеза: Медианы равны. Альтернативная гипотеза: Медианы различаются.

Сравнение медиан выборок
Гипотеза: Медианы равны.
Альтернативная гипотеза: Медианы различаются.

Слайд 98

Mood's median test m f11 m) # Pop.1 samples above median

Mood's median test

m <- median(c(x1,x2)) # joint median
f11 <- sum(x1>m) #

Pop.1 samples above median
f12 <- sum(x2>m)
f21 <- sum(x1<=m) # Pop.1 samples below or at median
f22 <- sum(x2<=m)
# 2x2 contingency table
table <- matrix(c(f11,f12,f21,f22), nrow=2,ncol=2)
chisq.test(table)
Слайд 99

Mood's median test Friedlin, B. & Gastwirth, J. L. (2000). Should

Mood's median test

Friedlin, B. & Gastwirth, J. L. (2000).
Should the

median test be retired from general use?
The American Statistician, 54, 161–164.
Ответ: да, не используем. Большая ошибка 2 рода даже для малых выборок (по сравнению с другими тестами)
Слайд 100

Критерий Манна-Уитни Mann–Whitney–Wilcoxon, Wilcoxon rank-sum test, Wilcoxon–Mann–Whitney test

Критерий Манна-Уитни

Mann–Whitney–Wilcoxon,
Wilcoxon rank-sum test,
Wilcoxon–Mann–Whitney test

Слайд 101

Важно! Критерий Манна-Уитни проверяет не равенство медиан, а другое утверждение. Имеются

Важно!

Критерий Манна-Уитни проверяет не равенство медиан, а другое утверждение.
Имеются

две выборки наблюдений случайных величин Х и Y.
Гипотеза: P{X>Y}=P{XАльтернативная гипотеза: P{X>Y} ≠ P{X
Слайд 102

Статистика критерия Манна-Уитни U U1 = n1*n2 + {n1 * (n1

Статистика критерия Манна-Уитни U

U1 = n1*n2 + {n1 * (n1 +

1)/2} — T1
U2 = n1*n2 + {n2 * (n2 + 1)/2} — T2
U = min(U1, U2)
Ti — сумма рангов в объединенной выборке наблюдений из выборки i
n1 и n2 — размеры выборок
Слайд 103

Статистика критерия Манна-Уитни идея метода Обозначим одну выборку x, другую y.

Статистика критерия Манна-Уитни идея метода

Обозначим одну выборку x, другую y.
Для каждого наблюдения

из выборки x сосчитаем число тех наблюдений в выборке y, которые меньше его. (пока считаем, что совпадений нет).
Сложим все полученные числа.
Слайд 104

Тогда причем тут медианы? Дополнительные предположения if the responses are assumed

Тогда причем тут медианы?

Дополнительные предположения
if the responses are assumed to be

continuous
alternative is restricted to a shift in location (i.e. F1(x) = F2(x + δ)),
we can interpret a significant MWW test as showing a difference in medians.
Слайд 105

Гипотеза отвергается: p=0.0288

Гипотеза отвергается: p=0.0288

Слайд 106

Гипотеза не отвергается: p=0.46

Гипотеза не отвергается: p=0.46

Слайд 107

Критерий Манна-Уитни-Вилкоксона wilcox.test(x, y, alternative = "two.sided", paired = FALSE, exact = TRUE, correct = FALSE)

Критерий Манна-Уитни-Вилкоксона

wilcox.test(x, y,
alternative = "two.sided",
paired = FALSE,


exact = TRUE,
correct = FALSE)
Слайд 108

Примеры Время в магазинах Альбукерк

Примеры

Время в магазинах
Альбукерк

Слайд 109

Сравнение средних значений выборок Гипотеза: Математические ожидания равны. Альтернативная гипотеза: Математические ожидания различны.

Сравнение средних значений выборок
Гипотеза: Математические ожидания равны.
Альтернативная гипотеза: Математические ожидания

различны.
Слайд 110

T-критерий Стьюдента t.test(x, y, alternative = "two.sided", paired = FALSE, var.equal = FALSE)

T-критерий Стьюдента

t.test(x, y, alternative = "two.sided", paired = FALSE, var.equal =

FALSE)
Слайд 111

Выбор статистического критерия Если выборки парные, рекомендуется использовать парный t-критерий Стьюдента.

Выбор статистического критерия

Если выборки парные, рекомендуется использовать парный t-критерий Стьюдента.
Если выборки

независимые, рекомендуется использовать t-критерий Стьюдента для 2-х независимых выборок.
Слайд 112

Надо еще сравнить дисперсии - 1 Метод 1 F-test of equality

Надо еще сравнить дисперсии - 1

Метод 1
F-test of equality of variances
Не

рекомендуется, слишком чувствителен к отклонениям от нормальности. См.
http://en.wikipedia.org/wiki/F-test_of_equality_of_variances
var.test(x, y)
Слайд 113

Надо еще сравнить дисперсии - 2 Метод 2 Bartlett's test Если

Надо еще сравнить дисперсии - 2

Метод 2
Bartlett's test
Если данные нормально распределены,

лучший вариант.
Не рекомендуется: чувствителен к отклонениям от нормальности;
Если данные не нормальны, часто дает "false positive" результат.
Слайд 114

Надо еще сравнить дисперсии - 2 Метод 2 Bartlett's test bartlett.test(x, g, data=data.table) bartlett.test(x~g, data=data.table)

Надо еще сравнить дисперсии - 2

Метод 2
Bartlett's test
bartlett.test(x, g, data=data.table)
bartlett.test(x~g, data=data.table)

Слайд 115

Надо еще сравнить дисперсии - 3 Levene's test Критерий Ливиня/Левена Содержится в пакете car

Надо еще сравнить дисперсии - 3

Levene's test
Критерий Ливиня/Левена
Содержится в пакете

car
Слайд 116

Надо еще сравнить дисперсии - 3 Levene's test library(car) leveneTest(x~g, data=data.table)

Надо еще сравнить дисперсии - 3

Levene's test
library(car)
leveneTest(x~g, data=data.table)

Слайд 117

Надо еще сравнить дисперсии - 4 Fligner-Killeen test Робастный, рекомендуется. Хотя

Надо еще сравнить дисперсии - 4

Fligner-Killeen test
Робастный, рекомендуется.
Хотя есть еще Brown-Forsythe

test, возможно он еще лучше...
Слайд 118

Надо еще сравнить дисперсии - 4 Fligner-Killeen test fligner.test(x~g, data=data.table)

Надо еще сравнить дисперсии - 4

Fligner-Killeen test
fligner.test(x~g, data=data.table)

Слайд 119

Примеры Время в магазинах Альбукерк

Примеры

Время в магазинах
Альбукерк

Слайд 120

Гипотеза независимости Основная гипотеза: Случайные величины X и Y независимы Альтернативная

Гипотеза независимости

Основная гипотеза:
Случайные величины X и Y независимы
Альтернативная гипотеза:
Случайные величины X

и Y зависимы
Слайд 121

На практике: Отвечаем на вопрос: переменная X влияет на переменную Y?

На практике:
Отвечаем на вопрос: переменная X влияет на переменную Y?

Слайд 122

Комментарий Если неизвестно, что на что влияет: X на Y или

Комментарий

Если неизвестно, что на что влияет:
X на Y или
Y на

X
статистический критерий не поможет!
Слайд 123

Пример Бернарда Шоу Гибридизация нескольких методов распознавания образов

Пример Бернарда Шоу
Гибридизация нескольких методов распознавания образов

Слайд 124

Диаграмма рассеивания Иногда пишут - диаграмма рассеяния Пример – швейцарские банкноты.

Диаграмма рассеивания

Иногда пишут - диаграмма рассеяния
Пример – швейцарские банкноты.

Слайд 125

Зависимость -1 X – в количественной шкале Y – в количественной

Зависимость -1

X – в количественной шкале
Y – в количественной шкале
Применяется коэффициент

корреляции Пирсона
Или Спирмена
Иногда - Кендалла
Слайд 126

Функциональная зависимость

Функциональная зависимость

Слайд 127

Статистическая зависимость двух переменных Обобщение функциональной зависимости. Одному и тому же

Статистическая зависимость двух переменных

Обобщение функциональной зависимости.
Одному и тому же значению x

могут соответствовать разные значения y.
Например, один и тот же товар (например, телефон) может продаваться в разных магазинах по разной цене, то есть одному и тому же товару соответствуют разные цены.
Слайд 128

статистическая зависимость Определение статистическая зависимость – это функциональная зависимость СРЕДНЕГО значения

статистическая зависимость

Определение статистическая зависимость – это функциональная зависимость СРЕДНЕГО значения переменной

y от значения переменной x.
Откуда появляется среднее значение? Проводятся эксперименты (или наблюдается явление) при одном и том же значении x, при этом регистрируются разные значения y, затем эти значения усредняются.
На практике не всегда заметно, что одному и тому же значению переменной x может соответствовать много значений y, например когда повторные наблюдения при одном значении x не делались.
Слайд 129

среднее значение переменной y равно натуральному логарифму значения x.

среднее значение переменной y равно натуральному логарифму значения x.

Слайд 130

среднее значение переменной y равно натуральному логарифму значения x.

среднее значение переменной y равно натуральному логарифму значения x.

Слайд 131

Коэффициент корреляции как «градусник», измеряющий степень зависимости Формула для коэффициента корреляции

Коэффициент корреляции как «градусник», измеряющий степень зависимости
Формула для коэффициента корреляции

Слайд 132

Выбор коэффициента Если распределение каждой переменной несущественно отличается от нормального, применяется

Выбор коэффициента

Если распределение каждой переменной несущественно отличается от нормального, применяется коэффициент

корреляции Пирсона
В остальных случаях - коэффициент корреляции Спирмена
Вместо коэффициента корреляции Спирмена используют коэффициент корреляции Кендалла
Слайд 133

Слайд 134

Как проявляется зависимость на диаграмме рассеивания

Как проявляется зависимость на диаграмме рассеивания

Слайд 135

Коэффициент корреляции равен 1

Коэффициент корреляции равен 1

Слайд 136

Коэффициент корреляции равен 0.9

Коэффициент корреляции равен 0.9

Слайд 137

Коэффициент корреляции равен 0.8

Коэффициент корреляции равен 0.8

Слайд 138

Коэффициент корреляции равен 0.6

Коэффициент корреляции равен 0.6

Слайд 139

Коэффициент корреляции равен 0.4

Коэффициент корреляции равен 0.4

Слайд 140

Коэффициент корреляции равен 0.2

Коэффициент корреляции равен 0.2

Слайд 141

Коэффициент корреляции равен 0.

Коэффициент корреляции равен 0.

Слайд 142

Проблемы и ошибки при использовании коэффициента корреляции

Проблемы и ошибки при использовании коэффициента корреляции

Слайд 143

Слайд 144

Слайд 145

Данные без выброса коэффициент корреляции равен -0.81

Данные без выброса коэффициент корреляции равен -0.81

Слайд 146

Добавлен выброс в точке (10,10). Коэффициент корреляции упал до -0,55.

Добавлен выброс в точке (10,10). Коэффициент корреляции упал до -0,55.

Слайд 147

Выброс сдвинут в точку (18,5, 18,5) Коэффициент равен 0

Выброс сдвинут в точку (18,5, 18,5) Коэффициент равен 0

Слайд 148

Выброс сдвинут в точку (53, 53). Корреляция равна +0,81

Выброс сдвинут в точку (53, 53). Корреляция равна +0,81

Слайд 149

Ложная корреляция

Ложная корреляция

Слайд 150

Зависимость -2 X – в количественной шкале Y – в номинальной

Зависимость -2

X – в количественной шкале
Y – в номинальной шкале
Сравниваем средние

или медианы в группах
Или перекодируем количественную переменную, переводим ее в номинальную шкалу
Слайд 151

Зависимость -3 X – в порядковой шкале Y – в порядковой

Зависимость -3

X – в порядковой шкале
Y – в порядковой шкале
Используем коэффициент

корреляции Спирмена
Или Кендалла
Слайд 152

Зависимость -4 X – в номинальной шкале Y – в номинальной

Зависимость -4

X – в номинальной шкале
Y – в номинальной шкале
Таблица сопряженности

и критерий χ²
Слайд 153

Критерий хи-квадрат Формула для статистики

Критерий хи-квадрат
Формула для статистики

Слайд 154

Статистика хи-квадрат как коэффициент корреляции Коэффициент Пирсона Коэффициент Чупрова

Статистика хи-квадрат как коэффициент корреляции
Коэффициент Пирсона
Коэффициент Чупрова

Слайд 155

Примеры типичных ошибок при использовании критерия хи-квадрат

Примеры типичных ошибок при использовании критерия хи-квадрат

Слайд 156

Пример 1 Действительно ли использование Internet связано с полом? Все опрошенные

Пример 1

Действительно ли использование Internet связано с полом?
Все опрошенные пользуются Интернетом.

Тех из них, кто использует Интернет пять часов в месяц или меньше, отнесли к мало пользующимся, остальных – к активным пользователям.
Слайд 157

Пример 1 sex = пол. Кодировка: "1" – мужчина, "0" –

Пример 1

sex = пол.
Кодировка: "1" – мужчина, "0" – женщина.
internet =

использование Internet.
Кодировка: "0" – использует мало, "1" – использует активно.
Имеется 30 наблюдений (опрошенных).
Слайд 158

Пример 1

Пример 1

Слайд 159

Пример 2 В результате изучения связи между покупкой модной одежды и

Пример 2

В результате изучения связи между покупкой модной одежды и семейным

положением получены, среди прочих, следующие данные.
Имеется 1000 наблюдений (опрошенных).
Слайд 160

Пример 2 Переменные. sex = пол. Кодировка: "1" – мужчина, "0"

Пример 2

Переменные.
sex = пол.
Кодировка: "1" – мужчина, "0" – женщина.
marriage =

семейное положение.
Кодировка: "1" – женат/замужем, "0" – не женат/не замужем.
fashion = покупка модной одежды.
Кодировка: "0" – покупает мало, "1" – покупает много.
Слайд 161

Пример 2

Пример 2

Слайд 162

Пример 2

Пример 2

Слайд 163

Пример 2

Пример 2

Слайд 164

Пример 3 Маркетолог проводит исследование для рекламного агентства, разрабатывающего рекламу для

Пример 3

Маркетолог проводит исследование для рекламного агентства, разрабатывающего рекламу для автомобилей

стоимостью свыше 30 тысяч долларов.
Он пытается проанализировать факторы, влияющие на владение дорогими автомобилями.
Слайд 165

Пример 3 Переменные. high_edu = образование. Кодировка: "1" – высшее образование,

Пример 3

Переменные.
high_edu = образование.
Кодировка: "1" – высшее образование, "0" – нет

высшего образования.
expe_car = наличие дорогого автомобиля.
Кодировка: "0" – дорогого автомобиля нет, "1" – дорогой автомобиль есть.
income = доход.
Кодировка: "0" – низкий доход, "1" – высокий доход.
Имеется 1000 наблюдений (опрошенных).
Слайд 166

Пример 3

Пример 3

Слайд 167

Пример 3

Пример 3

Слайд 168

Пример 3

Пример 3

Слайд 169

Пример 4 Маркетолог, исследующий сферу туристических поездок за границу, предположил, что

Пример 4

Маркетолог, исследующий сферу туристических поездок за границу, предположил, что на

желание путешествовать влияет возраст.
Имеющиеся в его распоряжении данные содержат, среди прочего, следующую информацию.
Слайд 170

Пример 4 Переменные. desire = желание совершить путешествие за границу. Кодировка:

Пример 4

Переменные.
desire = желание совершить путешествие за границу.
Кодировка: "1" – желание

есть, "0" – желания нет.
sex = пол.
Кодировка: "0" – женщина, "1" – мужчина.
age = возраст.
Кодировка: "0" –до 45 лет, "1" – 45 лет или старше.
Имеется 1000 наблюдений (опрошенных).
Слайд 171

Пример 4

Пример 4

Слайд 172

Пример 4

Пример 4

Слайд 173

Пример 4

Пример 4

Слайд 174

Пример 4

Пример 4

Слайд 175

Пример 5 Результаты анкетирования о проведении семейного досуга содержат, среди прочего,

Пример 5

Результаты анкетирования о проведении семейного досуга содержат, среди прочего, следующую

информацию.
Переменные.
fastfood = частота посещения ресторанов быстрого питания.
Кодировка: "1" – часто, "0" – редко.
income = доход семьи.
Кодировка: "1" – высокий, "0" – низкий.
family = размер семьи.
Кодировка: "1" – большая семья, "0" – малая семья.
Слайд 176

Пример 5

Пример 5

Слайд 177

Пример 5

Пример 5