Статистическая проверка статистических гипотез

Содержание

Слайд 2

Приведенные примеры представляют собой одни из многочисленных вариантов статистических гипотез. Таким

Приведенные примеры представляют собой одни из многочисленных
вариантов статистических гипотез.
Таким

образом, статистической гипотезой называют гипотезу о виде неизвестного распределения или о параметрах известных распределений.
Наряду с первоначально выдвинутой гипотезой рассматривают и противоречащую ей. Если выдвинутая гипотеза будет отвергнута, ее место занимает противоречащая.
Нулевой (основной) гипотезой называют первоначально выдвинутую гипотезу. Гипотезу, противоречащую нулевой, называют конкурирующей (альтернативной) гипотезой.
Слайд 3

Условно нулевую гипотезу обозначают H0, а альтернативную – H1. Приведу примеры

Условно нулевую гипотезу обозначают H0, а альтернативную – H1.
Приведу примеры

обозначений статистических гипотез и варианты их прочтения:
Н0: x =15 - основная гипотеза состоит в том, что среднее значение случайной величины Х статистически неразличимо с 15;
Н1: x >15 - альтернативная гипотеза состоит в том, что среднее значение случайной величины Х статистическим различимо и больше 15.
ОБРАТИТЕ ВНИМАНИЕ: о равенстве показателей речи не идет. Корректно говорить «статистически неразличимо» или «статистически различимо»
Когда выдвигается гипотеза, всегда существует вероятность, что она
может быть правильной или неправильной, поэтому возникает необходимость ее проверки.
Поскольку проверку производят статистическими методами, ее называют статистической проверкой.
Слайд 4

При выдвижении гипотезы, независимо от того, статистическая она или нет, автор

При выдвижении гипотезы, независимо от того, статистическая она или
нет, автор

гипотезы берет на себя определенную ответственность.
Ведь вы-
двинутая гипотеза, равно как и результаты ее проверки, могут быть ошибоч
ными. Риск, который возникает при выдвижении статистической гипотезы,
так и называют ошибкой, причем существуют ошибки I и II рода.
Ошибка I рода состоит в том, что будет отвергнута гипотеза, в то время как она верна. Ошибка I рода оценивается уровнем значимости α.
Ошибка II рода состоит в том, что будет принята гипотеза, в то время как она неверна. Ошибка II рода оценивается
мощностью критерия π
Слайд 5

При этом последствия таких ошибок могут оказаться весьма различными. Можно привести

При этом последствия таких ошибок могут оказаться весьма различными.
Можно привести

примеры, когда ошибка I рода влечет за собой более
весомые последствия, чем ошибка II рода, и наоборот.
Пример 1. Идет прием у врача. Исследуя симптомы болезни, врач назначает лечение. Помимо лекарств, назначаемых при данных симптомах,
врач выписывает некоторые анализы для подтверждения своего диагноза.
При этом возможны следующие варианты:
Ошибка I рода. Назначение данных лекарств было правомерно, т.к. первоначальный диагноз оказался верным, что и подтвердили дополнительные анализа, но врач подверг первоначальный диагноз сомнению, т.е. фактически отверг его.
Ошибка II рода. Назначение данных лекарств недопустимо, т.к. первоначальный диагноз оказался неверным, что и показали дополнительные анализы, но врач назначил их в соответствии с первоначальным диагнозом, который он фактически принял.
Понятно, что в данном примере ошибка II рода приведет к более тяжким по-
следствиям, чем ошибка I рода.
Слайд 6

Пример 2. Стоит вопрос о замене строительных материалов, предусмотренных проектом, на

Пример 2. Стоит вопрос о замене строительных материалов, предусмотренных проектом, на

другие, поскольку они более доступны и дешевы.
Для этого проводится соответствующая экспертиза. При этом возможны следующие ошибки:
Ошибка I рода. Применение предлагаемых в качестве альтернативы строительных материалов невозможно, но эксперт разрешает их использование, т.к. считает их технические характеристики соответствующими нормам.
Ошибка II рода. Применение альтернативных материалов возможно, но экс-
перт запрещает замену.
В данном случае ошибка II рода менее тяжела, чем ошибка I рода.
Слайд 7

Когда экспериментатор выдвигает ту или иную статистическую гипотезу, он предполагает, что

Когда экспериментатор выдвигает ту или иную статистическую гипотезу, он предполагает, что

может совершить ошибку.
Решение, принимаемое экспериментатором должно иметь альтернативу, т.е. экспериментатор помимо выдвижения гипотезы должен держать наготове ответ на вопрос: «А что, если Вы ошиблись?»
Про такую ситуацию говорят, что экспериментатор закладывает в гипотезу ошибку того или иного рода. Ошибку какого рода заложить в свою гипотезу экспериментатор решает в зависимости от тяжести последствий при совершении ошибки.
Слайд 8

Чтобы было более-менее понятно, о чем идет речь, проиллюстрируем данные соображения

Чтобы было более-менее понятно, о чем идет речь, проиллюстрируем
данные соображения

на примере приема у врача, описанного выше.
Фактически, назначая дополнительные анализы для подтверждения диагноза, врач закладывает в свою гипотезу ошибку первого рода, т.е. первоначальный диагноз может оказаться верным, но врач не верит без дополнительной проверки.
Кстати, из этих же соображений врач первоначально, пока не выяснит
окончательно диагноз, назначает лекарства лишь облегчающие симптоматику, но не решающие все кардинально. Согласитесь, в этом примере ошибка первого рода несет наименьшие последствия, и врач поступает правильно.
Слайд 9

Статистические критерии Когда любой из нас проводит проверку чего-либо, принимает какое-

Статистические критерии
Когда любой из нас проводит проверку чего-либо, принимает какое-
либо

решение, всем бывает необходим критерий соответствия полученного
результата ожиданиям, тем или иным требованиям и т.д.
Например, при покупке дивана человек оценивает его на соответствие многим критериям: габариты, цвет, форма…
Точно также обстоит дело и в статистике. Только в данном случае необходимы критерии для проверки соответствия выдвинутой статистической гипотезы реальному положению дел. И критерии, соответственно, должны быть статистические.
Слайд 10

Статистическим критерием (или просто критерием, критерием согласия) называют критерий проверки гипотезы

Статистическим критерием (или просто критерием,
критерием согласия) называют критерий проверки гипотезы

о
предполагаемом законе распределения случайной величины или
значениях параметров распределений случайной величины.
При этом значение критерия, вычисленное по экспериментальным данным, называют наблюдаемым значением критерия Кнабл.
Статистические критерии работают на всем множестве значений числовой прямой в пределах (-∞; +∞). При этом вся эта числовая прямая делится на два типа подобластей: критическую и область принятия гипотезы (решения).

Критической областью называют совокупность значений
критерия, при которых нулевую гипотезу отвергают.
Областью принятия гипотезы (областью допустимых
значений) называют совокупность значений критерия, при которых нулевую гипотезу принимают
Критическими точками (границами) kкр называют точки, отделяющие критическую область от области принятии
решений.

Слайд 11

различают одностороннюю и двустороннюю критические области. Первая, в свою очередь, делится

различают одностороннюю и двустороннюю критические области.
Первая, в свою очередь, делится

на правостороннюю и левостороннюю.
Правосторонней критической областью называют критическую область, определяемую неравенством Кнабл > kкр, где kкр – положительное число (см. рисунок а).
Левосторонней критической областью называют критическую область, определяемую неравенством Кнабл < kкр, где kкр – отрицательное число (см. рисунок б).
Двусторонней критической областью называют критическую область, определяемую неравенствами Кнабл < kкр.1 и Кнабл > kкр.2, где kкр.2 > kкр.1
Слайд 12

С логической и понятийной точки зрения все достаточно просто. Но с

С логической и понятийной точки зрения все достаточно просто.
Но с

практической позиции сразу же возникает вполне естественный вопрос, как
отыскать критическую точку?
Для ее отыскания задаются достаточно малой вероятностью – уровнем значимости α.

Уровнем значимости α называют вероятность, при которой событие (в данной определенной задаче) практически невозможно, т.е. это вероятность того, что исследуемое событие при данных условиях не произойдет.
С точки зрения проверки статистических гипотез, уровень значимости – вероятность того, что наблюдаемое значение критерия попадет в критическую область:
P(Кнабл > kкр) = α.

Слайд 13

Вероятность того, что наблюдаемое значение критерия попадет в область допустимых значений

Вероятность того, что наблюдаемое значение критерия попадет в область допустимых значений

называют доверительной вероятностью (надежностью)
P = 1–α.
С общих позиций, надежностью называют вероятность того, что имеет место описываемое событие.
Слайд 14

Слайд 15

Фактически, экспериментатор сам определяет ту степень вероятности, с которой данное событие,

Фактически, экспериментатор сам определяет ту степень вероятности,
с которой данное событие,

а в нашем случае – это выдвинутая гипотеза, не
произойдет, т.е., попросту говоря, какова вероятность того, что экспериментатор ошибся, выдвинув свою гипотезу.
Задав уровень значимости, экспериментатор получает возможность
найти критическую точку.
Дело в том, что все статистические критерии (или критерии согласия) основываются на различных известных в статистике распределениях:
распределении Пирсона, Фишера, Стьюдента и т.д.
Для всех этих распределений уже давно рассчитаны так называемые критические значения, которые представляют собой квантили упомянутых распределений.
Слайд 16

Здесь необходимо сделать одно небольшое замечание. В случае односторонних областей выбор

Здесь необходимо сделать одно небольшое замечание.
В случае односторонних областей выбор

критической точки определяется требованием
P(Кнабл > kкр) = α – при правостороннем критерии
или
P(Кнабл < kкр) = α – при левостороннем критерии.
Однако, в случае двусторонней критической области данное условие примет
вид
P(Кнабл < kкр.1) + P(Кнабл > kкр.2) = α.
Ясно, что критические точки в этой ситуации могут быть выбраны бесчисленным множеством способов. Однако, как правило, критические точки стараются выбрать симметричными относительно нуля. Тогда
P(Кнабл > kкр) = P(Кнабл < – kкр),
и критерий примет вид
P(Кнабл > kкр) = α / 2.
Слайд 17

Хорошо, – скажете Вы, – с этим понятно. (Хотя на самом

Хорошо, – скажете Вы, – с этим понятно. (Хотя на самом

деле ничего
не понятно). А как определиться с видом критической области: двусторонняя, левосторонняя или правосторонняя?
На самом деле здесь все еще проще. Вид критической области зависит
от вида альтернативной гипотезы. Для простоты представим пример выбора
критической области в виде стилизованной таблицы
Слайд 18

Выше уже говорилось, что при статистической проверке статистических гипотез помимо основной

Выше уже говорилось, что при статистической проверке статистических гипотез помимо основной

принимается и альтернативная ей гипотеза.
Вследствие этого целесообразно ввести в рассмотрение вероятность попадания критерия в критическую область при условии, что верна альтернативная гипотеза.

Мощностью критерия π называют вероятность попадания критерия в критическую область при условии, что справедлива конкурирующая гипотеза.
При этом, если вероятность совершения ошибки II рода равна β, то мощность критерия определяется как
π= 1-β.

Слайд 19

Если уровень значимости уже выбран, то критическую область следует строить так,

Если уровень значимости уже выбран, то критическую область следует
строить так,

чтобы мощность критерия была максимальной.
Фактически, мощность критерия – вероятность того, что ошибка второго рода не будет допущена.
При этом одновременно уменьшить α и β невозможно. При уменьшении одной величины, вторая неизбежно будет возрастать.
Поскольку при проверке статистических гипотез выбирается уровень значимости α, относительно него и решается вопрос о выборе значения
Слайд 20

Величина β автоматически будет уменьшаться или возрастать при увеличении или уменьшении

Величина β автоматически будет уменьшаться или возрастать при увеличении или уменьшении

α.
Вопрос о выборе величины уровня значимости будет напрямую зависеть
от тяжести последствий, вызываемых ошибками I и II рода.
Если ошибка I рода влечет за собой более тяжелые последствия, то величину α выбирают как можно меньше.
Слайд 21

Виды критериев согласия и области их применения

Виды критериев согласия и области их применения

Слайд 22

Слайд 23

Критерии согласия носят названия по имени тех ученых-статистиков, которые их и

Критерии согласия носят названия по имени тех ученых-статистиков,
которые их и

сформулировали.
Исключение из общей картины на рисунке составляет только один инструмент – однофакторный дисперсионный анализ (ОДА). Данный инструмент НЕ является критерием согласия.
Однако чтобы классификатор инструментов сравнения был полон, ОДА был добавлен к критериям согласия.
Дополнительно замечу, что сам ОДА будет рассмотрен в дальнейшем.
Все критерии согласия рассчитаны на то, что генеральные совокупности рассматриваемых в критериях случайных величин подчиняются нормальному закону.
В противном случае результаты могут быть и неправильными. Кроме того, в критериях согласия рассматриваются так называемые исправленные оценки исследуемых параметров (среднего, дисперсии).
Слайд 24

Принцип «работы» всех критериев согласия одинаков: по определенному правилу-алгоритму находим наблюдаемое

Принцип «работы» всех критериев согласия одинаков: по определенному правилу-алгоритму находим наблюдаемое

значение критерия Кнабл,
сравниваем его с критическим значением kкр распределения, задействованного в данном критерии, и выносим суждение о подтверждении или отвержении основной гипотезы.
Различие состоит лишь в алгоритмах поиска Кнабл и привлечении разных распределений для поиска kкр.
Слайд 25

Условие подтверждения / отвержения основной гипотезы будем демонстрировать на примере двусторонней

Условие подтверждения / отвержения основной гипотезы будем демонстрировать на примере двусторонней

критической области, за исключением первого случая.
На примере первого критерия согласия покажем как выглядят условия подтверждения основной гипотезы для всех трех типов критических областей.
Поскольку во всех случаях ситуация будет одна и та же, повторяться, думаем, не имеет смысла.
Слайд 26

χ2-критерий согласия Пирсона Критерий согласия Пирсона применяется для сравнения теоретического и

χ2-критерий согласия Пирсона
Критерий согласия Пирсона применяется для сравнения теоретического и экспериментального

значений дисперсий.
В качестве теоретического значения дисперсии на практике используются значения, регламентированные какими-либо нормативными документами: ГОСТами, ТУ, техническим паспортом и т.п.
Обозначим s2 – экспериментально полученное значение дисперсии по
выборке объема n, σ2 – теоретическое значение дисперсии.
Основная гипотеза состоит в том, что данные значения дисперсий статистически неразличимы; в краткой записи наше предположение выглядит как
Н0: s2 = σ2.
Слайд 27

При этом альтернативная гипотеза состоит в том, что 1) Н1: s2

При этом альтернативная гипотеза состоит в том, что
1) Н1: s2

≠ σ2 – экспериментальное и теоретическое значения дисперсий
статистически различимы – двусторонняя критическая область;
Н1: s2 < σ2 – теоретическое значения дисперсии превышает экспериментальное – левосторонняя критическая область;
3) Н1: s2 > σ2 – теоретическое значения дисперсии меньше экспериментального – правосторонняя критическая область.
Слайд 28

Наблюдаемое значение χ2-критерия согласия Пирсона определяется по формуле: Критическая точка определяется

Наблюдаемое значение χ2-критерия согласия Пирсона определяется по
формуле:

Критическая точка определяется

как критическое значение χ2-распределения Пирсона при заданном уровне значимости α (для двусторонней критической области – α/2) с числом степеней свободы (n – 1). Все сказанное укладывается в следующее обозначение:
Слайд 29

Основная гипотеза подтверждается, если: двусторонняя критическая область K χ2 левосторонняя критическая

Основная гипотеза подтверждается, если:
двусторонняя критическая область K χ2 < χ2α

/2(n −1);
левосторонняя критическая область K χ2 > χ2α(n −1);
3) правосторонняя критическая область K χ2 < χ2α(n −1).
Слайд 30

F-критерий согласия Фишера – Снедекора Данный критерий согласия применяется для сравнения

F-критерий согласия Фишера – Снедекора
Данный критерий согласия применяется для сравнения

двух экспериментальных значений дисперсий.
Обозначим:
s21 – экспериментальное значение дисперсии, полученное по выборке
объема n1 в первой серии опытов;
s22 – экспериментальное значение дисперсии, полученное по выборке
объема n2 во второй серии опытов.
Причем, s21 > s22 .
Основная и альтернативная гипотезы имеют вид:
Н0: s21 = s22 Н1: s21 ≠ s22 .
Слайд 31

Наблюдаемое значение F-критерия согласия Фишера определяется по формуле: Критическая точка определяется

Наблюдаемое значение F-критерия согласия Фишера определяется по
формуле:

Критическая точка определяется

как критическое значение F-распределения Фишера при заданном уровне значимости (или α/2) с числами степеней свободы (n1 – 1; n2 – 1):
Fα (n1 − 1;n2 −1).
При определении критического значения следует помнить, что первым в
скобках стоит значение числа степеней свободы для той дисперсии, которая
находится в числителе формулы наблюдаемого значения критерия.
Слайд 32

Критерий согласия Бартлетта Заключается в сравнении нескольких дисперсий (больше двух) по

Критерий согласия Бартлетта
Заключается в сравнении нескольких дисперсий (больше двух) по

выборкам различного объема.
Главное условие применения критерия согласия Бартлетта – объем выборок должен быть не менее 4 испытаний.
Обозначим:

– экспериментальное значение дисперсии, полученное по выборке
объема n1 в первой серии опытов;
– экспериментальное значение дисперсии, полученное по выборке
объема n2 во второй серии опытов;

– экспериментальное значение дисперсии, полученное по выборке
объема ni в i-серии опытов.
При этом, некоторые объемы могут быть одинаковыми; если же все
выборки имеют одинаковый объем, то предпочтительнее пользоваться критерием Коч(х)рена, описанном ниже.

Слайд 33

Основная гипотеза имеет вид: Н0: s12 = s22 =… = si2.

Основная гипотеза имеет вид:
Н0: s12 = s22 =… = si2.


Следует понимать, что формулировка альтернативной гипотезы в виде
математического соотношения достаточно проблематична, т.к. отдельные
значения дисперсий могут и совпадать между собой.
Однако основная гипотеза состоит в статистической неразличимости ВСЕХ значений дисперсий, и проверка будет состоять в оценке выполнимости именно этого требования.
Соответственно, альтернативная гипотеза будет состоять в том, что основная
гипотеза не выполняется. Если же вдруг встанет вопрос о попарном сравнении, то лучше воспользоваться критерием Фишера – Снедекора.