Основные определения теории проверки гипотез

Содержание

Слайд 2

Основные определения теории проверки гипотез Определение: Статистическим критерием (тестом) называется правило,

Основные определения теории проверки гипотез

Определение: Статистическим критерием (тестом) называется правило, позволяющее

на основании наблюдений принять нулевую гипотезу Н0 или отвергнуть ее в пользу альтернативной H1.
Проверка гипотезы может быть односторонней или двусторонней.
Определение: Односторонний критерий используется в тех случаях, когда необходимо знать, является ли параметр генеральной совокупности > (правосторонний критерий) или < (левосторонний критерий) предполагаемого значения.
Определение: Двусторонний критерий используется в тех случаях, когда интересует, отличаются ли реальные значения параметра от предполагаемого значения.
Определение: Критическую область составляют те значения выборочных статистических показателей, которые ведут к отказу от нулевой гипотезы.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 3

Уровень значимости Определение: Уровень значимости – вероятность ошибочного отклонения нулевой гипотезы

Уровень значимости

Определение: Уровень значимости – вероятность ошибочного отклонения нулевой гипотезы Н0

(вероятность ошибки I рода). При статистическом анализе исследователь должен выбрать необходимый уровень значимости. При этом считают низшим уровнем значимости значение α=0.05, достаточным уровнем - α=0.01, высшем уровнем α =0.001.
Иногда, доверительной вероятностью считается величина р=1- α
Возможные решения статистического критерия:

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 4

Ошибки I и II рода Определение 1: В процессе проверки гипотезы

Ошибки I и II рода

Определение 1: В процессе проверки гипотезы

существует вероятность того, что Н0 будет отвергнута, когда в действительности она должна быть принята. Это называется ошибкой первого рода. Вероятность допущения ошибки первого рода это уровень значимости. Таким образом, когда выбирают 5% уровень значимости для проверки, одновременно допускают, что в 5% случаев должны отвергнуть Н0, хотя она и верна.
Определение 2: Второй вид ошибок имеет место при принятии нулевой гипотезы, в то время как в действительности она должна быть отвергнута.такая ошибка называется ошибкой второго рода.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 5

Этапы принятия статистического решения Формулировка нулевой и альтернативной гипотез. Определение объема

Этапы принятия статистического решения

Формулировка нулевой и альтернативной гипотез.
Определение объема выборки.
Выбор соответствующего

уровня значимости или вероятности отклонения гипотезы Н0 ( ).
Выбор статистического метода, который зависит от типа решаемой задачи.
Вычисление значения выборочной статистики на основании наблюдений .
Если гипотеза Н0 верна, то распределение случайной величины известно (затабулировано). Нахождение по таблице для выбранного статистического метода критической области для определенного уровня значимости.
Сравнение эмпирического и критического значений. Если , то принимается Н0; если , то Н0 отвергается в пользу альтернативной.
Формулировка принятия решения (выбор гипотезы Н0 или H1).

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 6

При попадании выборочной статистики в зону незначимости принимается гипотеза Н0 об


При попадании выборочной статистики в зону незначимости принимается гипотеза Н0 об

отсутствии различий. В случае попадания в зону значимости принимается гипотеза H1 о наличии различий, а гипотеза Н0 отклоняется. При попадании выборочной статистики в зону неопределенности в зависимости от важности решаемой задачи можно принять H1 на уровне 5% или принять Н0 на 1% уровне. В этом случае можно допустить ошибки I или II рода. В этих обстоятельствах лучше увеличить объем выборки.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 7

Проверка гипотезы о соответствии исправленной выборочной дисперсии величине генеральной дисперсии нормальной

Проверка гипотезы о соответствии исправленной выборочной дисперсии величине генеральной дисперсии нормальной

совокупности

Стандартизированный статистический критерий (тест) для проверки такой гипотезы рассчитывается как: , (1)
где σ02– проверяемое значение генеральной дисперсии,
а S2– исправленная выборочная дисперсия, n – объем выборки.
Левосторонняя проверка: нулевая и альтернативная гипотезы имеют вид:
Н0: S2=σ2 – равенство неизвестной генеральной дисперсии S2;
Н1: S2<σ2.
Правило принятия решения: принять Н0, если , отвергнуть Н0, если
Здесь α – уровень значимости принятия гипотезы, k=n-1 – число степеней свободы - определяется по таблице χ2–распределения.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 8

Проверка гипотезы о соответствии исправленной выборочной дисперсии величине генеральной дисперсии нормальной

Проверка гипотезы о соответствии исправленной выборочной дисперсии величине генеральной дисперсии нормальной

совокупности

Правосторонняя проверка: нулевая и альтернативная гипотезы имеют вид:
Н0: S2=σ2 – равенство неизвестной генеральной дисперсии S2;
Н1: S2>σ2.
Правило принятия решения: принять Н0, если ,
отвергнуть Н0, если .
Двусторонняя проверка: нулевая и альтернативная гипотезы имеют вид:
Н0: S2=σ2 – равенство неизвестной генеральной дисперсии S2;
Н1: S2≠σ2.
Правило принятия решения: принять Н0, если ,
отвергнуть Н0 в противном случае.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 9

Проверка гипотезы о соответствии выборочной средней величине генеральной средней нормальной совокупности

Проверка гипотезы о соответствии выборочной средней величине генеральной средней нормальной совокупности

Формируем

гипотезы о равенстве генеральной μ и выборочной средней μ0.
Н0: μ=μ0;
Н1: μ≠μ0.
Правило принятия решения: принять Н0, если ,
в противном случае принять Н1.
Zкрит определяется из таблиц функции Лапласа
из равенства Ф(zкрит)=(1-α)/2.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 10

Метод p-value Величина р – это значение, которое в случае верности

Метод p-value

Величина р – это значение, которое в случае верности нулевой

гипотезы представляет собой вероятность получения величины стандартизированного критерия проверки, большего по абсолютному значению, чем рассчитанный критерий проверки.
В случае односторонней проверки Р равно площади под кривой слева (левосторонняя проверка) или справа 9правосторонняя проверка) от значения критерия проверки. В случае двусторонней проверки она равна удвоенной площади в части под кривой справа или слева от критерия проверки.
Односторонняя проверка Двусторонняя проверка

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 11

Метод p-value В методе p-value правило принятия решения одинаково независимо то

Метод p-value

В методе p-value правило принятия решения одинаково независимо то того,

выполняется левосторонняя, правосторонняя или двусторонняя проверка. Обозначив степень значимости для проверки через α, получим следующее правило принятия решения:
Принять Н0, если p-value≥ α
В противном случае, отвергнуть Н0.
Расчет величины р:
Для того чтобы найти величину р, прежде всего рассчитывают стандартный критерий проверки, а затем, зная число степеней свободы, находят вероятности (площади в граничных областях), соответствующие показателям статистики (F или t или z), которые охватывают снизу и сверху рассчитанный критерий проверки. После этого с помощью интерполяции, исходя из полученных вероятностей, находят величину р.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 12

Задача оценивания Пусть имеются данные выборки, например значения некоторого признака, Х1,

Задача оценивания

Пусть имеются данные выборки, например значения некоторого признака, Х1, Х2,…,

Хn, полученные в результате n наблюдений. Для того чтобы найти статистическую оценку θ неизвестного параметра теоретического распределения через эти данные необходимо найти функцию от наблюдаемых случайных величин, которые дают приближенное значение оцениваемого параметра.
Статистическую оценку, которая определяется одним числом, называют точечной.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 13

Свойства оценок Полученные оценки должны быть достоверными, т.е. обладать свойствами несмещенности,

Свойства оценок

Полученные оценки должны быть достоверными, т.е. обладать свойствами несмещенности, эффективности

и состоятельности.
Несмешанной называют статистическую оценку θ*, математическое ожидание которой равно оценивающему параметру θ при любом объеме выборки, т.е. М(θ*)= θ .
Эффективной оценкой называют статистическую оценку θ*, которая при заданном объеме выборки n имеет наименьшую возможную дисперсию.
Состоятельной называют статистическую оценку, которая при n→ ∞ и стремится по вероятности к оцениваемому параметру, т.е.:
.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 14

Метод моментов для точечной оценки параметра распределения Оценка одного параметра Вид

Метод моментов для точечной оценки параметра распределения

Оценка одного параметра
Вид плотности распределения

f(x, θ).
Требуется найти точечную оценку .
Для оценки одного параметра достаточно одного уравнения, относительного этого параметра.
Пусть
Тогда
Решив уравнение относительно параметра θ , найдем точечную оценку
Следовательно оценка есть функция от вариант выборки:

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 15

Метод моментов для точечной оценки параметра распределения Оценка двух параметров Вид

Метод моментов для точечной оценки параметра распределения

Оценка двух параметров
Вид плотности распределения

f(x, θ1, θ2).
Требуется найти точечные оценки и
Для оценки двух параметров достаточно системы двух уравнений, относительного этих параметров.
Пусть
Тогда
Решив систему относительно параметров θ1, θ2 , найдем точечные оценки
Следовательно оценки есть функции от вариант выборки:

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 16

Метод максимального правдоподобия Для дискретных случайных величин. Пусть Х дискретная случайная

Метод максимального правдоподобия

Для дискретных случайных величин.
Пусть Х дискретная случайная величина, которая

принимает возможные значения х1, х2,…,хп. Пусть закон распределения задан, но неизвестен параметр распределения θ . Требуется найти точечную оценку .
Вероятность того, что величина Х , примет значение хi , р(хi , θ).
Определение: Функцией правдоподобия дискретной случайной величины Х называют функцию аргумента θ
Где х1, х2,…,хп. – фиксированные числа.
Определение: Логарифмической функцией правдоподобия дискретной случайной величины Х называют функцию аргумента θ

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 17

Метод максимального правдоподобия Определение: Оценкой максимального правдоподобия называют такую оценку ,

Метод максимального правдоподобия

Определение: Оценкой максимального правдоподобия называют такую оценку , для

которой функция правдоподобия достигает максимума.
Для ее нахождения решают уравнение, называемое уравнением правдоподобия:
Если при θ= , , то - точка максимума.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 18

Метод максимального правдоподобия Для непрерывных случайных величин. Пусть Х непрерывная случайная

Метод максимального правдоподобия

Для непрерывных случайных величин.
Пусть Х непрерывная случайная величина, которая

пв результате испытания приняла значения х1, х2,…,хп. Пусть вид плотности распределения f(x) известен, но неизвестен параметр распределения θ. Требуется найти точечную оценку .
Определение: Функцией правдоподобия непрерывной случайной величины Х называют функцию аргумента θ:
Где х1, х2,…,хп. – фиксированные числа.
Оценку максимального правдоподобия неизвестного параметра распределения непрерывной случайной величины ищут также, как и в случае с дискретной случайной величины.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 19

Метод максимального правдоподобия Для непрерывных случайных величин. Если плотность распределения f(x)

Метод максимального правдоподобия

Для непрерывных случайных величин.
Если плотность распределения f(x) непрерывной случайной

величины Х определяется двумя неизвестными параметрами θ1, θ2, то функция правдоподобия является функцией двух аргументов θ1, θ2 :
Где х1, х2,…,хп. – фиксированные числа.
Для нахождения параметров θ1, θ2 решают систему уравнений:

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 20

Статистическая задача оценивания Задача: по наблюдениям х1, х2,…,хп над случайной величиной

Статистическая задача оценивания

Задача: по наблюдениям х1, х2,…,хп над случайной величиной Х,

распределенной равномерно на отрезке [0, a], оценить неизвестный параметр а.
Сравним три способа оценивания:
Метод моментов
Метод максимального правдоподобия
Метод порядковых статистик
Где - выборочная квантиль порядка 0,5, т.е. выборочная медиана, х(k) - член вариационного ряда с номером k. (причем n=2k).

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 21

Теоретическое сравнение оценок Все оценки являются несмещенными, их математические ожидания равны

Теоретическое сравнение оценок

Все оценки являются несмещенными, их математические ожидания равны истинным

параметрам а. (доказать сам-но)
Дисперсии оценок: (будет доказано на лекции)
Наименьшую дисперсию имеет третья оценка
Примечание: Для получения значения дисперсии для третьей оценки использовали:
Теорема Крамера: Выборочная р-квантиль имеет дисперсию приближенно равную
, где хр – истинная р-квантиль, f(x) – плотность распределения наблюдений выборки.

Лекция №3, Статистическое моделирование, Лакман И.А.

Слайд 22

Статистическое сравнение оценок Значение оценок концентрируются в окрестности оцениваемого параметра (свойство

Статистическое сравнение оценок

Значение оценок концентрируются в окрестности оцениваемого параметра (свойство несмещенности).
С

ростом числа наблюдений в выборке точность (величина разброса) оценок улучшается (свойство несмещенности).
То есть размах R и стандартное отклонение S уменьшается.
3. Различные оценки различаются по величине средней ошибки. Откуда следует, что различные способы обработки наблюдений нужно сравнивать по величине среднего значения некоторого критерия качества, например среднего квадрата ошибки.

Лекция №3, Статистическое моделирование, Лакман И.А.