Основы практической био-медицинской статистики. Методы непараметрической статистики. Хи-квадрат. Точный тест Фишера

Содержание

Слайд 2

Непараметрическая статистика (классически): Если зависимая (измеряемая) переменная не численная (порядковая или

Непараметрическая статистика (классически):
Если зависимая (измеряемая) переменная не численная (порядковая или качественная);
Если

численная зависимая переменная не имеет нормального распределения;
Если N мало

НА САМОМ ДЕЛЕ:
Тесты на нормальность распределения выдают вероятность соответствия наблюдаемого распределения нормальному
СОМНИТЕЛЬНО ОПИРАТЬСЯ НА p<0,05!

Параметрические методы занижают р => больше вероятность найти отличия там где их нет;
Непараметрические методы завышают р => больше вероятность не найти отличия там где они есть;
+ мощность всех непараметрических методов меньше ~30%.

Слайд 3

Предположения (ограничения) для точного критерия Фишера и критерия хи-квадрат: Случайная выборка

Предположения (ограничения) для точного критерия Фишера и критерия хи-квадрат:

Случайная выборка (данные

должны быть отобраны из большей популяции или быть репрезентативны по отношению к ней)
Данные должны образовывать частотную таблицу (частоты, не доли)
Категории должны быть взаимоисключающими
Для критерия хи-квадрат значения в ячейках таблицы не должны быть <5, общее N не должно быть <20
Каждый субъект должен быть независимо отобран из популяции (независимые наблюдения)
Выборки должны быть независимы друг от друга (в противном случае должен использоваться критерий Мак-Неймара
Слайд 4

ОСНОВНАЯ ТАБЛИЦА ТАБЛИЦА ОЖИДАЕМЫХ ЗНАЧЕНИЙ ТАБЛИЦЫ СОПРЯЖЕННОСТИ где О — наблюдаемое

ОСНОВНАЯ ТАБЛИЦА

ТАБЛИЦА ОЖИДАЕМЫХ ЗНАЧЕНИЙ

ТАБЛИЦЫ СОПРЯЖЕННОСТИ

где О — наблюдаемое число в клетке

таблицы сопряженности, Е — ожидаемое число в той же клетке.

где r — число строк, а с — число столбцов

! ПОПРАВКА ЙЕЙТСА НА НЕПРЕРЫВНОСТЬ

Слайд 5

ЕСЛИ ОЖИДАЕМЫЕ ЗНАЧЕНИЯ ВО ВСЕХ КЛЕТКАХ БОЛЕЕ 5! ИНАЧЕ – ТОЧНЫЙ

ЕСЛИ ОЖИДАЕМЫЕ ЗНАЧЕНИЯ ВО ВСЕХ КЛЕТКАХ БОЛЕЕ 5!
ИНАЧЕ – ТОЧНЫЙ КРИТЕРИЙ

ФИШЕРА!

Построив все остальные варианты заполнения таблицы, возможные при данных суммах по строкам и столбцам, по этой же формуле рассчитывают их вероятность. Вероятности, которые не превосходят вероятность исходной таблицы (включая саму эту вероятность), суммируют. Полученная сумма — это величина P для двустороннего варианта точного критерия Фишера.

Слайд 6

Если таблица больше чем 2х2 – тяжело оценить за счет чего

Если таблица больше чем 2х2 – тяжело оценить за счет чего

таблица несимметрична!
Что делать:
Попарные сравнения с учетом поправки Бонферрони
Объединить не отличающиеся строки (кластеризация)
Слайд 7

Непараметрический аналог непарного t-теста: тест суммы рангов Уилкоксона-Манн-Уитни t-тест основывается на

Непараметрический аналог непарного t-теста: тест суммы рангов Уилкоксона-Манн-Уитни

t-тест основывается на предположении, что

выборка сделана из популяций (ии) с нормальным распределением – это параметрический тест
Непараметрические тесты не делают предположений о характере распределения признака в популяции
Вместо полученных значений исследуемого показателя используются ранги этих значений
В целом, подход включает создание всех возможных наборов данных с заданными параметрами и расчет р значения как вероятности получить «наши» данные среди всех возможных вариантов
Чтобы не создавать каждый раз данные заново, используют аппроксимации
Слайд 8

РАНЖИРОВАНИЕ Распределение вероятности суммы рангов при отсутствии различий

РАНЖИРОВАНИЕ

Распределение вероятности суммы рангов при отсутствии различий

Слайд 9

тест Уилкоксона-Манн-Уитни (WMW) Сумма рангов: группа А: TA=18 группа В: TB=37

тест Уилкоксона-Манн-Уитни (WMW)

Сумма рангов: группа А: TA=18
группа В: TB=37
Всего способов распределить

10 рангов в 2 группы по 5: 252
Из них способов получить группы со значениями 18-37 (или более различающимися, например, 17-38): 7 (только в пользу В)
Вероятность наблюдать текущую картину (разность рангов между группами в пользу В) при заданных данных (2 группы, по 5 наблюдений): р=7/252=0,028 (это одностороннее сравнение), для двустороннего сравнения р=0,056
Слайд 10

Существует еще U-критерий Манна—Уитни, в котором вместо Т вычисляют U, при

Существует еще U-критерий Манна—Уитни, в котором вместо Т вычисляют U, при

этом U = T – nм(nм + 1)/2, где nм — численность меньшей из групп.
Слайд 11

тест Уилкоксона-Манн-Уитни (WMW) Ответ на вопрос: Если бы распределение рангов между

тест Уилкоксона-Манн-Уитни (WMW)

Ответ на вопрос: Если бы распределение рангов между группами

А и В было случайным, с какой вероятностью мы увидели бы такую же, как сейчас (или большую) разность рангов?
Для малых выборок – существенно меньшая мощность по сравнению с t-тестом (t-тест использует «знания» или предположения о характере распределения)
Вместо полученных значений используются ранги, поэтому тест устойчив к выбросам (это устойчивый тест)
Предположения для теста WMW:
Выборки сделаны случайным образом (или являются репрезентативными) для популяций большего размера
Выборки получены независимо друг от друга (иначе нужно использовать тест Уилкоксона для связанных совокупностей)
Наблюдения внутри каждой выборки получены независимо друг от друга
Значения признака в каждой совокупности не должны следовать заранее заданному распределению, но распределения должны иметь схожую форму
Слайд 12

КРИТЕРИЙ ВИЛКОКСОНА Аналогично, но распределение вокруг 0.

КРИТЕРИЙ ВИЛКОКСОНА

Аналогично, но распределение вокруг 0.

Слайд 13

КРИТЕРИЙ КРАСКЕЛА-УОЛЛИСА • Объединив все наблюдения, упорядочить их по возрастанию, ранжировать.

КРИТЕРИЙ КРАСКЕЛА-УОЛЛИСА

• Объединив все наблюдения, упорядочить их по возрастанию, ранжировать.

Вычислить критерий Краскела—Уоллиса Н.
• Сравнить вычисленное значение Н с критическим значением χ2 для числа степеней свободы, на единицу меньшего числа групп. Если вычисленное значение Н окажется больше критического, различия групп статистически значимы.

Н:
рассчитаем средний ранг для каждой группы (R1,2,3…);
рассчитаем средний ранг для объединенной группы R=(N+1)/2, где N – общее число наблюдений;