Презентация по математике "ОСНОВЫ БИОСТАТИСТИКИ" - скачать бесплатно

Содержание

Слайд 2

Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок

Оценка ассоциаций «генотип-фенотип» и их значимости

Факторы, влияющие на

значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения

Слайд 3

Выявление ассоциаций «генотип-фенотип»: минимальный набор действий Фенотип - качественный признак (например:

Выявление ассоциаций «генотип-фенотип»:
минимальный набор действий

Фенотип - качественный признак
(например:

«здоровый - больной», «русский - татарин»)

Фенотип - количественный признак
(например: вес, содержание кальция, частота аберраций)

Кроме этого в обоих случаях можно
строить различные регрессионные модели:
Зависимая переменная – признак (фенотип),
независимыми переменные – генотипы.
Например так: A/A - 0, A/T - 1, T/T - 2

Слайд 4

OR – непременный атрибут «case-control association study» (выявление «генов предрасположенности» к

OR – непременный атрибут «case-control association study»
(выявление «генов предрасположенности» к

заболеванию
путем сопоставлений частот генотипов у больных и здоровых)

OR – количественная мера предрасположенности
(Odd Ratio)

OR>1 – генотип связан с болезнью
OR=1 – нет связи между генотипом и болезнью
OR<1 – протективный генотип

OR показывает во сколько раз повышена вероятность заболеть для носителя «плохого» генотипа

Слайд 5

Soft для вычисления OR и проведения матаисследований

Soft для вычисления OR
и проведения матаисследований

Слайд 6

Статистический анализ сопряженности генотипов и количественных признаков Самое простое и необходимое:

Статистический анализ сопряженности генотипов и количественных признаков

Самое простое и необходимое:

вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту
(не по Стьюденту!)

Гомозигота по мажорному аллелю

Гомозигота по минорному аллелю

Обычно стараются рассмотреть две группы

Слайд 7

Сравнение частот генотипов для групп с низким (или высоким) значением признака

Сравнение частот генотипов для групп с низким (или высоким) значением

признака

Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту
(не по Стьюденту!)

Группа людей с нулевым уровнем аберраций

Статистический анализ сопряженности генотипов и количественных признаков

Далее вычисляется OR
и значимость по точному критерию Фишера.
В данном примере риск возникновения аберраций у носителей минорного аллеля G равен OR=2,1 и р=0,015

Слайд 8

Сравнение частот генотипов для групп с низким (или высоким) значением признака

Сравнение частот генотипов для групп с низким (или высоким) значением

признака

Логистическая и пуассоновская регрессии

р – частота аберраций
xi – генотип i-го локуса
аi – коэф. регрессии

Нелинейные многомерные регрессии,
реализованные в пакетах Statistica и SPSS

Самое простое и необходимое: вычисление средних значений признака для носителей различных генотипов. Далее сравнение по непараметрическому тесту
(не по Стьюденту!)

Статистический анализ сопряженности генотипов и количественных признаков

Зависимая переменная – признак (р),
независимыми переменные – генотипы (xi).
Например так: A/A - 0, A/T - 1, T/T - 2

Слайд 9

Soft для работы с генотипами и гаплотипами WinStat for Excel Free! Free!

Soft для работы
с генотипами и гаплотипами

WinStat for Excel

Free!

Free!

Слайд 10

Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок

Оценка ассоциаций «генотип-фенотип» и их значимости

Факторы, влияющие на

значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения

Слайд 11

Чуть-чуть об ошибках статистических тестов Ошибка I рода (α) Вероятность отвергнуть

Чуть-чуть об ошибках статистических тестов

Ошибка I рода (α)
Вероятность отвергнуть правильную

нулевую гипотезу = Вероятность обнаружить различия там, где их нет = Вероятность совершить фальшивое открытие

Ошибка II рода (β)
Вероятность принять неправильную нулевую гипотезу = Вероятность не обнаружить существующие различия = Вероятность упустить открытие

Мощность теста = 1- Ошибка II рода =
Вероятность правильно отвергнуть нулевую гипотезу
Вероятность не упустить открытие

Нулевая гипотеза – обычно предположение об отсутствии различий = 2 выборки из одной генеральной совокупности

Традиционно биолог ориентирован на контроль
ошибки I рода (через уровень значимости),
т.е. на гарантии отсутствия ложных открытий,

… и при этом мало заботится о возможности
упустить открытие (ошибка II рода)

Слайд 12

От чего зависят ошибки статистических тестов? От размаха реально существующих отличий

От чего зависят ошибки статистических тестов?

От размаха реально существующих отличий

и разброса
данных
От объемов выборок
Ошибки I и II рода однозначно не связаны. В целом
ошибка II рода растет при уменьшении ошибки I рода

С увеличением объема выборки мощность теста
(вероятность не упустить открытие)
всегда возрастает

Крайний случай:
«критерий» св. Фомы Неверующего (0033)
Ошибка I рода = 0 ⇔ Ошибка II рода = 1

Ошибка I рода (вероятность фальшивого открытия)
слабо зависит от объемов выборок,
если они сравнимы по величине

Слайд 13

Сравнение частот при уровне значимости 0.05 Объемы выборок в опыте и

Сравнение частот при уровне значимости 0.05 Объемы выборок в опыте и

контроле одинаковы

Если в контроле нет мутаций, то при значимости отличий в опыте их должно быть

больше 5
независимо от объемов выборок
(100 или 1000)

Слайд 14

Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок

Оценка ассоциаций «генотип-фенотип» и их значимости

Факторы, влияющие на

значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения

Слайд 15

Проверка однородности материала и вычисление OR для нескольких выборок Выборки можно

Проверка однородности материала и вычисление OR для нескольких выборок

Выборки можно объединять,

если

Можно ли объединить k независимых выборок и оценить частоту как

Индекс рассеяния для биномиальных выборок

Mantel-Haenszel test

Слайд 16

Mantel-Haenszel test

Mantel-Haenszel test

Слайд 17

Объединение выборок с незначимыми эффектами Если ассоциации нет, то случаи «больше-меньше»

Объединение выборок с незначимыми эффектами

Если ассоциации нет, то случаи «больше-меньше» должны

появляться с вероятностью ½

Только в 3 выборках из 18 частота
гетерозигот w/d у HIV+ выше, чем у HIV-

Монета достоверно несимметрична!
Гетерозиготы w/d чаще встречаются среди HIV-
Но какое OR?

Слайд 18

Mantel-Haenszel test with WinPepi: результаты Протективное действие гетерозиготы w/d CCR5 достоверно, но не велико: OR=1.15

Mantel-Haenszel test with WinPepi: результаты

Протективное действие гетерозиготы
w/d CCR5 достоверно, но

не велико: OR=1.15
Слайд 19

Оценка ассоциаций «генотип-фенотип» и их значимости Факторы, влияющие на значимость оценок

Оценка ассоциаций «генотип-фенотип» и их значимости

Факторы, влияющие на

значимость оценок

Объединение выборок и метаисследования

Учет множественности сравнений

Темы для обсуждения

Слайд 20

Генерируем две одинаково распределенные выборки по 100 особей с 20-локусными генотипами

Генерируем две одинаково распределенные выборки
по 100 особей с 20-локусными генотипами

Как

это бывает?
Наблюдаем появление фальшивых ассоциаций

OR p

Ген Выборка 1 Выборка 2

Больные Здоровые

1

Должно быть
OR=1

2

3

4

Сразу 3 локуса
«ассоциированы»
с заболеваемостью!

Частоты минорых аллелей (в среднем 0.1)

Слайд 21

Как избежать фальшивых открытий? False Discovery Rate control: FDR - контроль

Как избежать фальшивых открытий?

False Discovery Rate control: FDR - контроль

Permutation test
(компьютерная перестановка лэйблов «case-control»)
Слайд 22

Зависимость ошибки II рода от числа тестов (SNP) при использовании поправки

Зависимость ошибки II рода от числа тестов (SNP) при использовании поправки

Бонферрони

Вероятность пропустить ген с OR=2.7
на выборках 100 (case) и 100 (control)

При 100 сравнениях ради того, чтобы гарантировать
отсутствие хотя бы одного
ложного результата, мы упускаем 88% открытий!

При m=100 ошибка равна 0.88

В отдельном тесте вероятность упустить открытие равна 0.2

При 5 сравнениях упускаем 50% открытий

Слайд 23

Новый принцип проверки статистических гипотез: FDR-контроль False Discovery Rate control: Benjamini,

Новый принцип проверки статистических гипотез: FDR-контроль

False Discovery Rate control: Benjamini,

Hochberg (1995)

Вероятность хотя бы одного
фальшивого открытия < Уровня значимости
Ошибка I рода < 0.05

Слайд 24

Пример: множественные сравнения по 10 тестам Значимые различия без поправок на

Пример: множественные сравнения по 10 тестам

Значимые различия без поправок на множественность

Располагаем

тесты в порядке увелечения p

Поправка Бонферрони оставляет значимым лишь первое сравнение

В первой клетке
как у Бонферрони,

во второй клетке
вдвое больше,

втрое больше
и т.д ….

Для 6-ого теста p больше этого значения

Значимые различия после коррекции по FDR

И это все!!!

Слайд 25

Permutation tests: случайные перестановки пометок «case-control» в компьютерных симуляциях по алгоритму:

Permutation tests:
случайные перестановки пометок «case-control»
в компьютерных симуляциях по алгоритму:

Что

делать, если FDR не помогает?
В исходной базе данных делаем случайную перестановку
лейблов case-control
Вычисляем заново p-уровни для каждого гена (pperm)
Повторяем процедуру N раз (минимум 10000), фиксируя
случаи, когда pperm меньше исходного значения p
Вычисляем откорректированное p как

Тем самым мы отказываемся от попыток
вычислить значимость различий.
Вместо этого мы ее «измеряем» экспериментально,
разыгрывая ситуацию на компьютере

Точный тест Фишера – это тоже permutation test,
только реализованный аналитически (р вычисляется
по формулам комбинаторной теории вероятностей)