Математическая статистика и теория вероятности

Содержание

Слайд 2

Понятие о совместной функции распределения случайных величин Определения: Функция нескольких переменных:

Понятие о совместной функции распределения случайных величин

Определения:
Функция нескольких переменных:

где  – х1,

х2,…, хn - аргументы или независимые переменные
Слайд 3

Функция распределения случайной величины ξ : при каждом равная вероятности случайной

Функция распределения случайной величины ξ :

при каждом
равная вероятности случайной величине

ξ принимать значения, меньшие х:
Слайд 4

Построение графика функции распределения случайной величины

Построение графика функции распределения случайной величины

Слайд 5

Функция совместного распределения случайных величин: Функция называется функцией распределения вектора или функцией совместного распределения случайных величин

Функция  совместного распределения случайных величин:

Функция  
называется функцией распределения вектора
или функцией  совместного

распределения случайных величин




Слайд 6

Свойства функции совместного распределения Свойство 1: Функция распределения F (x,y) есть

Свойства функции совместного распределения

Свойство 1: Функция распределения F (x,y) есть неубывающая

функция обоих своих аргументов, т. е.:
при х2 > x1 F(х2,y) ≥ F(x1,y);
при y2 > y1 F(х,y2) ≥ F(x,y1).
Слайд 7

Свойства функции совместного распределения Свойство 2: Повсюду на -ꝏ функция распределения

Свойства функции совместного распределения

Свойство 2: Повсюду на -ꝏ функция распределения равна нулю:


F(х, -ꝏ) = F(-ꝏ,y) = F (-ꝏ, -ꝏ) = 0.
Слайд 8

Свойство 3: При одном из аргументов, равном +ꝏ, функция распределения системы

Свойство 3: При одном из аргументов, равном +ꝏ, функция распределения системы

превращается в функцию распределения случайной величины, соответствующей другому аргументу:
F(х, +ꝏ) = F1(x);
F (+ꝏ, y) = F2(y),

Свойства функции совместного распределения

где F1(x), F2(y) - соответственно функции распределения случайных величин X и Y.

Слайд 9

Свойство 4. Если оба аргумента равны +ꝏ, функция распределения системы равна

Свойство 4. Если оба аргумента равны +ꝏ, функция распределения системы равна

единице:
F (+ꝏ, +ꝏ) = 1.

Свойства функции совместного распределения

Слайд 10

Для системы двух случайных величин актуальным является вопрос о вероятности попадания

Для системы двух случайных величин актуальным является вопрос о вероятности попадания

случайной точки (Х, Y) в пределы заданной области D на плоскости xOy:

Свойства функции совместного распределения

P((X, Y) ⸦ R) = F(β, δ) - F(α, δ) - F(β, γ) + F(α, γ)

Слайд 11

Доверительные интервалы для параметра а в случае выборки из нормального распределения

Доверительные интервалы для параметра а в случае выборки из нормального распределения

N (а,σ2): а) при известном σ2; б) при неизвестном σ2
Слайд 12

Определения: Генеральная совокупность - совокупность всех объектов (единиц), относительно которых предполагается

Определения:
Генеральная совокупность - совокупность всех объектов (единиц), относительно которых предполагается делать

выводы при изучении конкретной задачи. Генеральная совокупность состоит из всех объектов, которые имеют качества, свойства, интересующие исследователя.
Выборка или выборочная совокупность — часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).
Слайд 13

Функция распределения случайной величины Х - Математическое ожидание - мера среднего

Функция распределения случайной величины Х -
Математическое ожидание - мера среднего

значения случайной величины в теории вероятностей (задается интегралом Лебега — Стилтьеса) –
Дисперсия (D[X], σ2)- мера разброса значений случайной величины относительно её математического ожидания -
Слайд 14

Закон распределения – это некоторая функция, полностью описывающая случайную величину с

Закон распределения – это некоторая функция, полностью описывающая случайную величину с

вероятностной точки зрения.
Нормальное распределение (распределение Гаусса) – семейство распределения вероятностей, которое играет важнейшую роль во многих областях знаний и зависит от двух параметров – смещения (коэффициент сдвига μ) и масштаба (коэффициент масштаба σ > 0). σ, μ – вещественные.
Слайд 15

Плотность вероятности нормального распределения

Плотность вероятности нормального распределения

Слайд 16

Функция нормального распределения

Функция нормального распределения

Слайд 17

Доверительный интервал - это интервал, построенный с помощью случайной выборки из

Доверительный интервал - это интервал, построенный с помощью случайной выборки из

распределения с неизвестным параметром, такой, что он содержит данный параметр с заданной вероятностью.
Пусть х1,…,хn – выборка из некоторого распределения с плотностью p(x;θ) = p(х1,… ,хn;θ), зависящей от параметра θ, который может изменяться в интервале θ0< θ <θ1.
Пусть y(х1,…,хn) – некоторая статистика и F(x;θ) = P{η ≤ x} – функция распределения случайной величины η = y(х1,…,хn), когда выборка х1,…,хn имеет распределение с плотностью p(х1,… ,хn;θ).
Предположим, что F(x;θ) есть убывающая функция от параметра θ.
Обозначим хγ(θ) квантиль распределения F(x;θ), тогда хγ(θ) - есть возрастающая функция от θ.
Слайд 18

Зафиксируем близкое к нулю положительное число α (например, 0.05 или 0.01).

Зафиксируем близкое к нулю положительное число α (например, 0.05 или 0.01).

Пусть α = α1+ α2. При каждом θ неравенства
(1)
выполняются с вероятностью 1-α, близкой к единице. Перепишем неравенства (1) в другом виде:
(2)
Обозначим
и запишем (2) в следующем виде:
Интервал называется доверительным интервалом для параметра θ, а вероятность 1-α – доверительной вероятностью.
Слайд 19

Доверительный интервал для математического ожидания (μ) в случае нормальной генеральной совокупности и известной дисперсии

Доверительный интервал для математического ожидания (μ) в случае нормальной генеральной совокупности

и известной дисперсии
Слайд 20

Вывод полученного выражения

Вывод полученного выражения

Слайд 21

Доверительный интервал для математического ожидания (μ) в случае нормальной генеральной совокупности и неизвестной дисперсии

Доверительный интервал для математического ожидания (μ) в случае нормальной генеральной совокупности

и неизвестной дисперсии
Слайд 22

Вывод полученного выражения

Вывод полученного выражения

Слайд 23

Творческое задание. Анализ статьи «Inflammation, Aspirin, and the Risk of Cardiovascular Disease in Apparently Healthy Men»

Творческое задание. Анализ статьи «Inflammation, Aspirin, and the Risk of Cardiovascular

Disease in Apparently Healthy Men»
Слайд 24

Что изучалось Увеличивает ли воспалительный процесс риск возникновения тромботических заболеваний; снижает ли приём аспирина этот риск.

Что изучалось

Увеличивает ли воспалительный процесс риск возникновения тромботических заболеваний; снижает ли

приём аспирина этот риск.
Слайд 25

Методика Авторы измерили уровень плазменного C-реактивного белка, маркер системного воспаления, у

Методика

Авторы измерили уровень плазменного C-реактивного белка, маркер системного воспаления, у 543

здоровых мужчин, у которых впоследствии развился инфаркт миокарда, инсульт или венозный тромбоз, и у 543 участников исследования, которые не сообщили о сосудистых заболеваниях в течение последующего периода, превышающего восемь лет. Участники были рандомизированы для приёма аспирина или плацебо в начале исследования.
Слайд 26

Перед рандомизацией в период с августа 1982 года по декабрь 1984

Перед рандомизацией в период с августа 1982 года по декабрь 1984

года потенциальным участникам было предложено предоставлять образцы опытной линии крови в течение 16-недельного периода, в течение которого всем участникам был дан аспирин, и никто не получал плацебо. Из 22 071 участников 14 916 (68%) предоставили образцы «опытной» плазмы.
Контроль был выбран случайным образом среди участников исследования, которые соответствовали критериям соответствия возраста (±1 год), статусу курения (курение в настоящее время, курили в прошлом или никогда не курили), а также продолжительность времени, прошедшего после после рандомизации (через 6-месячные интервалы). Используя эти методы, авторы оценили 543 пациента и 543 контроля.
Слайд 27

Базовые характеристики участников исследования

Базовые характеристики участников исследования

Слайд 28

Статистика Для пациентов из контрольной группы были рассчитаны средние или доли

Статистика

Для пациентов из контрольной группы были рассчитаны средние или доли для

базовых факторов риска. Значение любой разницы в средних было проверено с использованием t-критерия Стьюдента, а значение любых различий в долях было проверено с использованием статистики χ2. Поскольку значения С-реактивного белка искажены, вычислялись средние концентрации, и значение любых различий в средних значениях между пациентами и контрольной группой оценивали с использованием рангового теста Уилкоксона (будет рассмотрен далее). Геометрические средние концентрации С-реактивного белка также вычислялись после логарифмирования, что приводило к почти нормальному распределению. Авторы использовали тест для тренда, чтобы оценить любое соотношение возрастающих значений С-реактивного белка с риском будущего сосудистого заболевания после деления образца на квартили, определяемые распределением контрольных значений. Авторы получили скорректированные оценки с использованием условных моделей логистической регрессии, которые учитывали сопоставимые переменные и контролировали назначение случайного лечения, индекс массы тела, диабет, историю гипертонии и родительскую историю болезни коронарной артерии. Аналогичные модели использовались для корректировки измеренных концентраций общей массы и холестерина, ЛПВП, триглицеридов, липопротеинов, антигена t-PA, фибриногена, D-димера и гомоцистеина. Чтобы оценить, повлиял ли аспирин на эти отношения, анализы были повторены для всех случаев инфаркта миокарда, произошедшего 25 января 1988 года или до этого, — даты, когда рандомизированное назначение аспирина прекращалось.
Слайд 29

Концентрация плазменной концентрации C-реактивного белка в базовой линии у участников исследования,

Концентрация плазменной концентрации C-реактивного белка в базовой линии у участников исследования,

у которых не проявилось сосудистых заболеваний во время наблюдения (контроль) и у тех, у кого произошел инфаркт миокарда, инсульт или венозный тромбоз (пациенты)
Слайд 30

Относительный риск будущего инфаркта миокарда, инсульта и венозного тромбоза в соответствии

Относительный риск будущего инфаркта миокарда, инсульта и венозного тромбоза в соответствии

с концентрацией плазмы C-реактивного белка в базовой линии
Слайд 31

Относительный риск первого инфаркта миокарда, связанного с концентрацией плазмы C-реактивного белка

Относительный риск первого инфаркта миокарда, связанного с концентрацией плазмы C-реактивного белка

в базовой линии, стратифицированной в соответствии с рандомизированным назначением на аспирин или плацебо-терапию
Слайд 32

Разбор статистической методики U-критерий Манна — Уитни

Разбор статистической методики U-критерий Манна — Уитни

Слайд 33

Представление данных Выборка 1 (объём n1): x11, x21, …, ; Выборка

Представление данных

Выборка 1 (объём n1): x11, x21, …, ;
Выборка 2

(объём n2): x12, x22, …, .
Наблюдения из двух выборок объёма n1­ и n2 объединяются и упорядочиваются, например, по возрастанию. Затем наблюдениям присваиваются ранги.
Выборка первая (объём п1)
Наблюдение x11, x21, …,
Ранг r11, r21, …,
Сумма рангов в первой выборке
Слайд 34

Представление данных Выборка вторая (объём n2) Наблюдение x12, x22, …, Ранг

Представление данных

Выборка вторая (объём n2)
Наблюдение x12, x22, …,
Ранг r12,

r22, …,
Сумма рангов во второй выборке
Общее число наблюдений N = n1 + n2.
Слайд 35

Статистическая модель Все наблюдения независимы. Наблюдения, входящих в одну выборку, относятся к одной совокупности.

Статистическая модель

Все наблюдения независимы. Наблюдения, входящих в одну выборку, относятся к

одной совокупности.
Слайд 36

Гипотезы Н0: совокупности одинаково распределены; Н1: нулевая гипотеза неверна

Гипотезы

Н0: совокупности одинаково распределены;
Н1: нулевая гипотеза неверна

Слайд 37

Критериальная статистика Малые выборки Вычисляются и берётся U = max(U1, U2)

Критериальная статистика

Малые выборки
Вычисляются
и берётся U = max(U1, U2)

Слайд 38

Критериальная статистика Большие выборки В том случае, когда объём меньшей выборки

Критериальная статистика

Большие выборки
В том случае, когда объём меньшей выборки больше 20

или объём большей выборки превышает 40, то U распределение Манна — Уитни приближается к нормальному.
Пусть


Слайд 39

Критериальная статистика В том случае, если совпадающие ранги существуют, то где

Критериальная статистика

В том случае, если совпадающие ранги существуют, то

где j —

число связок, tj — число элементов в связке
Слайд 40

Поправка Йейтса Отсутствие поправки на непрерывность приводит к увеличению значения статистики

Поправка Йейтса


Отсутствие поправки на непрерывность приводит к увеличению значения статистики

и, соответственно, уменьшению величины достигнутого уровня значимости. Это приводит к более частому отклонению нулевой гипотезы и принятию гипотезы Н1.
Слайд 41

Результаты статьи В статье были сравнены концентрации С-реактивного белка у двух

Результаты статьи

В статье были сравнены концентрации С-реактивного белка у двух

групп мужчин (по 543 человека в каждой в соответствии, стало быть, указанного выше «рецепта» применения данного критерия). Точно проследить использование данного критерия не представляется возможным по данной статье, так как авторы не приводят первичные данные для 1086 участников.
Концентрации C-реактивных белков плазмы в «эксперименте» были выше среди мужчин, у которых был инфаркт миокарда (1,51 против 1,13 мг/л, P < 0,001) или ишемический инсульт (1,38 против 1,13 мг/л, P = 0,02), но не венозный тромбоз (1,26 против 1,13 мг на литр, P = 0,34), чем у мужчин без сосудистых событий. У мужчин в квартилях с самыми высокими значениями концентрации C-реактивного белка риск возникновения инфаркта миокарда в три (относительный риск, 2,9, P < 0,001) и риск возникновения ишемического инсульта (относительный риск 1,9; P = 0,02) в два раза превышал таковой у мужчин в наименьшей квартили. Риски были стабильными в течение длительного периода времени, их значения не были подвергнуты влиянию курению и не зависели от других факторов риска, связанных и не связанных с липидами. Использование аспирина было связано со значительным снижением риска инфаркта миокарда (снижение на 55,7%, P = = 0,02) среди мужчин в самом высоком квартиле, но с небольшими незначительными сокращениями среди низших квартилей (13,9%, P = 0,77).
Слайд 42

Результаты статьи Экспериментальная концентрации С-реактивного белка в плазме предсказывает риск будущего

Результаты статьи

Экспериментальная концентрации С-реактивного белка в плазме предсказывает риск будущего инфаркта

миокарда и инсульта. Более того, снижение, связанное с использованием аспирина в риске развития первого инфаркта миокарда, по-видимому, напрямую связано с уровнем С-реактивного белка, повышая вероятность того, что противовоспалительные агенты могут иметь клинические преимущества в профилактике сердечно-сосудистых заболеваний.
Слайд 43

Список использованной литературы: Ивашёв-Мусатов О. С. Теория вероятностей и математическая статистика:

Список использованной литературы:

Ивашёв-Мусатов О. С. Теория вероятностей и математическая статистика: Учеб.

пособие. — 2-е изд., перераб. и доп. — М.: ФИМА, 2003. — 224 с.
Гланц С. Медико-биологическая статистика. Пер . с англ. — М., Практика, 1998. — 459 с.
Кочнева Л.Ф., Липкина З.С., Новосельцева В. И. Теория вероятностей и математическая статистика (Часть III): Учеб. пособие - федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Московский государственный университет путей сообщения», Москва, 2012. – 44с.
Ridker P. M. et al. Inflammation, aspirin, and the risk of cardiovascular disease in apparently healthy men //New England journal of medicine. — 1997. — V. 336. — N. 14. — Pp. 973-979.
Яровая Е. Б. Лекции курса основ теории вероятностей и математической статистики, прочитанные в МГУ имени М. В. Ломоносова на факультете фундаментальной медицины с 10.02.2017 по 18.05.2018.