GeekBrains A_B тесты Матстатистика урок 5

Содержание

Слайд 2

Математическая статистика часть 1

Математическая статистика часть 1

Слайд 3

На этом уроке мы разберем Поговорим о важности статистики для A/B

На этом уроке мы разберем
Поговорим о важности статистики для A/B тестов
Пройдемся

по базовым понятиям статистики
Разберем как оценивать по выборке в каких границах лежат реальные значения ваших метрик
Статистические критерии
Алгоритм проверки гипотез
Обзор калькуляторов для подсчета результатов
Слайд 4

Важность статистики в A/B-тестах

Важность статистики в A/B-тестах

Слайд 5

Важность статистики в A/B-тестах Математическая статистика это раздел математики, в котором

Важность статистики в A/B-тестах

Математическая статистика
это раздел математики, в котором разрабатываются

различные методы для описания и анализа наблюдений с цель использования для научных и практических выводов.
Математическая статистика - фундамент A/B тестов, без правильного понимания которого резко возрастает риск принятия неверных решений в продукте. И в этом мы ни раз убедимся в рамках курса.
Слайд 6

Что нужно, чтобы проводить A/B-тестирование? Уметь рассчитывать размер выборки для теста

Что нужно, чтобы проводить A/B-тестирование?

Уметь рассчитывать размер выборки для теста
Понимать, что

означает мощность теста
Понимать, насколько страшны ошибки I и II рода
Понимать, что означает p-value и доверительный интервал
Знать основные статистические критерии
Уметь корректно посчитать результаты теста
Слайд 7

Базовые понятия

Базовые понятия

Слайд 8

Выборка и ген.совокупность Генеральная совокупность - совокупность всех объектов или наблюдений,

Выборка и ген.совокупность

Генеральная совокупность - совокупность всех объектов или наблюдений, относительно

которых исследователь намерен делать выводы при решении конкретной задачи. В ее состав включаются все объекты, которые подлежат изучению.
Выборка - часть генеральной совокупности с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании
Чтобы переносить выводы с выборки на генеральную совокупность, выборка должна быть репрезентативной, отражать пропорции и особенности генеральной совокупности.
Слайд 9

Оценка параметров на основе выборки Случайная величина (ξ) – это математическое

Оценка параметров на основе выборки

Случайная величина (ξ) – это математическое понятие,

служащее для представления случайных явлений, когда для них может быть определена их вероятность, то есть мера возможности наступления.
По сути это переменная со значениями. Для каждого значения есть своя вероятность исхода
Примеры случайных величин:
-Оценка студента на экзамене
-Цифра выпавшая при броске игральной кости
-Время, которое провел юзер на странице за сеанс
-Цена акции на бирже

Любая выборка представляет собой значения какой-либо случайной величины.

Слайд 10

Оценка параметров на основе выборки Для точечного оценивания параметров случайной величины

Оценка параметров на основе выборки

Для точечного оценивания параметров случайной величины используются

различные статистики. Статистика — это любая измеримая функция от выборки.
Пусть дана выборка Y = (y1, y2, . . , yi) значений случайной величины

Как ее можно описать с помощью статистик?

Слайд 11

Оценка параметров на основе выборки. Рассчитаем дисперсию: ((500-455)^2 + (450-455)^2 +

Оценка параметров на основе выборки.

Рассчитаем дисперсию:
((500-455)^2 + (450-455)^2 + (400-455)^2 +

(470-455)^2 ) / (4-1) = 1767

Математическое ожидание (μ, M) (выборочное среднее)— это среднее арифметическое значение случайной величины.
Дисперсия (S2) – рассчитанное расстояние, на которое значения случайной величины находятся вокруг его математического ожидания
Стандартное отклонение (SD)— это квадратный корень от дисперсии
Медиана это такое значение в выборке, что ровно половина из элементов выборки больше него либо равна, а другая половина меньше него либо равна.

1, 3, 5, 5, 8, 9, 11, 17, 18, 24, 77, 218, 633

Слайд 12

Меры центральной тенденции Среднее значение Медиана Мода Меры разброса данных Дисперсия Стандартное отклонение Квантили Описательные статистики

Меры центральной тенденции
Среднее значение
Медиана
Мода

Меры разброса данных
Дисперсия
Стандартное отклонение

Квантили

Описательные статистики

Слайд 13

Законы распределения Законом распределения случайной величины называется соотношение, устанавливающие связь между

Законы распределения

Законом распределения случайной величины называется соотношение, устанавливающие связь между возможными

значениями случайной величины и соответствующими им вероятностями.
Слайд 14

Нормальное распределение Функция плотности распределения: Вероятность того, что случайная величина X

Нормальное распределение

Функция плотности распределения:

Вероятность того, что случайная величина X будет лежать

в отрезке (x, y), равна площади под графиком функции плотности f(x) в пределах от x до y.
Общая площадь под графиком функции f ( x ) равна 1.
Слайд 15

Нормальное распределение Гистограмма распределения: Гистограмма по форме напоминает график распределения вероятностей

Нормальное распределение

Гистограмма распределения:

Гистограмма по форме напоминает график распределения вероятностей случайной величины.


По оси x откладываются все значения выборки.
Вся ось x разбивается на заданное число одинаковых отрезков.
Для каждого отрезка вычисляется кол-во значений выборки, которые лежат в этом отрезке, и это кол-во откладывается по оси y

Слайд 16

Центральная Предельная Теорема ЦПТ говорит, что если мы возьмем достаточно большую

Центральная Предельная Теорема

ЦПТ говорит, что если мы возьмем достаточно большую выборку

из независимых, одинаково распределенных случайных величин( i.i.d из генеральной совокупности , то среднее значение будет нормально распределено с μ и SD .

Берем и многократно извлекаем выборки определенного размера и считаем по ним среднее. Распределение средних при соблюдении предпосылок выше будет нормально распределенным и мы сможем оценивать истинное значение в ГС.

Слайд 17

ЦПТ Что нам позволяет делать ЦПТ ? ЦПТ дает возможность строить

ЦПТ

Что нам позволяет делать ЦПТ ?
ЦПТ дает возможность строить доверительные

интервалы и проверять статистические гипотезы.
Слайд 18

Доверительный интервал

Доверительный интервал

Слайд 19

Доверительный интервал Доверительный интервал – Что это такое ? Это способ

Доверительный интервал


Доверительный интервал – Что это такое ? Это

способ оценки метрики, используя который, мы получим диапазон значений [x,y] , внутри которого будет лежать истинное значение метрики ГС в 95% случаев.
(Если провести очень большое количество независимых экспериментов с аналогичным построением доверительного интервала, то в 95% экспериментов доверительный интервал будет содержать оцениваемый параметр ген совокупности.
В оставшихся 5% экспериментов доверительный интервал не будет содержать параметр ген совокупности.)

M ± 1,96 × (SD ÷ √n )

Слайд 20

Виды метрик Типы метрик которые бывают в экспериментах: 1)Доли - (ретеншн,

Виды метрик

Типы метрик которые бывают в экспериментах:
1)Доли - (ретеншн, конверсии) [0,1,0,0,0,1]
2)Непрерывные

- (таймспент в сек / деньги)
3)Отношения - (клики на сессию)
Слайд 21

Оценка параметров на основе выборки. Доверительный интервал 95% для метрик долей:

Оценка параметров на основе выборки.

Доверительный интервал 95% для метрик долей:

Слайд 22

Ошибки I и II рода

Ошибки I и II рода

Слайд 23

Базовые определения: Нулевая гипотеза – принимаемое предположение о том, что не

Базовые определения:

Нулевая гипотеза – принимаемое предположение о том, что не существует

связи между наблюдениями в двух (или более) событиях (выборках, феноменах, совокупностях). Гипотезу отвергают, если данные показывают разницу между выборками.
True Positive = говорим истина, когда по факту истина (факт)True Negative = говорим не истина, когда по факту тоже не истина (факт)
False Positive (ошибка I рода) = говорим истина, когда по факту не истина. Отклонение верной нулевой гипотезы. Риск совершить такую ошибку равен выбранному уровню статистической значимости (например, α=0.05) (ошиблись)
False Negative (ошибка II рода) = говорим не истина, когда по факту истина (ошиблись). Принятие неверной нулевой гипотезы. Вероятность отклонить реально работающее изменение
Слайд 24

Ошибки I и II рода Если бы влияние на конверсию было

Ошибки I и II рода

Если бы влияние на конверсию было значительным,

но мы это не обнаружили
Слайд 25

Проверка статистических гипотез

Проверка статистических гипотез

Слайд 26

Основные понятия Статистическая гипотеза — выдвигаемое предположение о свойствах случайной величины/виде

Основные понятия


Статистическая гипотеза — выдвигаемое предположение о свойствах случайной

величины/виде ее распределения, которое можно подтвердить или опровергнуть на основании имеющихся данных.
Примеры:
-Между конверсиями в покупку в двух группах нет статистически значимых различий
-Между Retention 7 дня в двух группах нет статистически значимых различий
-Случайная величина имеет нормальное распределение
Слайд 27

Основные шаги при проверке гипотез Формулируются нулевая и альтернативная гипотезы. Нулевая

Основные шаги при проверке гипотез

Формулируются нулевая и альтернативная гипотезы.
Нулевая

гипотеза – принимаемое предположение о том, что не существует связи между наблюдениями в двух (или более) выборках. Гипотезу отвергают, если данные показывают разницу между выборками. (чаще всего в A/B тестах используют двухсторонние гипотезы)
В зависимости от задачи альтернативные гипотезы бывают левосторонние, правосторонние или двухсторонние.
Задаётся статистика (функция от выборки) F(Y), которая в условиях справедливости нулевой гипотезы H0 имеет известное распределение
Фиксируется уровень значимости α (false positive) — допустимая для данной задачи вероятность ошибки первого рода (чаще всего 0.01, 0.05 или 0.1).
Проводится статистический тест: для выборки(выборок) Y считается значение F(Y), и если оно принадлежит критической области, то заключаем, что данные противоречат гипотезе H0, и принимается гипотеза H1.
Слайд 28

Основные шаги при проверке гипотез В зависимости от задачи альтернативные гипотезы бывают левосторонние, правосторонние или двусторонние.

Основные шаги при проверке гипотез

В зависимости от задачи альтернативные гипотезы

бывают левосторонние, правосторонние или двусторонние.
Слайд 29

Основные понятия p-value – вероятность получить наблюдаемое или еще большее отклонение

Основные понятия
p-value – вероятность получить наблюдаемое или еще большее отклонение

оценки от гипотезы, если она (гипотеза) верна. Геометрически это площадь под кривой, которая начинается от статистического критерия в сторону от гипотезы (от центра).

Если p-value < alpha - нулевая гипотеза отвергается

Слайд 30

Сравнение средних У каждой из метрик в двух выборок есть сигнал

Сравнение средних

У каждой из метрик в двух выборок есть сигнал

(разница средних) и шум (дисперсия). Мы хотим понять несмотря на наличие шума а есть ли действительная разница между средними ?
В этом нам помогают статистические критерии.
Слайд 31

Статистические критерии Статистический критерий — математическое правило, в соответствии с которым

Статистические критерии

Статистический критерий — математическое правило, в соответствии с которым отвергается

либо не отвергается та или иная статистическая гипотеза с заданным уровнем значимости.
Для того, чтобы проверить гипотезу о равенстве показателей, применяется два типа критериев оценки: параметрические и непараметрические.
Параметрическими называются критерии, в которых мы можем сделать предположение о распределении , относящееся к какой-то выборке. В большинстве случаев в качестве распределения используется нормальное.
Непараметрические не используют предположения о распределении, а оперируют рангами и частотами.
Слайд 32

Основные понятия Статистическая мощность (True Positive) — это вероятность, что тест

Основные понятия


Статистическая мощность (True Positive) — это вероятность, что

тест правильно засечёт эффект там, где он и правда есть. (т.е. 1-β)


Чтобы найти хороший критерий для проверки гипотезы H0 vs H1 нужно из всех корректных критериев выбрать критерий с максимальной мощностью. У непараметрических критериев мощность меньше по сравнению с параметрическими -при возможности лучше использовать параметрические критерии.
Даже при ненормальности изначального распределения - ЦПТ работает для распределения средних на больших выборках

Слайд 33

Типы данных: Количественные Непрерывные (средний чек , таймспент итд) Дискретные (

Типы данных:
Количественные
Непрерывные (средний чек , таймспент итд)
Дискретные ( число детей, число

мотоциклов итд)
Качественные
номинативные (пол , названия групп, именна итд)
ранговые ( оценка в психологическом исследовании , оценка асессора итд )

Независимые выборки – это те выборки, в которых вероятность отбора любого респондента одной выборки не зависит от отбора любого из респондентов другой выборки. Пример: рандомно взятые новые пользователи

Слайд 34

Выбор критерия light version Конверсии (Хи-квадрат на однородность распределения в двух

Выбор критерия light version

Конверсии (Хи-квадрат на однородность распределения в двух ген

совокупностях или Z критерий долей)
Средние
если нормальное распределение то t критерий
если не нормальное распределение то критерий Манна-Уитни
Слайд 35

Пример: Нулевая гипотеза – Между конверсией в двух группах нет статистически

Пример:


Нулевая гипотеза – Между конверсией в двух группах нет

статистически значимых различий
Альтернативная гипотеза – Между конверсией в двух группах есть статистически значимые различия
Слайд 36

Алгоритм проверки гипотез

Алгоритм проверки гипотез

Слайд 37

Проверка гипотез Выбираем метрику и формулируем нулевую и альтернативную гипотезы Выбираем

Проверка гипотез

Выбираем метрику и формулируем нулевую и альтернативную гипотезы
Выбираем параметр

alpha (например 5% ) равный вероятности допустить ошибку первого рода
Выбираем критерий, подходящий под наши условия
Считаем p - value и(или) доверительный интервал и делаем вывод:
Если p-value < alpha - разница между группами стат.значима . Либо если доверительный интервал для разницы не включает 0.
Даем (рекомендации лицам принимающим решения /принимаем решение ) выкатывать или не выкатывать новое изменение
Слайд 38

Обзор калькуляторов

Обзор калькуляторов

Слайд 39

Выбор критерия light version Конверсии (Хи-квадрат на однородность распределения в двух

Выбор критерия light version

Конверсии (Хи-квадрат на однородность распределения в двух ген

совокупностях или Z критерий долей)
Средние
если нормальное распределение то t критерий
если не нормальное распределение то критерий Манна-Уитни
Слайд 40

t критерий Стьюдента

t критерий Стьюдента

Слайд 41

U критерий Манна-Уитни

U критерий Манна-Уитни

Слайд 42

Критерий Хи-квадрат на однородность распределений

Критерий Хи-квадрат на однородность распределений

Слайд 43

Z test для долей

Z test для долей

Слайд 44

На этом уроке мы разобрали Освежили базовые понятия из статистики Принцип

На этом уроке мы разобрали
Освежили базовые понятия из статистики
Принцип проверки статистических

гипотез
Популярные статистические критерии