Корреляции. Регрессионный анализ

Август 1, 2022

Главная
Математика
Корреляции. Регрессионный анализ

Содержание

2. До сих пор нас в выборках интересовала только одна зависимая переменная*. Мы изучали, отличается ли распределение
3. Мы исследуем сусликов. И хотим узнать, связаны ли между собой у них масса и длина хвоста?
4. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ характеризует силу связи между переменными. ЭТО ПРОСТО ПАРАМЕТР ОПИСАТЕЛЬНОЙ СТАТИСТИКИ Большой коэффициент корреляции между
5. Коэффициент корреляции Может принимать значения от -1 до +1 Знак коэффициента показывает направление связи (прямая или
6. r=1.0: если Петя высокого роста, значит, Гриша тоже высокий, это не предположение, а факт. r=0.7: если
7. Корреляции Скаттерплот (= диаграмма рассеяния; scatterplot, scatter diagram) Две характеристики: – наклон (направление связи) и ширина
8. Корреляции
9. Коэффициент корреляции Пирсона (Pearson product-moment correlation coefficient r) Корреляции Karl Pearson (1857 –1936 )
10. стандартное отклонение для хвоста стандартное отклонение для веса Коэффициент корреляции Пирсона для каждого X и Y
11. параметр ВЫБОРКИ параметр ПОПУЛЯЦИИ Всё как для других параметров описательной статистики: среднего, дисперсии, и т.д.! Корреляции
12. Чем определяются знак и величина коэффициента корреляции? здесь и X, и Y больше среднего: их произведение
13. Создаётся впечатление, что близкий к нулю коэффициент корреляции говорит о том, что связи между переменными нет
14. 1. Коэффициент корреляции Пирсона оценивает только линейную связь переменных! И он не покажет нам наличие нелинейной
15. Корреляции
16. 2. Необходимо, чтобы у переменных была значительная изменчивость! Если сформировать выборку изначально однотипных особей, нечего надеяться
17. I'm not an outlier; I just haven't found my distribution yet! Ronan Conroy аутлаер 3. Коэффициент
18. Важное замечание: Корреляция совершенно не подразумевает наличие причинно-следственной связи! Она ВООБЩЕ НИЧЕГО о ней НЕ ГОВОРИТ
19. Коэффициент корреляции Пирсона – параметр выборки. Можем ли мы на основе него судить о популяции? Просто
20. Корреляции H0 : ρ=0 H1: ρ≠0 Связаны ли у сусликов масса тела и длина хвоста? (альтернативная
21. Корреляции стандартная ошибка коэффициента корреляции
22. Pearson product-moment correlation coefficient r
23. Отвергаем Н0: Оказалось, что масса тела у сусликов положительно связана с длиной хвоста. Коэффициенты a и
24. Бывают задачи, когда нам необходимо получить МАТРИЦУ КОРРЕЛЯЦИЙ (для многомерных методов анализа)
25. Можно сравнить два коэффициента корреляции от двух выборок Для двумерного нормального распределения
26. Корреляции В статьях обычно приводят сам коэффициент корреляции Пирсона (значение t не столь обязательно). Он сам
27. Требование к выборке для тестирования гипотезы о коэффициенте корреляции Пирсона: 1. Для каждого X значения Y
28. r=0.7: если Петя высокий, то, скорее всего, Гриша тоже высокий. Но можем ли мы предсказать, насколько
29. Регрессионный анализ – инструмент для количественного предсказания значения одной переменной на основании другой. Для этого в
30. То есть, РЕГРЕССИЯ (regression) – предсказание одной переменной на основании другой. Одна переменная – независимая (independent),
31. Мы изучаем поведение молодых бегемотов в Африке. Мы хотим узнать, как зависит прибавка в весе за
32. Мы ищем прямую, которая наилучшим образом будет предсказывать значения Y на основании значений Х. прибавка в
33. Простая линейная регрессия (linear regression) Y – зависимая переменная X – независимая переменная a и b
34. Задача сводится к поиску коэффициентов a и b. коэффициент корреляции Пирсона стандартные отклонения для X и
35. Прибавка в весе в месяц, кг X Y Регрессии Масса съеденной пищи в день
36. Если r=0.0, линия регрессии всегда горизонтальна. Чем ближе r к нулю, тем труднее на глаз провести
37. Регрессии Линия регрессии в стандартной форме a = 0, b = r (математическое объяснение регрессии к
38. Ошибка предсказания (residual) = «остатки» e положительно для точек над прямой и отрицательно для точек под
39. Метод наименьших квадратов: линию регрессии подбирают такую, чтобы общая сумма квадратов ошибок (residuals) была наименьшей. -
40. Регрессии В регрессионном анализе, как и в ANOVA, используют разные суммы квадратов отклонений (SS) для разных
41. Регрессии На самом деле, если r достоверно отличается от нуля, то и β ≠ 0! То
42. Регрессии Коэффициент детерминации r – коэффициент корреляции, r2 = R2 Показывает, какую долю изменчивости (буквально, её
43. Регрессии Доверительный интервал для значений зависимой переменной: строится для каждого значения X, причём наименьшая ошибка получается
44. Регрессии Сравнение двух (и более) уравнений линейной регрессии Сравнение коэффициентов наклона b1 b2 Сравнение коэффициентов сдвига
45. Регрессии Множественная линейная регрессия и корреляция (multiple regression) Простая линейная регрессия: одна зависимая переменная и одна
46. Регрессии Например, мы хотим узнать, как на прибавку в весе у бегемотов (1 зависимая переменная) влияют:
47. Регрессии Уравнение регрессии: для популяции для выборки Это уже не прямая, это уже либо плоскость (для
48. Регрессии Тестирование гипотез для множественной регрессии: Если для простой регрессии можно было проверить только гипотезу относительно
49. Регрессии Коэффициент детерминации (coefficient of determination) Считается потому же принципу, что и для простой регрессии, и
50. Регрессии Добавление переменных в модель: SSregression увеличивается, поэтому R2 растёт. При этом F может уменьшаться. Для
51. Регрессии Multicollinearity = ill-conditioning У нас много переменных, поэтому расчёт коэффициентов и статистик сопряжён с операциями
52. Регрессии Выбор «лучших» независимых переменных Как выбрать лучшую модель, чтобы наименьшим числом независимых переменных описать набольшую
53. Simple linear regression
54. linear regression У бегемотов прибавка в весе зависела от этих переменных
55. Коэффициенты наклона в стандартной форме Часто «остатки» используют как самостоятельную переменную Коэффициенты a и b
58. Требования к выборке для проведения регрессионного анализа Ожидаемая зависимость переменной Y от X должна быть линейной.
59. Для любого значения Xi Y должна иметь нормальное распределение Например, прибавка в весе для всех бегемотов,
60. Нелинейная регрессия Регрессии экспоненциальный рост Иногда связь между зависимой и независимой переменной нелинейная. Например: асимптотическая регрессия
61. В случае, если наши переменные связаны друг с другом принципиально не линейной зависимостью: можно трансформировать данные
62. ANCOVA Модель, когда исследуется действие и группирующей, и непрерывной независимых переменных на непрерывную зависимую переменную Пример:
63. ANCOVA: прибавка в весе у бегемотов в разных типах местообитания
64. Тип местообитания не влиял на прибавку в весе, она зависела только от длительности кормления.
65. Выбор модели в GLM «Много» = 2 и больше
66. 1. исследователь решил узнать, как зависит размер дома у семьи от дохода семьи (в год). Собрал
68. Скачать презентацию

Слайд 2

До сих пор нас в выборках интересовала только одна зависимая переменная*.
Мы

изучали, отличается ли распределение этой переменной в одних условиях от распределения той же переменной в других условиях (скажем, сравнивали разные группы в ANOVA).

Настало время обратиться к ситуации, когда зависимых переменных будет ДВЕ и более.
Нас интересует вопрос, в какой степени эти переменные связаны между собой.

Это могут быть измерения одной особи или связанных пар.

КОРРЕЛЯЦИИ (correlation)

* кроме MANOVA

Слайд 3

Мы исследуем сусликов. И хотим узнать, связаны ли между собой у

них масса и длина хвоста?

Переменные – 1. масса; 2. длина хвоста.

Корреляции

Слайд 4

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ характеризует силу связи между переменными.
ЭТО ПРОСТО ПАРАМЕТР ОПИСАТЕЛЬНОЙ

СТАТИСТИКИ

Большой коэффициент корреляции между массой тела и длиной хвоста позволяет нам предсказывать, что у большого суслика, скорее всего, и хвост будет длинным

Вопрос: в какой степени две переменные СОВМЕСТНО ИЗМЕНЯЮТСЯ? (т.е., можно ли предполагать, что если у особи одна переменная принимает большое значение, то и значение второй переменной будет большим, или, наоборот, маленьким)

Корреляции

Слайд 5

Коэффициент корреляции
Может принимать значения от -1 до +1
Знак коэффициента показывает

направление связи (прямая или обратная)
Абсолютная величина показывает силу связи
всегда основан на парах чисел (измерений 2-х переменных от одной особи или 2-х переменных от разных, но связанных особей)

Корреляции

r – в случае, если мы характеризуем ВЫБОРКУ
- если мы характеризуем ПОПУЛЯЦИЮ

Слайд 6

r=1.0: если Петя высокого роста, значит, Гриша тоже высокий, это не

предположение, а факт.
r=0.7: если Петя высокий, то, скорее всего, Гриша тоже высокий.
r=0.0: если Петя высокий, то мы… не можем сказать росте Гриши НИЧЕГО.

Рост братьев: коэффициент корреляции r -?

Петя

Гриша

Корреляции

Слайд 7

Корреляции
Скаттерплот
(= диаграмма рассеяния; scatterplot, scatter diagram)
Две характеристики: – наклон (направление связи)

и ширина (сила связи) воображаемого эллипса

Слайд 8

Корреляции

Слайд 9

Коэффициент корреляции Пирсона
(Pearson product-moment correlation coefficient r)
Корреляции
Karl Pearson (1857 –1936 )

Слайд 10

стандартное отклонение для хвоста
стандартное отклонение для веса
Коэффициент корреляции Пирсона
для каждого X

и Y (для каждого суслика)

число строк (сусликов)

Корреляции

z – оценки (см. занятие 1)

Это одна из нескольких эквивалентных формул для коэффициента корреляции Пирсона

Слайд 11

параметр ВЫБОРКИ
параметр ПОПУЛЯЦИИ
Всё как для других параметров описательной статистики: среднего, дисперсии,

и т.д.!

Корреляции

Что определяет ?

Слайд 12

Чем определяются знак и величина коэффициента корреляции?
здесь и X, и Y

больше среднего: их произведение >0

здесь и X, и Y меньше среднего:
их произведение >0

здесь X больше среднего, а Y меньше: их произведение <0

здесь Y больше среднего, а X меньше: их произведение <0

Корреляции

Слайд 13

Создаётся впечатление, что близкий к нулю коэффициент корреляции говорит о том,

что связи между переменными нет или почти нет.

НО это не всегда так, есть исключения.

Здесь и впрямь её нет

Корреляции

Слайд 14

1. Коэффициент корреляции Пирсона оценивает только линейную связь переменных!
И он не

покажет нам наличие нелинейной связи

r=0.00

Здесь связь переменных есть, и она очень сильная, но r=0.00

Корреляции

Факторы, влияющие на коэффициент корреляции

Слайд 15

Корреляции

Слайд 16

2. Необходимо, чтобы у переменных была значительная изменчивость! Если сформировать выборку

изначально однотипных особей, нечего надеяться выявить там корреляции.

Корреляции

Слайд 17

I'm not an outlier; I just haven't found my distribution yet!

Ronan Conroy

аутлаер

3. Коэффициент корреляции Пирсона очень чувствителен к аутлаерам.

Корреляции

Слайд 18

Важное замечание:
Корреляция совершенно не подразумевает наличие причинно-следственной связи!
Она ВООБЩЕ НИЧЕГО о

ней НЕ ГОВОРИТ (даже очень большой r)

Корреляции

Слайд 19

Коэффициент корреляции Пирсона – параметр выборки.
Можем ли мы на основе него

судить о популяции? Просто глядя на коэффициент – НЕТ.

Correlation between each x and y = 0.816

Корреляции

Слайд 20

Корреляции
H0 : ρ=0
H1: ρ≠0
Связаны ли у сусликов масса тела и длина

хвоста?

(альтернативная гипотеза может быть односторонней)

Мы хотим оценить коэффициент корреляции в популяции.

Слайд 21

Корреляции
стандартная ошибка коэффициента корреляции

Слайд 22

Pearson product-moment correlation coefficient r

Слайд 23

Отвергаем Н0: Оказалось, что масса тела у сусликов положительно связана с

длиной хвоста.

Коэффициенты a и b

Слайд 24

Бывают задачи, когда нам необходимо получить МАТРИЦУ КОРРЕЛЯЦИЙ (для многомерных методов

анализа)

Слайд 25

Можно сравнить два коэффициента корреляции от двух выборок
Для двумерного нормального распределения

Слайд 26

Корреляции
В статьях обычно приводят сам коэффициент корреляции Пирсона (значение t не

столь обязательно).
Он сам и является показателем практической значимости (effect size) корреляции.
Cohen, 1988:
ρ = 0.1 - слабая корреляция;
ρ = 0.3 – корреляция средней силы;
ρ = 0.5 - сильная корреляция.

Слайд 27

Требование к выборке для тестирования гипотезы о коэффициенте корреляции Пирсона:
1. Для

каждого X значения Y должны быть распределены нормально, и для каждого Y все X должны иметь нормальное распределение -

Корреляции

двумерное нормальное распределение (bivariate normal distribution)

2. Должно соблюдаться требование гомогенности дисперсии X для каждого Y и наоборот.

Слайд 28

r=0.7: если Петя высокий, то, скорее всего, Гриша тоже высокий. Но

можем ли мы предсказать, насколько высокий? Сам коэффициент корреляции этого нам не скажет.
Ответ нам даст РЕГРЕССИОННЫЙ АНАЛИЗ.

Рост братьев.

Петя

Гриша

РЕГРЕССИОННЫЙ АНАЛИЗ

Слайд 29

Регрессионный анализ – инструмент для количественного предсказания значения одной переменной на

основании другой.
Для этого в линейной регрессии строится прямая – линия регрессии.
Простая линейная регрессия:
Даёт нам правила, определяющие линию регрессии, которая ЛУЧШЕ ДРУГИХ предсказывает одну переменную на основании другой (переменных всего две).

По оси Y располагают переменную, которую мы хотим предсказать (зависимую, dependent), а по оси Х – переменную, на основе которой будем предсказывать (независимую, independent).
Предсказанное значение Y обычно обозначают как

Регрессии

Слайд 30

То есть,
РЕГРЕССИЯ (regression) – предсказание одной переменной на основании

другой. Одна переменная – независимая (independent), а другая – зависимая (dependent).
Пример: чем больше еды съедает каждый день детёныш бегемота, тем больше у него будет прибавка в весе за месяц
КОРРЕЛЯЦИЯ (correlation) – показывает, в какой степени две переменные СОВМЕСТНО ИЗМЕНЯЮТСЯ. Нет зависимой и независимой переменных, они эквивалентны.
Пример: длина хвоста у суслика коррелирует положительно с его массой тела

ЭТО НЕ ОДНО И ТО ЖЕ!

Регрессии

Слайд 31

Мы изучаем поведение молодых бегемотов в Африке. Мы хотим узнать, как

зависит прибавка в весе за месяц от количества пищи, съедаемой в день, у этих зверей?

У нас две переменные – 1. кол-во съедаемой в день пищи, кг (independent); 2. прибавка в весе за месяц, кг (dependent)

1 кг

3 кг в день

15 кг в день

Регрессии

Слайд 32

Мы ищем прямую, которая наилучшим образом будет предсказывать значения Y на

основании значений Х.

прибавка в весе в месяц

Масса съеденной пищи в день

Регрессии

прибавка в весе в месяц

Масса съеденной пищи в день

прибавка в весе в месяц

Масса съеденной пищи в день

Слайд 33

Простая линейная регрессия (linear regression)
Y – зависимая переменная
X – независимая переменная
a

и b - коэффициенты регрессии

b – характеризует НАКЛОН прямой (slope); это самый важный коэффициент;
a – определяет точку пересечения прямой с осью OY; не столь существенный (intercept).

Пояснить размерность b и a

Регрессии

Это уравнение регрессии для ВЫБОРКИ.

уравнение для популяции

Слайд 34

Задача сводится к поиску коэффициентов a и b.
коэффициент корреляции Пирсона
стандартные отклонения

для X и Y

Линия регрессии всегда проходит через точку , то есть через середину графика.
b – определяет, насколько изменится Y на единицу X; имеет тот же знак, что и r.

Пример с кол-вом удобрения на каждый кг помидоров

Регрессии

Слайд 35

Прибавка в весе в месяц, кг
X
Y
Регрессии
Масса съеденной пищи в день

Слайд 36

Если r=0.0, линия регрессии всегда горизонтальна. Чем ближе r к нулю,

тем труднее на глаз провести линию регрессии. А чем больше r, тем лучше предсказание.
Важная особенность нашего предсказания: предсказанное значение Y всегда ближе к среднему значению, чем то значение X, на основе которого оно было предсказано – регрессия к среднему.

Пример про Dr. Nostat, который отобрал 100 самых глупых учеников, подверг их специальной программе и потом протестировал повторно, и их IQ оказался в среднем выше.
Пример про очень умную 5-летнюю девочку

Регрессии

Слайд 37

Регрессии
Линия регрессии в стандартной форме
a = 0, b = r
(математическое объяснение

регрессии к среднему)

Слайд 38

Ошибка предсказания (residual) = «остатки»
e положительно для точек над прямой и

отрицательно для точек под прямой.

Ошибка предсказания и поиск «лучшей» линии

Регрессии

прибавка в весе в месяц

Масса съеденной пищи в день

Очевидно, что точки не лежат на самой линии регрессии.

Для популяции

Для выборки

важно: нельзя пытаться предсказывать Y на основе значений Х, лежащих за пределами размаха Х в выборке.

Слайд 39

Метод наименьших квадратов:
линию регрессии подбирают такую, чтобы общая сумма квадратов ошибок

(residuals) была наименьшей.

- минимальна

Регрессии

Как определить «лучшую» линию регрессии?

- residual sum of squares = residual SS

Слайд 40

Регрессии
В регрессионном анализе, как и в ANOVA, используют разные суммы квадратов

отклонений (SS) для разных источников изменчивости, и на их основе тестируют гипотезы.

Н0: β = 0
Н1: β ≠ 0

Для каждого SS считают соответствующий MS = SS/DF (df=1 и df=n-2)

Можно тестировать гипотезу и о том, что intercept ( ) = 0

Слайд 41

Регрессии
На самом деле,
если r достоверно отличается от нуля, то и

β ≠ 0!
То есть, если мы отвергаем H0 о том, что r=0, то нулевая гипотеза о коэффициенте β отвергается автоматически.

Эту же гипотезу можно протестировать с помощью t-статистики:

Причём t2 = F

Слайд 42

Регрессии
Коэффициент детерминации
r – коэффициент корреляции, r2 = R2
Показывает, какую долю изменчивости

(буквально, её даже можно выразить в процентах) зависимой переменной (Y) объясняет независимая переменная (регрессионная модель)

Слайд 43

Регрессии
Доверительный интервал для значений зависимой переменной: строится для каждого значения X,

причём наименьшая ошибка получается для среднего Y.

Слайд 44

Регрессии
Сравнение двух (и более) уравнений линейной регрессии
Сравнение коэффициентов наклона b1 b2
Сравнение

коэффициентов сдвига a1 и a2
Сравнение двух линий регрессии в целом
(предполагается, что если линии для 2-х выборок у нас сильно различаются, и мы объединим выборки, то общая линия по этим двум выборкам будет хуже описывать изменчивость, остаточная дисперсия будет больше) –
на основе F-критерия

На основе критерия Стьюдента

линии регрессии

Слайд 45

Регрессии
Множественная линейная регрессия и корреляция (multiple regression)
Простая линейная регрессия: одна зависимая

переменная и одна независимая.
Множественная регрессия: исследуется влияние НЕСКОЛЬКИХ независимых переменных на ОДНУ зависимую.
Множественная корреляция: исследуется взаимосвязь нескольких переменных, среди которых невозможно выделить зависимую.

Слайд 46

Регрессии
Например, мы хотим узнать, как на прибавку в весе у бегемотов

(1 зависимая переменная) влияют: средняя масса пищи, съедаемой в день; продолжительность сна в сутки; подвижность бегемота (км/день) (3 независимых непрерывных переменных).

Слайд 47

Регрессии
Уравнение регрессии:
для популяции
для выборки
Это уже не прямая, это уже либо плоскость

(для 3-х переменных), либо пространство.

Слайд 48

Регрессии
Тестирование гипотез для множественной регрессии:
Если для простой регрессии можно было проверить

только гипотезу относительно коэффициента корреляции, в множественной регрессии без SS, MS и F не обойтись – этот анализ тоже называется ANOVA

Слайд 49

Регрессии
Коэффициент детерминации (coefficient of determination)
Считается потому же принципу, что и для

простой регрессии, и тоже показывает, какую долю общей изменчивости зависимой переменной объясняет модель, т.е., совместное влияние всех независимых переменых.

Multiple correlation coefficient:
аналогичен коэффициенту корреляции Пирсона

Adjusted coefficient of determination:
лучше, чем просто R2, так как не увеличивается с ростом кол-ва переменных в модели

Слайд 50

Регрессии
Добавление переменных в модель:
SSregression увеличивается, поэтому R2 растёт.
При этом

F может уменьшаться.

Для каждой переменной по отдельности можно протестировать гипотезу -

Partial regression coefficients.

Слайд 51

Регрессии
Multicollinearity = ill-conditioning
У нас много переменных, поэтому расчёт коэффициентов и статистик

сопряжён с операциями над матрицами.
Если какие-то независимые переменные сильно коррелируют между собой, возникает принципиальная проблема в расчётах (матрицы оказываются вырожденными) – коэффициенты регрессии не могут быть рассчитаны.
Признаки:
При удалении (добавлении) какой-либо переменной принципиально меняются коэффициенты при других переменных;
общее F для всей модели достоверно, а отдельные t-тесты для каждой переменной – нет;
при пошаговом анализе выбирая разные способы анализа мы получаем разные результаты.

Что делать? Искать коррелирующие переменные и исключать одну и них из модели.

Слайд 52

Регрессии
Выбор «лучших» независимых переменных
Как выбрать лучшую модель, чтобы наименьшим числом независимых

переменных описать набольшую долю изменчивости Y?
Используют пошаговые модели:
Backward elimination – постепенное удаление переменных из модели.
Forward selection – постепенное добавление перменных в модель
Смешанный пошаговый метод анализа.

Слайд 53

Simple linear regression

Слайд 54

linear regression
У бегемотов прибавка в весе зависела от этих переменных

Слайд 55

Коэффициенты наклона в стандартной форме
Часто «остатки» используют как самостоятельную переменную
Коэффициенты

a и b

Слайд 56

Слайд 57

Слайд 58

Требования к выборке для проведения регрессионного анализа
Ожидаемая зависимость переменной Y от

X должна быть линейной.
Для любого значения Xi Y должна иметь нормальное распределение, и residuals тоже должны быть распределены нормально.
Для любого значения Xi выборки для Y должны иметь одинаковую дисперсию (homogeneity).
Для любого значения Xi выборки для Y должны быть независимы друг от друга.
Размер выборки должен быть не меньше, чем в 10 раз превосходить число переменных в анализе (лучше – в 20 раз).
Следует исключить аутлаеры

Регрессии

Слайд 59

Для любого значения Xi Y должна иметь нормальное распределение
Например, прибавка в

весе для всех бегемотов, съедавших по 20 кг в день имеет нормальное распределение

Регрессии

Слайд 60

Нелинейная регрессия
Регрессии
экспоненциальный рост
Иногда связь между зависимой и независимой переменной нелинейная. Например:
асимптотическая

регрессия

логистический рост

Отдельный случай – полиномиальная регрессия.

В статистке каждый Xm обозначают как новую переменную и дальше анализируют почти как линейную модель.

Слайд 61

В случае, если наши переменные связаны друг с другом принципиально не

линейной зависимостью:
можно трансформировать данные и привести зависимость к линейной (логарифмирование, извлечение квадратного корня и пр.);
Можно предположить (или угадать) функцию, которая их связь отражает и потом сравнить данные с ней

Регрессии

Слайд 62

ANCOVA
Модель, когда исследуется действие и группирующей, и непрерывной независимых переменных на

непрерывную зависимую переменную

Пример: мы анализируем влияние типа пищи (группирующая независимая) и уровня кортикостероидов в крови (непрерывная независимая) на массу тигров (непрерывная зависимая).

Комбинированный тип анализа –
ANOVA + регрессионный анализ = ANCOVA (analysis of covariance)

Слайд 63

ANCOVA: прибавка в весе у бегемотов в разных типах местообитания

Слайд 64

Тип местообитания не влиял на прибавку в весе, она зависела только

от длительности кормления.

Слайд 65

Выбор модели в GLM
«Много» = 2 и больше

Слайд 66

1. исследователь решил узнать, как зависит размер дома у семьи от

дохода семьи (в год). Собрал данные от 50 семей. Н0? Статистический критерий? Как изменится результат теста, если доходы семей увеличатся каждая на 5000$ в год?
2. педиатры изучают прибавку в весе у младенцев (её оценивают как разницу в массе ребёнка в 2 мес и при рождении). При этом, в их выборке есть дети, которые вскармливаются искусственно, а есть те, которые находятся на грудном вскармливании. Кроме того, некоторые матери кормят младенцев по требованию, другие же – строго по расписанию. Влияют ли тип пищи и распорядок вскармливания на прибавку в весе? Н0? Статистический критерий?
3. владелец бассейна думает, что количество хлора, которое ежедневно затрачивается на то, чтобы содержать бассейн в чистоте, зависит от температуры воздуха и дня недели. Он стал отмечать, сколько каждый раз у него уходит хлора на очистку, и взял из газет данные о дневных температурах. Так он делал в течение полугода. Зависит ли количество хлора от температуры и дня недели? Н0? Статистический критерий?

Корреляции. Регрессионный анализ

Содержание

До сих пор нас в выборках интересовала только одна зависимая переменная*.Мы

Мы исследуем сусликов. И хотим узнать, связаны ли между собой у

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ характеризует силу связи между переменными. ЭТО ПРОСТО ПАРАМЕТР ОПИСАТЕЛЬНОЙ

Коэффициент корреляции Может принимать значения от -1 до +1Знак коэффициента показывает

r=1.0: если Петя высокого роста, значит, Гриша тоже высокий, это не

КорреляцииСкаттерплот(= диаграмма рассеяния; scatterplot, scatter diagram)Две характеристики: – наклон (направление связи)

Корреляции

Коэффициент корреляции Пирсона(Pearson product-moment correlation coefficient r)КорреляцииKarl Pearson (1857 –1936 )

стандартное отклонение для хвостастандартное отклонение для весаКоэффициент корреляции Пирсонадля каждого X

параметр ВЫБОРКИпараметр ПОПУЛЯЦИИВсё как для других параметров описательной статистики: среднего, дисперсии,

Чем определяются знак и величина коэффициента корреляции?здесь и X, и Y

Создаётся впечатление, что близкий к нулю коэффициент корреляции говорит о том,

1. Коэффициент корреляции Пирсона оценивает только линейную связь переменных!И он не

Корреляции

2. Необходимо, чтобы у переменных была значительная изменчивость! Если сформировать выборку

I'm not an outlier; I just haven't found my distribution yet!

Важное замечание:Корреляция совершенно не подразумевает наличие причинно-следственной связи!Она ВООБЩЕ НИЧЕГО о

Коэффициент корреляции Пирсона – параметр выборки.Можем ли мы на основе него

КорреляцииH0 : ρ=0H1: ρ≠0Связаны ли у сусликов масса тела и длина

Корреляциистандартная ошибка коэффициента корреляции

Pearson product-moment correlation coefficient r

Отвергаем Н0: Оказалось, что масса тела у сусликов положительно связана с

Бывают задачи, когда нам необходимо получить МАТРИЦУ КОРРЕЛЯЦИЙ (для многомерных методов

Можно сравнить два коэффициента корреляции от двух выборокДля двумерного нормального распределения

КорреляцииВ статьях обычно приводят сам коэффициент корреляции Пирсона (значение t не

Требование к выборке для тестирования гипотезы о коэффициенте корреляции Пирсона:1. Для

r=0.7: если Петя высокий, то, скорее всего, Гриша тоже высокий. Но

Регрессионный анализ – инструмент для количественного предсказания значения одной переменной на

То есть, РЕГРЕССИЯ (regression) – предсказание одной переменной на основании

Мы изучаем поведение молодых бегемотов в Африке. Мы хотим узнать, как

Мы ищем прямую, которая наилучшим образом будет предсказывать значения Y на

Простая линейная регрессия (linear regression)Y – зависимая переменнаяX – независимая переменнаяa

Задача сводится к поиску коэффициентов a и b.коэффициент корреляции Пирсонастандартные отклонения

Прибавка в весе в месяц, кгXYРегрессииМасса съеденной пищи в день

Если r=0.0, линия регрессии всегда горизонтальна. Чем ближе r к нулю,

РегрессииЛиния регрессии в стандартной формеa = 0, b = r(математическое объяснение

Ошибка предсказания (residual) = «остатки»e положительно для точек над прямой и

Метод наименьших квадратов:линию регрессии подбирают такую, чтобы общая сумма квадратов ошибок

РегрессииВ регрессионном анализе, как и в ANOVA, используют разные суммы квадратов

РегрессииНа самом деле, если r достоверно отличается от нуля, то и

РегрессииКоэффициент детерминацииr – коэффициент корреляции, r2 = R2Показывает, какую долю изменчивости

РегрессииДоверительный интервал для значений зависимой переменной: строится для каждого значения X,

РегрессииСравнение двух (и более) уравнений линейной регрессииСравнение коэффициентов наклона b1 b2Сравнение

РегрессииМножественная линейная регрессия и корреляция (multiple regression)Простая линейная регрессия: одна зависимая

РегрессииНапример, мы хотим узнать, как на прибавку в весе у бегемотов

РегрессииУравнение регрессии:для популяциидля выборкиЭто уже не прямая, это уже либо плоскость

РегрессииТестирование гипотез для множественной регрессии:Если для простой регрессии можно было проверить

РегрессииКоэффициент детерминации (coefficient of determination)Считается потому же принципу, что и для

РегрессииДобавление переменных в модель: SSregression увеличивается, поэтому R2 растёт. При этом

РегрессииMulticollinearity = ill-conditioningУ нас много переменных, поэтому расчёт коэффициентов и статистик

РегрессииВыбор «лучших» независимых переменныхКак выбрать лучшую модель, чтобы наименьшим числом независимых

Simple linear regression

linear regressionУ бегемотов прибавка в весе зависела от этих переменных

Коэффициенты наклона в стандартной формеЧасто «остатки» используют как самостоятельную переменную Коэффициенты

Требования к выборке для проведения регрессионного анализаОжидаемая зависимость переменной Y от

Для любого значения Xi Y должна иметь нормальное распределениеНапример, прибавка в

Нелинейная регрессияРегрессииэкспоненциальный ростИногда связь между зависимой и независимой переменной нелинейная. Например:асимптотическая

В случае, если наши переменные связаны друг с другом принципиально не

ANCOVAМодель, когда исследуется действие и группирующей, и непрерывной независимых переменных на

ANCOVA: прибавка в весе у бегемотов в разных типах местообитания

Тип местообитания не влиял на прибавку в весе, она зависела только

Выбор модели в GLM«Много» = 2 и больше

1. исследователь решил узнать, как зависит размер дома у семьи от

Похожие презентации

До сих пор нас в выборках интересовала только одна зависимая переменная*.
Мы

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ характеризует силу связи между переменными.
ЭТО ПРОСТО ПАРАМЕТР ОПИСАТЕЛЬНОЙ

Коэффициент корреляции
Может принимать значения от -1 до +1
Знак коэффициента показывает

Корреляции
Скаттерплот
(= диаграмма рассеяния; scatterplot, scatter diagram)
Две характеристики: – наклон (направление связи)

Коэффициент корреляции Пирсона
(Pearson product-moment correlation coefficient r)
Корреляции
Karl Pearson (1857 –1936 )

стандартное отклонение для хвоста
стандартное отклонение для веса
Коэффициент корреляции Пирсона
для каждого X

параметр ВЫБОРКИ
параметр ПОПУЛЯЦИИ
Всё как для других параметров описательной статистики: среднего, дисперсии,

Чем определяются знак и величина коэффициента корреляции?
здесь и X, и Y

1. Коэффициент корреляции Пирсона оценивает только линейную связь переменных!
И он не

Важное замечание:
Корреляция совершенно не подразумевает наличие причинно-следственной связи!
Она ВООБЩЕ НИЧЕГО о

Коэффициент корреляции Пирсона – параметр выборки.
Можем ли мы на основе него

Корреляции
H0 : ρ=0
H1: ρ≠0
Связаны ли у сусликов масса тела и длина

Корреляции
стандартная ошибка коэффициента корреляции

Можно сравнить два коэффициента корреляции от двух выборок
Для двумерного нормального распределения

Корреляции
В статьях обычно приводят сам коэффициент корреляции Пирсона (значение t не

Требование к выборке для тестирования гипотезы о коэффициенте корреляции Пирсона:
1. Для

То есть,
РЕГРЕССИЯ (regression) – предсказание одной переменной на основании

Простая линейная регрессия (linear regression)
Y – зависимая переменная
X – независимая переменная
a

Задача сводится к поиску коэффициентов a и b.
коэффициент корреляции Пирсона
стандартные отклонения

Прибавка в весе в месяц, кг
X
Y
Регрессии
Масса съеденной пищи в день

Регрессии
Линия регрессии в стандартной форме
a = 0, b = r
(математическое объяснение

Ошибка предсказания (residual) = «остатки»
e положительно для точек над прямой и

Метод наименьших квадратов:
линию регрессии подбирают такую, чтобы общая сумма квадратов ошибок

Регрессии
В регрессионном анализе, как и в ANOVA, используют разные суммы квадратов

Регрессии
На самом деле,
если r достоверно отличается от нуля, то и

Регрессии
Коэффициент детерминации
r – коэффициент корреляции, r2 = R2
Показывает, какую долю изменчивости

Регрессии
Доверительный интервал для значений зависимой переменной: строится для каждого значения X,

Регрессии
Сравнение двух (и более) уравнений линейной регрессии
Сравнение коэффициентов наклона b1 b2
Сравнение

Регрессии
Множественная линейная регрессия и корреляция (multiple regression)
Простая линейная регрессия: одна зависимая

Регрессии
Например, мы хотим узнать, как на прибавку в весе у бегемотов

Регрессии
Уравнение регрессии:
для популяции
для выборки
Это уже не прямая, это уже либо плоскость

Регрессии
Тестирование гипотез для множественной регрессии:
Если для простой регрессии можно было проверить

Регрессии
Коэффициент детерминации (coefficient of determination)
Считается потому же принципу, что и для

Регрессии
Добавление переменных в модель:
SSregression увеличивается, поэтому R2 растёт.
При этом

Регрессии
Multicollinearity = ill-conditioning
У нас много переменных, поэтому расчёт коэффициентов и статистик

Регрессии
Выбор «лучших» независимых переменных
Как выбрать лучшую модель, чтобы наименьшим числом независимых

linear regression
У бегемотов прибавка в весе зависела от этих переменных

Коэффициенты наклона в стандартной форме
Часто «остатки» используют как самостоятельную переменную
Коэффициенты

Требования к выборке для проведения регрессионного анализа
Ожидаемая зависимость переменной Y от

Для любого значения Xi Y должна иметь нормальное распределение
Например, прибавка в

Нелинейная регрессия
Регрессии
экспоненциальный рост
Иногда связь между зависимой и независимой переменной нелинейная. Например:
асимптотическая

ANCOVA
Модель, когда исследуется действие и группирующей, и непрерывной независимых переменных на

Выбор модели в GLM
«Много» = 2 и больше