Связи между двумя переменными (лекция 9)

Содержание

Слайд 2

Двумерные связи Таблицы сопряженности Корреляция и регрессия Количественный анализ данных. Тема 3. Двумерная статистика

Двумерные связи

Таблицы сопряженности
Корреляция и регрессия

Количественный анализ данных. Тема 3.

Двумерная статистика
Слайд 3

Исследовательская модель Будет ли назначено подсудимому реальный или условный срок в

Исследовательская модель
Будет ли назначено подсудимому реальный или условный срок в зависимости

от наличия детей

Количественный анализ данных. Тема 3. Двумерная статистика

Независимая переменная

Другие переменные

Зависимая переменная

Слайд 4

Таблица сопряженности Позволяет увидеть связи между двумя переменными Номинальной и номинальной

Таблица сопряженности

Позволяет увидеть связи между двумя переменными
Номинальной и номинальной
Номинальной и

порядковой
Порядковой и порядковой
Таблица сопряженности (contingency table, cross-tab) – статистический метод, который отражает совместное распределение двух или больше переменных с ограниченным числом категорий

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 5

Таблица сопряженности Количественный анализ данных. Тема 3. Двумерная статистика Вид срока

Таблица сопряженности

Количественный анализ данных. Тема 3. Двумерная статистика

Вид срока

(реальный / условный) – зависимая переменная, обычно располагается по строкам
Наличие иждивенцев – независимая переменная, обычно располагается по столбцам
Слайд 6

Таблица сопряженности, % В абсолютных цифрах таблица сопряженности неинформативна Количественный анализ

Таблица сопряженности, %

В абсолютных цифрах таблица сопряженности неинформативна

Количественный анализ данных. Тема

3. Двумерная статистика

Рассчитан % по столбцам: предполагается, что «наличие иждивенцев» – независимая переменная и показывает, какая доля из людей, имеющих иждивенцев получает реальный срок (57,3%) и какая доля из тех, у кого нет детей получает реальный срок (53,7%)

Слайд 7

Таблица сопряженности, % Количественный анализ данных. Тема 3. Двумерная статистика Рассчитан

Таблица сопряженности, %

Количественный анализ данных. Тема 3. Двумерная статистика

Рассчитан %

по строкам: предполагается, что «вид срока» – независимая переменная и показывает, какая доля из людей, получивших условный срок имеет иждивенцев (27,3%) и какая доля из тех, кто получил реальный срок имеет иждивенцев (30,3%)
Слайд 8

Таблица сопряженности между двумя порядковыми переменными Количественный анализ данных. Тема 3. Двумерная статистика

Таблица сопряженности между двумя порядковыми переменными

Количественный анализ данных. Тема 3. Двумерная

статистика
Слайд 9

Графическое изображение Количественный анализ данных. Тема 3. Двумерная статистика catplot sentsusp

Графическое изображение

Количественный анализ данных. Тема 3. Двумерная статистика

catplot sentsusp

dependants , percent(dependants) blabel(bar, position(outside) format(%3.1f)) ylabel(none) yscale(r(0,60)) ytitle("") subtitle("назначение вида наказани в зависимости от наличи иждивенцев") asyvars bar(1, bcolor(navy)) bar(2, bcolor(green))
Слайд 10

СВЯЗЬ МЕЖДУ ДВУМЯ МЕТРИЧЕСКИМИ ПЕРЕМЕННЫМИ Количественный анализ данных. Тема 3. Двумерная статистика

СВЯЗЬ МЕЖДУ ДВУМЯ МЕТРИЧЕСКИМИ ПЕРЕМЕННЫМИ

Количественный анализ данных. Тема 3. Двумерная статистика


Слайд 11

Переменные Sent – размер назначенного наказания (в разных единицах: штраф –

Переменные

Sent – размер назначенного наказания (в разных единицах: штраф –

в рублях, исправительные работы или тюремное заключение – в годах и месяцах)
Любая статья УК содержит информацию о нижней (lbound) и верхней (ubound) границе размера наказания
Наказание может быть назначено:
В пределах границ
Ниже или выше границ

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 12

Диаграмма рассеивания (интервальные данные) Количественный анализ данных. Тема 3. Двумерная статистика

Диаграмма рассеивания (интервальные данные)

Количественный анализ данных. Тема 3. Двумерная статистика

.

twoway (scatter sent lbound if inprison==1)

Зависимая переменная

Независимая переменная

Слайд 13

Корреляция между двумя переменными Корреляция – наличие связи между двумя переменными

Корреляция между двумя переменными
Корреляция – наличие связи между двумя переменными
Эта

связь может быть прямой и обратной
Размер связи меняется от -1 до 1
Прямая связь: большему значению X соответствует большее значение Y
Обратная: большему значению X соответствует меньшее значение Y
Гальтон: корреляция роста родителей и детей
Наиболее известен коэффициент линейной корреляции Пирсона r

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 14

Коэффициент корреляции Пирсона Каково направление и сила связи между размером наказания

Коэффициент корреляции Пирсона

Каково направление и сила связи между размером наказания

и возрастом?
Относятся ли судьи мягче к молодым подсудимым?
Строже, чтобы «не повадно было впредь»?
(гипотеза исправления и наказания)

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 15

Формула для коэффициента корреляции Корреляция – одно число, которое объясняет линейную

Формула для коэффициента корреляции

Корреляция – одно число, которое объясняет линейную связь

между двумя переменными
Основная формула
Корреляция – ковариация деленная на произведение соответствующих среднеквадратических отклонений

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 16

Характеристики корреляции Количественный анализ данных. Тема 3. Двумерная статистика Наклон: положительная

Характеристики корреляции

Количественный анализ данных. Тема 3. Двумерная статистика

Наклон:
положительная
отрицательная
Сила:


сильная,
слабая,
совершенная
Отсутствие корреляции
Нелинейная корреляция
Слайд 17

Требования Линейная связь между X и Y X и Y являются

Требования

Линейная связь между X и Y
X и Y являются метрическими

переменными
X и Y являются случайными величинами (выборка должна быть репрезентативна)
X и Y распределены нормально (но при N>30 требования к распределению снижаются)

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 18

Корреляция Количественный анализ данных. Тема 3. Двумерная статистика Как связаны размер наказания и количество непогашенных судимостей?

Корреляция

Количественный анализ данных. Тема 3. Двумерная статистика

Как связаны размер наказания

и количество непогашенных судимостей?
Слайд 19

Регрессионная линия Если точки на диаграмме рассеяния аппроксимируются прямой линией, то

Регрессионная линия

Если точки на диаграмме рассеяния аппроксимируются прямой линией, то мы

имеем дело с линейной регрессионной моделью

Количественный анализ данных. Тема 3. Двумерная статистика

Подгонка линии
Метод наименьших квадратов

Слайд 20

Подгонка линии Метод наименьших квадратов Количественный анализ данных. Тема 3. Двумерная статистика

Подгонка линии

Метод наименьших квадратов

Количественный анализ данных. Тема 3. Двумерная

статистика
Слайд 21

Регрессионный анализ Количественный анализ данных. Тема 3. Двумерная статистика

Регрессионный анализ

 

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 22

Регрессионная модель Анализ данных 2015-2016

Регрессионная модель

 

Анализ данных 2015-2016

Слайд 23

Количественный анализ данных. Тема 3. Двумерная статистика

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 24

Анализ данных 2015-2016

 

Анализ данных 2015-2016

Слайд 25

Количественный анализ данных. Тема 3. Двумерная статистика Зависимая переменная Независимая переменная Коэффициенты модели

Количественный анализ данных. Тема 3. Двумерная статистика

Зависимая переменная

Независимая переменная


Коэффициенты модели

Слайд 26

Регрессионное уравнение Регрессионное уравнение зависимости размера наказания от числа предыдущих судимостей

Регрессионное уравнение

Регрессионное уравнение зависимости размера наказания от числа предыдущих судимостей
Какой

срок дадут человеку с 3 судимостями?
Человеку с 3 судимостями дадут больше срок, чем человеку с 2 судимостями?
Насколько?
Сколько дадут человеку без судимостей?

Количественный анализ данных. Тема 3. Двумерная статистика

 

Слайд 27

Сумма квадратов Анализ данных 2015-2016

Сумма квадратов

 

Анализ данных 2015-2016

Слайд 28

R-квадрат Анализ данных 2015-2016

R-квадрат

 

Анализ данных 2015-2016

Слайд 29

Интерпретация Корреляция не значит каузация (причинно-следственная связь) X влияет на Y

Интерпретация

Корреляция не значит каузация (причинно-следственная связь)
X влияет на Y
Y влияет

на X
Z влияет на X и Y
Экстремальные значения могут сильно повлиять на построение модели

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 30

СВЯЗЬ МЕЖДУ МЕТРИЧЕСКОЙ И КАТЕГОРИАЛЬНОЙ ПЕРЕМЕННОЙ Количественный анализ данных. Тема 3. Двумерная статистика

СВЯЗЬ МЕЖДУ МЕТРИЧЕСКОЙ И КАТЕГОРИАЛЬНОЙ ПЕРЕМЕННОЙ

Количественный анализ данных. Тема 3. Двумерная

статистика
Слайд 31

Дисперсионный анализ Дисперсионный анализ позволяет ответить на вопрос, влияет ли интересующая

Дисперсионный анализ

Дисперсионный анализ позволяет ответить на вопрос, влияет ли интересующая

нас номинальная переменная (фактор) на количественную переменную (отклик)
Сравниваются средние переменной отклика для каждой группы (фактора)

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 32

Сравнение средних Одинаков ли размер наказания для тех, у кого есть

Сравнение средних

Одинаков ли размер наказания для тех, у кого есть иждивенцы

и для тех, у кого нет?

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 33

Сравнение, используя ящичковую диаграмму graph box sent , over (dependants) Количественный

Сравнение, используя ящичковую диаграмму

graph box sent , over (dependants)

Количественный анализ данных.

Тема 3. Двумерная статистика
Слайд 34

Виды связей между переменными Количественный анализ данных. Тема 3. Двумерная статистика

Виды связей между переменными

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 35

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ - 3 Количественный анализ данных. Тема 3. Двумерная статистика

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ - 3

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 36

Пропущенные значения (missing data) Dealing with missing data: Key assumptions and

Пропущенные значения (missing data)

Dealing with missing data: Key assumptions and

methods for applied analysis Marina Soley-Bori msoley@bu.edu

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 37

Стандартизация показателей Z-стандартизация Позволяет сравнивать значения, измеренные в разных шкалах Например,

Стандартизация показателей

Z-стандартизация
Позволяет сравнивать значения, измеренные в разных шкалах
Например, при поступлении на

PhD
Петр подал результаты сдачи IELTS = 7,5 (Mean (IELTS) = 6,02, STD = 1,2)
Вероника подала результаты сдачи TOEFL = 97 (mean = 85, STD = 18)
У кого английский лучше?

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 38

Операция стандартизации Количественный анализ данных. Тема 4. Вероятность и тестирование гипотез

Операция стандартизации

 

Количественный анализ данных. Тема 4. Вероятность и тестирование гипотез

Слайд 39

Правило «трех сигм» Количественный анализ данных. Тема 4. Вероятность и тестирование гипотез

Правило «трех сигм»

Количественный анализ данных. Тема 4. Вероятность и тестирование гипотез

Слайд 40

Создание таблиц сопряженности tabout gravity education using table2.doc, append dpcomma cells

Создание таблиц сопряженности

tabout gravity education using table2.doc, append dpcomma cells

(row)
tabout gravity education using table2.doc, append dpcomma cells (row)

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 41

Построение гистограмм для двух категорий catplot sentsusp dependants , percent(dependants) blabel(bar,

Построение гистограмм для двух категорий

catplot sentsusp dependants , percent(dependants) blabel(bar, position(outside)

format(%3.1f)) ylabel(none) yscale(r(0,60)) ytitle("") subtitle("назначение вида наказани в зависимости от наличи иждивенцев") asyvars bar(1, bcolor(navy)) bar(2, bcolor(green))

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 42

Построение корреляций Корреляция между двумя переменными cor sent episodes Все парные

Построение корреляций

Корреляция между двумя переменными
cor sent episodes
Все парные корреляции между набором

переменных
pwcorr sent episodes age

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 43

Регрессионный анализ: этапы Построить модель (что является зависимой переменной, что независимой)

Регрессионный анализ: этапы

Построить модель (что является зависимой переменной, что независимой)
Построить

диаграмму рассеяния
Построить описательные статистики для всех переменных, включенных в модель

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 44

Диаграмма рассеяния Диаграмма рассеяния twoway (scatter sent priors_count) Регрессионная линия graph

Диаграмма рассеяния

Диаграмма рассеяния
twoway (scatter sent priors_count)
Регрессионная линия
graph twoway lfit

sent priors_count
Диаграмма рассеяния и регрессионная линия на одном графике
graph twoway (lfit sent priors_count) (scatter sent priors_count) ,

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 45

Количественный анализ данных. Тема 3. Двумерная статистика

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 46

Анализ данных 2015-2016 Коэффициент b (наклон) Зависимая переменная Независимая переменная Коэффициент детерминации R2 Константа (а)

Анализ данных 2015-2016

Коэффициент b (наклон)

Зависимая переменная

Независимая переменная

Коэффициент детерминации R2

Константа

(а)
Слайд 47

Анализ данных 2015-2016 (А) (E) (В) (F) (С) (D) – объясненная

Анализ данных 2015-2016

(А)

(E)

(В)

(F)

(С)

(D)

– объясненная регрессией сумма квадратов отклонений (RSS)
- сумма квадратов

остатков (ESS)
- общая сумма квадратов отклонений зависимой переменной от ее среднего (TSS)
- средняя сумма квадратов отклонений модели (RSS/k)
- средняя сумма квадратов отклонений остатков (ESS/n-2)
- средняя общая сумма квадратов отклонений (TSS/(n-1)
Слайд 48

Вывод во внешний файл ssc install outreg2 outreg2 using regres1.doc, replace

Вывод во внешний файл

ssc install outreg2
outreg2 using regres1.doc, replace ctitle

(“Модель 1") label addtext(Other controls , NO)

Количественный анализ данных. Тема 3. Двумерная статистика

Слайд 49

Описательные статистики для набора переменных Количественный анализ данных. Тема 3. Двумерная

Описательные статистики для набора переменных

Количественный анализ данных. Тема 3. Двумерная

статистика

preserve
keep(sent priors_count)
outreg2 using table3.doc, replace sum(log) keep(sent priors_count)

Слайд 50

Отдельные описательные статистики (опция eqkeep) outreg2 using table3.doc, replace sum(log) keep(sent

Отдельные описательные статистики (опция eqkeep)

outreg2 using table3.doc, replace sum(log) keep(sent priors_count)

eqkeep(N mean sd)

Количественный анализ данных. Тема 3. Двумерная статистика