Корреляция

Содержание

Слайд 2

Постановка проблемы Четыре вопроса: Вопрос 1. Существует ли связь между двумя

Постановка проблемы

Четыре вопроса:
Вопрос 1. Существует ли связь между двумя или более

переменными?
Вопрос 2. Какой тип имеет эта связь?
Вопрос 3. Насколько она сильна?
Вопрос 4. Какой можно сделать прогноз, основываясь на этой связи?
Корреляционный анализ – статистический метод, позволяющий определить, существует ли зависимость между переменными и на сколько она сильна.
Слайд 3

Простая и множественная связь Множественная связь означает изучение несколько переменных. Простая

Простая и множественная связь

Множественная связь означает изучение несколько переменных.

Простая связь

означает изучение двух переменных.

Стаж менеджера
по продажам
на фирме

Годовой объем
продаж

Успеваемость
студента

Успеваемость
в школе

Время
на занятия

Коэффициент
IQ

Слайд 4

Визуальный анализ связи Рассматриваем две переменные: «продолжительность занятий» студентов перед экзаменом

Визуальный анализ связи

Рассматриваем две переменные: «продолжительность занятий» студентов перед экзаменом и

«итоговая оценка» (из 100 балов). Пытаемся визуально определить связь. Правда ли, что чем меньше времени занятий, тем выше оценка?
Слайд 5

Положительная и отрицательная зависимость Визуально видно, что имеет место линейная зависимость,

Положительная и отрицательная зависимость

Визуально видно, что имеет место линейная зависимость, которая

отрицательна. Это означает, что увеличение переменной x приводит к уменьшению второй переменной y.
Слайд 6

Отсутствие зависимости График сообщает нам об отсутствии зависимости продолжительности занятий в

Отсутствие зависимости

График сообщает нам об отсутствии зависимости продолжительности занятий в неделю

(в часах) от количества съеденный студентом булочек (в штуках)
Слайд 7

Параметрический критерий Формула для вычисления r (Пирсона) Коэффициент корреляции вычисляется по

Параметрический критерий Формула для вычисления r (Пирсона)

Коэффициент корреляции вычисляется по формуле:
Это, так

называемый, коэффициент корреляции Пирсона, равный произведению моментов. Он назван по имени статистика Карла Пирсона, который первый провел исследования в этой области.
Слайд 8

Коэффициент корреляции Коэффициент корреляции измеряет силу и направление связи между двумя

Коэффициент корреляции

Коэффициент корреляции измеряет силу и направление связи между двумя переменными.


Если между переменными существует:
сильная положительная связь, то значение r будет близко к +1.
сильная отрицательная связь, то значение r будет близко к –1.
нет линейной связи или она очень слабая, значение r будет близко к 0.

Слайд 9

Градация силы связи, представленная шкалой Чертока

Градация силы связи, представленная шкалой Чертока

Слайд 10

Пять видов связи между переменными 1. Прямая причинно-следственная связь между переменными

Пять видов связи между переменными

1. Прямая причинно-следственная связь между переменными (х

определяет у).
2. Обратная причинно-следственная связь между переменными (у определяет х).
3. Связь между переменными x и y вызвана третьей переменной z.
4. Взаимосвязь между несколькими переменными.
5. Зависимость случайна.
Слайд 11

Анализ взаимосвязи признаков параметрические методы Корреляционный анализ по Пирсону непараметрические методы

Анализ взаимосвязи признаков

параметрические методы
Корреляционный анализ по Пирсону

непараметрические методы
Корреляционный анализ по Спирмену,

Кендаллу, гамма и т.д.
Слайд 12

Непараметрические критерии. Ранговая корреляция 1. Ранговая корреляция. Коэффициент Спирмена 2. Ранговая корреляция. Коэффициент Кендалла

Непараметрические критерии. Ранговая корреляция

1. Ранговая корреляция. Коэффициент Спирмена
2. Ранговая корреляция. Коэффициент

Кендалла
Слайд 13

Две порядковые переменные Полная связь означает, что если упорядочить объекты по

Две порядковые переменные

Полная связь означает, что если упорядочить объекты по возрастанию

первой переменной, то они окажутся упорядоченными и по второй.
В этом случае, для того, чтобы узнать порядок объектов по второй переменной её можно и не измерять, если известны все значения первой переменной.
Пример: если мы знаем оценки всех учеников в классе по математике, то мы знаем и порядок расположения всех учеников относительно их отметок по физике!
Слайд 14

Основная идея - коэффициент Спирмена 1. Видно, что связь есть! (штангисты

Основная идея - коэффициент Спирмена

1. Видно, что связь есть!
(штангисты 1,2,3

– призеры и по
толчку и по рывку)
2. Видно, что связь неполная
(была бы полной – то места
совпадали бы)
3. Идея: чем сильнее места
различаются, тем слабее связь
Слайд 15

Полная связь Толчок Рывок Точки с координатами (место в толчке, место

Полная связь

Толчок

Рывок

Точки с координатами (место в толчке, место в рывке) лежат
на

одной прямой
Слайд 16

Неполная связь Толчок Рывок Точки с координатами (место в толчке, место

Неполная связь

Толчок

Рывок

Точки с координатами (место в толчке, место в рывке) НЕ

лежат
на одной прямой, но тенденция есть
Слайд 17

Коэффициент ранговой корреляции Спирмена Итак, если связь полная, то, хотя пары

Коэффициент ранговой корреляции Спирмена

Итак, если связь полная, то, хотя пары

(xi,yi) не обязательно лежат на одной прямой, пары (rxi,ryi) лежат на одной прямой.
То есть коэффициент связи для двух порядковых переменных вычисляем как коэффициент линейной корреляции для их рангов:

где

Это коэффициент ранговой корреляции Спирмена.
В примере со штангистами мы обошлись без ранжирования, потому что значения совпадали с их рангами.

Слайд 18

Считаем...

Считаем...

Слайд 19

Замечание: балл по математике балл по физике В общем случае, если

Замечание:

балл по математике

балл по физике

В общем случае, если связь полная, то

пары (xi,yi) не обязательно лежат на одной прямой!
Слайд 20

Пример (продолжение) ранг по математике ранг по физике

Пример (продолжение)

ранг по математике

ранг по физике

Слайд 21

Еще один пример

Еще один пример

Слайд 22

Альтернативный подход - коэффициент Кендалла Строим все возможные пары из 2

Альтернативный подход - коэффициент Кендалла

Строим все возможные пары
из 2 штангистов (15

пар)
2. Если порядок мест в паре по
рывку и толчку совпадает, то
называем пару проверсией.
3. Если связь полная, то все 15
пар – проверсии.
4. Идея: чем меньше проверсий,
тем слабее связь!
Слайд 23

Возвращаемся к штангистам... Шаг первый. Строим все возможные пары штангистов. В

Возвращаемся к штангистам...

Шаг первый. Строим все возможные пары штангистов. В общем

случае их всего n(n-1)/2.
В примере их всего 15:
Слайд 24

Шаг второй ... Считаем количество проверсий P и инверсий I. Что

Шаг второй ...

Считаем количество проверсий P и инверсий I. Что это

такое?

Рассмотрим пару (2,4):

И в толчке, и в рывке штангист 2 занял более высокое место, чем штангист 4. Такая пара называется согласованной (проверсией).

Еще пример: пара (5,6):

Слайд 25

Несогласованные пары (инверсии) Рассмотрим пару (2,3): В толчке штангист 2 занял

Несогласованные пары (инверсии)

Рассмотрим пару (2,3):

В толчке штангист 2 занял более высокое

место, чем
штангист 3, а в рывке – наоборот. Такая пара называется
несогласованной (инверсией).

Еще пример: пара (4,5):

Слайд 26

Коэффициент Кендалла Шаг третий. Находим коэффициент корреляции по формуле

Коэффициент Кендалла
Шаг третий.
Находим коэффициент корреляции по формуле

Слайд 27

Подсчет проверсий и инверсий Упорядочиваем штангистов по возрастанию первой переменной (месту в толчке):

Подсчет проверсий и инверсий

Упорядочиваем штангистов по возрастанию первой переменной
(месту в

толчке):
Слайд 28

Подсчет проверсий и инверсий Повторяем подсчет для остальных строк. Сравниваем место

Подсчет проверсий и инверсий

Повторяем подсчет для остальных строк. Сравниваем
место в рывке

только с последующими строками, так
как с предыдущими уже сравнили раньше. Получаем:

Итак: проверсий 11, инверсий 4, всего 15.

Слайд 29

Считаем коэффициент Кендалла: или по альтернативной формуле:

Считаем коэффициент Кендалла:

или по альтернативной формуле: