Корреляционный анализ

Содержание

Слайд 2

Корреляционный анализ Вообще, в природе, и в медицине в частности, существуют

Корреляционный анализ

Вообще, в природе, и в медицине в частности, существуют вполне

определённые связи признаков. Например, связь между строением тела и предрасположенностью к тем или иным заболеваниям, связь между телосложением и темпераментом.
Наиболее простым видом связи между величинами является функциональная зависимость, когда какая-либо величина определяется как однозначная функция другой или нескольких других величин. Иными словами, функциональная связь – это такая связь между переменными, при которой каждому значению одной величины соответствуют строго определённые значения другой. Например, к функциональной относится зависимость между высотой местности и насыщением гемоглобина кислородом.
Однако, нередко встречаются и такие связи между величинами, которые нельзя отнести к функциональным зависимостям. К ним, например, относятся связи между урожаем и количеством осадков или между ростом отцов и сыновей. Известно, что между ростом и массой тела человека существует положительная связь, т.е. более высокие люди обычно имеют большую массу, но бывают и исключения.
Слайд 3

Если связь между показателями проявляется не в каждом случае, а заметна

Если связь между показателями проявляется не в каждом случае, а заметна

лишь при многократном сопоставлении рассматриваемых признаков, то её называют корреляционной (от лат. correlatio – связь, соответствие).
Корреляция (Correlation) – связь между двумя или более переменными (в последнем случае корреляция называется множественной). Цель корреляционного анализа – установление наличия или отсутствия этой связи.
Корреляционная зависимость характеризуется тем, что каждому значению одной величины соответствует множество возможных значений другой величины. Например, при росте человека 170 см масса тела может быть 70 кг, 65 кг, 72 кг и т.д. Случайный разброс этих возможных значений объясняется влиянием большого числа дополнительных факторов, от которых отвлекаются, изучая связь между данными величинами.
Слайд 4

Пусть сделаны измерения двух признаков Х и У: Х1, Х2,...,Хn и

Пусть сделаны измерения двух признаков Х и У:
Х1, Х2,...,Хn и

Y1, Y2,...,Yn.
Необходимо установить, существует ли связь между изменениями признаков Х и Y и, если эта связь существует, то определить её тип, глубину и достоверность.
Для качественной оценки связи между признаками строят график.
Слайд 5

Экспериментальные графики для величин Х и Y, находящихся в корреляционной зависимости,

Экспериментальные графики для величин Х и Y, находящихся в корреляционной зависимости,

состоят из ряда точек, не укладывающихся на какую-либо определённую кривую. Каждая точка (x,y) на плоскости отображает результат одного измерения. Такой точечный график называют корреляционным полем. По корреляционному полю можно качественно оценить наличие или отсутствие зависимости и указать положительна она или отрицательна.
Слайд 6

Количественная оценка. В случае, когда имеются две переменных, значения которых измерены

Количественная оценка.
В случае, когда имеются две переменных, значения которых измерены

в цифровой шкале отношений (единицы измерений при этом не важны – например, масса тела может быть измерена в граммах, килограммах, тоннах – они не влияют на значение коэффициента корреляции), используется коэффициент линейной корреляции Пирсона r, который принимает значения от -1 до +1 (нулевое его значение свидетельствует об отсутствии корреляции).
Слайд 7

Корреляционные поля

Корреляционные поля

Слайд 8

Проанализировав знак коэффициента корреляции, определяют тип корреляционной связи: если r >

Проанализировав знак коэффициента корреляции, определяют тип корреляционной связи:
если r > 0,

то связь прямая (положительная), т.е. при возрастании одной величины другая в среднем тоже возрастает;
если r < 0, то связь обратная (отрицательная), т.е. при возрастании одной величины другая имеет тенденцию в среднем убывать.
Если статистическая связь между признаками отсутствует, то r = 0.
Величина коэффициента корреляции показывает глубину линейной связи между двумя выборками, т.е. характеризует степень близости зависимости величин X и Y к линейной функциональной зависимости. Графически это выражается теснотой или разбросанностью точек корреляционного поля.
Слайд 9

Глубина корреляционной связи определяется, исходя из следующих критериев: если 0 если

Глубина корреляционной связи определяется, исходя из следующих критериев:
если 0< |r| ≤0,3,

то связь слабая;
если 0,3< |r| ≤0,5, то связь умеренная;
если 0,5< |r| ≤0,7, то связь значительная;
если 0,7< |r| ≤0,9, то связь сильная;
если 0,9< |r| <1, то связь очень сильная.
При |r| =1 связь между величинами функциональная.
Слайд 10

Таким образом, чем ближе абсолютная величина r к единице, тем сильнее

Таким образом, чем ближе абсолютная величина r к единице, тем сильнее

связь между признаками и теснее расположены точки на графике. Однако, для обоснованного вывода о наличии связи не достаточно анализа величины коэффициента корреляции; необходимо проверить его достоверность. Иными словами, требуется ответить на вопрос: является ли вычисленный по данным наблюдений коэффициент корреляции значимым, т.е. можно ли верить полученному значению коэффициента, учитывая случайный характер выборок значений исследуемых величин. Значимость корреляционной связи при определённом уровне доверительной вероятности можно проверить с помощью критерия Стьюдента.
Слайд 11

В случае линейной корреляции между признаками Х и Y алгоритм расчетов по данному методу следующий:

В случае линейной корреляции между признаками Х и Y алгоритм расчетов

по данному методу следующий:

 

Слайд 12

 

Слайд 13

 

Слайд 14

Сравнивают критерий достоверности tr со стандартными значениями критериев Стьюдента и делают

Сравнивают критерий достоверности tr со стандартными значениями критериев Стьюдента и делают

вывод о достоверности коэффициента корреляции:
если tr ≥ tst0,999 , то достоверность коэффициента корреляции 99,9%;
если tr ≥ tst0,99 , то достоверность коэффициента корреляции 99%;
если tr ≥ tst0,95 , то достоверность коэффициента корреляции 95%;
если tr < tst0,95 , то коэффициент корреляции недостоверен, доверять ему нельзя.
Слайд 15

Коэффициент корреляции Пирсона также может быть вычислен в программе Excel функцией

Коэффициент корреляции Пирсона также может быть вычислен в программе Excel функцией

КОРРЕЛ.
Отметим, что коэффициент корреляции Пирсона симметричен, то есть не зависит от перестановки переменных: r(y, x) = r(x, y). Универсальных рецептов установления корреляции между немонотонно и нелинейно связанными переменными на сегодняшний день не существует.
Слайд 16

Задание В ходе обследования 9 пациентов среди прочих показателей измеряли их

Задание

В ходе обследования 9 пациентов среди прочих показателей измеряли их

рост и вес. Результаты измерений приведены в таблице:
Необходимо провести корреляционный анализ между весом и ростом пациентов. Построить корреляционное поле.
Слайд 17

1. Вводим исходные данные. Вычисляем средние арифметические значения обоих признаков:

1. Вводим исходные данные. Вычисляем средние арифметические значения обоих признаков:

Слайд 18

2. Вычисляем сумму произведений отклонений. Для этого вначале найдем отклонение каждого

2. Вычисляем сумму произведений отклонений. Для этого вначале найдем отклонение каждого

значения х и у от среднего значения. Обратите внимание на использование в формуле абсолютной ссылки.
Слайд 19

3. Затем найдем произведение ΔХ и ΔY.

3. Затем найдем произведение ΔХ и ΔY.

Слайд 20

4. И наконец, подсчитаем сумму произведений отклонений, используя функцию СУММ.

4. И наконец, подсчитаем сумму произведений отклонений, используя функцию СУММ.

Слайд 21

5. Вычисляем произведение сумм квадратов отклонений. Найдем ΔХ2 и ΔY2.

5. Вычисляем произведение сумм квадратов отклонений. Найдем ΔХ2 и ΔY2.

Слайд 22

Затем подсчитаем сумму в каждом получившемся столбце.

Затем подсчитаем сумму в каждом получившемся столбце.

Слайд 23

И найдем произведение сумм квадратов отклонений.

И найдем произведение сумм квадратов отклонений.

Слайд 24

6. Определяем коэффициент r линейной парной корреляции, используя приведенную формулу.

6. Определяем коэффициент r линейной парной корреляции, используя приведенную формулу.

Слайд 25

7. Оцениваем тип и глубину корреляционной связи между признаками Х и У.

7. Оцениваем тип и глубину корреляционной связи между признаками Х и

У.
Слайд 26

8. Вычисляем среднюю ошибку коэффициента корреляции. Обратите внимание, что вид формулы

8. Вычисляем среднюю ошибку коэффициента корреляции. Обратите внимание, что вид формулы

в строке формул соответствует приведенной выше.
Слайд 27

9. Определяем критерий достоверности коэффициента корреляции.

9. Определяем критерий достоверности коэффициента корреляции.

Слайд 28

10. Из таблицы Стьюдента для числа степеней свободы ν = n

10. Из таблицы Стьюдента для числа степеней свободы ν = n

- 2 определяем стандартные значения критериев Стьюдента, соответствующие трем порогам достоверности: 0,95; 0,99; 0,999.
Слайд 29

11. Сравниваем критерий достоверности tr со стандартными значениями критериев Стьюдента и

11. Сравниваем критерий достоверности tr со стандартными значениями критериев Стьюдента и

делаем вывод о достоверности коэффициента корреляции.
Слайд 30

13. Вычислим коэффициент корреляции Пирсона с помощью функции КОРРЕЛ. В качестве

13. Вычислим коэффициент корреляции Пирсона с помощью функции КОРРЕЛ. В качестве

массивов 1 и 2 выберем наши массивы X и Y.
Слайд 31

14. Построим корреляционное поле, используя вкладку Диаграммы, и выбрав тип диаграммы Точечная.

14. Построим корреляционное поле, используя вкладку Диаграммы, и выбрав тип диаграммы

Точечная.
Слайд 32

Т.к. диаграмма смещена в правый верхний угол, поместим ее в центр

Т.к. диаграмма смещена в правый верхний угол, поместим ее в центр

координатной плоскости. Для этого изменим минимальные значения осей X и Y.
Слайд 33