Корреляционный и регрессионный анализы. (Лекция 8)

Содержание

Слайд 2

Функциональная зависимость: каждому возможному значению переменной х ставится в соответствие единственное значение переменной y.

Функциональная зависимость:

каждому возможному значению переменной х ставится в соответствие единственное значение

переменной y.
Слайд 3

O r ФУНКЦИОНАЛЬНАЯ СВЯЗЬ

O

r

ФУНКЦИОНАЛЬНАЯ СВЯЗЬ

Слайд 4

ФУНКЦИОНАЛЬНАЯ СВЯЗЬ S

ФУНКЦИОНАЛЬНАЯ СВЯЗЬ

S

Слайд 5

ФУНКЦИОНАЛЬНАЯ СВЯЗЬ

ФУНКЦИОНАЛЬНАЯ СВЯЗЬ

Слайд 6

Стохастической зависимостью называют зависимость, при которой изменение одной из величин влечет изменение распределения другой.

Стохастической зависимостью

называют зависимость, при которой изменение одной из величин влечет

изменение распределения другой.
Слайд 7

Корреляционной зависимостью называют зависимость, при которой изменение одной из величин влечет изменение среднего значения другой.

Корреляционной зависимостью

называют зависимость, при которой изменение одной из величин влечет

изменение среднего значения другой.
Слайд 8

Слайд 9

Линия регрессии – это графическое представление ведущей тенденции связи между количественными признаками.

Линия регрессии – это графическое представление ведущей тенденции связи между количественными

признаками.
Слайд 10

Чем ближе точки в поле диаграммы рассеяния к линии регрессии, тем

Чем ближе точки в поле диаграммы рассеяния к линии регрессии, тем сильнее

воздействие независимой переменной на зависимую (тем сильнее корреляция между обеими переменными).
Слайд 11

ТЕОРИЯ КОРРЕЛЯЦИИ ЗАДАЧИ Установить ФОРМУ корреляционной связи Установить ТЕСНОТУ корреляционной связи

ТЕОРИЯ
КОРРЕЛЯЦИИ

ЗАДАЧИ

Установить
ФОРМУ
корреляционной
связи

Установить
ТЕСНОТУ
корреляционной
связи

решает

регрессионный анализ

решает

корреляционный анализ

Слайд 12

Корреляционный анализ Коэффициент линейной корреляции Пирсона. Свойства коэффициента корреляции. Оценка значения коэффициента корреляции.

Корреляционный анализ

Коэффициент линейной корреляции Пирсона.
Свойства коэффициента корреляции.
Оценка значения коэффициента корреляции.

Слайд 13

Простой (выборочный) коэффициент корреляции Пирсона

Простой (выборочный) коэффициент корреляции Пирсона

Слайд 14

Свойства коэффициента корреляции 1. Величина коэффициента корреляции заключена в пределах -1≤ r ≤ 1, 1

Свойства коэффициента корреляции

1. Величина коэффициента корреляции заключена в пределах
-1≤ r ≤ 1,

1

Слайд 15

Свойства коэффициента корреляции причем 0 если при увеличении значений одной из

Свойства коэффициента корреляции

причем
0если при увеличении значений одной из величин

значения другой имеют тенденцию к увеличению (прямая связь),

1

Слайд 16

Свойства коэффициента корреляции и -1≤ r если при увеличении значений одной

Свойства коэффициента корреляции

и
-1≤ r <0,
если при увеличении значений одной из величин

значения другой имеют тенденцию к уменьшению (обратная связь).

1

Слайд 17

Свойства коэффициента корреляции тогда и только тогда, когда случайные величины X

Свойства коэффициента корреляции

тогда и только тогда, когда случайные величины X и

Y линейно связаны, т.е. точки с координатами (xi, yi) лежат на одной прямой.

2

Слайд 18

Свойства коэффициента корреляции 3

Свойства коэффициента корреляции

3

Слайд 19

Свойства коэффициента корреляции 3

Свойства коэффициента корреляции

3

Слайд 20

Свойства коэффициента корреляции 4 r=0 Если X и Y статистически независимы, то

Свойства коэффициента корреляции

4

r=0

Если X и Y статистически независимы, то

Слайд 21

Свойства коэффициента корреляции 4 r=0 то связь между случайными величинами либо

Свойства коэффициента корреляции

4

r=0

то связь между случайными величинами либо отсутствует,

Если

либо не

носит линейного характера.
Слайд 22

Свойства коэффициента корреляции 5 Для нормально распределенных Х и Y из того, что следует их независимость.

Свойства коэффициента корреляции

5

Для нормально распределенных Х и Y из того, что

следует

их независимость.
Слайд 23

Оценка значения коэффициента корреляции

Оценка значения коэффициента корреляции

Слайд 24

1) оценка тесноты статистической линейной связи по абсолютному значению r:

1) оценка тесноты статистической линейной связи по абсолютному значению r:

Слайд 25

знак «+» – прямая связь, знак «–» – обратная связь. 2)

знак «+» – прямая связь,
знак «–» – обратная связь.

2) оценка

направления статистической линейной связи по знаку r:
Слайд 26

3) оценка значимости полученного результата: Уровень значимости α, говорит о том,

3) оценка значимости полученного результата:

Уровень значимости α, говорит о том, с

какой надежностью γ=(1-α)×100% можно доверять полученному результату.
Если α близок к нулю, можно доверять вычисленному значению коэффициента корреляции;
когда α>0,2, к значению коэффициента корреляции следует относиться с большой осторожностью.
Слайд 27

Расчетная таблица

Расчетная таблица

Слайд 28

связь значительная (| r | = 0,69 0,5 прямая (знак «+»).

связь значительная (| r | = 0,69 0,5< | r |

≤ 0,7),
прямая (знак «+»).
Слайд 29

Регрессионный анализ Классификация. Основные задачи. Анализ адекватности модели.

Регрессионный анализ

Классификация.
Основные задачи.
Анализ адекватности модели.

Слайд 30

I. Классификация

I. Классификация

Слайд 31

1.В зависимости от числа явлений – простой (регрессия между двумя переменными);

1.В зависимости от числа явлений

– простой (регрессия между двумя переменными);

– множественной (регрессия между

зависимой переменной Y и несколькими независимыми переменными (X1, X2, …, Xn)).
Слайд 32

2.В зависимости от формы – линейной (отображается линейной функцией, а между

2.В зависимости от формы

– линейной (отображается линейной функцией, а между изучаемыми явлениями

существуют линейные отношения);

– нелинейной (отображается нелинейной функцией, между изучаемыми переменными связь носит нелинейный характер).

Слайд 33

3. По характеру связи между включенными в рассмотрение переменными – положительной

3. По характеру связи между включенными в рассмотрение переменными

– положительной (увеличение значения

независимой переменной приводит к увеличению значения зависимой переменной и наоборот);

– отрицательной (с увеличением значения независимой переменной значение зависимой переменной уменьшается).

Слайд 34

4. По типу – непосредственной (в этом случае причина оказывает прямое

4. По типу

– непосредственной (в этом случае причина оказывает прямое воздействие на

следствие, т.е. зависимая и независимая переменные связаны непосредственно друг с другом);

– косвенной (независимая переменная оказывает опосредованное действие через третью или ряд других переменных на зависимую переменную);

– ложной (нонсенс регрессия) – может возникнуть при поверхностном и формальном подходе к исследуемым процессам и явлениям.

Слайд 35

II. Основные задачи

II. Основные задачи

Слайд 36

Основные задачи 1. Определение формы зависимости. 2. Отыскание подходящих значений неизвестных

Основные задачи

1. Определение формы зависимости.
2. Отыскание подходящих значений неизвестных параметров.
3. Оценка неизвестных значений зависимой

переменной.
Слайд 37

1. Определение формы зависимости

1. Определение формы зависимости

Слайд 38

1. Определение формы зависимости

1. Определение формы зависимости

Слайд 39

2. Отыскание подходящих значений неизвестных параметров

2. Отыскание подходящих значений неизвестных параметров

Слайд 40

2. Отыскание подходящих значений неизвестных параметров 2.1 измеряем расстояние от каждой

2. Отыскание подходящих значений неизвестных параметров

2.1 измеряем расстояние от каждой точки

до прямой по оси y :
⎪yi-f(yi)⎪;
Слайд 41

2. Отыскание подходящих значений неизвестных параметров 2.2 возводим эти расстояния в квадрат: ⎪yi-f(xi)⎪2;

2. Отыскание подходящих значений неизвестных параметров

2.2 возводим эти расстояния в квадрат:

⎪yi-f(xi)⎪2;
Слайд 42

2. Отыскание подходящих значений неизвестных параметров 2.3 суммируем по всем точкам:

2. Отыскание подходящих значений неизвестных параметров

2.3 суммируем по всем точкам:
S=⎪y1-f(x1)⎪2+⎪y2-f(x2)⎪2+...+⎪yi-f(yi)⎪2;

2.4 требуем,

чтобы полученная сумма квадратов расстояний была минимальной
S ⇒ min
Слайд 43

В случае линейной регрессии y(x) = ax+b

В случае линейной регрессии y(x) = ax+b

Слайд 44

3. Оценка неизвестный значений зависимой переменной х у y = f(x)

3. Оценка неизвестный значений зависимой переменной

х

у

y = f(x)

Слайд 45

3. Оценка неизвестный значений зависимой переменной х у y = f(x)

3. Оценка неизвестный значений зависимой переменной

х

у

y = f(x)

Слайд 46

Анализ адекватности модели

Анализ адекватности модели

Слайд 47

? Предсказанные значения – значения, соответствующие наблюдаемым независимым значениям xi, вычисленные

? Предсказанные значения – значения, соответствующие наблюдаемым независимым значениям xi, вычисленные

согласно уравнению y=f(x) (будем обозначать yi*).

? Остатки – разности между наблюдаемыми значениями и предсказанными: yi-f(xi)= yi-yi*

Слайд 48

Слайд 49

Коэффициент детерминации

Коэффициент детерминации

Слайд 50

Коэффициент детерминации Свойства: а) 0≤RI≤1; б) Чем ближе коэффициент детерминации к

Коэффициент детерминации

Свойства:
а) 0≤RI≤1;
б) Чем ближе коэффициент детерминации к 1, тем лучше

регрессия «объясняет» зависимость данных;
в) В случае линейной регрессии
Слайд 51

Средняя ошибка аппроксимации

Средняя ошибка аппроксимации

Слайд 52

Анализ остатков Если модель подобрана правильно, то - остатки будут вести

Анализ остатков

Если модель подобрана правильно, то
- остатки будут вести себя

достаточно хаотично,
в остатках не будет систематической составляющей, резких выбросов,
в чередовании знаков не будет никаких закономерностей.
Слайд 53

Порядок действий при использовании методов корреляционно-регрессионного анализа 1. Исследование природы рассматриваемых

Порядок действий

при использовании методов корреляционно-регрессионного анализа

1. Исследование природы рассматриваемых переменных для

установления типа зависимости между переменными.
Слайд 54

Порядок действий 2.1. Случайность выборки: несвязанность i-го наблюдения с предыдущими и

Порядок действий

2.1. Случайность выборки: несвязанность i-го наблюдения с предыдущими и отсутствие влияния

на последующие.
2.2. Однородность дисперсий: рассеяния должны быть одинаковыми для всех значений независимого переменного.
2.3. Нормальность распределений.

2. Сбор экспериментальных данных, обсуждение вопроса об ограничениях:

Слайд 55

Порядок действий 4. Измерение тесноты связи, вычисление выборочного коэффициента корреляции. 3.

Порядок действий

4. Измерение тесноты связи, вычисление
выборочного коэффициента корреляции.

 3. Построение

диаграммы разброса.

5. Установление общего вида зависимости
(линейная, параболическая и т.д.)

Слайд 56

Порядок действий 7. Исследование статистических свойств регрессионной зависимости, оценка адекватности модели.

Порядок действий

7. Исследование статистических свойств регрессионной зависимости, оценка адекватности модели.

  6.

Построение эмпирической линии регрессии методом наименьших квадратов.