Лекция 3. Регрессионный анализ данных

Содержание

Слайд 2

Применение корреляционного и регрессионного анализа Корреляционный анализ Корреляционный анализ применяется для

Применение корреляционного и регрессионного анализа

Корреляционный анализ
Корреляционный анализ применяется для количественной оценки взаимосвязи двух

наборов данных, представленных в безразмерном виде. Корреляционный анализ дает возможность установить, взаимосвязаны ли наборы данных по величине.

Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных.
Решение задачи классификации осуществляется следующим образом: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та, где оно меньше нуля, - к другому классу.

Регрессионный анализ
Позволяет получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными.
При помощи регрессионного анализа возможно решение задачи прогнозирования и классификации.

Слайд 3

Этапы регрессионного анализа Формулировка задачи. На этом этапе формируются предварительные гипотезы

Этапы регрессионного анализа
Формулировка задачи. На этом этапе формируются предварительные гипотезы о

зависимости исследуемых явлений.
Определение факторных и результативных признаков.
Сбор статистических данных.
Формулировка гипотезы о форме связи (простая или множественная, линейная или нелинейная).
Определение функции регрессии .
Оценка точности регрессионного анализа.
Интерпретация полученных результатов.
Прогнозирование неизвестных значений зависимой переменной.

Модель – свойства - адекватность

Слайд 4

Сбор данных Несгруппированные данные Корреляционная таблица ∆i– интервалы для X и

Сбор данных

Несгруппированные данные

Корреляционная таблица

∆i– интервалы для X и Y

nij -

частота появления пары (xi ,yj).

- частота признака xj

- частота признака yi

Слайд 5

Линейная регрессия Y на Х и X на Y Пусть между

Линейная регрессия Y на Х и X на Y

Пусть между количественными

признаками X и Y существует линейная корреляционная зависимость y=a+bx.

Метод регрессионного анализа

Метод корреляционного анализа

Когда данные представлены в виде корреляционной таблицы

Слайд 6

Корреляционный анализ Коэффициент эластичности Кэ показывает на сколько процентов в среднем

Корреляционный анализ

Коэффициент эластичности Кэ показывает на сколько процентов в среднем изменится

показатель y от своего среднего значения при изменении фактора x на 1% от своей средней величины:
Слайд 7

Пример Зависимость теплоемкости Ср фторида магния от температуры Т выражается следующими

Пример

Зависимость теплоемкости Ср фторида магния от температуры Т выражается следующими данными:

Выявление

вида зависимости

средняя температура

средняя теплоемкость
фторида магния

Слайд 8

Расчет параметров модели Уравнение регрессии Y на X


Расчет параметров модели

Уравнение регрессии Y на X

Слайд 9

Коэффициент корреляции. Свойства Коэффициент корреляции - это статистический показатель меры зависимости

Коэффициент корреляции. Свойства

Коэффициент корреляции - это статистический показатель меры зависимости двух случайных

величин.

Линейный коэффициент корреляции изменяется на отрезке [–1; 1].
Если r = ±1, то корреляционная зависимость становится функциональной.
В случае r > 0 говорят о положительной корреляции величин X, Y; в случае r < 0 — об отрицательной корреляции.
Если r = 0 , то линейная связь между признаками Х и Y отсутствует, но может существовать криволинейная корреляционная связь или нелинейная функциональная.

Слайд 10

Проверка значимости коэффициента корреляции Нулевая гипотеза, которая состоит в том, что

Проверка значимости коэффициента корреляции

Нулевая гипотеза, которая состоит в том, что коэффициент

корреляции равен нулю при альтернативной гипотезе, что он отличен от нуля:

Проверка гипотезы основана на том факте, что величина t имеет распределение Стьюдента с n-2 степенями свободы .

При заданном уровне значимости α определяют критическое значение tкр.
Если t>tкр , то гипотеза Н0 отклоняется.
Если t

При достаточно больших n статистика

имеет приближенно нормальное распределение

.

Доверительный интервал для Arth( ρ) имеет вид:

Здесь

соответствующая квантиль нормального распределения.

Примечание : Arth(-r)=- Arth(r), если Arth(y)=t, то

.

Доверительный интервал для коэффициента корреляции ρ

Слайд 11

Проверка значимости коэффициента корреляции По таблицам критических точек распределения Стьюдента или

Проверка значимости коэффициента корреляции

По таблицам критических точек распределения Стьюдента или с

помощью статистической функции ExcelСТЬЮДЕНТ.ОБР, входом в которую является вероятность 1-α/2 (α=1-γ) и n-2=6 степеней свободы находим критическое значение
tα, n-2=2,447.

Так как t=102,8521>tα,n-2=2,447, делаем вывод, что выборочный коэффициент корреляции значимо отличается от нуля. Следовательно, можно предположить, что теплоемкость Ср фторида магния и температура Т связаны линейной корреляционной зависимостью.

Доверительный интервал для Arth( ρ) :

atanh(r)=atanh(0,999717)=4,43070

3,554179Окончательно получаем:
0,998365<ρ<0,999951

Слайд 12

Значимость коэффициентов уравнения регрессии Статистические выводы относительно коэффициента β истинного уравнения

Значимость коэффициентов уравнения регрессии

Статистические выводы относительно коэффициента β истинного уравнения регрессии

y=θ+βx могут быть получены с помощью статистики, где β – истинное значение коэффициента регрессии, b – выборочное значение коэффициента регрессии.

Значение коэффициента β является значимым с достоверностью α, если

Двусторонний α ∙100% -й доверительный интервал для β

Статистические выводы о коэффициенте θ могут быть получены с помощью статистики

Где tβ квантиль распределения Стьюдента с n-2 степенями свободы.

Слайд 13

Проверка значимости коэффициентов уравнения регрессии Значение коэффициента β является значимым с

Проверка значимости коэффициентов уравнения регрессии

Значение коэффициента β является значимым с достоверностью

α, т.к.:

Доверительные интервалы

Значение коэффициента θ является значимым с достоверностью α, т.к.:

Слайд 14

Проверка адекватности R2 характеризует долю разброса отклика, описываемую регрессией, и лежит

Проверка адекватности

R2 характеризует долю разброса отклика, описываемую регрессией, и лежит в

пределах от 0 до 1. Чем ближе R2 к единице, тем лучше модель описывает экспериментальные данные.

Коэффициент детерминации

В случае линейной зависимости между признаками Х и У

Такое большое значение коэффициента детерминации говорит о том, практически весь разброс значений величины y объясняется линейной корреляционной зависимостью между теплоемкостью Ср фторида магния и температурой Т.

Слайд 15

Критерий Фишера-Снедекора Для проверки гипотезы об адекватности находят дисперсию повторности S2повт

Критерий Фишера-Снедекора

Для проверки гипотезы об адекватности находят дисперсию повторности S2повт и

дисперсию адекватности S2адекв.

Мера разброса выборочных значений yi вокруг выборочных средних

Мера отклонений сглаживающих средних  f(x) от реальных (выборочных) средниx .

ЕслиQадекв=0, то сглаживающее уравнение регрессии y=f(x)полностью адекватно выборочным данным

n– объем выборки,
k – количество различных значений, принимаемых переменной Х,
q- число параметров регрессионной модели.

Сравнивая его с критическим значением fкр=fкр(α, k-q, n-k) , делают вывод об адекватности математической модели[1]. Здесь fкр(α, k-q, n-k) квантиль распределения Фишера-Снедекора с k-q, n-k степенями свободы.

Для негруппированных данных статистику Фишера- Снедекора рассчитывают по формуле:

Слайд 16

Проверка гипотезы об адекватности уравнения регрессии Y на X Проверим гипотезу

Проверка гипотезы об адекватности уравнения регрессии Y на X

Проверим гипотезу об

адекватности полученной сглаживающей прямой исходным данным по критерию Фишера при уровне значимости α=0,05.
Для этого вычислим статистику

Здесь R2 – коэффициент детерминации, n=8. По числу степеней свободы k1=1 и k2=n-2=6 найдем критическое значение Fкрс помощью статистической функции F.ОБР.ПХ (Microsoft Excel 2010, 2016).
Fкр=5,987378
Так как Fвыб>Fкр , делаем вывод о том, что полученное уравнение линейной регрессии статистически значимо описывает результаты эксперимента.

Слайд 17

Построение модели регрессии по сгруппированным данным На некотором предприятии исследовалась зависимость

Построение модели регрессии по сгруппированным данным

На некотором предприятии исследовалась зависимость себестоимости

Y единицы продукции (в условных единицах) от объема Х произведенной за день продукции.
Слайд 18

Выявление вида зависимости по средним значениям Условные средние признака Y Корреляционное поле

Выявление вида зависимости по средним значениям

Условные средние признака Y

Корреляционное поле

Слайд 19

Вывод уравнения линейной регрессии Y на X на основе МНК y=12,861933-0,09862x

Вывод уравнения линейной регрессии Y на X на основе МНК

y=12,861933-0,09862x

Слайд 20

Вывод уравнения линейной регрессии Y на X на основе корреляционного анализа

Вывод уравнения линейной регрессии Y на X на основе корреляционного анализа

Слайд 21

Проверка гипотезы о значимости коэффициента корреляции Так как t=5,289007>t0,05, 30-2=2,048407, делаем

Проверка гипотезы о значимости коэффициента корреляции

Так как t=5,289007>t0,05, 30-2=2,048407, делаем вывод,

что выборочный коэффициент корреляции значимо отличается от нуля. Следовательно, можно предположить, что объем Х произведенной за день продукции и себестоимость Y единицы продукции связаны линейной корреляционной зависимостью.

-1,25824 Окончательно получаем:
-0,85058 <ρ< -0,46514

Доверительный интервал коэффициента корреляции

Слайд 22

Расчет коэффициента детерминации Таким образом, линейное сглаживающее уравнение регрессии y=12,861933-0,09862x объясняет

Расчет коэффициента детерминации

Таким образом, линейное сглаживающее уравнение регрессии y=12,861933-0,09862x объясняет примерно

50% всей вариации зависимой величины Y.
Слайд 23

Проверка адекватности модели по критерию Фишера-Снедекора fкр(0,05, 3, 25)=2,991

Проверка адекватности модели по критерию Фишера-Снедекора

fкр(0,05, 3, 25)=2,991

Слайд 24

Значимость коэффициентов уравнения регрессии Статистические выводы относительно коэффициента β истинного уравнения

Значимость коэффициентов уравнения регрессии

Статистические выводы относительно коэффициента β истинного уравнения регрессии

y=θ+βx могут быть получены с помощью статистики, где β – истинное значение коэффициента регрессии, b – выборочное значение коэффициента регрессии.

Значение коэффициента β является значимым с достоверностью α, если

Двусторонний α ∙100% -й доверительный интервал для β

Статистические выводы о коэффициенте θ могут быть получены с помощью статистики

Где tβ квантиль распределения Стьюдента с n-2 степенями свободы.