Статистические методы анализа связей

Содержание

Слайд 2

1. Виды связей между признаками явлений В статистике различают:

1. Виды связей между признаками явлений
В статистике различают:


Слайд 3

Слайд 4

2.Парная линейная и нелинейная связи. Частным случаем статистической связи является корреляционная

2.Парная линейная и нелинейная связи.
Частным случаем статистической связи является корреляционная связь.
Корреляционная

связь между признаками х и у (это связь в среднем: заданному значению х ставится в соответствие среднее значение y) записывается в виде уравнения корреляционной связи, или уравнения регрессии:
Y=f(х),
где f(х) — определенный вид функции корреляционной связи, которая описывает линию регрессии.


Слайд 5

Графическое представление связи

Графическое представление связи

Слайд 6

Парная регрессия Наиболее часто для характеристики корреляционной связи между признаками применяют

Парная регрессия
Наиболее часто для характеристики корреляционной связи между признаками применяют такие

виды уравнений парной регрессии, или корреляционных уравнений:
а) линейный (8.2)
б) параболический (8.3)
в) гиперболический (8.4)
г) степенной (8.5)
и др.
где а0, а1 — параметры уравнений регрессии, которые подлежат определению и находятся методом наименьших квадратов(МНК).
Слайд 7

В случае линейной связи ее теснота измеряется с помощью коэффициента парной

В случае линейной связи ее теснота измеряется с помощью коэффициента парной

корреляции и детерминации:
r2 - коэффициент детерминации. Он показывает
меру качества уравнения регрессии: чем ближе r2 к 1, тем лучше регрессия описывает зависимость между xi и y. Коэффициент детерминации может быть выражен в процентах.
Слайд 8

Количественные критерии оценки тесноты связи


Количественные критерии оценки тесноты связи

Слайд 9

Оценка линейного коэффициента корреляции

Оценка линейного коэффициента корреляции

Слайд 10


Слайд 11

4 .Множественная линейная и нелинейная связи. Если на результативный фактор влияет

4 .Множественная линейная и нелинейная связи.
Если на результативный фактор влияет не

один, а несколько факторов, то применяют
(не парную), а множественную регрессию.
Эта связь может быть выражена линейными и нелинейными функциями.
Наиболее часто используемой является линейная функция – уравнение множественной линейной регрессии в виде:
где а0,… аk — параметры уравнений регрессии (находятся с помощью МНК). Они показывают, на сколько изменится y при изменении xi на 1 единицу и при неизменных остальных факторах.
Слайд 12

Виды уравнений множественной регрессии: 1) линейная: 2) степенная: 3) показательная: 4) параболическая: 5) гиперболическая:

Виды уравнений множественной регрессии:
1) линейная:
2) степенная:
3) показательная:
4) параболическая:


5) гиперболическая:
Слайд 13

Множественный коэффициент корреляции Теснота связи y со всей совокупностью факторов xi

Множественный коэффициент корреляции

Теснота связи y со всей совокупностью факторов xi определяется

с помощью множественного коэффициента корреляции R
Множественный коэффициент корреляции изменяется в пределах от 0 до 1 и по определению положителен: 0 ≤ R ≤ 1.
Слайд 14

В частном случае двухфакторной линейной регрессии можно использовать формулу(выраженную через парные коэффициенты корреляции:

В частном случае двухфакторной линейной регрессии можно использовать формулу(выраженную через парные

коэффициенты корреляции:
Слайд 15


Слайд 16

Коэффициент множественной детерминации показывает, в какой мере вариация результативного признака у

Коэффициент множественной детерминации показывает, в какой мере вариация результативного признака у

определяется вариацией факторного признака х.
Коэффициент детерминации принимает значение от 0 до 1.
Слайд 17

5. Оценка и проверка качества модели А). для парной связи После

5. Оценка и проверка качества модели
А). для парной связи
После установления тесноты

связи дают оценку значимости связи между признаками.
Под термином «значимость связи» понимают оценку отклонения выборочных переменных от своих значений в генеральной совокупности посредством статистических критериев.
Оценку значимости связи осуществляют с использованием F-критерия Фишера и t-критерия Стьюдента.
Для парной регрессии (линейной и нелинейной) F-критерий Фишера рассчитывается по формуле:
где [1, n-2] – число степеней свободы числителя и знаменателя формулы.
Слайд 18

Под термином «степень свободы» понимают целое число, которое показывает, сколько независимых

Под термином «степень свободы» понимают целое число, которое показывает, сколько независимых

элементов информации в переменных у нужно для суммы их квадратов, что объясняет соответствующую дисперсию: общую, межгрупповую, среднюю из групповых .
Для множественной регрессии степени свободы равны:
(k ; n-k-1)
Теоретическое значение (рассчитанное по формуле) F сравнивают с табличным (критическим) значением Fтабл.
Последнее выбирают из справочных математических таблиц F-критерия Фишера в зависимости от степеней свободы 1, (п - 2) и принятого уровня значимости ά(альфа). (0,05 -5% вероятность допустимой ошибки)
Если F > Fтабл, то связь между признаками признается значимой.
Слайд 19

Для проверки значимости коэффициентов уравнения множественной регрессии аi (i=1,..,k) используют Критерий

Для проверки значимости коэффициентов уравнения множественной регрессии аi (i=1,..,k) используют Критерий

Стьюдента:
Коэффициенты уравнения (модели) признаются статистически значимыми, если |t i | >t (ά; n-k-1).
Где: t (ά; n-k-1) - табличное значение.
ά - уровень значимости
n-k-1 - число степеней свободы, которое характеризует число свободно варьирующих элементов совокупности.
n – число наблюдений
k – число факторных признаков.
Слайд 20

6. Изучение связи между качественными признаками Пример: Обработать данные социологического опроса

6. Изучение связи между качественными признаками

Пример: Обработать данные социологического опроса

работников предприятия.
где 4, 5,8,10 -частоты
Слайд 21

Вычисление коэффициентов ассоциации и контингенции Коэффициенты вычисляются по формулам: ассоциации и

Вычисление коэффициентов ассоциации и контингенции
Коэффициенты вычисляются по формулам:
ассоциации
и контингенции
Коэффициент контингенции

всегда меньше коэффициента ассоциации.
Слайд 22

Когда каждый из качественных признаков состоит более чем из двух групп,

Когда каждый из качественных признаков состоит более чем из двух групп,

то для определения тесноты связи возможно применение коэффициентов взаимной сопряженности Пирсона-Чупрова. Эти коэффициенты вычисляются по следующим формулам:
где φ2 — показатель взаимной сопряженности;
φ — определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот, соответствующего столбца и строки. Вычитая из этой суммы «1», получим величину φ 2:
К1 - число значений (групп) первого признака;
K2 - число значений (групп) второго признака.
Чем ближе величина Кп и Кч к 1, тем теснее связь.
Слайд 23

Ранговые коэффициенты связи Среди непараметрических методов оценки тесноты связи ранжированных признаков

Ранговые коэффициенты связи
Среди непараметрических методов оценки тесноты связи ранжированных признаков наибольшее

значение имеют ранговые коэффициенты Спирмена (ρxy) и Кендалла (τxy).
Эти коэффициенты могут быть использованы для определения тесноты связи как между количественными, так и между качественными признаками.
Слайд 24

Коэффициент корреляции рангов (коэффициент Спирмена) рассчитывается по формуле где di2 (Rxj

Коэффициент корреляции рангов (коэффициент Спирмена) рассчитывается по формуле
где di2 (Rxj –

Ryj)- квадраты разности рангов;
п — количество единиц в ряду.
Коэффициент Спирмена принимает любые значения в интервале -1; 1.
Если di=0 p=1 –существует тесная прямая связь. Если первому рангу по размеру одного признака соответствует последний ранг по размеру второго признака, второму рангу – предпоследний ранг второго признака и т.п., то p = -1, и существует тесная обратная связь. Если значение p близко к 0, то связь слабая или ее вообще нет.