Фиктивные переменные. Типы фиктивных переменных. Тест Чоу

Содержание

Слайд 2

Фиктивная переменная (ФП) – это переменная, которая принимает два различных значения.

Фиктивная переменная (ФП) – это переменная, которая принимает два различных значения.
Эти

различные значения могут быть любыми числами, но в целях удобства интерпретации это всегда
0 и 1.
Слайд 3

ФП используются для ввода в модель регрессии качественных и категориальных факторов.

ФП используются для ввода в модель регрессии качественных и категориальных факторов.

Слайд 4

ФП для качественного фактора, принимающего два значения. Модель без взаимодействия.

ФП для качественного фактора, принимающего два значения. Модель без взаимодействия.

Слайд 5

На фактор Y, кроме количественных факторов X2, X3, …, Xk, воздействует

На фактор Y, кроме количественных факторов X2, X3, …, Xk, воздействует

качественный фактор, который принимает два значения (имеет две категории):
А и Б,
или
А и не А.
Слайд 6

Чтобы учесть влияние этого фактора, в модель вводят фиктивный фактор D.

Чтобы учесть влияние этого фактора, в модель вводят фиктивный фактор D.

для объектов, на
которых качественный
фактор принимает
значение А
для объектов, на
которых качественный
фактор принимает
значение не А
Слайд 7

Или можно наоборот: для …не А для … А

Или можно наоборот:
для …не А
для … А

Слайд 8

Модель тогда имеет вид: Y = β1+ β2*X2 + … + βk*Xk + δ*D + u

Модель тогда имеет вид:
Y = β1+ β2*X2 + … + βk*Xk

+ δ*D + u
Слайд 9

Y = β1+ β2*X2 + … + βk*Xk + δ*D +

Y = β1+ β2*X2 + … + βk*Xk + δ*D +

u

Интерпретация коэффициента δ:
при любых фиксированных значениях факторов X2, X3, …, Xk значения фактора Y различаются в среднем на δ для объектов, на которых качественный признак D принимает и не принимает значение А.

Слайд 10

Y = β1+ β2*X2 + … + βk*Xk + δ*D +

Y = β1+ β2*X2 + … + βk*Xk + δ*D +

u

Проверяя по t-тесту значимость δ, мы тем самым проверяем значимость или незначимость различия значений Y для объектов имеющих и не имеющих качество А.

Слайд 11

ПРИМЕР 1. Y – среднемесячное потребление семьи, в рублях. X –

ПРИМЕР 1.
Y – среднемесячное потребление семьи, в рублях.
X – среднемесячный доход

семьи, в рублях.
Предполагается, что потребление зависит также от того, проживает ли семья в городе или в сельской местности.
Слайд 12

Вводим ФП D. Пусть D=1 для семей из сельской местности и

Вводим ФП D. Пусть D=1 для семей из сельской местности и

D=0 для городских семей.
Модель:
Y = β1 + β2*X + δ*D + u.
Модель оценивается по выборке n=30.
Слайд 13

Ŷ = 3750 + 0,57*Х - 1230*D (1119) (0.22) (349) Проверяем

Ŷ = 3750 + 0,57*Х - 1230*D
(1119) (0.22) (349)
Проверяем гипотезу:
H0:

δ = 0
HA: δ ≠ 0
Гипотеза H0 отвергается при у.з. 1%.
Вывод: существует значимое различие в затратах на потребления для городских и сельских семей, имеющих одинаковый доход.
Слайд 14

Сельские семьи тратят на потребление в среднем на 1230 рублей меньше,

Сельские семьи тратят на потребление в среднем на 1230 рублей меньше,

чем городские семьи, имеющие такой же доход.
Слайд 15

Замечание: в теоретической модели предполагается, что на изменение дохода городские и

Замечание: в теоретической модели предполагается, что на изменение дохода городские и

сельские семьи реагируют одинаково.
При каждом увеличении дохода на 1 руб. потребление обоих типов семей увеличивается в среднем на 0,57 рубля.
Слайд 16

Ŷ = 3750 + 0,57*Х - 1230*D Можно получить уравнения отдельно

Ŷ = 3750 + 0,57*Х - 1230*D

Можно получить уравнения отдельно для

сельских и городских семей.
Для городских D=0:
Ŷ = 3750 + 0,57*Х
Для сельских D=1:
Ŷ = 3750 + 0,57*Х - 1230 =
= 2520 + 0,57*Х.
Слайд 17

Ŷ = 3750 + 0,57*Х - 1230*D

Ŷ = 3750 + 0,57*Х - 1230*D

Слайд 18

II. ФП для качественного фактора, принимающего более 2-х значений. Модель без взаимодействия.

II. ФП для качественного фактора, принимающего более 2-х значений. Модель без взаимодействия.

Слайд 19

Качественный фактор принимает p значений (имеет p категорий), и p > 2.

Качественный фактор принимает p значений (имеет p категорий), и
p >

2.
Слайд 20

Можно было бы ввести одну ФП, принимающую p различных значений. Но

Можно было бы ввести одну ФП, принимающую p различных значений.
Но в

этом случае трудно интерпретировать коэффициенты при ФП.
Слайд 21

Вводят p ФП, D1, D2, … , Dp, каждая из которых

Вводят p ФП, D1, D2, … , Dp, каждая из которых

принимает два значения:
0 и 1.
Каждая такая ФП является индикатором объектов, на которых качественный фактор принимает одно из своих значений.
Слайд 22

Одна из ФП объявляется эталонной и в модель не включается. Т.

Одна из ФП объявляется эталонной и в модель не включается.
Т. е.

в модель включаются не все p, а только p-1 фиктивных переменных.
Эталонной делают ФП – индикатор такой категории (значения качественного признака), с которой хотят сравнивать все остальные p-1 категории.
Слайд 23

Если, например, эталонной выбрали ФП D1, то модель имеет вид: Y

Если, например, эталонной выбрали ФП D1, то модель имеет вид:
Y =

β1+ β2*X2 + … + βk*Xk + δ2*D2 + … + δp*Dp + u
Если в модель включить все p ФП D1, D2, … , Dp, то для любого объекта выборки будет выполняться:
D1 + D2 + … + Dp = 1
и будет иметь место совершенная МК D1, D2, … , Dp и свободного члена модели.
Слайд 24

III. ФП для нескольких качественных факторов. Модель без взаимодействия.

III. ФП для нескольких качественных факторов. Модель без взаимодействия.

Слайд 25

На Y влияют несколько качественных факторов. Тогда в модель вводят соответствующее количество фиктивных переменных.

На Y влияют несколько качественных факторов.
Тогда в модель вводят соответствующее количество

фиктивных переменных.
Слайд 26

ПРИМЕР 5. Y – з/п работника Х – стаж работника З\п

ПРИМЕР 5.
Y – з/п работника
Х – стаж работника
З\п зависит также от

уровня образования сотрудника (4 категории, как и выше) и от его пола.
Слайд 27

Для уровня образования, как и выше, вводят 4-е ФП D1, D2,

Для уровня образования, как и выше, вводят 4-е ФП D1, D2,

D3, D4.
Пусть, например, эталонной будет D3.
Для фактора «пол» вводим ФП П. Пусть, например,
П=0 для мужчин
П=1 для женщин
Слайд 28

Модель: Y = β1+ β2*X + δ1*D1 + δ2*D2 + δ4*D4 + π*П + u.

Модель:
Y = β1+ β2*X + δ1*D1 + δ2*D2 + δ4*D4 +

π*П + u.
Слайд 29

IV. Модель со взаимодействием. ФП для коэффициентов наклона.

IV. Модель со взаимодействием. ФП для коэффициентов наклона.

Слайд 30

Для простоты будем рассматривать качественный фактор с 2-я категориями (значениями).

Для простоты будем рассматривать качественный фактор с 2-я категориями (значениями).

Слайд 31

В модели без взаимодействия Y = β1+ β2*X + δ*D +

В модели без взаимодействия
Y = β1+ β2*X + δ*D +

u
ФП D влияет только на значение свободного члена и НЕ влияет на значение коэффициента наклона при Х.
Слайд 32

Т. е. считается, что качественный фактор: (а) влияет на значение Y

Т. е. считается, что качественный фактор:
(а) влияет на значение Y для

разных категорий объектов, у которых X один и тот же;
(б) при изменении фактора Х фактор Y изменяется ОДИНАКОВО для обеих категорий объектов.
Слайд 33

В модели со взаимодействием предположение (б) снимается. Допускается, что Y может

В модели со взаимодействием предположение (б) снимается.
Допускается, что Y может по-разному

реагировать на изменения Х для разных категорий объектов.
Слайд 34

Модель со взаимодействием: Y = β1 + β2* X + δ*D

Модель со взаимодействием:
Y = β1 + β2* X + δ*D +

γ*D*X + u.
Ее можно переписать так:
Y = (β1 + δ*D) + (β2 + γ*D)*X + u.
Слайд 35

V. Модель со взаимодействием. Взаимодействие между ФП

V. Модель со взаимодействием. Взаимодействие между ФП

Слайд 36

ПРИМЕР 8. Y – з/п сотрудника в рублях, Х – стаж

ПРИМЕР 8.
Y – з/п сотрудника в рублях,
Х – стаж сотрудника, в

годах.
На з/п влияют также качественные факторы:
пол,
наличие высшего образования.
Слайд 37

Вводим ФП П – «пол»: П = 0 для женщин, П

Вводим ФП П – «пол»:
П = 0 для женщин,
П = 1

для мужчин.
Вводим ФП Е – «наличие высшего образования»:
Е = 0, если в/о нет,
Е = 1, если в/о есть.
Слайд 38

Модель: Y = α + β*X + δ*П + γ*E +

Модель:
Y = α + β*X + δ*П + γ*E + λ*П*Е

+ u.
Перепишем эту модель в виде:
Y = α + β*X + (δ + λ*E)*П + γ*Е + u.
Эта модель предполагает, что при постоянном стаже (Х) влияние на з/п признака пол (П) различное для групп сотрудников, имеющих и не имеющих высшего образования.
Слайд 39

Y = α + β*X + (δ + λ*E)*П + γ*Е

Y = α + β*X + (δ + λ*E)*П + γ*Е

+ u.
Т. е. при одинаковом стаже разница в з/п у мужчин (П=1), имеющих в/о (Е=1) и не имеющих в/о (Е=0) составляет (γ + λ) рублей.
При одинаковом стаже разница в з/п у женщин (П=0), имеющих (Е=1) и не имеющих в/о (Е=0) составляет γ рублей.
Слайд 40

Модель: Y = α + β*X + δ*П + γ*E +

Модель:
Y = α + β*X + δ*П + γ*E + λ*П*Е

+ u.
Эту модель можно переписать по-другому:
Y = α + β*X + δ*П + (γ + λ*П)*Е + u.
Эта модель предполагает, что при постоянном стаже (Х) влияние на з/п наличия или отсутствия в/о различно для мужчин и женщин.
Слайд 41

Y = α + β*X + δ*П + (γ + λ*П)*Е

Y = α + β*X + δ*П + (γ + λ*П)*Е

+ u.
Т.е. при одинаковом стаже (Х) разница в з/п у мужчин (П=1) и женщин (П=0) с в/о (Е=1) составляет (δ + λ) рублей.
При одинаковом стаже (Х) разница в з/п у мужчин (П=1) и женщин (П=0) без в/о (Е=0) составляет δ рублей.
Слайд 42

Y = α + β*X + δ*П + γ*E + λ*П*Е

Y = α + β*X + δ*П + γ*E + λ*П*Е

+ u.
Примечание. Значимость коэффициента λ безотносительно к значимости или незначимости остальных коэффициентов при ФП, означает, что имеется значимое различие в з/п категории П = 1, Е = 1 (у нас это мужчины с в/о) над з/п других трех категорий сотрудников при одинаковом стаже.
Слайд 43

Критерий Чоу В практике нередки случаи, когда имеются две выборки пар

Критерий Чоу
В практике нередки случаи, когда имеются две выборки пар значений

зависимой и объясняющих переменных (Xi; Yi).
Например, одна выборка пар значений переменных объемом n1 получена при одних условиях, а другая, объемом n2 — при несколько измененных условиях. Необходимо выяснить, действительно ли две выборки однородны в регрессионном смысле. Другими словами, можно ли объединить две выборки в одну и рассматривать единую модель регрессии Y по X?
Слайд 44

При достаточных объемах выборок можно было, например, построить интервальные оценки параметров

При достаточных объемах выборок можно было, например, построить интервальные оценки параметров

регрессии по каждой из выборок и в случае пересечения соответствующих доверительных интервалов сделать вывод о единой модели регрессии. Возможны и другие подходы.
В случае, если объем хотя бы одной из выборок незначителен, то возможности такого (и аналогичных) подходов резко сужаются из-за невозможности построения сколько-нибудь надежных оценок.
Слайд 45

В критерии {тесте) Г. Чоу эти трудности в существенной степени преодолеваются.

В критерии {тесте) Г. Чоу эти трудности в существенной степени преодолеваются.


Алгоритм теста Чоу:
1.По каждой выборке строятся две линейные регрессионные модели:

Проверяемая нулевая гипотеза имеет вид —

где - векторы параметров двух моделей; ( ) - их случайные возмущения.

Слайд 46