Модели с дискретными переменными

Содержание

Слайд 2

1. Фиктивные объясняющие переменные До сих пор рассматривались модели, в которых

1. Фиктивные объясняющие переменные

До сих пор рассматривались модели, в которых

в качестве объясняющих переменных выступали количественные переменные, т.е. признаки, прини-мающие любые значения из некоторого числового множества (доход семьи, производительность, се-бестоимость и т.д.).
На практике возникает необходимость иссле-дования влияния на зависимую переменную каче-ственных признаков, которые могут принимать два или более фиксированных уровней, не явля-ющихся числовыми, а являющимися некоторыми категориями.
Слайд 3

Примерами таких признаков могут слу-жить: образование (начальное, среднее, выс-шее), пол человека

Примерами таких признаков могут слу-жить: образование (начальное, среднее, выс-шее), пол

человека (мужской, женский) и т.д.
Чтобы учесть такие признаки в модели, они должны быть преобразованы в количе-ственные, т.е. им должны быть присвоены количественные метки. Сконструированные на основе качественных факторов числовые переменные называют фиктивными пере-менными (двоичными, индикаторными).
Слайд 4

Такие переменные приводят к скачкооб-разному изменению параметров регрессион-ных моделей и в

Такие переменные приводят к скачкооб-разному изменению параметров регрессион-ных моделей и

в этом случае говорят об ис-следовании моделей с переменной структу-рой.
Регрессионные модели, содержащие лишь качественные факторы, называются ANOVA – моделями (моделями дисперси-онного анализа). Например, зависимость заработной платы от образования может быть представлена в виде:
Слайд 5

где , если й персоналий не имеет высшего образования и в

где , если й персоналий не имеет высшего образования и в

противном случае.
Нетрудно видеть, что ANOVA – моде-ли представляют собой кусочно-постоянные функции, и они достаточно редко использу-ются в экономике.
Чаще встречаются модели, содержащие как количественные, так и качественные факторы.
Слайд 6

Такие модели называют ANCOVA-моделями (модели ковариационного анализа). Обычно в качестве фиктивных

Такие модели называют ANCOVA-моделями (модели ковариационного анализа).

Обычно в качестве фиктивных

перемен-ных выступают бинарные переменные, т.е. переменные, принимающие только два значения: 0 и 1. Например, заработная плата го служащего предприятия может быть представлена следующей моделью:
Слайд 7

где , если служащий является муж-чиной, и , если служащий явля-ется

где , если служащий является муж-чиной, и , если служащий явля-ется

женщиной, количественные приз-наки (стаж работы, возраст и т.д.), число служащих предприятия.
Коэффициент в этой модели называют дифференциальным свободным членом, ибо он показывает, на какую величину изменится свободный член модели при изменении переменной .
Слайд 8

Если рассматриваемый качественный признак имеет более чем два уровня, напри-мер, их

Если рассматриваемый качественный признак имеет более чем два уровня, напри-мер,

их число равно , то в рассмо-трение вводят бинарную фиктивную переменную.
В рассматриваемом примере о заработ-ной плате для учета влияния фактора образо-вания (начальное, среднее, высшее, т.е. ) на величину заработной платы необходимо ввести дополнительно в модель 2 бинарные переменные и :
Слайд 9

В данной модели

В данной модели

Слайд 10

Как видим, третьей фиктивной переменной не требуется, так как при =

Как видим, третьей фиктивной переменной не требуется, так как при =

=0 следует, что служащий имеет начальное образо-вание.
Нулевой уровень фиктивных перемен-ных называется базовым или сравнительным уровнем модели.
Оценку коэффициентов модели (1) в том числе и при фиктивных переменных выпол-няют МНК по той же схеме, как и при коли-чественных факторах модели, описанной выше.
Слайд 11

2. Модели с дискретными зависимыми переменными Нередко зависимая переменная по своей

2. Модели с дискретными зависимыми переменными

Нередко зависимая переменная по своей

природе является дискретной, например, если исследовать зависимость количество автомобилей в семье от уровня доходности и других факторов, то видно, что эта перемен-ная принимает целые значения: 0,1,2, … .
Изучим несколько типичных ситуаций и выделим основные виды таких переменных.
Слайд 12

Номинальные переменные. Рассмотрим следующие примеры. 1. Семейное положение мужчины можно выразить

Номинальные переменные.
Рассмотрим следующие примеры.
1. Семейное положение мужчины можно выразить

следующими категориями: холост, женат, разведен, вдовец.
2. Решение о покупке товара: да, нет.
3. Выбор специальности при поступлении в институт: коммерсант, менеджер, экономист.
Слайд 13

Выбор значения осуществляется из двух или более альтернатив. Если имеется только

Выбор значения осуществляется из двух или более альтернатив.
Если

имеется только две возможности, то наблюдения обычно описываются бина-рной переменной.
В общем случае при наличии аль-тернатив результат можно описать перемен-ной, принимающей только целые значения: 1,2,3,…, .
Слайд 14

Главная особенность приведённых при-меров состоит в том, что имеющиеся альтер-нативы нельзя

Главная особенность приведённых при-меров состоит в том, что имеющиеся альтер-нативы

нельзя естественным образом упорядочить, их нумерация от 1 до может быть произвольной и зависит от исследова-теля. Такие переменные называют номиналь-ными.

Порядковые переменные.
Как и в предыдущем случае имеется несколько альтернатив, но они могут быть естественным образом упорядочены.

Слайд 15

1. Доход семьи: низкий, средний, высокий, очень высокий. 2. Уровень образования:

1. Доход семьи: низкий, средний, высокий, очень высокий.
2. Уровень образования: начальное,

незакон-ченное среднее, среднее, незаконченное выс-шее, высшее.
3. Состояние больного: плохое, удовлетвори-тельное, хорошее.

В качестве примеров рассмотрим:

Такие переменные называют порядковыми или ранговыми.

Слайд 16

Количественные целочисленные переменные. Примерами таких переменных служат: 1. Число предприятий страны,

Количественные целочисленные переменные.
Примерами таких переменных служат:
1. Число предприятий страны,

обанкро-тившихся в текущем году.
2. Количество частных вузов в городе.
3. Число прибыльных фирм города
Слайд 17

Для моделей с описанными дискретными зависимыми переменными возможно форма-льное применение МНК

Для моделей с описанными дискретными зависимыми переменными возможно форма-льное применение

МНК для оценки их коэф-фициентов.
Однако с содержательной точки зрения удовлетворительные результаты можно по-лучить только для моделей с количествен-ными целочисленными переменными.
Слайд 18

Если зависимая переменная является номинальной и количество альтернатив бо-лее двух, то

Если зависимая переменная является номинальной и количество альтернатив бо-лее двух,

то результаты оценивания МНК вообще теряют смысл в силу произвольной нумерации альтернатив.
Поэтому стандартная схема оценки параметров модели в случае номинальных зависимых переменных нуждается в суще-ственной коррекции.
Слайд 19

Рассмотрим вначале простейшие модели бинарного выбора, когда результирующий показатель может принимать

Рассмотрим вначале простейшие модели бинарного выбора, когда результирующий показатель может

принимать только два значения: 0 и 1.
Изучим свойства таких моделей на при-мере покупки некоторой й семьёй авто-мобиля. Будем считать 1, если в течение исследуемого периода семья приобретёт автомобиль и 0 – в противном случае.
Слайд 20

На решение о покупке автомобиля влияют различные факторы: доход семьи, количес-тво

На решение о покупке автомобиля влияют различные факторы: доход семьи,

количес-тво членов семьи, их возраст, место прожи-вания и т.д. Набор этих факторов можно представить вектором .
На решение семьи влияют также неучтенные и случайные (расходы на лечение случайной болезни, расходы на ремонт квартиры после затопления соседями и т.д.) факторы .
Слайд 21

Выдвигая различные предположения о характере зависимости переменной от вектора и случайного

Выдвигая различные предположения о характере зависимости переменной от вектора и

случайного фактора , можно получить различные модели бинарного выбора.
Например, можно воспользоваться обы-чной линейной моделью регрессии:
Слайд 22

Поскольку , как случайная величина, принимает только два значения ( 0

Поскольку , как случайная величина, принимает только два значения (

0 и 1), а по предпосылке 2° МНК верно равенство
то, находя математическое ожидание зависи-мой переменной, получим с учетом предпо-сылки 1°:
Слайд 23

В итоге модель (2) может быть записана в следующем виде и

В итоге модель (2) может быть записана в следующем виде
и

поэтому её называют линейной моделью вероятности.
Нетрудно показать, что модель (3) явля-ется гетероскедастичной. Другим важным недостатком модели является тот факт, что прогнозное значение зависимой переменной, вычисленное по полученному выборочному уравнению регрессии (правая часть уравне-ния (3))
Слайд 24

может находиться вне отрезка , что не поддается разумной интерпретации, поско-льку

может находиться вне отрезка , что не поддается разумной интерпретации, поско-льку

левая часть уравнения (3) представ-ляет вероятность.
Слайд 25

От указанного недостатка, связанного с предположением о линейной зависимости вероятности от

От указанного недостатка, связанного с предположением о линейной зависимости вероятности

от вектора , можно избавиться, если предположить что данная зависимость является нелинейной
где некоторая функция с областью значений на отрезке .
Слайд 26

В частности, в качестве можно взять функцию распределения вероятностей не-которой случайной

В частности, в качестве можно взять функцию распределения вероятностей не-которой

случайной величины.
Наиболее распространенными функци-ями такого вида являются:

1. В качестве рассматривается функция стандартного нормального распределения вероятностей
и в этом случае модель (4) называют probit-моделью.

Слайд 27

2. Если в качестве выбирают логисти-ческую функцию то говорят о logit-модели.

2. Если в качестве выбирают логисти-ческую функцию
то говорят о logit-модели.

Для оценивания

коэффициентов probit- и logit-моделей обычно используют метод максимального правдоподобия.
Слайд 28

В том случае, когда номинальная зависимая переменная имеет более двух альтернатив,

В том случае, когда номинальная зависимая переменная имеет более двух

альтернатив, т.е. требуется построить модель множест-венного выбора, то используют различные подходы. Один из них заключается в пред-ставлении модели как последовательности бинарных выборов.
Допустим, что изучается выбор одной из трёх профессий: инженера, экономиста, юри-ста. Вводят в рассмотрение две бинарные переменные:
Слайд 29

Тогда выбор одного из трёх вариантов про-фессий можно описать в виде

Тогда выбор одного из трёх вариантов про-фессий можно описать в

виде графа после-довательных действий, в вершинах которого происходит бинарный выбор (рис. 1).
Слайд 30

Рис. 1

Рис. 1

Слайд 31

3. Тесты Гуйарати и Чоу Пусть требуется оценить парную регрессию, в

3. Тесты Гуйарати и Чоу

Пусть требуется оценить парную регрессию, в которой

в качестве объясняющей переменной выступает время :
Предположим, что в момент времени произошло изменение характера динамики изучаемого показателя , вызванные струк-турными изменениями в экономике (эконо-мический кризис, природные катаклизмы и т.д.).
Слайд 32

Пусть до момента было произведено наблюдений показателя , а после этого

Пусть до момента было произведено наблюдений показателя , а после

этого момента - . В итоге в сумме .
Тогда одной из задач анализа процесса является выяснения вопроса о том, значимо ли повлияли общие структурные изменения на параметры модели. Если это влияние зна-чимо, то для моделирования зависимости от времени следует использовать кусочно-линейные модели регрессии, т.е. одна модель будет описывать процесс до момента време-ни , а другая – после него.
Слайд 33

Если же структурные изменения незна-чительно повлияли на характер динамики , то

Если же структурные изменения незна-чительно повлияли на характер динамики ,

то её описывают единым по всей совокупности уравнением регрессии.
Для ответа на этот вопрос в тесте Гуй-арати в модель регрессии включается фиктивная переменная :
Слайд 34

где В итоге для каждого промежутка времени получаются следующие оценки уравнения

где
В итоге для каждого промежутка времени получаются следующие оценки уравнения регрессии:

для : ;
для : .
Слайд 35

С помощью критерия Стьюдента проверяют значимость полученных оценок коэффициентов регрессии (5).

С помощью критерия Стьюдента проверяют значимость полученных оценок коэффициентов регрессии

(5).
Здесь возможны следующие случаи.
1°. Если статистически значим, а параметр нет, то изменение динамики вызвано различием свободных членов регрессии кусочно-линейной модели (рис. 2).
Слайд 36

Рис. 2

Рис. 2

Слайд 37

Рис. 3

Рис. 3

Слайд 38

2°. Если параметр статистически значим, а не является значимым, то различаются

2°. Если параметр статистически значим, а не является значимым, то различаются

коэффициенты регрессии кусочно-линейной модели (рис. 3).

3°. Если оба параметра и статистически значимы, то изменение зависимости приз-нака от времени вызвано как различием свободных членов, так и коэффициентов регрессии (рис. 4).

Слайд 39

Рис. 4

Рис. 4

Слайд 40

4°. Если оба параметра и статистически незначимы, то используется единая по

4°. Если оба параметра и статистически незначимы, то используется единая по

всей совокупности данных линейная регрессия, т.е. структурные изменения в экономике не-значительно повлияли на характер динамики переменной .

Целесообразность применения двух уравне-ний регрессии вместо одного можно оценить, не прибегая к фиктивным переменным. Для этого используют тест Г. Чоу.

Слайд 41

Выдвигается гипотеза о незначительном влиянии структурных изменений в экономи-ке. Согласно тесту

Выдвигается гипотеза о незначительном влиянии структурных изменений в экономи-ке. Согласно тесту

Чоу гипотеза отвер-гается на уровне значимости (т.е. требу-ется кусочно-линейная модель), если статистика
Слайд 42

больше , найденного по таблицам по заданному уровню значимости и числу

больше , найденного по таблицам по заданному уровню значимости и числу

степеней свободы
В формуле (6) число пара-метров (без свободного члена) в уравнениях, построенных по статистическим данным до времени , после него и по всей совокуп-ности данных соответственно.