Модели бинарного выбора

Содержание

Слайд 2

НИУ ВШЭ , Москва, 2013 Модели бинарного выбора photo photo photo

НИУ ВШЭ , Москва, 2013

Модели бинарного выбора

photo

photo

photo

Модель зависимости бинарной переменной от

совокупности факторов
Зависимая переменная принимает всего два значения — 0 и 1 (коды: 0 –нет; 1- да).
Метод оценивания: ММП (метод максимального правдоподобия)

Модели бинарного выбора

Слайд 3

НИУ ВШЭ , Москва, 2013 Алгоритм построения модели photo photo photo

НИУ ВШЭ , Москва, 2013

Алгоритм построения модели

photo

photo

photo

Определение зависимой переменной и факторов
Построение

переменной Z, как линейной комбинации независимых переменных
Построение уравнения для искомой вероятности события
Проведение вычислений с помощью
метода максимального правдоподобия
Интерпретация результатов и исследование качества оценки

Алгоритм построения модели

Слайд 4

НИУ ВШЭ , Москва, 2013 Алгоритм построения модели photo photo photo

НИУ ВШЭ , Москва, 2013

Алгоритм построения модели

photo

photo

photo

Медицина (определение вероятности успешного лечения

и т.п.)
Социология
Маркетинговые исследования (предсказание склонности к покупке)
Задачи классификации (скоринг в банках, маркетинг и пр.)

Сферы применения

Примеры:
голосование;
решение работать/не работать;
решение покупать/не покупать товар длительного пользования (автомобиль, дом);
форма собственности (государственная, смешанная, частная);
выбор профессии (научный работник, преподаватель, консультант, менеджер);
способ попадания из дома на работу (пешком, автобус, метро, метро и автобус, автомобиль)

Слайд 5

НИУ ВШЭ , Москва, 2013 photo photo photo Показатели качества моделей Показатели качества моделей

НИУ ВШЭ , Москва, 2013

photo

photo

photo

Показатели качества моделей

Показатели качества моделей

Слайд 6

НИУ ВШЭ , Москва, 2013 photo photo photo Показатели качества моделей Показатели качества моделей: Информационные критерии

НИУ ВШЭ , Москва, 2013

photo

photo

photo

Показатели качества моделей

Показатели качества моделей:
Информационные критерии

Слайд 7

НИУ ВШЭ , Москва, 2013 photo photo photo Преимущества и недостатки

НИУ ВШЭ , Москва, 2013

photo

photo

photo

Преимущества и недостатки моделей:

Преимущества

Недостатки

Исправление недостатка линейной модели,

в которой вероятность могла получаться больше 1 (что логически неверно): вероятность от 0 до 1
Легко интерпретируется (можем идентифицировать увеличение/ снижения вероятности наступления того или иного события при процентом изменении значения фактора – отношение шансов).
При решении задач классификации объекты можно разделять на несколько групп:
Например, в скоринге не только -(0 - плохой, 1 - хороший), но и несколько групп (1, 2, 3, 4 группы риска).

Систематическое завышение оценки коэффициентов регрессии при размере выборки – менее 500
Проблемы мультиколлинеарности
Минимум 10 исходов на каждую независимую переменную (к 1 недостатку)
Например, интересующий исход – смерть пациента. Если 50 пациентов из 100 умирают –максимальное число независимых переменных в модели = 50/10=5

Преимущества и недостатки моделей

Слайд 8

Пример 1: соц. исследование Исследование факторов, влияющих на вероятность окончания средней

Пример 1: соц. исследование

Исследование факторов, влияющих на вероятность окончания средней школы
Зависимая

переменная: GRAD окончание средней школы
Индивид окончил школу «1», нет – «0».
Предикторы:
ASVABC - результат тестирования познавательных способностей
SM - число лет обучения матери респондента
SF - число лет обучения отца респондента
MALE - пол

Nemes S, Jonasson JM, Genell A, Steineck G. 2009 Bias in odds ratios by logistic regression modelling and sample size. BMC Medical Research Methodology

Слайд 9

(Подставляется полученное выражение для Z) 3) 4) Таблица оцененных коэффициентов. Далее

(Подставляется полученное выражение для Z)

3)

4)

Таблица оцененных коэффициентов. Далее для оценки кумулятивного

и предельного эффектов необходимо произвести дальнейшие расчеты, подставив полученные коэффициенты в формулы.

Пример 1: верификация модели

Слайд 10

Пример нахождения выражения предельного эффекта для одной из переменных Столбец предельных эффектов Пример 1: верификация модели

Пример нахождения выражения предельного эффекта для одной из переменных

Столбец предельных эффектов

Пример

1: верификация модели
Слайд 11

Интерпретация коэффициентов: отношения шансов Увеличение ASVABC на один балл увеличивает вероятность

Интерпретация коэффициентов: отношения шансов
Увеличение ASVABC на один балл увеличивает вероятность успешного

окончания школы на 0,4 процентных пункта.
Аналогично, влияет принадлежность к мужскому полу.
Образование родителей влияет незначительно
Кроме того, на 10% уровне значимости значим только коэффициент при переменной ASVABC

Пример 1: отношение шансов

Слайд 12

Пример 2: финансовый менеджмент Зависимая переменная: вероятность участия российских компаний в

Пример 2: финансовый менеджмент

 

Зависимая переменная: вероятность участия российских компаний в межфирменных

отношениях
Предикторы:
факторы окружающей среды
Уровень конкуренции в отрасли;
Принадлежность к отрасли;
Макро – показатели;
Уровень развития законодательства в отрасли;
Наличие поддержки со стороны предприятия.
2. характеристики компании
Срок присутствия на рынке
Количество собственников в совете директоров
Численность сотрудников
Наличие патентов
Слайд 13

Пример критериев качества модели Для метода максимального правдоподобия нет коэффициента, аналогичного

Пример критериев качества модели

Для метода максимального правдоподобия нет коэффициента, аналогичного R-square,

поэтому используются следующие способы:
Число правильно предсказанных исходов, если в наблюдении i, считать предсказанием 1 при p(i)>0,5, 0 – в противном случае
Площадь под рок-кривой

Площадь под рок-кривой 0.73; качество модели высокое

Слайд 14

Пример 3: A model for Happiness Измерение уровня удовлетворенности населения жизнью

Пример 3: A model for Happiness

Измерение уровня удовлетворенности населения жизнью
Зависимая

переменная: уровень удовлетворенности (индекс счастья)
Предикторы:
х1 – обучение в колледже; х2 – семейный статус; х3 – удовлетворенность собственным материальным положением; 
х4 – удовлетворенность работой;
х5 –уровень здоровья
х6 –часы работы
х7– принадлежность к социальному классу еi – отклонение  уровень счастья= a*х1+b*х2+c*х3+d*x4+e*x5+f*x6+g*x7+ei

Carlos Gámez «A model for happiness» (2009)

Слайд 15

Слайд 16

НИУ ВШЭ , Москва, 2013 photo photo photo Области применения моделей:

НИУ ВШЭ , Москва, 2013

photo

photo

photo

Области применения моделей: маркетинг

Изучение поведения покупателей
Зависимая переменная:

покупка
Покупка - "1", клиент ушел без покупки - "0".
Предикторы:
T – время проведенное в магазине; Y – возраст клиента; K – внешняя респектабельность клиента по 5-бальной шкале;  еi – ошибка
Покупкаi = a*Ti+b*Yi+c*Ki+ei

Пример 4 (маркетинг)

Слайд 17

НИУ ВШЭ , Москва, 2013 photo photo photo Пример №1 Пример 4 (маркетинг) Оценка модели: критерии

НИУ ВШЭ , Москва, 2013

photo

photo

photo

Пример №1


Пример 4 (маркетинг)
Оценка модели: критерии

Слайд 18

НИУ ВШЭ , Москва, 2013 photo photo photo Stefan Boes, Rainer

НИУ ВШЭ , Москва, 2013

photo

photo

photo

Stefan Boes, Rainer Winkelmann (2004) «Income and

Happiness» Carlos Gámez (2009) «A model for happiness»
Nemes S, Jonasson JM, Genell A, Steineck G. 2009 Bias in odds ratios by logistic regression modelling and sample size. BMC Medical Research Methodology
Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996). "A simulation study of the number of events per variable in logistic regression analysis". J Clin Epidemiol 49 (12): 1373–9.
Agresti A (2007). "Building and applying logistic regression models". An Introduction to Categorical Data Analysis. Hoboken, New Jersey: Wiley. p. 138
Hryckiewicz, Aneta and Kowalewski, Oskar, Predicting Foreign Bank Exits? A Logit and Probit Regression Approach (January 15, 2010)

Список используемой литературы