Анализ качественных переменных

Содержание

Слайд 2

Структура лекции Таблицы сопряженности Критерий Хи-квадрат Логлинейный анализ таблиц сопряженности

Структура лекции
Таблицы сопряженности
Критерий Хи-квадрат
Логлинейный анализ таблиц сопряженности

Слайд 3

Объекты исследования обладают несколькими признаками. Вопрос: насколько эти признаки связаны между


Объекты исследования обладают несколькими признаками.
Вопрос: насколько эти признаки связаны между

собой?
Можно ли по степени выраженности одного признака судить о выраженности другого, либо все-таки следует считать эти признаки проявляющимися независимо ( в вероятностном смысле)?
Сначала решается более простая задача: проверить, существует ли вообще какая-либо связь между этими признаками, или же они ведут себя независимо друг от друга?
Статистический способ ответа основан на изучении выборки.
Таблицы сопряженности служат для описания связи двух или более номинальных (категориальных переменных).
Анализ таблиц сопряженности:
1. Составление таблиц сопряженности признаков (перекрестных таблиц);
2. Проверка гипотезы независимости переменных.
Слайд 4

Таблицы сопряженности 11 Кросстабуляция (Crosstabulations) Для описания двухвходовых (многомерных) таблиц используемые

Таблицы сопряженности 11
Кросстабуляция (Crosstabulations)

Для описания двухвходовых (многомерных) таблиц используемые термины:
Факторы

(признаки) – переменные, табулированные в таблицы;
Уровни – значения факторов.
Слайд 5

Для проверки гипотез о зависимости качественных переменных, измеряемых по номинальной шкале,

Для проверки гипотез о зависимости качественных переменных, измеряемых по номинальной шкале,

используется тест Хи-квадрат.
Для применения метода требуется выполнение двух условий:
Набор данных представляет случайную выборку из рассматриваемой генеральной совокупности;
Для каждой комбинации категорий ожидаемое количество наблюдений в ячейке не меньше 5. Если это условие нарушается, надо перекодировать переменные, объединяя категории так, чтобы условие начало выполняться. Поскольку при всяком объединении теряется информация, желательно сделать изменения минимальными.
Основная гипотеза: переменные независимы
Альтернативная гипотеза: переменные зависимы
Слайд 6

Идея метода Основана на теореме (К. Пирсон, Р. Фишер). Если верна

Идея метода

Основана на теореме (К. Пирсон, Р. Фишер).
Если верна модель,

по которой рассчитаны теоретические частоты Т , то при неограниченном росте числа наблюдений распределение случайной величины Х 2 стремится к распределению хи-квадрат. Число степеней свободы этого распределения определяется как разность между числом событий и числом связей, налагаемых моделью.
В этой теореме
Т- ожидаемые (теоретические) частоты,
Н – наблюдаемые частоты,

Если модель правильно описывает действительность, числа Н и Т должны быть близки друг к другу.

Слайд 7

Логлинейный анализ таблиц сопряженности Понятие логлинейной модели 2. Логлинейный метод подбора модели


Логлинейный анализ таблиц сопряженности

Понятие логлинейной модели
2. Логлинейный метод подбора модели

Слайд 8

Понятие логлинейной модели Логлинейная модель – множественная регрессионная модель, в которой

Понятие логлинейной модели
Логлинейная модель – множественная регрессионная модель,
в которой

категориальные переменные и их взаимодействия
выступают в качестве предикторов, а роль зависимой
переменной играет натуральный логарифм частот категорий.
Использование логарифмической меры обусловливает
линейность модели.
В этом уравнении частота – это частота текущей ячейки
частотной таблицы, λ- воздействие со стороны одной или более
независимых переменных, μ- общее среднее воздействия, А, С,
Y – переменные агрессия, условия, симпатия:

Модель называется насыщенной, если она содержит все
предикторы и их возможные взаимодействия.

Слайд 9

Существуют более предпочтительные альтернативы в виде ненасыщенных моделей, которые отражают лишь

Существуют более предпочтительные альтернативы в виде ненасыщенных моделей, которые отражают лишь

статистически значимые главные эффекты и взаимодействия переменных.
Подменю Логлинейный анализ содержит три команды.
1. Общий — эта команда допускает вхождение в модель любых факторов и их взаимодействий и предполагает, что исследователь перед проведением анализа уже имеет гипотезы о составе модели.
2. Логит — применение этой команды позволяет рассматривать дихотомические переменные как зависимые, а одну (или более) категориальную переменную как независимую. При этом зависимая дихотомическая переменная используется не для прогнозирования частот категорий, а для разделения всех категорий на две группы. ^ 3. Подбор модели — эта команда позволяет из всех возможных ненасыщенных моделей подобрать ту, которая в наибольшей степени соответствует исходным данным. Подбор осуществляется, как правило, автоматически. В результате выявляется совокупность значимых связей между категориальными переменными и вычисляются параметры μ и λ логлинейной модели.
Слайд 10

Логлинейный метод подбора модели Теоретически из насыщенной модели можно удалить любые

Логлинейный метод подбора модели
Теоретически из насыщенной модели можно удалить любые элементы,

получив произвольную ненасыщенную модель.
Далее можно проверить состоятельность этой модели и в случае несоответствия ее исходным данным перейти к анализу другой ненасыщенной модели.
Предпочтение отдается иерархическим логлинейным моделям, которые позволяют упорядочить процесс подбора окончательной состоятельной модели.
Основной особенностью иерархических моделей является то, что присутствие какого-либо взаимодействия переменных означает присутствие всех взаимодействий, имеющих более низкий порядок, и главных эффектов этих переменных. Например, если в модели присутствует взаимодействие
агрессия х симпатия, то в ней присутствуют главные эффекты переменных агрессия и симпатия;
если в модели присутствует взаимодействие
агрессия х симпатия х условия,
то в ней также присутствуют взаимодействия агрессия х симпатия,
агрессия х условия и симпатия х условия, и т. д.