Таблицы сопряженности

Содержание

Слайд 2

Цели Вспомнить, что такое таблицы сопряженности Вспомнить, какую статистику можно для них считать

Цели

Вспомнить, что такое таблицы сопряженности
Вспомнить, какую статистику можно для них считать

Слайд 3

ТАБЛИЦЫ СОПРЯЖЕННОСТИ Таблицы сопряженности − это совместное распределение двух переменных. Строки

ТАБЛИЦЫ СОПРЯЖЕННОСТИ

Таблицы сопряженности − это совместное распределение двух переменных.
Строки таблицы

образуются значениями одной переменной.
Столбцы таблицы образуются значениями второй переменной.
Слайд 4

ТАБЛИЦЫ СОПРЯЖЕННОСТИ В клетке таблицы (на пересечении строки и столбца) указывается

ТАБЛИЦЫ СОПРЯЖЕННОСТИ

В клетке таблицы (на пересечении строки и столбца) указывается частота

совместного появления соответствующих значений.
Суммы частот по строке или по столбцу называются маргинальными частотами.
Распределения маргинальных частот представляют собой одномерное распределение переменных.
Слайд 5

Таким образом представленные данные не дают нам много информации. Проводим исследование:

Таким образом представленные данные
не дают нам много информации.

Проводим исследование:
X –

семейное положение – НП Y – занятость - ЗП

Собранные данные выглядят примерно так:

Слайд 6

Можно их сгруппировать в виде таблиц: по занятости: и по семейному положению:

Можно их сгруппировать в виде таблиц:

по занятости:

и по семейному положению:

Слайд 7

А можно и по двум переменным сразу: Эта замечательная таблица и

А можно и по двум переменным сразу:

Эта замечательная таблица и называется


таблицей сопряженности

По столбцам обычно приводится независимая переменная

По строкам обычно идет зависимая переменная

Слайд 8

Проценты в таблице сопряженности можно считать тремя способами: по столбцам, т.е. по независимой переменной

Проценты в таблице сопряженности можно считать тремя способами:
по столбцам, т.е.

по независимой переменной
Слайд 9

по строкам, т.е. по зависимой переменной

по строкам, т.е. по зависимой переменной

Слайд 10

по всей таблице сразу:

по всей таблице сразу:

Слайд 11

ТАБЛИЦЫ СОПРЯЖЕННОСТИ для шкал наименований для шкал порядка

ТАБЛИЦЫ СОПРЯЖЕННОСТИ

для шкал наименований

для шкал порядка

Слайд 12

ТАБЛИЦЫ СОПРЯЖЕННОСТИ для шкал наименований для шкал порядка χ2 Пирсона, коэффициент

ТАБЛИЦЫ СОПРЯЖЕННОСТИ

для шкал наименований

для шкал порядка

χ2 Пирсона,
коэффициент сопряженности С,
V

Крамера,
Ф
χ2 МакНемара,
критерий Фишера для таблиц 2х2
критерий Ятса (Yates)
...

+
τ Кендалла,
Гамма (G),
ρ Спирмена,
d Соммера

Слайд 13

ТАБЛИЦЫ СОПРЯЖЕННОСТИ для шкал наименований для шкал порядка

ТАБЛИЦЫ СОПРЯЖЕННОСТИ

для шкал наименований

для шкал порядка

Слайд 14

СТАТИСТИЧЕСКИЕ КРИТЕРИИ ДЛЯ ТАБЛИЦ СОПРЯЖЕННОСТИ Проверяют, есть ли зависимость в распределении

СТАТИСТИЧЕСКИЕ КРИТЕРИИ
ДЛЯ ТАБЛИЦ СОПРЯЖЕННОСТИ

Проверяют, есть ли зависимость в распределении одной

переменной от распределения по другой переменной.
Слайд 15

Слайд 16

χ2 Пирсона Пример: мы хотим проверить, правда ли, что мужчины больше

χ2 Пирсона

Пример: мы хотим проверить, правда ли,
что мужчины больше

любят собак,
а женщины - кошек
Слайд 17

Было опрошено 550 человек. Результаты опроса представлены в таблице: Мы можем

Было опрошено 550 человек. Результаты опроса
представлены в таблице:

Мы можем

проверить, зависит ли предпочтение домашнего животного (распределение по переменной Y) от пола
Слайд 18

Подсчет критерия χ2 (Пирсона) - эмпирическая частота, - теоретическая частота, k=r*c,

Подсчет критерия χ2
(Пирсона)

- эмпирическая частота,
- теоретическая частота,
k=r*c,
r- число

строк в таблице,
c –число столбцов в таблице,
df=(r-1)(c-1).
Слайд 19

Как определить теоретическую частоту? Для выделенной ячейки: Вероятность оказаться мужчиной равна

Как определить теоретическую частоту?
Для выделенной ячейки:

Вероятность оказаться мужчиной равна 200/550.

Вероятность предпочитать

собак равна 350/550.

Следовательно, вероятность быть мужчиной и предпочитать собак равна
(200/550 )*(350/550).
Умножив все это на количество испытуемых (550), получим теоретическую частоту для выделенной клетки:
(200/550 )*(350/550)*550=127,3.

Слайд 20

Подсчитав таким образом теоретические частоты для всех клеток, находим χ2=0,18; р=0,67

Подсчитав таким образом теоретические частоты для всех клеток, находим
χ2=0,18; р=0,67
Следовательно, предпочтение

домашнего животного не зависит от пола: мужчины и женщины одинаково любят собак.
Слайд 21

Ограничения критерия χ2 ✵ Наблюдения должны быть независимы. Поэтому нельзя использовать

Ограничения критерия χ2

✵ Наблюдения должны быть
независимы. Поэтому нельзя

использовать одного и того
же испытуемого несколько
раз.

✵ χ2 пропорционален размеру
выборки. Если увеличить
размер выборки в 2 раза, то и
значение χ2 возрастет в 2 раза.
Поэтому не рекомендуется
применять χ2 для больших
выборок.

✵ Если теоретическая частота
клеток маленькая, то
вычисления могут быть не
точны. Сейчас общепринятым
является правило, что когда
df>1 теоретическая частота
должна быть равна или больше
5 по крайней мере в 80%
клеток.

Слайд 22

χ2 МакНемара (McNemar) Увы! Только для таблиц 2*2. Тот критерий применяется,

χ2 МакНемара (McNemar)
Увы! Только для таблиц 2*2.

Тот критерий применяется, чтобы определить,

произошли ли изменения после какого-либо условия. Данные обычно представляются в виде таблицы:

Получается, что A+D – это число изменений

Слайд 23

Подсчет критерия χ2 (МакНемара) Ограничения: A+D должно быть не меньше 10!

Подсчет критерия χ2
(МакНемара)

Ограничения:
A+D должно быть не меньше 10!

Слайд 24

Пример: в телестудии проводятся дебаты, нужна ли смертная казнь. Зрители, сидящие

Пример: в телестудии проводятся дебаты, нужна ли смертная казнь. Зрители, сидящие

в зале, опрашиваются до начала дебатов и в конце передачи.

χ2=1,25; p=0,26. Следовательно, можно сделать вывод, что приглашенные ораторы были одинаково успешны в отстаивании своих точек зрения: мнения зрителей существенно не изменились

Слайд 25

Что делать, если таблица большей размерности, а схема – интраиндивидуальная? Для

Что делать, если таблица большей размерности, а схема – интраиндивидуальная?

Для случая,

когда условий больше (до дебатов, после дебатов, через год после дебатов…), можно использовать
Q-критерий Кочрена (Кохрена),
но только если данные представлены как дихотомические переменные
(да/нет, за/против,…)
Слайд 26

Что делать, если таблица большей размерности, схема – интраиндивидуальная, а данные

Что делать, если таблица большей размерности, схема – интраиндивидуальная, а данные

не дихотомические?

Не проводить такие исследования!

Слайд 27

МЕРЫ ЗАВИСИМОСТИ ДЛЯ ТАБЛИЦ СОПРЯЖЕННОСТИ

МЕРЫ ЗАВИСИМОСТИ ДЛЯ ТАБЛИЦ СОПРЯЖЕННОСТИ

Слайд 28

Меры зависимости для шкал наименований Все эти меры не имеют знака

Меры зависимости
для шкал наименований

Все эти меры не имеют знака и

не показывают направление отношений.

В программе STATISTICA можно посчитать три таких меры

Слайд 29

Коэффициент φ ✵ употребляется в основном с таблицами 2х2 ✵ меняется

Коэффициент φ
✵ употребляется в основном с
таблицами 2х2

меняется от 0 (когда переменные
независимы) до 1 (когда они
абсолютно зависимы)
Слайд 30

Коэффициент сопряженности С (или Ф) ✵ разработан для использования с квадратными

Коэффициент сопряженности С (или Ф)
✵ разработан для использования с квадратными

таблицами размера больше, чем 2х2
✵ меняется от 0 (когда переменные независимы)
до , где k - число строк (столбцов)
Слайд 31

V Крамера ✵ можно употреблять для любых таблиц - квадратных и

V Крамера
✵ можно употреблять для любых таблиц -
квадратных

и прямоугольных
✵ меняется от 0 (когда переменные
независимы) до 1 (когда они абсолютно
зависимы)

где c – число строк,
r – число столбцов таблицы.

Слайд 32

ТАБЛИЦЫ СОПРЯЖЕННОСТИ для шкал наименований для шкал порядка

ТАБЛИЦЫ СОПРЯЖЕННОСТИ

для шкал наименований

для шкал порядка

Слайд 33

✵ В таблице сопряженности можно представлять и порядковые данные. ✵ Обычно

✵ В таблице сопряженности можно
представлять и порядковые данные.
✵ Обычно

они перечисляются слева направо
(от меньшего к большему) и сверху вниз (от
большего к меньшему):
Слайд 34

Согласованная пара - это пара, где оба члена ранжированы в одном

Согласованная пара - это пара, где оба члена ранжированы в одном

порядке по двум направлениям.

B

D

Слайд 35

Несогласованная пара - это пара, где оба члена ранжированы в противо-положном

Несогласованная пара - это пара, где оба члена ранжированы в противо-положном

порядке по двум направлениям.

B

А

Слайд 36

Связанная пара - это пара, где оба члена ранжированы одинаково по

Связанная пара - это пара, где оба члена ранжированы одинаково по

крайней мере по одному направлению.

C

D

Слайд 37

Если в таблице преобладают несогласованные пары, то зависимость между переменными отрицательная. 10 20 30

Если в таблице преобладают несогласованные пары, то зависимость между переменными отрицательная.

10

20

30

Слайд 38

Если в таблице преобладают согласованные пары, то зависимость между переменными положительная. 10 20 30

Если в таблице преобладают согласованные пары, то зависимость между переменными положительная.

10

20

30

Слайд 39

Меры зависимости С- число согласованных пар, D - число несогласованных пар,

Меры зависимости

С- число согласованных пар,
D - число несогласованных пар,
Tx - число

пар, связанных по Х
Ty = число пар, связанных по У
Слайд 40

✵ Меры зависимости для шкал порядка имеют знак ✵ τ Кендалла

✵ Меры зависимости
для шкал порядка имеют знак
✵ τ Кендалла всегда меньше

1, если таблица не квадратная
Слайд 41

☝ STATISTICA не знает, какая шкала была использована: определить подходящий критерий


STATISTICA не знает, какая шкала была использована: определить подходящий критерий или

меру зависимости - полностью ваша проблема
(и ответственность)
Слайд 42

Представление данных Посчитать статистику для таблиц сопряженности можно в модуле Basic Statistics/ Tables and Banners

Представление данных

Посчитать статистику для таблиц сопряженности можно в модуле
Basic Statistics/

Tables and Banners
Слайд 43

Представление данных Исходные данные:

Представление данных

Исходные данные:

Слайд 44

Представление данных

Представление данных

Слайд 45

Представление данных

Представление данных

Слайд 46

Представление данных Для таблиц размером 2x2 есть еще модуль в Nonparametrics/Distrib.

Представление данных

Для таблиц размером 2x2 есть еще модуль в
Nonparametrics/Distrib.

Слайд 47

Представление данных Остается только ввести цифры…

Представление данных

Остается только ввести цифры…

Слайд 48

Представление данных И получаем всю статистику!

Представление данных

И получаем всю статистику!

Слайд 49

Самостоятельная работа К следующему занятию прочитать: Савина и Ванг. Выбор и

Самостоятельная работа

К следующему занятию прочитать:
Савина и Ванг. Выбор и принятие решений:

риск и социальный контекст// ПЖ, ….
(есть в электронном виде)