Современная теория тестов. Специальные методики и процедуры

Содержание

Слайд 2

План лекции Современная теория тестов Специальные методики и процедуры: одномерные шкалы

План лекции

Современная теория тестов
Специальные методики и процедуры: одномерные шкалы Гутмана,

Богардуса, Терстоуна
Семантический дифференциал
Репертуарная решетка Келли
ассоциативный эксперимент.
Одномерные и многомерные шкалы
Слайд 3

Современная теория тестов (Item Response Theory) Используется для проектирования, анализа и

Современная теория тестов (Item Response Theory)

Используется для проектирования, анализа и оценки

тестов, опросников и др. измерительных инструментов, отношений или других переменных
Для тестирования данных используются мат.модели
Слайд 4

История Классическая теория тестов (н.ХХ в.). Classical Test Theory. Проблемы: гомогенность,

История

Классическая теория тестов (н.ХХ в.). Classical Test Theory. Проблемы: гомогенность, надежность

и валидность тестов - ? Использовались линейные модели (гипотеза нормального распределения) Бинарные переменные - ?
Главное предположение классической теории тестов - тестовые результаты подчиняются интервальному принципу. Нет исследований, подтверждаю­щих это предположение
Зарождение современной теории тестов – к. 60-х гг. ХХ в. (Ф.Лорд, М.Новик). Новые стат.методы. Процедуры, позволяющие преобразовать переменные с распределением, отличающимся от нормального, в нормальное распределение. Анализ дихотомических переменных (напр., участие/неучастие) – напр., логистическая регрессия
Нелинейные (item response) модели
Слайд 5

Основные допущения IRT Существуют латентные параметры (напр., уровень подготовки тестируемого и

Основные допущения IRT

Существуют латентные параметры (напр., уровень подготовки тестируемого и уровень

сложности задания)
Существуют наблюдаемые параметры, связанные с латентными
Латентный параметр должен быть одномерным (шкала измеряет одну переменную)
Слайд 6

IRT как теория анализа ответов в заданиях теста IRT ориентирован на

IRT как теория анализа ответов в заданиях теста

IRT ориентирован на анализ

не теста в целом, а отдельных заданий
В рамках IRT используют несколько моделей возможных ответов респондентов. Наиболее часто встречающаяся – модель Раша (однопараметрическая модель – вероятность успеха испытуемого как функция одного параметра, напр., уровень подготовленности)
Слайд 7

Современная теория тестов IRT Модели IRT ориентированы на анализ оцениваемых характеристик.

Современная теория тестов IRT

Модели IRT ориентированы на анализ оцениваемых характеристик. Характеристики

личности и характеристи­ки заданий оцениваются с помощью шкал (порядковых или интервальных). Возможно сопоставление пока­зателей выполнения разных тестов, направленных на изу­чение сходных характеристик. 
Цель –построение шкалы для измерения латентной переменной. Пример: баллы ЕГЭ как шкала оценки знаний. Возможность сравнения различных групп. Выявление основных дифференцирующих признаков
Слайд 8

Специальные методики и процедуры. Шкалы

Специальные методики и процедуры. Шкалы

Слайд 9

Основные типы шкал Шкала в социологии – специально сконструированная линейка для

Основные типы шкал

Шкала в социологии – специально сконструированная линейка для измерения

отдельных свойств объекта, т.е. присвоение им числовых значений – меток.
Шкала – правило, определяющее, каким образом в процессе измерения каждому изучаемому объекту ставится в соответствие некоторое число или другой математический конструкт. (Ю.Толстова)

Готовые
(напр., минуты, рубли)

Специальные
(напр., соц. статус)

Измерение

Слайд 10

Основные правила шкалирования Хорхе Луис Борхес в рассказе Аналитический язык Джона

Основные правила шкалирования

Хорхе Луис Борхес в рассказе Аналитический язык Джона Уилкинса

ссылается на якобы перевод древнего китайского текста: «Животные делятся на..
а) принадлежащих Императору
б) набальзамированных,
в) прирученных,
г) молочных поросят,
д) сирен,
е) сказочных,
ж) бродячих собак,
з) включённых в эту классификацию,
и) бегающих как сумасшедшие,
к) бесчисленных,
л) нарисованных тончайшей кистью из верблюжьей шерсти,
м) прочих,
н) разбивших цветочную вазу,
о) похожих издали на мух.»

Единое основание для классификации
Полнота охвата шкалы предложенными значениями
Принятие одного значения шкалы должно исключать другого

Слайд 11

Основные правила шкалирования Каждый признак (каждая переменная) измеряется с помощью той

Основные правила шкалирования

Каждый признак (каждая переменная) измеряется с помощью той или

иной шкалы.
Шкала состоит из меток, чаще всего, чисел.
Поскольку «измерение» есть «приписывание чисел вещам», то «шкала» - это более или менее сложные правила подобного «приписывания».
Тип использованной шкалы определяет возможности обработки полученных данных. Выбор шкалы ограничивает набор видов анализа данных.
Каждый вопрос, включенный в анкету, представляется в виде «переменных» (параметров, атрибутов).
Как правило, одноальтернативный закрытый вопрос представляется в виде одной переменной.
Закрытый многоальтернативный вопрос представляется в виде нескольких переменных.
Открытый вопрос кодируется уже после сбора данных, для него выбирается шкала и набор переменных
Слайд 12

Типы шкал измерения Шкала наименований (номинальная) – только описывает объект, количественные

Типы шкал измерения

Шкала наименований (номинальная) – только описывает объект, количественные показатели

не используются.
Оцениваемому объекту приписывается значение, отражающей его принадлежность к группе.
Шкала порядка (ранговая) – размечает объекты по степени выраженности у них того или иного признака.
Позволяет упорядочить любую пару объектов относительно друг друга на шкале.
Интервальная шкала не только упорядочивает объекты, но и количественно описывает их отличия.
Результаты, представленные в интервальной шкале, позволяют указывать «на сколько» степень выраженности признака у одного объекта больше, чем у другого.
Шкала отношений это интервальная шкала с «нулевой точкой».
Значения, измеренные в шкале отношений, позволяют указать «во сколько раз» различаются показатели.
Слайд 13

Типы шкал измерения Номера бегунов (номер на майке) - номинальная шкала.

Типы шкал измерения

Номера бегунов (номер на майке) - номинальная шкала.
Используется

только для различения спортсменов и не для чего больше.
Очередность прихода к финишу - порядковая шкала.
Порядок мест победителей на пьедестале почета.
Рейтинг спортсмена - интервальная шкала.
Рейтинг спортсмена по 10-балльной шкале (от 1 до 10).

Время прохождения дистанции в секундах - шкала отношений.
Можно говорить о том, «на сколько» и «во сколько» раз быстрее прошел дистанцию каждый из бегунов.

Слайд 14

Свойства шкал измерения «Простые» шкалы. Минимальное количество «разрешенных» методов обработки «Хорошие»

Свойства шкал измерения

«Простые» шкалы. Минимальное количество «разрешенных» методов обработки

«Хорошие» шкалы. Допускают

применение разнообразных статистических методов обработки

«Пол» - признак, представленный в номинальной шкале.
«Доля женщин» - признак, представленный в шкале отношений.

Слайд 15

Свойства шкал измерения Чем более «грубой» является шкала, тем меньше методов

Свойства шкал измерения

Чем более «грубой» является шкала, тем меньше методов можно

использовать при обработке данных, но тем ниже вероятность ошибиться при измерениях.

«Простые» шкалы. Минимальная вероятность допустить ошибку при измерении

То, что можно сделать просто – должно быть сделано просто.

Слайд 16

Примеры шкал измерения В каких шкалах представлены приведенные ниже вопросы? Шкала

Примеры шкал измерения

В каких шкалах представлены приведенные ниже вопросы?

Шкала отношений

Интервальная шкала

Ранговая

шкала

Номинальная шкала

Шкала отношений

Ранговая шкала

Слайд 17

Построение сложных признаков Нередко исследователь на основе собранных данных по отдельным

Построение сложных признаков

Нередко исследователь на основе собранных данных по отдельным

признакам формирует комбинацию последних, сложные признаки. Соответственно со своими шкалами.

Распределение значений признака «Допускаете ли Вы то, что можете не принять участие в голосовании?»

Метки шкалы признака «Допускаете ли Вы то, что можете не принять участие в голосовании?»

Метки шкалы признака «Намерены ли Вы принять участие в голосовании?»

Распределение значений признака «Намерены ли Вы принять участие в голосовании?»

Метки составного признака

Слайд 18

Шкалы сумматорного типа Шкалы, получающиеся в результате агрегирования и свертки (чаще

Шкалы сумматорного типа

Шкалы, получающиеся в результате агрегирования и свертки (чаще всего,

суммирования) значений шкал первичных признаков, т.е. тех, по которым происходило непосредственное измерение. Используются для измерения латентных признаков.
Все шкалы сумматорного типа пришли из психологии и потому направлены на максимально точное измерение изучаемых свойств отдельного индивида, а не на возможность сбора данных у больших социальных групп.
Слайд 19

Шкала Лайкерта Серия суждений, выражающих разное отношение к измеряемому объекту (желательно

Шкала Лайкерта

Серия суждений, выражающих разное отношение к измеряемому объекту (желательно стремиться

к балансу позитивных и негативных высказываний)
Все суждению имеют порядковую шкалу (чаще всего, шкалу согласия)
Респондент оценивает свое отношение к каждому суждению
Полученные ответы кодируются для однонаправленного измерения (для всех суждений одинаково)
Все коды суммируются и нумеруются – каждый респондент получает индекс отношения к измеряемому объекту
Слайд 20

Шкала Лайкерта Пример Оцените по каждому из суждений степень своего согласия

Шкала Лайкерта

Пример
Оцените по каждому из суждений степень своего согласия или несогласия

(таблица «кафетерий»)

Максимум 6*5=30
Нормированный индекс = (23-6)/(30-6)=71%

Слайд 21

Шкала Терстоуна Серия суждений, выражающих разное отношение к измеряемому объекту (желательно

Шкала Терстоуна

Серия суждений, выражающих разное отношение к измеряемому объекту (желательно в

высказываниях предложить большое число оттенков отношения)
Экспертам предлагается оценить, насколько каждое из суждения выражает установку (разложить карточки с суждениями от 1 до 11, есть варианты – от 1 до 9, в общем случае – нечетное число групп суждений)
Определить вес каждого суждения (медиана)
Выбрать наиболее согласованные суждения (минимальный квартильный размах), равномерно охватывающий весь спектр установки.
Респондент оценивает свое согласие или несогласие с каждым суждением (в дихотомии «да/нет»).
Веса суждений, с которыми респондент согласился, суммируются (с учетом веса суждений). Каждый респондент получает индекс отношения к измеряемому объекту.
Слайд 22

Шкала Терстоуна Серия суждений, выражающих разное отношение к измеряемому объекту (желательно

Шкала Терстоуна

Серия суждений, выражающих разное отношение к измеряемому объекту (желательно в

высказываниях предложить большое число оттенков отношения)
Экспертам предлагается оценить, насколько каждое из суждения выражает установку (разложить карточки с суждениями в группы от 1 до 11)
Определить вес каждого суждения (медиана)
Выбрать наиболее согласованные суждения (минимальный квартильный размах), равномерно охватывающий весь спектр установки.

Вес суждения - 9,0 баллов

Квартильный размах – 9,8 – 8,2 = 1,6

Слайд 23

Шкала Терстоуна Респондент оценивает свое согласие или несогласие с каждым суждением

Шкала Терстоуна

Респондент оценивает свое согласие или несогласие с каждым суждением (в

дихотомии «да/нет»).
Веса суждений, с которыми респондент согласился, суммируются (с учетом веса суждений). Каждый респондент получает индекс отношения к измеряемому объекту.
Максимум = 11*2 = 22
Индекс (среднее) 9,4/22 = 43%
Слайд 24

Шкала Богардуса Респонденту предлагается 7 кумулятивных суждений, относящихся к определенной социальной

Шкала Богардуса

Респонденту предлагается 7 кумулятивных суждений, относящихся к определенной социальной группе.
Респонденты

выбирают максимально возможный приемлемый уровень согласия. Считается, чем выше балл, тем дальше дистанция.
Пример. Проранжируйте представителей указанной национальности, отмечая степень приемлемости их для себя лично только по одному из семи предложенных здесь критериев. Отвечайте по принципу: для меня лично возможно и желательно в отношении людей данной национальности (номер ответа – это величина балла)
Принятие как близких родственников посредством брака.
Принятие как личных друзей
Принятие как соседей, проживающих на одной улице
Принятие как коллег по работе, имеющих ту же профессию, что и я.
Принятие как граждан моей страны.
Принятие только как туристов в моей стране.
Предпочел бы не видеть в моей стране.
Слайд 25

Шкала Богардуса Эмори Богардус применил данную шкалу для измерения социальной дистанции

Шкала Богардуса

Эмори Богардус применил данную шкалу для измерения социальной дистанции в

отношении к различным этническим группам. Исследование было проведено в США впервые в 1926 году и повторено в 1966 г. Указавшие тот или иной уровень приемлемости получали соответствующий балл, описывающий приемлемую для них дистанцию следующим образом:
7 баллов (максимум) - ксенофобия
5-6 баллов - национальная изолированность
4-5 баллов – национальная обособленность
Менее 4 баллов – открытость, толерантность
Слайд 26

Шкала Богардуса В реальных исследованиях шкала Богардуса используется редко в связи

Шкала Богардуса

В реальных исследованиях шкала Богардуса используется редко в связи с

ее очень узкой направленностью на измерение социальной дистанции к большим социальным группам.
По этой причине Гуттман расширил в 1940 году возможности данной шкалы на больший круг исследовательских задач.
Слайд 27

Шкала Гуттмана Собственно расчет значения данной шкалы полностью идентичен шкале Богардуса.

Шкала Гуттмана

Собственно расчет значения данной шкалы полностью идентичен шкале Богардуса.
Отличие

лишь в том, что если шкала Богардуса упорядочена с самого начала, то Гуттман разработал и обосновал метод упорядочения широкого круга суждений для формирования такой шкалы.
Задача шкалирования по Гуттману состоит в построении кумулятивной – одномерной, монотонно возрастающей шкалы, отражающей нарастание выраженности отношения к какому-либо социальному объекту или явлению. Гуттман называл это принципом «лестницы»

Серия суждений отражают нарастание установки – более сложные действия включают в себя более простые

Слайд 28

Шкала Гуттмана Респондентам предъявляется набор суждений и он выражает свое согласие

Шкала Гуттмана

Респондентам предъявляется набор суждений и он выражает свое согласие или

не согласие с каждым из них.
Ответы кодируются «+», если респондент согласился с суждением и «-», если не согласился (выбрал противоположную альтернативу).
В результате сформировалась матрица ответов респондентов, т.е. мы имеем собственно согласие или несогласие респондентов с суждениями. Нам осталось лишь придать вес каждому из этих суждений.

Подсчитываются количество суждений, с которыми респонденты выразили согласие. А затем респонденты ранжируются в зависимости от числа суждений, с которыми они согласились.

Слайд 29

Шкала Гуттмана В сформированной таким образом матрице исследователь меняет расположение «столбцов»

Шкала Гуттмана

В сформированной таким образом матрице исследователь меняет расположение «столбцов» (суждений)

с тем, чтобы получить наиболее четкую границу между «+» и «-».
В заключение суждениям, относительно которых получено наибольшее число положительных ответов («+»), придаются наибольшие значения, а тем, с которыми согласилось меньшинство, - наименьшее.
Результат усредняется по всей выборке, как и в случае шкалы Терстоуна.
Слайд 30

Коэффициент репродуктивности шкалограммы Гуттмана Коэффициент репродуктивности шкалограммы - интервал допустимой ошибки.

Коэффициент репродуктивности шкалограммы Гуттмана

Коэффициент репродуктивности шкалограммы - интервал допустимой ошибки. Показывает

количество ошибок и означает процент реакций на признак, который воспроизводится правильно:
R = 1− n/KN,
где R – коэффициент репродуктивности; K – число суждений (в нашем случае K = 6), по которым нужно дать ответ; N – число респондентов (в нашем случае N = 9); n – число ошибочных ответов, которые располагаются справа или слева от идеальной вертикали
Желательно получить не более 10 % ошибочных ответов. Тогда коэффициент репродуктивности должен выражаться числом 0,90. Это означает, что данный набор суждений образует одномерную шкалу.
 Коэффициент репродуктивности нашей шкалы равен 0,94
R = 1−3/6х9= 0,94
Число допустимых ошибок n= (1- R)x (K x N)= 3,24.
В нашем примере – 3, что допустимо.
Можно повысить коэффициент, убрав суждения, которые вызывают наибольшие отклонения от идеальной шкалограммы.
Слайд 31

Семантический дифференциал Психосемантический метод – семантический дифференциал Ч.Осгуда. Позволяет измерять аффективные

Семантический дифференциал

Психосемантический метод – семантический дифференциал Ч.Осгуда. Позволяет измерять аффективные компоненты

значений – личное, субъективное. Коннотативное в отличие от денотативного.
Применяется для построения субъективного семантического пространства
Используется при изучении эмоционального отношения, стереотипов, ценностной нагруженности
Слайд 32

Семантический дифференциал Методом факторного анализа устанавливается минимальное количество осей Место объекта

Семантический дифференциал

Методом факторного анализа устанавливается минимальное количество осей
Место объекта на операциональном

уровне можно представить в виде точки в семантическом пространстве. Может быть охарактеризована двумя параметрами: направлением и удалённостью от точки отсчёта (качеством и интенсивностью)
Изучаемое понятие оценивается тестируемым по 7-балльным биполярным шкалам
Слайд 33

СД Осгуда

СД Осгуда

Слайд 34

Возможное применение метода СД Осгуда в маркетинге

Возможное применение метода СД Осгуда в маркетинге

Слайд 35

Ассоциативный эксперимент Психосемантический метод Цель – понимание ассоциаций респондента Слово-стимул –

Ассоциативный эксперимент

Психосемантический метод
Цель – понимание ассоциаций респондента
Слово-стимул – слово-реакция (не задумываясь)
Ассоциации
По

звучанию
По значению: контраст, сходство, подчинение, соподчинение, обобщение, ассонанс, часть-целое, дополнение (Дж.Миллер)
Слайд 36

Возможное применение в социологическом исследовании: ФОМ, 2001 г. Тестировалось понятия «власть»,

Возможное применение в социологическом исследовании: ФОМ, 2001 г. Тестировалось понятия «власть»,

«государство» и др. N=810

«респонденты подходят к трактовке понятия "государство" с разных позиций. Основные их подходы можно определить как
геополитический (акцентирующий внимание на единой территории),
институциональный (ориентированный на политический строй: Президент, правительство, полит.система, управленческий орган, система законов и др.),
этнокультурный (акцент – на народе, с его укладом и традициями: культура, народ и его традиции, национальная община и др.),
личностный (сближающий представление о государстве с такими ценностно окрашенными понятиями, как Родина, Отчизна, Держава)»
https://bd.fom.ru/report/map/pa0013

Слайд 37

Репертуарная решетка Келли Первый этап – выявление конструктов, с помощью которых

Репертуарная решетка Келли

Первый этап – выявление конструктов, с помощью которых оценивается

объект. Триады или диады (иногда этап опускается, конструкты задаются исследователем)
Второй этап – оценка объектов согласно конструктам
Слайд 38

Репертуарная решетка Келли Элементы задаются в виде репертуара ролей, на место

Репертуарная решетка Келли

Элементы задаются в виде репертуара ролей, на место которых

респондент подставляет конкретных людей, предметы и т.д.
Из набора элементов выделяются тройки, предлагается выделить качество, по которому двое из них схожи и отличны от третьего. Названия полюсов записываются
Выявленный конструкт представляется в виде шкалы от -3 (полюс различия) до +3 (полюс сходства)
Если между конструктами есть корреляция, возможно существование латентного фактора
Можно проводить корреляционный, кластерный, факторный анализ. Анализ взаимоотношений между объектами в восприятии индивида, информация о сходстве и различии между ними, можно выделить классы
Слайд 39

Репертуарная решетка Келли (пример)

Репертуарная решетка Келли (пример)

Слайд 40

Репертуарная решетка Келли. Пример визуализации результатов применения (проекция элементов и конструктов в факторное пространство)

Репертуарная решетка Келли. Пример визуализации результатов применения (проекция элементов и конструктов

в факторное пространство)
Слайд 41

Одномерные и многомерные шкалы Одномерные шкалы (one-dimensional scales) – iкала измерений

Одномерные и многомерные шкалы

Одномерные шкалы (one-dimensional scales) – iкала измерений свойства объекта,

которая характеризуется одним параметром и результаты измерений, в которой выражаются одним числом или знаком (обозначением).
Применяются, когда свойства объекта/процесса достаточно полно могут быть выражены в одномерном пространстве признаков. При этом одномерная шкала может быть как дискретной, так и непрерывной.
Многомерные шкалы (multidimensional scales) - шкала измерений свойства объекта, которая характеризуется двумя или более параметрами и результаты измерений в которой выражаются двумя или более числами или знаками (обозначениями).
Применяются, если свойства объекта/процесса не могут быть адекватно выражены в одномерном пространстве признаков (например, когда одним термином описывается некое комплексное явление, характеризующееся большим разбросом несвязанных между собой параметров). Нередко используются так называемые номографические шкалы, для которых характерно выделение на шкале, построенной в некоторой системе координат, кривых или поверхностей, для которых выполняется некоторое условие (функциональная зависимость), связывающее параметры, отложенные по координатным осям.
Слайд 42

Многомерные шкалы Сложность социологических объектов часто не позволяет считать, что все

Многомерные шкалы

Сложность социологических объектов часто не позволяет считать, что все респонденты

используют при оценивании одну характеристику и понимают ее однозначно
Учесть сложные отношения можно иногда только при использовании многомерной шкалы: например, нетранзитивность в методах парных сравнений (костюм В лучше А по фасону, В лучше А по материалу, С лучше сидит, чем А)
Пространство восприятия группы респондентов – пространство, осями которого служат одномерные характеристики (свойства) объектов, воспринимаемые этими респондентами и используемые при вынесении суждения об объектах (Клигер, Косолапов, Толстова. Шкалирование при сборе и анализе социологической информации, 1978).
Слайд 43

Многомерные шкалы Изучаемые объекты – точки в пространстве восприятия, проекции соответствующих

Многомерные шкалы

Изучаемые объекты – точки в пространстве восприятия, проекции соответствующих точек

на оси – шкальные значения объектов по воспринимаемым характеристикам
Оси группового пространства восприятия – субъективные характеристики восприятия отдельных респондентов (напр., привлекательность работы)
Конфигурация точек в пространстве может быть достаточно сложной
Слайд 44

Многомерные шкалы Часто исследователь сам задает оси восприятия Затем с помощью

Многомерные шкалы

Часто исследователь сам задает оси восприятия
Затем с помощью одномерного шкалирование

получает шкальные значения объектов по этим осям и таким образом определяет расположение объектов в пространстве
Следующий этап – попытка установить зависимости между оценкой объектов по комплексному показателю и оценками по составляющим характеристикам
Но – восприятие объектов респондентов может отличаться от исследователя. Поэтому желательно выявить характеристик, по которым оценивают респонденты
Например, предлагать оценить сходство между объектами, не ограничивая в выборе характеристик
Слайд 45

Основные отличия многомерного шкалирования от одномерного В многомерном ш. от респондента

Основные отличия многомерного шкалирования от одномерного

В многомерном ш. от респондента не

требуют оценки объектов по заранее заданным характеристикам, а используют суждения о сходстве между объектами
Размерность пространства восприятия, как и шкальные значения объектов, определяется из исходных данных
Вводится функция несоответствия (критерий расхождения) – оценивается, насколько полученное пространственное представление сохраняет информацию, имеющуюся в исходных данных.
Задача – понижение размерности пространства
Слайд 46

Пример многомерного шкалирования

Пример многомерного шкалирования

Слайд 47

Основные выводы Основные правила шкалирования Единое основание для классификации Полнота охвата

Основные выводы

Основные правила шкалирования
Единое основание для классификации
Полнота охвата шкалы предложенными значениями
Принятие

одного значения шкалы должно исключать другого
Виды шкал
Номинальная
Порядковая
Интервальная
Отношений (метрическая)