Методология измерений: как потерять всех друзей-психологов и заставить их себя ненавидеть

Содержание

Слайд 2

Вы не можете этим управлять, если не сможете это измерить Измерения в психологии и образовании

Вы не можете этим управлять,
если не сможете это измерить

Измерения в

психологии и образовании
Слайд 3

Дисклеймер Как потерять всех друзей-психологов и заставить их себя ненавидеть? Стань

Дисклеймер

Как потерять всех друзей-психологов и заставить их себя ненавидеть?
Стань методологом
Нечего сказать

про исследование?
Пристань к методологии
Как выбрать лучший тест?
Никак. Все тесты разные, и это нормально.

Измерения в психологии и образовании

Слайд 4

Педагогические и психологические тесты Способность = черта Уровень способности = уровень

Педагогические и психологические тесты

Способность = черта
Уровень способности = уровень черты
Трудность задания

= трудность согласиться
с утверждением
Правильный ответ на задание говорит о самом высоком уровне способности, которое может измерить это задание; вариант ответа «Абсолютно согласен» говорит о самом высоком уровне черты, которое может измерить задание.

Измерения в психологии и образовании

Слайд 5

Почему именно тесты? Отделение одной характеристики респондентов от смежных Объективность и

Почему именно тесты?

Отделение одной характеристики респондентов от смежных
Объективность и справедливость
Экономически выгодно
Тиражируемость
Предсказуемость

результатов применения:
Таблицы Taylor-Russell и таблицы Lawshe: сколько процентов поступающих на работу будут справляться с ней при определенной корреляции баллов по инструменту и job performance
Таблицы Naylor-Shine: показывает как много денег для организации заработают сотрудники в зависимости от корреляции баллов по инструменту и результативности сотрудника при сравнении с набранными случайно

Измерения в психологии и образовании

Слайд 6

Измерение В естественных науках: Понимание величины четко определено Сравнение с эталоном

Измерение

В естественных науках:
Понимание величины четко определено
Сравнение с эталоном (пре-реквизит: эталоны четко

заданы и конвертируемы друг в друга)
Присутствует ошибка измерения (ВСЕГДА), но иногда ею можно пренебречь
Не зависит относительно измерительного инструмента
В социальных науках:
Все плохо
Но: по одному шагу за раз.

Измерения в психологии и образовании

Слайд 7

Конструкты Вы когда-нибудь видели критическое мышление или тревожность ходящими по комнате?

Конструкты

Вы когда-нибудь видели критическое мышление
или тревожность ходящими по комнате?
Если да,

Вам следует обратиться за помощью.
Ненаблюдаемые (латентные) конструкты не существуют в реальности
То, что мы измеряем – это наше представление об определенных чертах или способностях (операционализация конструкта, модель конструкта)

Измерения в психологии и образовании

Слайд 8

Операциональное определение Операциональное определение – определение конструкта в терминах операций, выполняемых

Операциональное определение

Операциональное определение – определение конструкта в терминах операций, выполняемых при

его измерении

Измерения в психологии и образовании

Напрямую конструкты измерить невозможно, поэтому мы:
Собираем свидетельства о проявлении некоторого поведения
Допускаем, что это поведение объясняется нашим пониманием конструкта
Допускаем, что чем чаще проявляется определенное поведение,
тем сильнее выражен конструкт
Допускаем, что все многообразие поведения, соответствующее конструкту, объясняется только этим конструктом и ничем другим

Один конструкт = одна размерность

Слайд 9

Операционализация Измерения в психологии и образовании Операциональное определение Операциональное определение –

Операционализация

Измерения в психологии и образовании

Операциональное определение

Операциональное определение – определение конструкта в

терминах операций, выполняемых при его измерении
Слайд 10

Валидность Действительно ли Ваш тест измеряет конструкт в Вашем понимании? Давным-давно

Валидность

Действительно ли Ваш тест измеряет конструкт в Вашем понимании?
Давным-давно в далекой-далекой

галактике существовала только
критериальная валидность, и все были очень тревожные.
Конструктная валидность – это выход.
Валидность – это сумма доказательств,
поддерживающих вашу интерпретацию тестового балла
Процесс валидизации никогда не может быть полностью завершен,
поэтому Вы можете собирать свидетельства о валидности хоть всю жизнь.

Измерения в психологии и образовании

Измеряет ли тест то, что Вы хотите им измерить?

Слайд 11

Разработка теста Генерализация Экстраполяция Интерпретация Brennan R. (Ed.). (2006). Educational Measurement.

Разработка теста

Генерализация

Экстраполяция

Интерпретация

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

ЗАКЛЮЧЕНИЕ

Слайд 12

Измерения в психологии и образовании МЕЛКАЯ МОТОРИКА Разработка теста

Измерения в психологии и образовании

МЕЛКАЯ МОТОРИКА

Разработка теста

Слайд 13

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Операционализация:
под

мелкой моторикой мы понимаем то, насколько скоординировано человек двигает пальцами?
Или как ловко он оперирует мелкими предметами?
Слайд 14

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Определение области

проявления поведения: мелкая моторика может проявляться в бесконечном множестве ситуаций.
От того, насколько ловко человек ковыряется в носу, до часового и ювелирного мастерства.
Слайд 15

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ

Мелкая

моторика связана с общей координацией движений и физическим развитием?
С социальной ситуацией действия: человек может мастерски ковыряться в носу, но не показывать этого на людях?
Слайд 16

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ

Человеку

может нравиться быть часовщиком, но может не нравиться ковыряться в носу.
Или наоборот.
¯\_(ツ)_/¯
Слайд 17

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД

СБОРА ДАННЫХ

Опросник, основанный на самоотчете;
эксперимент (как много гаек он закрутит пальцами, пока не скажет, что с него хватит);
наблюдение.
Или ещё миллион способов.

Слайд 18

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ПОСТОРОННИЕ

ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Это все, конечно, прекрасно, но мы будем исследовать мелкую моторику по тому, как он играет в LEGO.

Слайд 19

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ПОСТОРОННИЕ

ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Знакомство и отношение испытуемого к LEGO

Слайд 20

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

Знакомство

и отношение испытуемого к LEGO

Испытуемому нравятся наборы The Avengers, а мы будем использовать наборы Star Wars

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Слайд 21

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

Знакомство

и отношение испытуемого к LEGO

Испытуемому нравятся наборы The Avengers, а мы будем использовать наборы Star Wars

Дизайн сбора данных

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Слайд 22

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Использование данных о процессе деятельности или использование результата деятельности?

Слайд 23

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Мы будем смотреть на то, собран ли конструктор и на
время сбора конструктора.

Слайд 24

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Что бы Вы не решили оценивать, сами оценки должны быть продуманы.
Нужно задать правила начисления баллов.

Слайд 25

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

2 балла – конструктор аккуратно и полностью собран;
1 балл – конструктор собран неаккуратно или неполностью;
0 баллов – конструктор не собран.
Время – в секундах

Слайд 26

Разработка теста Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

Разработка теста

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Психометрические характеристики инструмента?
Кроме Альфы Кронбаха что-то еще существует?

Слайд 27

Разработка теста Генерализация Brennan R. (Ed.). (2006). Educational Measurement. 4th ed.

Разработка теста

Генерализация

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

Как испытуемый играет с LEGO Star Wars Collection?

Слайд 28

Разработка теста Генерализация Brennan R. (Ed.). (2006). Educational Measurement. 4th ed.

Разработка теста

Генерализация

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

Допущение: респондент играет со всем LEGO точно так же, как и с Star Wars Collection

Слайд 29

Разработка теста Генерализация Экстраполяция Brennan R. (Ed.). (2006). Educational Measurement. 4th

Разработка теста

Генерализация

Экстраполяция

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

Как респондент работает со всем LEGO?

Слайд 30

Разработка теста Генерализация Экстраполяция Brennan R. (Ed.). (2006). Educational Measurement. 4th

Разработка теста

Генерализация

Экстраполяция

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

Допущение: респондент работает со всем LEGO точно так же, как и работает со всеми мелкими предметами

Слайд 31

Разработка теста Генерализация Экстраполяция Интерпретация Brennan R. (Ed.). (2006). Educational Measurement.

Разработка теста

Генерализация

Экстраполяция

Интерпретация

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

То, как респондент обращается с мелкими предметами, действительно отображает уровень развития его мелкой моторики?

Слайд 32

Разработка теста Генерализация Экстраполяция Интерпретация Brennan R. (Ed.). (2006). Educational Measurement.

Разработка теста

Генерализация

Экстраполяция

Интерпретация

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

ЗАКЛЮЧЕНИЕ

«У респондента мелкая моторика развита лучше, чем у N% населения»

Слайд 33

Разработка теста Генерализация Экстраполяция Интерпретация Brennan R. (Ed.). (2006). Educational Measurement.

Разработка теста

Генерализация

Экстраполяция

Интерпретация

Brennan R. (Ed.). (2006). Educational Measurement. 4th ed. NCME&ACE

ОБЛАСТЬ
ГЕНЕРАЛИЗАЦИИ

ВЫБОРКА


ИНДИКАТОРОВ

НАБЛЮДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ

ОЖИДАЕМЫЙ БАЛЛ ЦЕЛЕВОЙ ОБЛАСТИ

ПОСТОРОННИЕ ЧЕРТЫ
КОНТЕКСТ
МЕТОД СБОРА ДАННЫХ

ОЖИДАЕМЫЙ ТЕСТОВЫЙ БАЛЛ ОГ

ЗАКЛЮЧЕНИЕ

«Респондент относится к уровню «Высокий» по уровню развития мелкой моторики с вероятностью К»

Слайд 34

Зачем это все? После получения тестового балла мы меняли только наше

Зачем это все?

После получения тестового балла мы меняли только наше понимание

того, что тестовый балл значит. Но больше ничего не менялось.
Не совсем так.
Мы работаем с выборкой. Если выборка репрезентативна, то на этих шагах делаются математические допущения о распределении черты в генеральной совокупности (во всей популяции людей, на которую мы можем распространять результаты).
А если нерепрезентативная?
Ой, всё.

Измерения в психологии и образовании

Слайд 35

Кроме того: одномерность теста Когда читаете про Альфу Кронбаха, всегда натыкаетесь

Кроме того: одномерность теста

Когда читаете про Альфу Кронбаха, всегда натыкаетесь на

то, что «она не должна использоваться как мера одномерности теста»
Чё?
Одномерность предполагает, что все многообразие поведения, стоящего за конструктом можно отразить одномерной шкалой.
Действия, которые должны относиться к нашему конструкту, происходят из-за нашего конструкта. И только из-за него.
Респондент не может быть лучше в одном аспекте конструкта, чем в другом.

Измерения в психологии и образовании

Слайд 36

Эталоны Что такое тестовый балл? Что является единицей измерения? Измерения в психологии и образовании

Эталоны

Что такое тестовый балл?
Что является единицей измерения?

Измерения в психологии и образовании

Слайд 37

Концепт тестового балла А одинакова ли разница между респондентами с 29

Концепт тестового балла

А одинакова ли разница между респондентами с 29 и

30 баллами и респондентами с 30 и 31?
Тестовый балл дискретен, конструкт тоже?

Измерения в психологии и образовании

Слайд 38

Ошибка измерения Кто о ней вообще думает? Самая известная модель классической

Ошибка измерения

Кто о ней вообще думает?
Самая известная модель классической теории тестирования:
X

= T + E, где
X – это полученный (наблюдаемый, тестовый) балл
T – это истинный балл
E – это ошибка определения истинного балла
Ошибка есть всегда. Какие-то ответы определяются истинной способностью испытуемого, а какие-то – ошибкой.
Как определить, какие ответы будут истинными?

Измерения в психологии и образовании

Слайд 39

Ошибка измерения Поскольку определить ошибку напрямую невозможно, для нее придуманы философские

Ошибка измерения

Поскольку определить ошибку напрямую невозможно, для нее придуманы философские допущения.
Есть

случайная ошибка измерения.
Есть систематическая ошибка измерения.

Измерения в психологии и образовании

Слайд 40

Систематическая ошибка измерения Систематическая ошибка измерения систематически и предсказуемо изменяет его

Систематическая ошибка измерения

Систематическая ошибка измерения систематически и предсказуемо изменяет его на

одну и ту же величину
Как её определить?
Никак, она входит в истинный балл, поехали дальше.

Измерения в психологии и образовании

Слайд 41

Случайная ошибка измерения Средняя ошибка при бесконечном повторении тестирования равна нулю.

Случайная ошибка измерения
Средняя ошибка при бесконечном повторении тестирования равна нулю.
Ошибки двух

людей не связаны, ошибки двух вопросов не связаны.
Ошибка не связана с истинным баллом.

Измерения в психологии и образовании

Случайная ошибка измерения (Standard Error of Measurement) – это общий эффект всех неконтролируемых и неспецифических влияний на тестовый балл.

Слайд 42

Ошибка измерения и надежность теста Надежность теста – это мера того,

Ошибка измерения и надежность теста

Надежность теста – это мера того, насколько

данные свободны от ошибки
Измеряет ли тест вообще что-либо или все результаты – набор ошибок?
Но как определить величину ошибки, если не существует даже единицы измерения?
Напрямую – никак
Множество мер надежности, самая известная
[и самая плохая] – α Кронбаха

Измерения в психологии и образовании

Слайд 43

Инвариантность измерения относительно инструмента Разные варианты (формы) теста. Все задания разные:

Инвариантность измерения относительно инструмента

Разные варианты (формы) теста.
Все задания разные: какие-то

легче, какие-то труднее.
Как доказать, что варианты теста эквивалентны?
Как определить, какие баллы по одному варианту эквивалентны каким баллам по другому?
Проще умереть.

Измерения в психологии и образовании

Слайд 44

Поговорим про практические аспекты? Трудность задания Различительная способность задания Надежность Измерения в психологии и образовании

Поговорим про практические аспекты?

Трудность задания
Различительная способность задания
Надежность

Измерения в психологии и образовании

Слайд 45

Трудность задания В дихотомическом случае (0/1 балл) коэффициент трудности равен доле

Трудность задания

В дихотомическом случае
(0/1 балл) коэффициент трудности равен доле правильно решивших

задание от всей выборки (среднему баллу за задание)

В политомическом случае
(шкала Ликерта от 1 до 4) коэффициент трудности равен среднему баллу по заданию, деленному на количество категорий задания

80%

20%

30%

70%

Задание 1

Задание 2

P-value = 0.8

P-value = 0.3

15%

30%

45%

10%

Relative p-value = 1.5
Absolute p-value = 0.38

1

2

3

4

P-value – коэффициент трудности

Слайд 46

Различительная способность задания Вы хотите, что бы ваши задания выполняли сильные

Различительная способность задания

Вы хотите, что бы ваши задания выполняли сильные респонденты,

и не выполняли слабые, т.е., чтобы ваши задания дифференцировали респондентов по уровню способности
NB!: Это не вопрос
Существует несколько способов измерить различительную способность задания
Посмотреть различия «самых сильных» и «самых слабых» респондентов
Коэффициенты корреляции: корреляция балла по заданию с баллом по тесту (+ скорректированные коэффициенты корреляции)

Измерения в психологии и образовании

Слайд 47

Коэффициенты корреляции Мы можем посмотреть, как связан балл за одно задание

Коэффициенты корреляции

Мы можем посмотреть, как связан балл за одно задание
с

итоговым баллом по тесту
Связано должно быть сильно
И положительно, если вопрос прямой
Зачем на это смотреть?
Итоговый балл за задание – выраженность конструкта
Связь балла за задание с итоговым баллом – связь отдельного аспекта конструкта с конструктом в целом

Измерения в психологии и образовании

Слайд 48

Коэффициенты корреляции (КК) Измерения в психологии и образовании

Коэффициенты корреляции (КК)

 

Измерения в психологии и образовании

Слайд 49

Коэффициенты корреляции Измерения в психологии и образовании

Коэффициенты корреляции

Измерения в психологии и образовании

Слайд 50

Критические значения параметров АЛЯРМ: КОНВЕНЦИОНАЛЬНЫЕ СТАНДАРТЫ!!!1 Трудность: Редко когда мы заинтересованы

Критические значения параметров

АЛЯРМ: КОНВЕНЦИОНАЛЬНЫЕ СТАНДАРТЫ!!!1
Трудность:
Редко когда мы заинтересованы в экстремально легких

задания (>0.95) и экстремально трудных заданиях (<0.05)
Различительная способность:
Мы не заинтересованы в заданиях с низкой (<0.20) и, тем более отрицательной различительной способностью
Взаимосвязь различных мер различительной способности изучена плохо, т.к. показатель зависит от многих факторов.
Но конвенциональный стандарт 0.20 един для всех мер

Измерения в психологии и образовании

Слайд 51

Изящество классической модели Экстремально полезен коэффициент «Альфа Кронбаха, если удалить это

Изящество классической модели

Экстремально полезен коэффициент «Альфа Кронбаха, если удалить это задание

из теста» - если тест становится без этого заданий более надежным, это плохой знак. Очень плохой.

Измерения в психологии и образовании

Слайд 52

Итого: абсолютный релятивизм Измеряемые величины плавают от одного определения к другому,

Итого: абсолютный релятивизм

Измеряемые величины плавают от одного определения к другому, от

одной операционализации к другой
Единых эталонов измерения нет, даже внутри одного теста
Ошибка измерения неотделима от истинного балла непосредственно, поэтому придумано множество косвенных способов, как её определить опосредованно (и ни один из них не правилен абсолютно)
Измерение зависит от варианта измерительного инструмента
Психология – наука победившего постмодернизма
(как и педагогика).

Измерения в психологии и образовании

Слайд 53

Что же делать? Один тест не может сравниваться с другим тестом,

Что же делать?

Один тест не может сравниваться с другим тестом, только

если это не цели валидизации
«Ну, мааааааам, эта опелацианализация лууууучше!»
vs.
«Модель конструкта, заложенная в этот тест, лучше отвечает целям нашей работы».
Работать в современной теории тестирования

Измерения в психологии и образовании

Слайд 54

Нужны ли тесты вообще? Да. Особенно хорошие. Экономически выгоднее (тиражируемость) Объективнее

Нужны ли тесты вообще?

Да. Особенно хорошие.
Экономически выгоднее (тиражируемость)
Объективнее оценивают отдельные ключевые

характеристики
Справедливость и равенство (лишены индивидуальных искажений экспертов)

Измерения в психологии и образовании

Слайд 55

Спасибо за внимание! Измерения в психологии и образовании hse.ru/ma/psyedu

Спасибо за внимание!

Измерения в психологии и образовании

hse.ru/ma/psyedu

Слайд 56

Измерения в психологии и образовании

Измерения в психологии и образовании

Слайд 57

Слайд 58

Психологическое тестирование: математический взгляд Выраженность конструкта Задание 1: Задание 2: Задание

Психологическое тестирование: математический взгляд

Выраженность конструкта

Задание 1:

Задание 2:

Задание 3:

Задание 4:

Измерения в психологии

и образовании
Слайд 59

Тестирование: математический взгляд Выраженность конструкта Задания: 1 1 1 1 0

Тестирование: математический взгляд

Выраженность конструкта

Задания:

1

1

1

1

0

Респондент 1:

1

0

0

0

0

Респондент 2:

Где-то здесь

Измерения в психологии и образовании

Слайд 60

Вероятность правильного ответа Трудность задания Задание 1 Задание 2 Про вероятность

Вероятность правильного ответа

Трудность задания

Задание 1

Задание 2

Про вероятность правильного ответа на вопрос

Измерения

в психологии и образовании
Слайд 61

Шкалирование Гуттмана Вероятность правильного ответа Трудность задания Задание 1 Задание 2 Измерения в психологии и образовании

Шкалирование Гуттмана

Вероятность правильного ответа

Трудность задания

Задание 1

Задание 2

Измерения в психологии и образовании

Слайд 62

Все сложнее: “дисперсия ошибки” Выраженность конструкта Задания: 1 1 1 1

Все сложнее: “дисперсия ошибки”

Выраженность конструкта

Задания:

1

1

1

1

0

Респондент 1:

1

0

0

0

0

Респондент 2:

1

1

0

1

0

Респондент 3:

Где-то здесь

?

Измерения в психологии

и образовании
Слайд 63

Классическая Теория Тестирования Вероятность правильного ответа Трудность задания Задание 1 Задание

Классическая Теория Тестирования

Вероятность правильного ответа

Трудность задания

Задание 1

Задание 2

Измерения в психологии и

образовании
Слайд 64

Современная теория тестирования Вероятность правильного ответа Трудность задания Задание 1 Задание

Современная теория тестирования

Вероятность правильного ответа

Трудность задания

Задание 1

Задание 2

Логистическая регрессия: характеристическая кривая

респондента (Person Characteristic Curve, PCC)

Измерения в психологии и образовании

Слайд 65

Логистическая регрессия Супер-способность Балл по вопросу 0 1 0 Измерения в психологии и образовании

Логистическая регрессия

Супер-способность

Балл по вопросу

0

1

0

Измерения в психологии и образовании

Слайд 66

Логистическая регрессия Супер-способность Балл по вопросу 0 1 0

Логистическая регрессия

Супер-способность

Балл по вопросу

0

1

 

0

Слайд 67

θ – уровень подготовленности респондента δ – уровень трудности задания P

θ – уровень подготовленности респондента
δ – уровень трудности задания
P – вероятность

правильно ответить на задание


Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

Слайд 68

Мы допускаем, что есть некоторый параметр здания (трудность), который лежит на

Мы допускаем, что есть некоторый параметр здания (трудность), который лежит на

одной на одной шкале с параметром испытуемого (способностью)
Чем больше разница между этими параметрами (их разность по модулю,
|θ-δ|), тем сильнее вероятность ответа отличается от 0,5


Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

Слайд 69

Получение 1 балла по заданию перестает рассматриваться как часть итогового тестового

Получение 1 балла по заданию перестает рассматриваться как часть итогового тестового

балла
Оно рассматривается как дихотомическое событие, вероятность наступления которого зависит от разницы между трудностью и способностью


Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

Слайд 70

Таким образом, мы можем смоделировать латентную непрерывную характеристику способностей испытуемых (и

Таким образом, мы можем смоделировать латентную непрерывную характеристику способностей испытуемых (и

заданий)
NB!: вероятность никогда не будет равна 0 или 1 (в силу формулы)


Про обозначения, одну шкалу и переход от дискретных измерений к непрерывным величинам

Слайд 71

Карта переменных (Wright Map, Kidmap, Variable Map) Измерения в психологии и образовании

Карта переменных (Wright Map, Kidmap, Variable Map)

Измерения в психологии и образовании

Слайд 72

Статистические основания продвинутых психометрических методов: пример теста из трех заданий Вариация

Статистические основания продвинутых психометрических методов: пример теста из трех заданий

Вариация ответов,

определяющаяся целевым конструктом

Вариация ситуативной ошибки

Неодномерность теста (т.н. «локальная зависимость заданий», «Local Item Dependency», LID)

Измерения в психологии и образовании

Слайд 73

Поговорим про модели Строго говоря, IRT – не теория, а набор

Поговорим про модели

Строго говоря, IRT – не теория, а набор моделей
Эти

модели используются, потому что они удобны, никакой теоретической рамки за этим набором моделей нет
IRT Моделирует вероятность исхода случайного дихотомического события на основе ряда других дихотомических событий
Представляет собой конфирматорный факторный анализ (CFA) с использованием логистических, а не линейных уравнений. Смена типа уравнений увеличивает количество информации, которую мы можем получить и о тесте, и о респондентах.
Если Вы поняли этот пункт, то зачем Вы вообще нас слушали до этого момента?
Существует большое количество различных моделей, но традиционно их разделяют на два семейства:
Семейство моделей Раша (Rasch Modeling)
Собственно IRT-модели

Измерения в психологии и образовании

Слайд 74

Дихотомические модели: 1PL У фасета заданий оценивается только трудность, у фасета

Дихотомические модели: 1PL

У фасета заданий оценивается только трудность, у фасета респондентов

– только способность
Дискриминативность считается фактором, не влияющим на вероятность ответа
Все ICC параллельны
Объяснительная модель

Измерения в психологии и образовании

Слайд 75

“In reality no one does 3PL model. Even 2PL model using

“In reality no one does 3PL model. Even 2PL model using

is seldom. However, I’m going to show you 5PL model.”
Dr. David Stillwell, Cambridge Psychometrics Centre
7 Sep 2017

Измерения в психологии и образовании

Слайд 76

Дихотомические модели: 5PL У фасета заданий оценивается трудность, дискриминативность, угадывание, невнимательность

Дихотомические модели: 5PL

У фасета заданий оценивается трудность, дискриминативность, угадывание, невнимательность и

«снижение» (unfolding), у фасета респондентов – только способность
ICC могут пересекаться, имеют нижнюю асимптоту, верхнюю асимптоту и немонотонны
СУПЕР описательная модель