Многомерное шкалирование

Содержание

Слайд 2

Основной тип данных в МШ — меры близости между двумя объектами.

Основной тип данных в МШ — меры близости между двумя объектами.

Мера близости — это величина, определенная на паре объектов и измеряющая, насколько эти два объекта похожи.
Часто встречают­ся такие меры близости, как коэффициенты корреляции и совмест­ные вероятности. Обозначим меру близости пары стимулов (i, j) символом .
Если мера близости такова, что самые большие значения соответствуют парам наиболее похожих
объектов, то -мера сходства.
Если же мера близости такова, что самые большие значения соответствуют парам наименее похожих
объектов, то - мера различия.
Слайд 3

Согласно наиболее полному определению под МШ понимается «семейство геометрических моделей для

Согласно наиболее полному определению под МШ понимается «семейство геометрических моделей для

многомерного представления данных и со­ответствующий набор методов для подгонки таких моделей к реальным данным».
Под столь широкое определение подходит большинство методов многомерной статистики, в том числе факторный и кластерный анализ.
Мы будем трактовать МШ значительно уже как набор многомерных статистических методов, предназначенных для определения соответствия данных о близости различным дистанционным пространственным моделям и для оценки параметров этих моделей.
Слайд 4

Дистанционная модель для различий «Дистанционная пространственная модель» является намеком на аналогию

Дистанционная модель для различий

«Дистанционная пространственная модель» является намеком на аналогию

между понятием сходства в психологии и понятием расстояния в геометрии. Строго говоря, аналогия включает не понятие сходства в психологии, а понятие различия. Параллели между различием и расстоянием просматриваются в аксиомах расстояния.
Для того чтобы функция, определенная на парах объектов (а, b), была евклидовым расстоянием, она должна удовлетворять следующим четырем аксиомам:
d(a, b)>0, (1.1)
d(a,a) = 0, (1.2)
d(a,b)=d(b,a), (1.3)
d(a,b)+d(b,c)>=d(a,c). (1.4)
В применении к понятию различия первая аксиома означает, что или два объекта идентичны друг другу и их различие равно 0, или они в чем-то отличны друг от друга и их различие больше 0. Вторая аксиома означает, что объект идентичен сам себе. В соответствии с третьей аксиомой объект a так же отличается от объекта b, как объект b отличается от объекта a.
Хотя выполнение первых трех аксиом интуитивно кажется вполне возможным, никакие качества различия не дают возможности предположить, будет или не будет выполняться четвертая аксиома, называемая аксиомой треугольника (неравенством треугольника). Однако в со­циологии и науках о поведении выполнение трех аксиом из четырех уже неплохо, так что аналогия между различием в психологии и расстоянием в геометрии есть.
Слайд 5

Более формально дистанционную модель для различий можно описать следующим образом. Пусть

Более формально дистанционную модель для различий можно описать следующим образом.
Пусть

- мера различия между объектами i и j.
Объектами могут быть автомобили, места работы, кандидаты на должности. Согласно модели меры различия функционально связа­ны с К признаками объектов.
Если объекты - автомобили, то призна­ками могут быть, например, цена, расход бензина на милю, спортив­ность автомобиля.
Если объекты - места работы, то признаками могут служить престижность, заработная плата, условия труда.
Пусть и -значения признака k у объектов i и j соответственно. Например, если объекты- автомобили, а признак - расход бензина, то и будут означать расход бензина этих автомобилей. Или если объекты - места работы, а признак k - престижность, то и - престижность работы i и j соответственно.
Слайд 6

Согласно обычной формуле евклидова расстояния меры разли­чия связаны со значениями признаков

Согласно обычной формуле евклидова расстояния меры разли­чия связаны со значениями признаков

следующей функцией:
-обозначает данные, величину, полученную для пары объек­тов (i, j) эмпирически, путем наблюдения. С другой стороны, , и —
теоретические величины в статистической модели для данных о различии. Эти теоретические величины непосредственно не наблюдаемы и могут быть оценены по данным.
М. Ричардсон предложил начать с субъективных суждений о различиях объектов в парах и получить признаки, на которых эти суждения основаны, а также значения стимулов по этим признакам. Он ввел задачу статистической оценки, откуда и появилось МШ, — задачу оценки координат стимулов и по мерам различий.
Слайд 7

Модель Торгерсона В модели Торгерсона предполагается, что оценки различий равны расстояниям

Модель Торгерсона

В модели Торгерсона предполагается, что оценки различий равны расстояниям

в многомерном евклидовом пространстве. Пусть снова δij — мера различия между объектами i и j.
Под xik и xjk (i = 1, ..., I; j = 1, ..., J;I = J; к = 1, ..., К) будем понимать координаты стимулов i и j по оси k. Отметим, что число строк I в матрице различий равно числу столбцов J, так как строки и столбцы соответствуют од­ним и тем же стимулам. Основное предположение Торгерсона следующее:
(1.1)
Без потери общности можно предположить, что среднее значение координат стимулов по каждой оси равно нулю:
(1.2)
Слайд 8

Торгерсон начал с построения матрицы с двойным центрированием, элементы которой посчитаны

Торгерсон начал с построения матрицы с двойным центрированием, элементы которой

посчитаны непосредственно по матрице данных. Матрица с двойным центрированием - это матрица, у кото­рой среднее значение элементов каждой строки и каждого столбца равно 0,0. Каждый элемент новой матрицы получается следующим образом:
(1.3)
(1.4)
, ,
Торгерсон показал, что если данные удовлетворяют (1.1), то каждый элемент новой матрицы будет иметь вид:
(1.5)
Формула (1.5) - это основная теорема, на которой построен алгоритм Торгерсона. Матрица часто называется матрицей скалярных произведений. Из формулы (1.5) видно, что каждый из ее элементов — сумма произведений скаляров xik и xjk. Уравнение (1.5) можно записать в матричном виде:
(1.6)
где X -(I * K)-матрица координат стимулов. Найти матрицу X, удовлетворяющую (1.6), можно (если она существует) с помощью программы факторного анализа методом главных компонент.
Слайд 9

Поворот Матрица X, построенная с помощью метода главных компонент, является одним

Поворот

Матрица X, построенная с помощью метода главных компонент, является одним

из решений уравнения (1.6). Чтобы понять, почему это решение не единственно, представьте себе матрицу ортогонального преобразования Т размером (К*К). Если X удовлетворяет (1.6), то любая матрица X* = XT тоже удовлетворяет (1.6), т. е. если
(1.7)
то
(1.8)
Так как Т — ортогональная матрица, ТТ' = I. Отсюда
(1.9)
(XT)' в (1.1) равно Т'Х'. Подставляя этот результат в (1.9), получим
(1.10)