АНАЛИЗ И ИНТЕРПРЕТАЦИЯ ДАННЫХ

Содержание

Слайд 2

Оценка качества классификации Рассмотрим случайную величину: являющейся значением решающей функции. Решение

Оценка качества классификации

Рассмотрим случайную величину:
являющейся значением решающей функции. Решение

принимается сравнением U с порогом
В исходной постановке задачи мы рассматривали многомерное пространство
Слайд 3

Так как решение принимается на основе одномерной величины U, то можно

Так как решение принимается на основе одномерной величины U, то можно

считать, что задача классификации сводится к редукции пространства, то есть от n-мерного пространства мы переходим к пространству
В исходном пространстве условные плотности – многомерные нормальные распределения:
Слайд 4

В редуцированном пространстве переходим к одномерным условным нормальным распределения величины U

В редуцированном пространстве переходим к одномерным условным нормальным распределения величины U
т.

е. каждому многомерному распределению соответствует одномерное.
- пороговое значение
Проблему принятия решения сводим к одномерной задаче. Ошибки классификации могут быть определены через распределения U.
C – порог
Слайд 5

Прямое вычисление ошибок в многомерном пространстве приводит к техническим трудностям, поэтому

Прямое вычисление ошибок в многомерном пространстве приводит к техническим трудностям, поэтому

и применяется редукция пространства.
Основная задача:
поиске распределений плотности вероятностей значений решающей функции U.
U - это линейная комбинация нормально распределенных величин, нормальная величина.
Слайд 6

Условные математические ожидании и дисперсии U по классам где - расстояние

Условные математические ожидании и дисперсии U по классам
где - расстояние Махаланобиса
Посчитаем

:
математические ожидания ошибок
Слайд 7

Нахождении дисперсий данной величины В предположении равенства матриц ковариации в исходном

Нахождении дисперсий данной величины
В предположении равенства матриц ковариации в исходном

пространстве, получаем, что дисперсии U также равны по классам.
Т.к. матрицы ковариации одинаковые, то можно сделать вывод: DU1 = DU2
M{(V - MV)2} = M{(V - MV)T(V - MV)}
D = (M1 - M2)Т∑-1(M1 - M2) = α = σ2 ,
где α - расстояние Махаланобиса.
Слайд 8

U может принадлежать двум нормальным распределениям: U1 ∈ N( (½)α, α);

U может принадлежать двум нормальным распределениям:
U1 ∈ N( (½)α, α);

U2 ∈ N(- (½)α, α);
MU1 = (1/2)α
MU2 = -(1/2)α
MU1 – MU2 = α
Слайд 9

α - обобщенное расстояние между классами в N-мерном пространстве. α =

α - обобщенное расстояние между классами в N-мерном пространстве.
α = (M1

- M2)T Σ-1(M1-M2)
Если Σ = I, то
α = (M1 - M2)T(M1 - M2) = Σ(M1i - M2i)2 = ║M1 - M2║2 = d2
Если матрица диагональная, но с разными σ, то:
- сумма взвешенных расстояний по каждой координате
Слайд 10

α хорошо описывает статистическую природу данных. δ = XT Σ-1(M1 -

α хорошо описывает статистическую природу данных.
δ = XT Σ-1(M1 - M2)

– (½) (M1 + M2)T Σ-1(M1 - M2)
M{U/1} = (1/2)α α = (M1 - M2)T Σ-1(M1 - M2)
M{U/2} = -(1/2)α
D[U] = M[(U - MU)2] = M[(U - MU)T(U - MU)]
D[U] = α
σn2 = α
Слайд 11

Построим вероятности ошибок классификации U ≥ C C = ln K

Построим вероятности ошибок классификации
U ≥ C C = ln K

K = (q2C(1|2) )/(q1C(2|1) )
N((1/2)αα) N(-(1/2)αα)
Слайд 12

P = q1 P(2|1) + q2 P(1|2) - вероятность полной ошибки Ф(x) – интеграл ошибок Гаусса.

P = q1 P(2|1) + q2 P(1|2) - вероятность полной ошибки
Ф(x)

– интеграл ошибок Гаусса.


Слайд 13

Полная ошибка Cвойства полной ошибки: C = ln K = ln((q2C(1|2))/(q1C(2|1)))

Полная ошибка
Cвойства полной ошибки:
C = ln K = ln((q2C(1|2))/(q1C(2|1))) =

0
q1 = q2 = 0.5 C(1|2) = C(2|1)
Pош = 0.5 Ф( ) + 0.5 [1 - Ф( )] =
= 0.5 [1 - Ф( )] + 0.5 [1 - Ф( )] = 1 - Ф( )
Т.к. Ф(-х) = 1 – Ф(х)
Слайд 14

Рассмотрим α Пусть α = (M1 - M2)T Σ-1(M1-M2) = Если

Рассмотрим α
Пусть
α = (M1 - M2)T Σ-1(M1-M2) =

Если σi2 = 1, тогда α = Σ(M1i - M2i)2 = d2
Ошибка зависит от обобщенного расстояния d2, чем больше d2, тем меньше ошибка (так как расстояние между распределениями увеличивается).
Слайд 15

((M1i - M2i)/ σi)= γ - это взвешенное нормальное распределение Если


((M1i - M2i)/ σi)= γ - это взвешенное нормальное

распределение
Если γ = const, тогда α будет представлять собой следующее:
α = Σγ2 = n γ2
Слайд 16

Пусть вероятность ошибки 0,005 = 0,5%. Pош = 1 – Ф(x),

Пусть вероятность ошибки 0,005 = 0,5%.
Pош = 1 – Ф(x), где

х =
По таблице можно найти данную величину:
γ = 0.1 – это означает, что классы сильно пересекаются
n = [ ] = 2700 для γ = 0,1
Для γ = 5 n = [ ] = 2