Снижение размерности признакового пространства методом главных компонент

Содержание

Слайд 2

Основные приложения Dimensionality reduction Снижение размерности данных при сохранении всей или

Основные приложения

Dimensionality reduction Снижение размерности данных при сохранении всей или большей части

информации
Feature extraction Выявление и интерпретация скрытых признаков
Слайд 3

Анализ заемщиков банка Задача : Проанализировать заемщиков банка на основе различных данных

Анализ заемщиков банка

Задача : Проанализировать заемщиков банка на основе различных данных

Слайд 4

Личные данные Семейное положение Образование Финансовое состояние Имущество Кредитная история … Данные могут быть:

Личные данные
Семейное положение
Образование
Финансовое состояние
Имущество
Кредитная история

Данные могут быть:

Слайд 5

Пример: Give Me Some Credit* * https://www.kaggle.com/c/GiveMeSomeCredit

Пример: Give Me Some Credit*

* https://www.kaggle.com/c/GiveMeSomeCredit

Слайд 6

Признаки Возобновляемое использование необеспеченных линий Возраст Количество просроченных дней 30-59 Коэффициент

Признаки

Возобновляемое использование необеспеченных линий
Возраст
Количество просроченных дней 30-59
Коэффициент задолженности
Ежемесячный доход
Количество открытых

кредитных линий и займов
Количество просрочек на 90 дней позже
Количество кредитов на недвижимость или линии
Количество просроченных дней 60-89
Количество иждивенцев
Слайд 7

Пример: Give Me Some Credit* * https://www.kaggle.com/c/GiveMeSomeCredit

Пример: Give Me Some Credit*

* https://www.kaggle.com/c/GiveMeSomeCredit

Слайд 8

Задача снижения размерности Представить набор данных меньшим числом признаков таким образом,

Задача снижения размерности

Представить набор данных меньшим числом признаков таким образом, чтобы

потеря информации, содержащейся в оригинальных данных, была минимальной.
Слайд 9

Principal Component Analysis (PCA) Данные заданы матрицей размерности n×m, где и

Principal Component Analysis (PCA)

Данные заданы матрицей размерности n×m, где и ,

n – число наблюдений (объектов), m – число признаков.
Слайд 10

PCA в SAS Studio

PCA в SAS Studio

Слайд 11

PCA в SAS Studio

PCA в SAS Studio

Слайд 12

Principal Component Analysis Обозначим за C (m×m) матрицу ковариаций признаков матрицы X: В матричном виде:

Principal Component Analysis

Обозначим за C (m×m) матрицу ковариаций признаков матрицы X:
В

матричном виде:
Слайд 13

Principal Component Analysis Вариация i-го признака: Общая вариация данных: Задача: найти

Principal Component Analysis

Вариация i-го признака:
Общая вариация данных:
Задача:

найти ортогональные векторы такие, что т.е. проекция данных на которые позволит сохранить наибольшую вариацию
Слайд 14

Матрица C симметричная и положительно определена. Имеет место равенство: Principal Component Analysis

Матрица C симметричная и положительно определена. Имеет место равенство:

Principal Component Analysis

Слайд 15

Principal Component Analysis Главные компоненты: Доля объясненной вариации:

Principal Component Analysis

Главные компоненты:
Доля объясненной вариации:

Слайд 16

Доля объясненной вариации

Доля объясненной вариации

Слайд 17

Доля объясненной вариации

Доля объясненной вариации

Слайд 18

Интерпретация главных факторов

Интерпретация главных факторов

Слайд 19

Интерпретация главных факторов Исходя из структуры матрицы факторных нагрузок, можно предложить

Интерпретация главных факторов

Исходя из структуры матрицы факторных нагрузок, можно предложить следующую

интерпретацию:
U1: История просроченных выплат по кредитам
U2: Имеющиеся кредиты
U3: Показатель независимости
U4: Задолженности
U5: Показатель расточительности
U6: Доход
Слайд 20

Интерпретация главных факторов

Интерпретация главных факторов

Слайд 21

Singular value decomposition Данные заданы матрицей размерности n×m, где и ,

Singular value decomposition

Данные заданы матрицей размерности n×m, где и , n

– число наблюдений (объектов), m – число признаков.
Требуется среди всех матриц такого же размера n×m и ранга ≤ k найти матрицу Y, для которой норма матрицы будет минимальной.
Слайд 22

Выбор числа k главных факторов Общая дисперсия данных: Доля объясненной дисперсии:

Выбор числа k главных факторов

Общая дисперсия данных:
Доля объясненной дисперсии:
Хорошим значением считается

доля объясненной дисперсии ≥ 80%
Слайд 23

Задания Воспроизведите программный код, представленный в файле Сем 3_PCA.doc Воспроизведите вычисления,

Задания

Воспроизведите программный код, представленный в файле Сем 3_PCA.doc
Воспроизведите вычисления,

представленные в лекционных материалах для набора данных из файла ‘cs-training.csv’. Выполните анализ методом главных компонент, выделите главные факторы, объясняющие не менее 80% дисперсии исходных признаков (или покажите, что этого сделать нельзя), предложите смысловую интерпретацию выделенных главных компонент.
Слайд 24

PCA в SAS Studio (задание 1)

PCA в SAS Studio (задание 1)

Слайд 25

PCA в SAS Studio

PCA в SAS Studio

Слайд 26

PCA в SAS Studio

PCA в SAS Studio

Слайд 27

PCA в SAS Studio

PCA в SAS Studio