Ghouls, Goblins, and Ghosts... Boo!

Слайд 2

Этапы работы с Dataset’ом EDA ДОБАВЛЕНИЕ НОВЫХ ПЕРЕМЕННЫХ ПОСЛЕ КЛАСТЕРИЗАЦИИ СРАВНЕНИЕ МОДЕЛЕЙ

Этапы работы с Dataset’ом

EDA

ДОБАВЛЕНИЕ НОВЫХ ПЕРЕМЕННЫХ
ПОСЛЕ КЛАСТЕРИЗАЦИИ

СРАВНЕНИЕ МОДЕЛЕЙ

Слайд 3

EDA Проверили данные на пропуски Визуально изучили взаимосвязь между типом монстра

EDA

Проверили данные на пропуски

Визуально изучили взаимосвязь между типом монстра и его

цветом (‘Color’) => связь оказалась не очевидна, переменную оставили для дальнейших расчетов (ВСТАВИТЬ КАРТИНКУ С ГРАФИКАМИ)

Упрощаем эту переменную через One-Hot Encoding

Делаем перемножение признаков (посмотреть, как сделал чувак)

ДОБАВИЛИ НОВЫЕ ПРИЗНАКИ В НАДЕЖДЕ УВЕЛИЧИТЬ КАЧЕСТВО ПРЕДСКАЗАНИЯ

Попробуем сделать кластеризацию и добавить принадлежность к кластеру в качестве переменной

Слайд 4

Добавление переменных в качестве кластера (1) Сделали t-SNE на данных с

Добавление переменных в качестве кластера (1)

Сделали t-SNE на данных с OHE

и без OHE

Визуально, на данных с OHE группы монстров сильно удалены друг от друга, но внутри каждой группы классы сильно перемешаны => OHE лучше?

T-SNE c OHE

T-SNE без OHE

Слайд 5

Добавление переменных в качестве кластера (2) Сделали Дендрограмму на данных с

Добавление переменных в качестве кластера (2)

Сделали Дендрограмму на данных с OHE

и без OHE

Дендрограмма без OHE хорошо подсвечивает 3 класса => берем на следующий шаг данные без OHE и без ‘Color’

Дендрограмма c OHE

Дендрограмма без OHE

Слайд 6

Добавление переменных в качестве кластера (3) Кластеризация на train по 3-м

Добавление переменных в качестве кластера (3)

Кластеризация на train по 3-м моделям:

Spectral, Agglomerative, K-Means

K-Means дает более высокие внешние + внутренние оценки, но Agglomerative очень близко какой вариант лучше? GO Deeper!

Spectral

K-Means

Agglomerative

OHE

Слайд 7

Добавление переменных в качестве кластера (4) Кластеризация на train по 3-м

Добавление переменных в качестве кластера (4)

Кластеризация на train по 3-м моделям:

Spectral, Agglomerative, K-Means

K-Means дает (1) более высокие внешние + внутренние оценки и (2) лучше разбивает вурдалаков на классы =>
берем K-Means на следующий шаг

Spectral

K-Means

Agglomerative