Содержание
- 3. Платформы по соревнованиям в анализе данных (DM)
- 4. Преимущества Kaggle Наиболее раскрученная платформа Возможность запускать in-class соревнования Крутые соревнования от топовых IT компаний Красивый,
- 5. Как выглядят соревнования по DM?
- 6. Цикл решения задач DM
- 7. Понимание задачи Определение и формулировании бизнес задачи Оценка рисков, затрат, общего профита Постановка DM целей Определение
- 8. Понимание данных: Первый шаг Сбор данных Какие данные есть: сколько примеров, сколько признаков, какие признаки по
- 9. Понимание данных: Второй шаг Описательные статистики Корреляции Пирсона, Спирмена Проверка статистических гипотез (нормальность, проверку на распределение)
- 10. Подготовка данных Выбор и интеграция данных Форматирование данных Предобработка данных: заполнение пропусков, определение выбросов, нормализация данных,
- 11. Построение моделей Выбор подходящих моделей, соответствующих проверяемым гипотезам Определение дизайна тестирования Обучение моделей с настройкой гиперпараметров
- 12. Оценка качества моделей Анализ эффективности моделей на тестовом множестве: статистические гипотезы, корреляции Вычисление метрик оценки качества
- 13. Развертывание системы Финальный отчет по проекту Выполнены ли все поставленные DM цели? Удовлетворяют ли результаты критерия
- 15. Исследование распределений: Линеаризация
- 16. Предобработка данных Преобразование категориальных переменных: OneHotEncoder, LabelEncoder Преобразование категориальных переменных: hashing trick Преобразование дат: pandas.TimeStamp, pandas.to_datetime,
- 17. Заполнение пропусков Заполнение нулями Заполнение следующими, предыдущими значениями (pandas.fillna) Заполнение средними, модами, медианами (sklearn.preprocessing.Imputer) Заполнение с
- 18. Определение выбросов Определение через распределения: по квантилям, перцентилям, по другим правилам пальца Определение через визуализацию, использую
- 19. Нормализация данных Стандартная нормализация Нормализация в 0-1 или в -1, 1(для нейроных сетей) Стемминг, лемматизация, TF-IDF
- 20. Выбор признаков Выбор через model-free методы: scikit-feature Статистики (sklearn.feature_selection.SelectKBest) Корреляции Пирсона, Спирмена Выбор через model-based методы:
- 21. Permutation Feature Importance
- 22. Deep Feature Selection Li, Yifeng, Chih-Yu Chen, and Wyeth W. Wasserman. "Deep Feature Selection: Theory and
- 23. Heuristic Variable Selection Yacoub, Meziane, and Y. Bennani. "HVS: A heuristic for variable selection in multilayer
- 24. Экстракция признаков Экстракция через визуальный анализ (handcrafted признаки) Экстракция через model-based методы (NN, RandomForest, т.д.) Экстракция
- 25. Инженерия признаков Простейшие handcrafted признаки: среднее, дисперсия и т.п. по примеру Исследование взаимодействия признаков между собой
- 26. Построение моделей Simple data Complex data
- 27. Обучение нейронных сетей Использовать методы регуляризации для сетей: Dropout, BatchNormalization, weight decay Использовать продвинутые активационные функции
- 28. Обучение нейронных сетей
- 29. Обучение нейронных сетей
- 31. Модели победители на Kaggle соревнованиях Использовать GBM из xgboost, random forest, regularized greedy forest Использовать NN
- 32. Технические Tips & Tricks Делать верную предобработку данных Правильно работать с нормализацией/выбросами/пропусками Проводить визуальный анализ данных,
- 33. Настройка гиперпараметров Найти оптимальное подмножество данных на котором стоит обучаться и настраивать гиперпараметры моделей Использовать следующую
- 34. Оптимальный порог
- 35. Калибровка вероятностей sklearn.calibration.CalibratedClassifierCV
- 36. Несбалансированные данные Использовать методы балансировки данных: imbalanced-learn Undersampling (SVM, kNN, NN) Oversampling (SVM, kNN, NN) Использовать
- 37. Спасибо за внимание! Вопросы? Евгений Путин Университет ИТМО putin.evgeny@gmail.com 25 мая 2017 Санкт-Петербург
- 39. Скачать презентацию