Python для интеллектуального анализа данных

Содержание

Слайд 2

Описание Python — один из самых популярных языков программирования на сегодняшний

Описание

Python — один из самых популярных языков программирования на сегодняшний день,

а инструментарий Data Science (интеллектуального анализа данных) применяется все в новых и новых сферах экономики, производства и повседневной жизни. И так как, на данный момент, подавляющее число решения Data Science создается на Python, то в рамках курса мы рассмотрим применение именно этого языка программирования и его ключевых библиотек для решения задач интеллектуального анализа данных и построение моделей машинного обучения.
Слайд 3

Описание Будут рассмотрены темы разведывательного анализа данных, очистки и предварительной обработки

Описание

Будут рассмотрены темы разведывательного анализа данных, очистки и предварительной обработки данных,

инженерии признаков, отбора признаков, построения моделей машинного обучения с учителем и без учителя, а так же изучены различные метрики качества и методы валидации и отбора лучших моделей. Получаемые навыки будут закрепляться как на учебных проектах, так и на реальных задачах, выкладываемых различными организациями на платформе Kaggle.com.
Слайд 4

Описание В рамках курса будет разобран ряд кейсов на разные типы

Описание

В рамках курса будет разобран ряд кейсов на разные типы задач

из сферы интеллектуального анализа данных, а так же самостоятельно:
решен кейс разведывательного анализа дынных (визуализация данных, исследование базовых статистик по группам и совместно);
перед построением всех моделей проведены базовые этапы очистки и предварительной обработки данных, а так же инженерии и отбора признаков;
построена модель классификации;
построена модель регрессии;
построена модель кластеризации;
проведена валидация качества всех моделей.
При решении поставленных задач будет использован следующий инструментарий: pandas, numpy, scikit-learn, scipy, seaborn, matplotlib, plotly.
Слайд 5

Реализуемая технология Традиционная (онлайн) Лекции и практические задания проводятся в традиционном (возможно онлайн) формате.

Реализуемая технология
Традиционная (онлайн)
Лекции и практические задания проводятся в традиционном (возможно

онлайн) формате.
Слайд 6

Структура курса продолжительность курса - 1 семестр аттестация – зачет лимит 30 человек (1 команда)

Структура курса
продолжительность курса - 1 семестр
аттестация – зачет
лимит 30 человек (1

команда)
Слайд 7

Требования для поступления на курс знание Python 3 на базовом уровне;

Требования для поступления на курс
знание Python 3 на базовом уровне;
знание основ

работы с системами контроля версий (git)
желательно базовое понимание математической статистики (среднее, дисперсия, корреляция) и линейной алгебры (вектор, матрица и базовые операции с ними).
Слайд 8

Программа курса Методология CRISP-DM. Прикладные задачи решаемые специалистами по анализу данных.

Программа курса
Методология CRISP-DM. Прикладные задачи решаемые специалистами по анализу данных. Библиотеки

Python для анализа данных и машинного обучения
Numpy. Оптимизированные векторные вычисления
Scipy. Статистические исследования
Matplotlib, seaborn, plotly. Визуальный анализ данных
Pandas. Форматы данных, особенности считывания и записи данных, отображение данных, индексы, срезы, Series, DataFrame
Pandas. Преобразование данных, фильтрация, агрегация, обработка пропусков в данных, статистические методы
Pandas. Работа с категориальными данными, работа с временными признаками, мульти индексы, оптимизация данных и вычислений, работа с большими объёмами данных
Проект «Разведывательный анализ данных»
Задачи машинного обучения. Инструменты решения задач машинного обучения
Scikit-learn. Классификация
Слайд 9

Программа курса Scikit-learn. Регрессия Scikit-learn. Кластеризация Scikit-learn. Снижение размерности Scikit-learn. Предварительная

Программа курса
Scikit-learn. Регрессия
Scikit-learn. Кластеризация
Scikit-learn. Снижение размерности
Scikit-learn. Предварительная обработка данных
Scikit-learn. Автоматический отбор

признаков
Scikit-learn. Оценка и выбор моделей машинного обучения
Проект «Решение прикладной задачи машинного обучения
Слайд 10

Результат курса Пример готового проекта по окончанию курса - Веб-сервис “Аукционная

Результат курса
Пример готового проекта по окончанию курса - Веб-сервис “Аукционная Площадка”

в составе сборки из приложений:
Backend на Python с асинхронной обработкой JSONRPC запросов
Frontend для общения с Backend по API
Панель администратора, работающая по протоколу REST
База данных PostgreSQL
Интеграция с Redis в качестве сессионного хранилища
Асинхронная общение с брокером сообщений RabbitMQ (если используется)
Обработка сообщений из внешних источников
Требования к построению архитектуры приложения:
Весь исходный код хранится в репозитории на Github/Gitlab/Pornhub
Код покрыт тестами
Приложения завернуты в Docker, сборка приложений запускается в docker-compose
Прогон тестов и сборка новой версии приложения осуществляется через CI/CD
Секреты хранятся отдельно от кода
Слайд 11

Требования к проектам весь исходный код храниться в репозитории; код хранится

Требования к проектам

весь исходный код храниться в репозитории;
код хранится в виде

рабочих блокнотов jupyter;
для всех проектов связанных с моделями машинного обучения проведены все изученные этапы: визуализация данных, изучение базовых статистик, очистка данных, заполнение пропущенных данных, предварительная обработка признаков, отбор признаков, применено несколько моделей машинного обучения и проведено обоснование выбора лучшей из них на основе указанной метрики качества.