Python для интеллектуального анализа данных

Август 24, 2022

Главная
Информатика
Python для интеллектуального анализа данных

Содержание

2. Описание Python — один из самых популярных языков программирования на сегодняшний день, а инструментарий Data Science
3. Описание Будут рассмотрены темы разведывательного анализа данных, очистки и предварительной обработки данных, инженерии признаков, отбора признаков,
4. Описание В рамках курса будет разобран ряд кейсов на разные типы задач из сферы интеллектуального анализа
5. Реализуемая технология Традиционная (онлайн) Лекции и практические задания проводятся в традиционном (возможно онлайн) формате.
6. Структура курса продолжительность курса - 1 семестр аттестация – зачет лимит 30 человек (1 команда)
7. Требования для поступления на курс знание Python 3 на базовом уровне; знание основ работы с системами
8. Программа курса Методология CRISP-DM. Прикладные задачи решаемые специалистами по анализу данных. Библиотеки Python для анализа данных
9. Программа курса Scikit-learn. Регрессия Scikit-learn. Кластеризация Scikit-learn. Снижение размерности Scikit-learn. Предварительная обработка данных Scikit-learn. Автоматический отбор
10. Результат курса Пример готового проекта по окончанию курса - Веб-сервис “Аукционная Площадка” в составе сборки из
11. Требования к проектам весь исходный код храниться в репозитории; код хранится в виде рабочих блокнотов jupyter;
13. Скачать презентацию

Слайд 2

Описание
Python — один из самых популярных языков программирования на сегодняшний день,

а инструментарий Data Science (интеллектуального анализа данных) применяется все в новых и новых сферах экономики, производства и повседневной жизни. И так как, на данный момент, подавляющее число решения Data Science создается на Python, то в рамках курса мы рассмотрим применение именно этого языка программирования и его ключевых библиотек для решения задач интеллектуального анализа данных и построение моделей машинного обучения.

Слайд 3

Описание
Будут рассмотрены темы разведывательного анализа данных, очистки и предварительной обработки данных,

инженерии признаков, отбора признаков, построения моделей машинного обучения с учителем и без учителя, а так же изучены различные метрики качества и методы валидации и отбора лучших моделей. Получаемые навыки будут закрепляться как на учебных проектах, так и на реальных задачах, выкладываемых различными организациями на платформе Kaggle.com.

Слайд 4

Описание
В рамках курса будет разобран ряд кейсов на разные типы задач

из сферы интеллектуального анализа данных, а так же самостоятельно:
решен кейс разведывательного анализа дынных (визуализация данных, исследование базовых статистик по группам и совместно);
перед построением всех моделей проведены базовые этапы очистки и предварительной обработки данных, а так же инженерии и отбора признаков;
построена модель классификации;
построена модель регрессии;
построена модель кластеризации;
проведена валидация качества всех моделей.
При решении поставленных задач будет использован следующий инструментарий: pandas, numpy, scikit-learn, scipy, seaborn, matplotlib, plotly.

Слайд 5

Реализуемая технология
Традиционная (онлайн)
Лекции и практические задания проводятся в традиционном (возможно

онлайн) формате.

Слайд 6

Структура курса
продолжительность курса - 1 семестр
аттестация – зачет
лимит 30 человек (1

команда)

Слайд 7

Требования для поступления на курс
знание Python 3 на базовом уровне;
знание основ

работы с системами контроля версий (git)
желательно базовое понимание математической статистики (среднее, дисперсия, корреляция) и линейной алгебры (вектор, матрица и базовые операции с ними).

Слайд 8

Программа курса
Методология CRISP-DM. Прикладные задачи решаемые специалистами по анализу данных. Библиотеки

Python для анализа данных и машинного обучения
Numpy. Оптимизированные векторные вычисления
Scipy. Статистические исследования
Matplotlib, seaborn, plotly. Визуальный анализ данных
Pandas. Форматы данных, особенности считывания и записи данных, отображение данных, индексы, срезы, Series, DataFrame
Pandas. Преобразование данных, фильтрация, агрегация, обработка пропусков в данных, статистические методы
Pandas. Работа с категориальными данными, работа с временными признаками, мульти индексы, оптимизация данных и вычислений, работа с большими объёмами данных
Проект «Разведывательный анализ данных»
Задачи машинного обучения. Инструменты решения задач машинного обучения
Scikit-learn. Классификация

Слайд 9

Программа курса
Scikit-learn. Регрессия
Scikit-learn. Кластеризация
Scikit-learn. Снижение размерности
Scikit-learn. Предварительная обработка данных
Scikit-learn. Автоматический отбор

признаков
Scikit-learn. Оценка и выбор моделей машинного обучения
Проект «Решение прикладной задачи машинного обучения

Слайд 10

Результат курса
Пример готового проекта по окончанию курса - Веб-сервис “Аукционная Площадка”

в составе сборки из приложений:
Backend на Python с асинхронной обработкой JSONRPC запросов
Frontend для общения с Backend по API
Панель администратора, работающая по протоколу REST
База данных PostgreSQL
Интеграция с Redis в качестве сессионного хранилища
Асинхронная общение с брокером сообщений RabbitMQ (если используется)
Обработка сообщений из внешних источников
Требования к построению архитектуры приложения:
Весь исходный код хранится в репозитории на Github/Gitlab/Pornhub
Код покрыт тестами
Приложения завернуты в Docker, сборка приложений запускается в docker-compose
Прогон тестов и сборка новой версии приложения осуществляется через CI/CD
Секреты хранятся отдельно от кода

Слайд 11

Требования к проектам
весь исходный код храниться в репозитории;
код хранится в виде

рабочих блокнотов jupyter;
для всех проектов связанных с моделями машинного обучения проведены все изученные этапы: визуализация данных, изучение базовых статистик, очистка данных, заполнение пропущенных данных, предварительная обработка признаков, отбор признаков, применено несколько моделей машинного обучения и проведено обоснование выбора лучшей из них на основе указанной метрики качества.

Python для интеллектуального анализа данных

Содержание

ОписаниеPython — один из самых популярных языков программирования на сегодняшний день,

ОписаниеБудут рассмотрены темы разведывательного анализа данных, очистки и предварительной обработки данных,

ОписаниеВ рамках курса будет разобран ряд кейсов на разные типы задач

Реализуемая технологияТрадиционная (онлайн) Лекции и практические задания проводятся в традиционном (возможно

Структура курсапродолжительность курса - 1 семестраттестация – зачетлимит 30 человек (1

Требования для поступления на курсзнание Python 3 на базовом уровне;знание основ

Программа курсаМетодология CRISP-DM. Прикладные задачи решаемые специалистами по анализу данных. Библиотеки

Программа курсаScikit-learn. РегрессияScikit-learn. КластеризацияScikit-learn. Снижение размерностиScikit-learn. Предварительная обработка данныхScikit-learn. Автоматический отбор

Результат курсаПример готового проекта по окончанию курса - Веб-сервис “Аукционная Площадка”

Требования к проектамвесь исходный код храниться в репозитории;код хранится в виде

Похожие презентации