Machine learning from scratch: myth or reality

Содержание

Слайд 2

Machine learning from scratch: myth or reality? Dmitry Kozlov Kemerovo January 25, 2018 URL: http://goo.gl/V7mvD1

Machine learning from scratch: myth or reality?

Dmitry Kozlov
Kemerovo
January 25, 2018

URL: http://goo.gl/V7mvD1

Слайд 3

Data is the new Oil We need to find it, extract

Data is the new Oil We need to find it, extract it,

refine it, distribute it and monetize it.
Слайд 4

The world’s most valuable resource is no longer oil, but data

The world’s most valuable resource is no longer oil, but data

Слайд 5

Слайд 6

Слайд 7

Слайд 8

Слайд 9

Applications of machine learning in real life Fraud Detection Customer churn

Applications of machine learning in real life

Fraud Detection
Customer churn prediction
Credit scoring
Image

recognition system
Recommender system
Anomaly detection

Network analysis
Cluster analysis
Natural Language Processing
Audio, Speech recognition
etc.

Слайд 10

Слайд 11

Зачем? Возможность получить интересную работу и сложные задачи Развитие интуиции, собственная

Зачем?

Возможность получить интересную работу и сложные задачи
Развитие интуиции, собственная оценка событий

и фактов
Общие подходы к решениям задач в различных прикладных областях
Применение в реальных практических задачах
Слайд 12

Мотивация, фокус и желание Английский язык (GitHub, arXiv, YouTube, Coursera, Google,

Мотивация, фокус и желание
Английский язык (GitHub, arXiv, YouTube, Coursera, Google, etc.)
Задавать

вопросы на английском языке в Google
Хотя бы один язык программирования (Python, R, С++, C, Java, Matlab, etc.)
Windows, macOS, Ubuntu
Поддержка сообщества

Что важно для старта?

Слайд 13

Какие бывают данные? Табличные данные Временные ряды Изображения Видео Текст Звук Другие...

Какие бывают данные?

Табличные данные
Временные ряды
Изображения
Видео
Текст
Звук
Другие...

Слайд 14

С чего начать?

С чего начать?

Слайд 15

Начать с практики Столкнуться с проблемами Найти решение в теории Применить

Начать с практики
Столкнуться с проблемами
Найти решение в теории
Применить решение или вернуться

к пункту a)
KISS principle “Keep it simple, stupid”
Линейные модели (Linear regression, Logistic Regression, Ridge regression, Lasso, SVM, Naive Bayes, etc.)

С чего начать?

Слайд 16

Что нужно помнить? Время ограничено, в том числе на обучение Необходимо

Что нужно помнить?

Время ограничено, в том числе на обучение
Необходимо декомпозировать сложные

задачи
Проще начать с хорошо изученных областей машинного обучения
Помнить свою цель обучения, выбирая образовательную траекторию
Слайд 17

Какие инструменты? Искать популярные инструменты на GitHub Табличные данные (Pandas) Линейный

Какие инструменты?

Искать популярные инструменты на GitHub
Табличные данные (Pandas)
Линейный модели (Scikit-learn)
Градиентный бустинг

(LightGBM, CatBoost, XGBoost)
Нейронные сети (Tensorflow, Keras, PyTorch, Caffe, MXNet)
Оптимизация гиперпараметров (Hyperopt)
Визуализация (Seaborn, Plotly, Bokeh, Matplotlib)
Слайд 18

Какие ресурсы нужны? Для анализа небольших табличных данных (Pandas, Scikit-learn, XGBoost,

Какие ресурсы нужны?

Для анализа небольших табличных данных (Pandas, Scikit-learn, XGBoost, LightGBM,

etc): Ноутбук / Домашний компьютер c SSD, RAM >= 4-8 GB, CPU >= 2
Для нейронных сетей, анализа текста, изображений и аудио - нужны видеокарты (GPU) от Nvidia
Слайд 19

Какие ресурсы нужны для DL?

Какие ресурсы нужны для DL?

Слайд 20

Какую IDE выбрать? Jupyter Notebook PyCharm Vim Любую, с которой вы уже знакомы и хорошо ориентируетесь

Какую IDE выбрать?

Jupyter Notebook
PyCharm
Vim
Любую, с которой вы уже знакомы и хорошо

ориентируетесь
Слайд 21

Постоянно учиться и узнавать новое Вспоминать лучшие наработки прошлого на практике

Постоянно учиться и узнавать новое
Вспоминать лучшие наработки прошлого на практике
Погружаться в

детали и научные статьи, если есть необходимость модификации метода или параметров

Что делать потом?

Слайд 22

Что пригодится? Линейная алгебра Комбинаторика Дискретная математика Теория вероятности Математический анализ

Что пригодится?

Линейная алгебра
Комбинаторика
Дискретная математика
Теория вероятности
Математический анализ
Методы оптимизации
Дифференциальные уравнения
Структуры данных
Визуализация данных
Теория графов,

алгоритмы на графах
Слайд 23

Слайд 24

Open Data Science Крупнейшее русскоязычное Data Science сообщество, существует с 2015

Open Data Science

Крупнейшее русскоязычное Data Science сообщество, существует с 2015 года
Количество

участников на данный момент: 10014
https://youtu.be/yPKu2vE4UqM?t=2h45m55s
Регистрация: http://ods.ai
Блог на хабре: https://habrahabr.ru/company/ods/
Слайд 25

Что нужно знать про ODS? История сообщений с 2015 года! (Поиск

Что нужно знать про ODS?

История сообщений с 2015 года! (Поиск по

ключевым словам, каналам и авторам в Slack)
Встречи, конференции, Data Science завтраки, тренировки, соревнования, вакансии, (#meetings, #kaggle_crackers, #deep_learning, #nlp, #proj_*,etc.)
Есть каналы и информация по всем темам так или иначе связанным с машинным обучением и анализом данных
Слайд 26

Что нужно знать про ODS? Обязательно стоит задавать вопросы в соответствующих

Что нужно знать про ODS?

Обязательно стоит задавать вопросы в соответствующих тематических

каналах (правильный вопрос - это больше половины ответа)
Будьте осторожны, ODS затягивает
Слайд 27

Что нужно знать про ODS? Ежегодный http://datafest.ru/ Большое количество специалистов из

Что нужно знать про ODS?

Ежегодный http://datafest.ru/
Большое количество специалистов из лучших IT-компаний

России всегда готовы ответить на Ваши вопросы и бесплатно
Несколько запусков бесплатного массового курса по машинному обучению ML Course ODS (участники сообщества делятся опытом с начинающими)
Слайд 28

Что нужно знать про ODS? Канал #welcome и #career - здесь

Что нужно знать про ODS?

Канал #welcome и #career - здесь вы

можете узнать биографию и карьеру многих участников ODS
#edu_books, #edu_coursees
Тренировки по машинному обучению #mltrainings_beginners
Слайд 29

#_meetings_siberia in ODS Сибирская ячейка ODS, каналы: #_meetings_siberia, #_meetings_tomsk (Новосибирск (ЦФТ,

#_meetings_siberia in ODS

Сибирская ячейка ODS, каналы: #_meetings_siberia, #_meetings_tomsk (Новосибирск (ЦФТ, 2ГИС,

etc), Томск, Барнаул давно и активно встречаются, устраивают совместные завтраки, митапы и конференции)
Календарь в Новосибирске https://goo.gl/RrSAa4
Meetup ODSS CFT 16.12.17
Слайд 30

#_meetings_siberia in ODS

#_meetings_siberia in ODS

Слайд 31

Тренировки по машинному обучению в Yandex Анонс новых тренировок: https://events.yandex.ru/events/mltr Видео

Тренировки по машинному обучению в Yandex

Анонс новых тренировок: https://events.yandex.ru/events/mltr
Видео с прошедших

тренировок: https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w)
Календарь соревнований: http://mltrainings.ru/
Слайд 32

Платформа для соревнований по машинному обучению мирового уровня с обсуждением задач и общим рейтингом участников

Платформа для соревнований по машинному обучению мирового уровня с обсуждением задач

и общим рейтингом участников
Слайд 33

а решать ? Решать вместе Быстрые проверки гипотез, больше экспериментов Фокус

а решать ?

Решать вместе
Быстрые проверки гипотез, больше экспериментов
Фокус на целевой метрике
Учиться

на сложных примерах
Расширять кругозор
Автоматизировать повторяющиеся операции
Собирать коллекцию трюков
Слайд 34

Полезные ссылки Тренировки по машинному обучению Видео с тренировок по машинному обучению https://www.coursera.org/learn/competitive-data-science

Полезные ссылки

Тренировки по машинному обучению
Видео с тренировок по машинному обучению
https://www.coursera.org/learn/competitive-data-science

Слайд 35

Полезные ссылки Machine Learning https://www.coursera.org/specializations/aml Reinforcement learning (#reinfocement_learnin ODS): https://www.youtube.com/watch?v=PtAIh9KSnjo https://www.coursera.org/learn/practical-rl https://www.edx.org/course/reinforcement-learning-explained-microsoft-dat257x http://rll.berkeley.edu/deeprlcourse/ https://www.youtube.com/watch?v=2pWv7GOvuf0

Полезные ссылки

Machine Learning https://www.coursera.org/specializations/aml
Reinforcement learning (#reinfocement_learnin ODS): https://www.youtube.com/watch?v=PtAIh9KSnjo https://www.coursera.org/learn/practical-rl https://www.edx.org/course/reinforcement-learning-explained-microsoft-dat257x http://rll.berkeley.edu/deeprlcourse/ https://www.youtube.com/watch?v=2pWv7GOvuf0

Слайд 36

Полезные ссылки Natural Language Processing (#nlp in ODS): http://web.stanford.edu/class/cs224n/ https://www.youtube.com/watch?v=OQQ-W_63UgQ https://www.coursera.org/learn/language-processing

Полезные ссылки

Natural Language Processing (#nlp in ODS): http://web.stanford.edu/class/cs224n/ https://www.youtube.com/watch?v=OQQ-W_63UgQ https://www.coursera.org/learn/language-processing http://deephack.me/
Self-driving cars (#self_driving in ODS): https://www.udacity.com/courses/self-driving-car https://selfdrivingcars.mit.edu/

Слайд 37

Полезные ссылки Deep Learning (#deep_learning in ODS): http://vision.stanford.edu/teaching/cs231n/ https://www.coursera.org/specializations/deep-learning https://www.youtube.com/playlist?list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk https://www.youtube.com/watch?v=Am82yvUSwRE http://vision.stanford.edu/teaching/cs131_fall1718/ https://www.youtube.com/watch?v=p5SjqD7Ut4Y&list=PLbwKcm5vdiSYL_yEwQ6JIICBA4dMtHNxo

Полезные ссылки

Deep Learning (#deep_learning in ODS): http://vision.stanford.edu/teaching/cs231n/ https://www.coursera.org/specializations/deep-learning https://www.youtube.com/playlist?list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk https://www.youtube.com/watch?v=Am82yvUSwRE http://vision.stanford.edu/teaching/cs131_fall1718/ https://www.youtube.com/watch?v=p5SjqD7Ut4Y&list=PLbwKcm5vdiSYL_yEwQ6JIICBA4dMtHNxo

Слайд 38

Полезные ссылки Big Data (#big_data in ODS) http://mattturck.com/wp-content/uploads/2017/05/Matt-Turck-FirstMark-2017-Big-Data-Landscape.png https://www.coursera.org/learn/big-data-essentials https://www.coursera.org/courses?languages=en&query=Yandex

Полезные ссылки

Big Data (#big_data in ODS) http://mattturck.com/wp-content/uploads/2017/05/Matt-Turck-FirstMark-2017-Big-Data-Landscape.png https://www.coursera.org/learn/big-data-essentials https://www.coursera.org/courses?languages=en&query=Yandex

Слайд 39

Полезные ссылки Разбор лучших решений Kaggle: http://ndres.me/kaggle-past-solutions/ https://www.kaggle.com/wiki/PastSolutions http://www.chioka.in/kaggle-competition-solutions/ Блог Александра

Полезные ссылки

Разбор лучших решений Kaggle: http://ndres.me/kaggle-past-solutions/ https://www.kaggle.com/wiki/PastSolutions http://www.chioka.in/kaggle-competition-solutions/
Блог Александра Дьяконова
Беседы с гуру Data Science
https://github.com/rushter/data-science-blogs

Слайд 40

Полезные ссылки Крупнейшие научные конференции: NIPS, ICML, CVPR, ICCV, KDD Видео: NIPS, ICML, CVPR+ICCV, KDD

Полезные ссылки

Крупнейшие научные конференции: NIPS, ICML, CVPR, ICCV, KDD
Видео: NIPS, ICML,

CVPR+ICCV, KDD
Слайд 41

Школы анализа данных: Yandex, Mail.ru https://yandexdataschool.ru/ https://sphere.mail.ru

Школы анализа данных: Yandex, Mail.ru

https://yandexdataschool.ru/
https://sphere.mail.ru