Аналитика без стресса

Содержание

Слайд 2

Всем привет! Мансур Кадимов, управляющий партнер Reshape Analytics Больше 11 лет

Всем привет!

Мансур Кадимов, управляющий партнер Reshape Analytics
Больше 11 лет опыта в

аналитике:
Цепи поставок
Маркетинг
Коммерция
Управление проектами
В ходе лекции мы примерим несколько шляп:
Шляпа менеджера по аналитике (CDO)
Шляпа дата-сайентиста (Data Scientist)
Шляпа человека, делающего первые шаги в аналитике
Слайд 3

Чтоб понять, какие инструменты к каким аналитическим задачам применимы, нужно сначала

Чтоб понять, какие инструменты к каким аналитическим задачам применимы, нужно сначала

ответить на вопрос:

− Какие задачи
решает аналитика?

− Задачи управления

Слайд 4

Знакомая аббревиатура? PDCA Алгоритм управления и достижения целей Все ли тут очевидно?

Знакомая
аббревиатура?

PDCA

Алгоритм управления и достижения целей

Все ли тут очевидно?

Слайд 5

Ёмкие слова оставляют пространство для интерпретаций Установка целей, планирование работ и

Ёмкие слова оставляют пространство для интерпретаций

Установка целей, планирование работ и распределения

ресурсов

Выполнение запланированного

Сбор информации, сопоставление результатов с целями, анализ отклонений

Устранение причин отклонений, изменение порядка планирования ресурсов

Реализация в малом масштабе, достаточном для получения информации

Анализ результатов опыта, извлечение знаний

Решение о применении и тиражировании результатов, или повторении цикла

Каскадный метод

Итерационный метод

Слайд 6

При каком управленческом методе проще делать аналитику? Каскадный метод Длинные циклы

При каком управленческом методе проще делать аналитику?

Каскадный метод

Длинные циклы
Одновременно редко больше

одного
Времени на обработку больше
Стоимость ошибки выше

Итерационный метод

Короткие циклы
Может быть одновременно несколько циклов
Времени на обработку меньше
Стоимость ошибки ниже

Когда аналитик испытывает меньший стресс?

Значимой разницы нет. Почему?!

Слайд 7

Каждый метод управления несет свои сложности для аналитики Каскадный метод Цели

Каждый метод управления несет свои сложности для аналитики

Каскадный метод

Цели на дальний

горизонт формулируются сложнее и согласуются дольше, за это время могут потерять актуальность ключевые предпосылки в их основе
Собираемые метрики могут устареть в ходе выполнения, а остановить процесс, чтоб их дополнить нет возможности
Даже при достаточном объеме времени на анализ можно столкнуться с дефицитом качественных и объясняющих ход выполнения данных

Итерационный метод

Содержание последовательных, или одновременно идущих итераций может быть совершенно разным
Результаты, полученные на малом масштабе, должны быть репрезентативны
За короткий срок на ограниченном количестве данных нужно принимать множество решений

Аналитика должна фокусироваться на бизнес-целях и повышать вероятность их достижения

Слайд 8

Понимание бизнеса, которое нужно до старта аналитических работ Цели и причины

Понимание бизнеса, которое нужно до старта аналитических работ

Цели и причины анализа


Целевая аудитория, сценарий использования результатов и реальная готовность к этому
Наличие ранее проведенного анализа и обратная связь по нему
Существующие гипотезы и критерии успеха
Доступные людские ресурсы: навыки, опыт и загруженность
Доступные технические ресурсы: интеграция, хранение и калькуляция
Срок выполнения работ
Требований и ограничения, например, связанные с персональными данными
Слайд 9

Концепция, о которой нельзя забывать Аналитические технологии могут быть очень мощными,

Концепция, о которой нельзя забывать

Аналитические технологии могут быть очень мощными, результаты

вдохновляющими, но без комплексного развития, включающего людей (аналитическую культуру, компетенции) и процессы (гибкость, зрелость), могут оказаться невостребованными.
Слайд 10

Четыре аналитических подхода

Четыре аналитических подхода

Слайд 11

Описательная аналитика Отвечает на вопрос: что происходит сейчас или было в

Описательная аналитика

Отвечает на вопрос: что происходит сейчас или было в прошлом

(сколько, когда, где)?
Кейсы: охват публикаций, динамика посещений ресурса, дочитывания, % отклика
Способы: консолидация, трансформация, агрегация и визуализация данных
Формы: регулярная отчетность, дашбоарды, запросы на выгрузку данных из систем.
Слайд 12

Диагностическая аналитика Отвечает на вопрос: что это, почему это происходит, на

Диагностическая аналитика

Отвечает на вопрос: что это, почему это происходит, на что

обратить внимание?
Кейсы: сравнение отклика, глубокий анализ аудитории, таргетинг, сегментаций аудитории, анализ сентиментов
Способы: обогащение данных, кластеризация, когортный анализ, выявление корреляций, анализ значимости признаков, анализ отклонений, распознавание изображений и извлечение информации из текстов и т.д.
Формы: интерактивная отчетность, причинно-следственный анализ
Слайд 13

Предиктивная аналитика Отвечает на вопрос: есть ли паттерн? что может произойти

Предиктивная аналитика

Отвечает на вопрос: есть ли паттерн? что может произойти в

будущем?
Кейсы: прогнозирование объема продаж, вероятности открытия страницы и покупки
Способы: построение прогнозных моделей (регрессии, нейросети), кластеризация
Формы: часто встраивается в системы рекомендаций, управления ставками, скоринга
Слайд 14

Предписывающая аналитика Отвечает на вопросы: что-если? как лучше всего поступить? Кейсы:

Предписывающая аналитика

Отвечает на вопросы: что-если? как лучше всего поступить?
Кейсы: разработка стратегий,

оптимизация портфеля, поиск оптимального размещения
Способы: комплексные имитационные модели, многократные вычислительные эксперименты, оптимизационные механики
Формы: модели с заданной логикой(событий, агентской или системно-динамической) и целевые много-подходные эксперименты
Слайд 15

Сетевые базы данных MS SQL, Teradata, Greenplum, MySQL, SAP HANA Облачные

Сетевые базы данных
MS SQL, Teradata, Greenplum, MySQL, SAP HANA

Облачные БД
Google, Amazon


Мониторинг и анализ соц.сетей
YouScan, BrandAnalytics

Старый добрый Excel ☺

Решения для визуализации
Tableau, QlikSense, SAP Lumira, MS Power BI (+free)

Языки программирования для машинного обучения (free)
Python, R

Корпоративные платформы для анализа данных
MS SQL Analysis Services, Microstrategy, IBM SPSS, Pentaho(free)

Self-service аналитические решения (машинное обучение без программирования)
Loginom (+free), RapidMiner (+free), Orange (free),
Alteryx и Lobe (beta)

Распознавание речи
Yandex.SpeechKit, Alexa

Распознавание фото (free)
на Python TensorFlow, Keras

Извлечение информации из текстов Abbyy Compreno

Системы для управления мастер-данными

Системы для имитационного моделирования и нелинейной оптимизации
AnyLogic (+free), IBM ILOG

Локальные решения

Специализированные решения

Корпоративные решения

Сбор, обработка и хранение данных

Визуализация данных

Диагностическая аналитика

Предиктивная аналитика

Предписывающая аналитика

Корпоративные информационные системы (ERP, CRM, POS)
SAP, 1C

Специализированные комплексные оптимизационные решения
Albert.AI, HR-робот Вера

Инструменты веб-аналитики (free)
Google Analytics, Яндекс.Метрика

Карта аналитических решений

Слайд 16

Машинное обучение – это класс интеллектуальных алгоритмов (моделей), способных самообучаться на

Машинное обучение – это класс интеллектуальных алгоритмов (моделей), способных самообучаться на

основе обобщения прецедентов и не содержащих в себе прямого решения специфичных задач.

Метод машинного обучения встречается в диагностической, прогнозной и предписывающей аналитике.

Слайд 17

Обучение с учителем Машинное обучение на основании известных пар правильных ответов

Обучение с учителем

Машинное обучение на основании известных пар правильных ответов и

«ситуаций» (предпосылок) с предсказанием ответов для новых пар.

Оба метода также используются для решения задач прогнозирования будущего и ранжирования.

Слайд 18

Обучение без учителя Доступны только «ситуации», правильных ответов – нет, необходимо

Обучение без учителя

Доступны только «ситуации», правильных ответов – нет, необходимо описать

и дополнить «ситуации» новыми знаниями.

А еще это фильтрация выбросов, заполнение пропущенных значений и обобщение за счет уменьшения количества признаков «ситуации»

Слайд 19

А учитель кто? Не совсем анализ данных ☺

А учитель кто? Не совсем анализ данных ☺

Слайд 20

У машинного обучения очень много разных применений И даже генерация программного кода на основе изображений!!

У машинного обучения очень много разных применений

И даже генерация программного кода

на основе изображений!!
Слайд 21

На что нужно обращать внимание, используя машинное обучение Некоторые методы функционируют

На что нужно обращать внимание, используя машинное обучение

Некоторые методы функционируют как

«черный ящик», правила которого неформализованны и непрозрачны, в то время как малейшее изменение входных параметров может неожиданно сильно повлиять на результат
Требуется большое количество качественных и размеченных данных: до 95% времени уходит на их подготовку
Возможна предвзятость модели из-за некорректно составленной исходной выборки, что требует отдельной проверки
Случается переобучение модели, когда из-за избыточной сложности она теряет предсказательный потенциал
Возможны ложные срабатывания или пропуски событий – метрики качества должны это учитывать
Требуется постоянный мониторинг качества результатов и данных, подаваемых на вход (возможно, что угодно, в т.ч. троллинг)
Слайд 22

Аналитический процесс

Аналитический процесс

Слайд 23

Корреляционный анализ – метод исследования данных Используется с целью обнаружение неизвестных

Корреляционный анализ – метод исследования данных

Используется с целью обнаружение неизвестных связей

между явлениями и измерения ее степени
Оцениваются количественные или порядковые признаки явлений

Положительная корреляция

Отрицательная

Нулевая

Слайд 24

Считаем корреляцию 5. Для последовательных во времени наблюдений можно посчитать автокорреляцию

Считаем корреляцию

5. Для последовательных во времени наблюдений можно посчитать автокорреляцию как

зависимость исторических значений от одного-нескольких предыдущих
Слайд 25

Пользуйтесь, но со знанием дела: Возможна ложная корреляция: корреляция ничего не говорит причинно-следственных связях!

Пользуйтесь, но со знанием дела:
Возможна ложная корреляция: корреляция ничего не говорит

причинно-следственных связях!
Слайд 26

Обучение с учителем. Регрессия как инструмент моделирования Чаще всего используется для

Обучение с учителем. Регрессия как инструмент моделирования

Чаще всего используется для прогнозирования

числовых переменных (линейная регрессия), или для классификации (логистическая)
Основана на том, что зависимая (выходная) переменная имеет выраженную параметрическую связь с независимыми
Слайд 27

Исходная выборка Начинайте с одного независимого параметра (простой регрессии) Меньше независимых

Исходная выборка
Начинайте с одного независимого параметра (простой регрессии)
Меньше независимых параметров

в множественной регрессии – больше скорость
Независимые параметры не должны между собой коррелировать
Наличие автокорреляции параметров может существенно повлиять на результат, поэтому включите в план соответствующую регрессию
Желательно, чтоб в независимых параметрах была вариативность
Необходимо предварительно исключить выбросы
Границы прогнозного потенциала регрессии формируются исходными данными, экстраполяция за их пределы может быть нерелевантной

Тестовая выборка
От 20% до 30% значений в зависимости от объема исходной выборки
Отбор значений:
Случайный
Последовательный
Репрезентативный

Показатели качества по итогам построения регрессии
Проверьте значения зависимой переменной на допустимость
Посчитайте ошибки (остатки) для каждого рассчитанного значения,
Постройте график ошибок, предварительно их упорядочив, график должен иметь вид нормального распределения
Рассчитайте сводную ошибку для разных типов регрессий и набора независимых параметров, например, среднеквадратическую
Отберите регрессию (формулу) с минимальной сводной ошибкой и проверьте ее на тестовой выборке

Слайд 28

Построили и смотрим: P-значение меньше 0.05, значит результат статистически значим для

Построили и смотрим:
P-значение меньше 0.05, значит результат статистически значим для конфигурации

исходной выборки
R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5
Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.
Коэффициент -0,16285 показывает весомость переменной Х на Y. Знак «-» указывает на отрицательное влияние.

Зависимая
Независимые

Слайд 29

Рекомендации Машинное обучение простыми словами http://vas3k.ru/blog/machine_learning/ Марафон по Tableau http://tableau.pro/m01, http://tableau.pro/m02

Рекомендации

Машинное обучение простыми словами http://vas3k.ru/blog/machine_learning/
Марафон по Tableau http://tableau.pro/m01, http://tableau.pro/m02 и т.д.
Блог

«Путь война. Менеджерами не рождаются. Менеджерами становятся», рубрика Статистика http://baguzin.ru/wp/category/8stat/
Подборки ссылок на курсы https://github.com/demidovakatya/vvedenie-mashinnoe-obuchenie или https://habr.com/company/spbifmo/blog/417641/
Подборки книг https://proglib.io/p/data-science-books/ или https://www.mann-ivanov-ferber.ru/tag/analytics-books/
Слайд 30

К семинару Скачайте Loginom Academic https://loginom.ru/downloads Откройте справку и изучите как

К семинару

Скачайте Loginom Academic https://loginom.ru/downloads
Откройте справку и изучите как минимум Быстрый

старт
Скачайте датасет https://www.kaggle.com/c/demand-forecasting-kernels-only/data#_=_
Загрузите датасет в Loginom
Для узла «Текстовый файл» создайте визуализатор Статистика, изучите характеристики выборки
С помощью визуализатора Куб сначала найдите store с максимальным объемом sales, а затем для него найдите item с максимальным sale
Отберите с помощью Фильтра строки, у которых соответствующие store и item
Для узла «Фильтр строк» постройте диаграмму типа «Разброс» для значений sale
Как вы думаете, какие точки на графике являются выбросами?