Технологии бизнес-аналитики

Содержание

Слайд 2

Knowledge Discovery in Databases KDD– обнаружение знаний в базах данных :

Knowledge Discovery in Databases KDD– обнаружение знаний в базах данных :

последовательность действий по подготовке данных, выбору информативных признаков, очистке, построение моделей, интерпретации полученных результатов
«Ядром» этого процесса является Data Mining – интеллектуальный анализ данных
Слайд 3

Получение данных: запросы, фильтры; эксперты помогают отобрать признаки, влияющие на результат.

Получение данных: запросы, фильтры; эксперты помогают отобрать признаки, влияющие на результат.


Оптимальный источник – хранилище данных.
Очистка данных: заполнение пропусков, подавление выбросов, сглаживание, исключение дубликатов и противоречий…
Задача очистки может иметь самостоятельную ценность.
Преобразование данных: скользящее окно, вычисление агрегатов, приведение типов, выделение интервалов, квантование, сортировка, группировка, расчет производных столбцов…
Слайд 4

Data Mining Считается, что термин был введен Г.Пятецким-Шапиро в 1989г. Оригинальное

Data Mining
Считается, что термин был введен Г.Пятецким-Шапиро в 1989г.
Оригинальное определение

следующее:
«Data Mining – обнаружение в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности».
Слайд 5

Слайд 6

Модели и задачи Data Mining

Модели и задачи Data Mining

Слайд 7

Описательная аналитика (Descriptive analytics) ближе к сложной визуализации и разведочному анализу

Описательная аналитика (Descriptive analytics) ближе к сложной визуализации и разведочному анализу

– компактное описание множества объектов в виде правил, кластеров, шаблонов поведения, групп.
Описательные модели пытаются ответить:
Какова структура клиентской базы?
Какой профиль идеального клиента?
Какие есть взаимосвязи между характеристиками клиентов?
Какие события происходят одновременно?
Предсказательное моделирование (Predictive analytics) отвечает на вопросы:
Откликнется ли клиент на данную маркетинговую кампанию?
Какой размер прибыли будет в следующем месяце?
Какие из потенциальных клиентов вероятно совершат приобретение
услуги в следующем месяце?
Какой прогнозируемый спрос на следующий период планирования?
Слайд 8

Ассоциация – выявление закономерностей между связанными событиями. Ассоциативное правило указывает, что

Ассоциация – выявление закономерностей между связанными событиями.
Ассоциативное правило указывает, что

из события X следует событие Y.
Примеры приложения ассоциативных правил:
выявление наборов товаров, которые часто покупаются вместе;
определение доли клиентов, положительно относящихся к нововведениям;
определение профиля посетителей веб-ресурса;
определение доли случаев, в которых новое лекарство показывает
опасный побочный эффект.
Слайд 9

Задачи Data Mining – кластеризация Кластеризация – это группировка объектов (наблюдений,

Задачи Data Mining – кластеризация
Кластеризация – это группировка объектов (наблюдений, событий)

на основе свойств, описывающих сущность объектов.
Объекты внутри кластера должны быть «похожими» и отличаться от объектов, вошедших в другие кластеры.
Интерпретация кластеров производится с использованием профилей кластеров.
Целями кластеризации является желание оперировать не объектами в отдельности, а подгруппами объектов.
Слайд 10

Ирисы Фишера

Ирисы Фишера

Слайд 11

Слайд 12

Слайд 13

Применение кластерного анализа В медицине используется кластеризация заболеваний, лечения заболеваний или

Применение кластерного анализа

В медицине используется кластеризация заболеваний, лечения заболеваний или их

симптомов, а также таксономия пациентов, препаратов и т.д.
В археологии устанавливаются таксономии каменных сооружений и древних объектов и т.д.
В маркетинге это может быть задача сегментации конкурентов и потребителей.
В менеджменте примером задачи кластеризации будет разбиение персонала на различные группы, классификация потребителей и поставщиков, выявление схожих производственных ситуаций, при которых возникает брак.
В социологии задача кластеризации - разбиение респондентов на однородные группы.
Слайд 14

Data Mining – задачи классификации и регрессии Классификация – отнесение объекта

Data Mining – задачи классификации и регрессии
Классификация – отнесение объекта (события,

наблюдения) к одному из заранее известных классов. Примеры таких классов:
Заемщик банка: допустит просрочку или не допустит просрочку;
Клиент телекоммуникационной компании: уйдет в течение года или не уйдет в течение года;
Фильтр электронной почты: спам, не спам.
Задача регрессии – установление зависимости непрерывной выходной переменной от входных переменных. Примеры:
Оценка стоимости недвижимости;
Прогнозирование объема продаж;
Прогноз цен на оптовом рынке;
Какие банкоматы какими суммами инкассировать.