Внешний анализ: сегментация клиентской базы

Содержание

Слайд 2

План Понятие дерева решений. Применение деревьев решений в задаче выявления рыночных

План

Понятие дерева решений. Применение деревьев решений в задаче выявления рыночных сегментов.
Алгоритмы

построения дерева решений.
Реализация сегментации на основе деревьев решений в SPSS, Deductor и др. программах.
Слайд 3

Дерево решений для сегментации заемщиков банка

Дерево решений для сегментации заемщиков банка

Слайд 4

Дерево решений для сегментации обменивающих валюту клиентов

Дерево решений для сегментации обменивающих валюту клиентов

Слайд 5

Понятие дерева решений Дерево решений (классификации) – это способ представления правил

Понятие дерева решений

Дерево решений (классификации) – это способ представления правил в

иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение.
Дерево классификации – набор последовательно выделенных сегментов с наибольшими различиями целевой переменной (например, группы с максимальным и минимальным процентом заинтересованных в услуге).
Это позволяет найти, сочетание каких признаков сильнее всего влияет на целевую переменную, а также определить наиболее перспективные целевые группы.
Слайд 6

Достоинства деревьев решений быстрый процесс обучения генерация правил в областях, где

Достоинства деревьев решений

быстрый процесс обучения
генерация правил в областях, где эксперту трудно

формализовать свои знания
извлечение правил на естественном языке
интуитивно понятная классификационная модель
высокая точность прогноза
построение непараметрических моделей.
Слайд 7

Основные этапы алгоритмов конструирования деревьев построение дерева (tree building) выбор атрибута

Основные этапы алгоритмов конструирования деревьев

построение дерева (tree building)
выбор атрибута для разбиения

дерева
выбранный атрибут должен разбить множество так, чтобы получаемые в итоге подмножества состояли из объектов, принадлежащих к одному классу, или были максимально приближены к этому, т.е. количество объектов из других классов ("примесей") в каждом из этих множеств было как можно меньше
остановка
сокращение дерева (tree pruning)
на основе анализа ошибок классификации
Слайд 8

Алгоритмы построения деревьев решений CHAID, ECHAID (Exhaustive CHAID) для получения оптимального

Алгоритмы построения деревьев решений

CHAID, ECHAID (Exhaustive CHAID)
для получения оптимального разбиения

используется критерий связи между категориальными переменными хи-квадрат (в случае, если целевая переменная является количественной, используется F-критерий). Исходно целевая переменная и переменные-предикторы могут быть как количественными, так и категориальными, однако количественные предикторы при построении дерева преобразуются в категориальные.
ID3
C.4.5
CART (Classification And Regression Tree)
основан не на статистических критериях, а на уменьшении неоднородности сегментов (узлов) (индекс Gini). Хорошо работает в том случае, если все переменные в анализе являются количественными. В методе могут быть использованы как количественные, так и категориальные целевая переменная и переменные предикторы
QUEST
В данном методе для выбора предикторов . применяются различные критерии, в зависимости от типа потенциального предиктора. Он позволяет избегать смещений, связанных с выбором предикторов с большим количеством категорий, но целевая переменная в данном случае должна быть категориальной. Предикторы могут быть как количественными, так и категориальными.
Слайд 9

CHAID-анализ: основные идеи Метод основан на критерии хи-квадрат. На входе анализа

CHAID-анализ: основные идеи

Метод основан на критерии хи-квадрат.
На входе анализа – категориальная

зависимая переменная (например, заинтересованность/незаинтересованность в услуге) и несколько независимых переменных (предикторов).
Вначале ищется самый сильный фактор, который наилучшим образом объясняет различия между категориями зависимой переменной. Автоматически перебираются все предикторы, ищутся все комбинации значений и находится наилучшее решение, т.е. то, которое максимизирует различия (при котором наибольший хи-квадрат).
Далее в каждой из полученных групп процесс повторяется заново: вновь перебираются все предикторы и находится оптимальное решение для второго уровня. То же – для следующих уровней. В каждой из подгрупп процесс происходит независимо, т.е. например, первым фактором оказался пол, а далее для женщин важен возраст, а для мужчин, скажем, семейное положение.
Слайд 10

Пример: дерево решений в SPSS Целевая переменная credit rating (кредитный рейтинг)

Пример: дерево решений в SPSS

Целевая переменная
credit rating (кредитный рейтинг)
Предикторы
Age (возраст)
Income

level (уровень дохода)
Number of credit cards (количество кредиток)
Education (образование)
Car loans (количество автокредитов)
Слайд 11

Шаг 1 – открытие данных

Шаг 1 – открытие данных

Слайд 12

Шаг 2 – выбор метода

Шаг 2 – выбор метода

Слайд 13

Шаг 3 – задание переменных

Шаг 3 – задание переменных

Слайд 14

Шаг 4 - дополнительные настройки

Шаг 4 - дополнительные настройки

Слайд 15

Шаг 5 – анализ дерева

Шаг 5 – анализ дерева

Слайд 16

Шаг 5 – анализ дерева (продолжение)

Шаг 5 – анализ дерева (продолжение)