Кластерний аналіз. Дискримінантний аналіз

Содержание

Слайд 2

Кластерний аналіз Кластерний аналіз (англ. Data clustering) — задача розбиття заданої

Кластерний аналіз

Кластерний аналіз (англ. Data clustering) — задача розбиття заданої вибірки об'єктів (ситуацій) на підмножини, що називаються кластерами,

так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних кластерів істотно відрізнялися. Завдання кластеризації відноситься до статистичної обробки, а також до широкого класу завдань навчання без вчителя.
Це багатовимірна статистична процедура, яка виконує збір даних, що містять інформацію про вибірку об'єктів і потім упорядковує об'єкти в порівняно однорідні групи — кластери.

Прикладна економетрика

Слайд 3

Основна мета кластерного аналізу — знаходження груп схожих об'єктів у вибірці.

Основна мета кластерного аналізу — знаходження груп схожих об'єктів у вибірці. Спектр

застосувань кластерного аналізу дуже широкий: його використовують в археології, антропології, медицині, психології, хімії, біології, державному управлінні, філології, маркетингу, соціології та інших дисциплінах. Однак універсальність застосування привела до появи великої кількості несумісних термінів, методів і підходів, що ускладнюють однозначне використання і несуперечливу інтерпретацію кластерного аналізу.
Кластерний аналіз виконує наступні основні завдання:
Розробка типології або класифікації.
Дослідження корисних концептуальних схем групування об'єктів.
Породження гіпотез на основі дослідження даних.
Перевірка гіпотез або дослідження для визначення, чи дійсно групи, виділені тим чи іншим способом, присутні в наявних даних.

Прикладна економетрика

Слайд 4

Незалежно від конкретної сфери, застосування кластерного аналізу передбачає наступні етапи: Відбір

Незалежно від конкретної сфери, застосування кластерного аналізу передбачає наступні етапи:
Відбір вибірки для кластеризації.
Визначення

множини характеристик, по яких будуть оцінюватися об'єкти у вибірці.
Обчислення значень тієї чи іншої міри схожості між об'єктами.
Застосування одного з методів кластерного аналізу для створення груп схожих об'єктів.
Перевірка достовірності результатів кластеризації.
Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує коректування — викладені вимоги виконуються автоматично самою процедурою факторного моделювання. В іншому випадку вибірку потрібно коректувати.

Прикладна економетрика

Слайд 5

Методи кластеризації Метод к-середніх Прикладна економетрика де d — метрика, —

Методи кластеризації

Метод к-середніх

Прикладна економетрика

де d — метрика,   — і-ий об'єкт даних, а 

— центр кластера, якому на j-ій ітерації приписаний елемент  .

Маємо масив спостережень (об'єктів), кожен з яких має певні значення по ряду ознак. Відповідно до цих значень об'єкт розташовується у багатовимірному просторі.
1. Дослідник визначає кількість кластерів, що необхідно утворити
2. Випадковим чином обирається k спостережень, які на цьому кроці вважаються центрами кластерів
3. Кожне спостереження «приписується» до одного з n кластерів — того, відстань до якого найкоротша
4. Розраховується новий центр кожного кластера як елемент, ознаки якого розраховуються як середнє арифметичне ознак об'єктів, що входять у цей кластер
5. Відбувається така кількість ітерацій (повторюються кроки 3-4), поки кластерні центри стануть стійкими (тобто при кожній ітерації в кожному кластері опинятимуться одні й ті самі об'єкти), дисперсія всередині кластера буде мінімізована, а між кластерами — максимізована

Слайд 6

Методи кластеризації Кластеризація методом к–середніх: Демонстрація алгоритму Прикладна економетрика

Методи кластеризації

Кластеризація методом к–середніх: Демонстрація алгоритму

Прикладна економетрика

Слайд 7

Методи кластеризації Ієрархічна кластеризація (також «графові алгоритми кластеризації») Прикладна економетрика

Методи кластеризації

Ієрархічна кластеризація (також «графові алгоритми кластеризації»)

Прикладна економетрика

Слайд 8

Методи кластеризації FOREL (Формальний Елемент) Прикладна економетрика де перше підсумовування ведеться

Методи кластеризації

FOREL (Формальний Елемент)

Прикладна економетрика

де перше підсумовування ведеться за всіма кластерам

вибірки, друге підсумовування - по всіх об'єктах x, що належить поточному кластеру K_j, а W_j - центр поточного кластера, p (x,y) - відстань між об'єктами.
Слайд 9

Методи кластеризації Нейронна мережа Кохонена Прикладна економетрика Шар Кохонена складається з

Методи кластеризації

Нейронна мережа Кохонена

Прикладна економетрика

Шар Кохонена складається з деякої кількості  N

паралельно діючих лінійних елементів. Всі вони мають однакову кількість входів  M і отримують на свої входи один і той же вектор вхідних сигналів  X = (x1,..xm). На виході  j -го лінійного елемента отримуємо сигнал.
Де  w j0 — ваговий коефіціент  j-го входу   нейрона,   wj0— пороговий коефіцієнт.
Після проходження шару лінійних елементів сигнали посилаються на обробку за правилом «переможець забирає все»: серед вихідних сигналів  yj шукається максимальний;
Слайд 10

Приклади кластерного аналізу Прикладна економетрика

Приклади кластерного аналізу

Прикладна економетрика

Слайд 11

Львів: попередня оцінка Прикладна економетрика

Львів: попередня оцінка

Прикладна економетрика

Слайд 12

Львів: відбір кластерів Прикладна економетрика

Львів: відбір кластерів

Прикладна економетрика

Слайд 13

Приклад кластерних сайтів: Групи подібності по контенту Прикладна економетрика

Приклад кластерних сайтів: Групи подібності по контенту

Прикладна економетрика

Слайд 14

Дискримінантний аналіз Дискриміна́нтний ана́ліз — різновид багатовимірного аналізу, призначеного для вирішення

Дискримінантний аналіз

Дискриміна́нтний ана́ліз — різновид багатовимірного аналізу, призначеного для вирішення задач розпізнавання образів. Використовується

для прийняття рішення про те, які змінні розділюють (тобто «дискримінують») певні масиви даних (так звані «групи»).
Весь процес проведення дискримінантного аналізу розбивається на два етапи й кожен з них можна розглядати як абсолютно самостійний метод.
Перший етап – виявлення і формальний опис відмінностей між існуючими множинами (групами) спостережуваних об’єктів.
Другий етап – безпосередня класифікація нових об’єктів, тобто віднесення кожного об’єкта до одні з існуючих множин.
За допомогою дискримінантного аналізу на підставі деяких ознак (незалежних змінних) об’єкт може бути зарахований до однієї із заданих наперед груп. Вагомий внесок у розвиток багатовимірної статистики зробили такі вчені, як П.Ч. Махалонобіс, Р. Фішер,Г. Хотеллінг та ін.

Прикладна економетрика

Слайд 15

Загальна модель дискримінантного аналізу для кількісних змінних при відсутності інформації щодо

Загальна модель дискримінантного аналізу для кількісних змінних при відсутності інформації щодо

апріорної ймовірності віднесення до певної групи та при рівності втрат має такий вигляд:

Прикладна економетрика

Слайд 16

У світовій практиці одним з найважливіших інструментів системи раннього запобігання та

У світовій практиці одним з найважливіших інструментів системи раннього запобігання та

прогнозування банкрутства підприємств є дискримінантний аналіз (аналіз множинних дис­кримінант - Multiple-discriminant analysis, MDA). Його зміст полягає в тому, що за допомогою математично- статистичних методів будують функцію та розраховують інтегральний показник, на підставі якого можна з достатньою ймовірністю передбачити банкрутство суб’єкта господарювання. Дискримінантний аналіз ґрун­тується на емпірично-індуктивному дослідженні фінансових показників великої кількості підприємств, одні з яких збанкрутували, а решта - успішно функціонує в умовах ринкового середовища.
Пристосована до вітчизняних умов дискримінантна модель була розроблена О. Терещенком. Вона існує у двох варіантах: універсальна та спеціалізована за галузями народного господарства. Ця модель враховує специфіку діяльності саме українських підприємств. Але вагомим її недоліком є широкий інтервал невизначеності, коли неможливо достовірно визначити приналежність підприємства до фінансово стійких чи до потенційних банкрутів.

Прикладна економетрика

Слайд 17

Приклад дискримінантного аналізу за допомогою MDA Прикладна економетрика

Приклад дискримінантного аналізу за допомогою MDA

Прикладна економетрика

Слайд 18

Універсальна дискримінантна модель Прикладна економетрика Z = 1,5 Х 1 +

Універсальна дискримінантна модель

Прикладна економетрика

Z = 1,5 Х 1 + 0,08 Х

2 + 10 Х 3 + 5 Х 4 + 0,3 Х 5 + 0,1 Х 6
де Х 1 – Cash Flow / зобов’язання;
Х 2 – валюта балансу/ зобов’язання;
Х 3 – чистий прибуток/ баланс;
Х 4 – чистий прибуток/ виручка;
Х 5 – виробничі запаси/ виручка;
Х 6 – виручка/ обіговість основного капіталу.
Для обчислення коефіцієнта X1 використовується показник Cash Flow, який характеризує величину чистих грошових потоків, які утворюються в результаті операційної та інвестиційної діяльності й залишаються в розпорядженні підприємства в певному періоді.
Отримані результати після обрахунків можна інтерпретувати так:
• Z>2 – підприємство вважається фінансово стійким і йому не загрожує банкрутство;
• 1• 0• Z<0 – підприємство є напівбанкрутом.
Слайд 19

Переваги та недоліки застосування кластерного аналізу Результат класифікації сильно залежить від

Переваги та недоліки застосування кластерного аналізу

Результат класифікації сильно залежить від випадкових

початкових позицій кластерних центрів
Алгоритм чутливий до викидів, які можуть викривлювати середнє
Кількість кластерів повинна бути заздалегідь визначена дослідником

Прикладна економетрика

Низька чутливість до розмірності вибірки
Показник є найбільш критичним в більшості систем і методів, що вирішують задачі класифікації( встановлює обмеження у прогнозуванні)
Метод кластерного аналізу працює навіть якщо не виконуються вимоги нормальності розподілів випадкових величин

Слайд 20

Переваги та недоліки застосування дискримінантного аналізу широкий інтервал невизначеності. Дані такого

Переваги та недоліки застосування дискримінантного аналізу

широкий інтервал невизначеності. Дані такого прогнозування є вельми

суб’єктивними і не дають підстав для практичних висновків.
знижує точність прогнозу

Прикладна економетрика

простота у розрахунку;
враховує галузеві особливості підприємства;
 вирішує проблему визначення критичних значень показників, які є індикатором вірогідності певного явища в галузі.