Информационные технологии поддержки принятия решений

Сентябрь 2, 2022

Главная
Алгебра
Информационные технологии поддержки принятия решений

Содержание

2. Знания как основной ресурс менеджмента Управление знаниями (Knowledge Management, KM) – новая и быстро развивающаяся область
3. Если раньше стоимость компаний составляли финансовый капитал, здания, оборудование и другие материальные ценности, то в новой,
4. Управление знаниями предполагает широкое использование следующих информационных технологий: баз данных и хранилищ данных (Data Warehousing –
5. Системы поддержки принятия решений В 1980-е годы американские и японские компании начали развивать новые информационные системы.
6. Современная компания с разветвленным бизнесом, как правило, имеет: системы поддержки деятельности руководителя (Executive Support Systems -
7. Задачи СППР Анализ обстановки (ситуаций). Генерация возможных управленческих решений (сценарий действия). Оценка сгенерированных сценариев (действий, решений)
8. Основные компоненты системы поддержки принятия решения
9. Примеры социальных и экономических проблем, требующих анализа данных
10. 1. Опросы населения Мониторинг общественного мнения и анализ социально-экономической ситуации. Анализ данных нужен для выяснения ситуации
11. 2. Общественная безопасность Анализ преступности. Анализ данных необходим для того, чтобы понять, какие типы преступлений совершаются,
12. 3. Образование Планирование школьных округов. Нахождение оптимального месторасположения новых школ, в зависимости от условий района, демографической
13. 4. Трудоустройство Анализ рынка труда - состав и структура рабочей силы. Анализ предложений работодателей. Анализ заявлений
14. 5. Анализ прибыли Оценка соответствия размеров уплаченных налогов и размеров собственности. Анализ мошенничеств - выявление характеристик
15. 6. Здравоохранение Анализ заболеваемости населения (по самым различным факторам). Эпидемиология - выявление причин заболеваний и территорий
16. 7. Стратегическое планирование Анализ удовлетворенности клиентов и изучение изменений потребностей общественности. Профилирование населения. Создание более эффективных
17. 8. Контроль качества продукции Одна из наиболее важных прикладных областей принятия решений, приносящих наибольший доход в
18. 9. Бизнес Без современных методов анализа невозможно осуществить обработку огромного количества данных и принятие решений, которые
19. 9. Бизнес (продолжение) Предсказание рыночных временных рядов. В этой области предсказания наиболее тесно связаны с доходностью,
20. Современные методы добычи знаний: «Оперативная аналитическая обработка данных» (On-Line Analytical Processing или (OLAP)) и «Обнаружение знаний
21. Хранилища данных Основой для принятия решений является анализ данных, выявление скрытых закономерностей и знаний, содержащихся в
22. Зачем строить хранилища данных - ведь они содержат заведомо избыточную информацию, которая и так есть в
23. Технология OLAP – это инструмент оперативного анализа данных, содержащихся в хранилище. Главной особенностью является то, что
24. Обнаружение знаний в базах данных (Knowledge discovery in databases (KDD) или Data Mining – «раскопка» данных)
25. Основные направления углубленного анализа данных (KDD) Можно выделить пять основных типов задач анализа данных, для решения
26. Интеллектуальные системы компьютерного анализа данных могут основываться на двух подходах: Первый заключается в том, что в
27. Экспертные системы Экспертная система — это программа для компьютера, которая оперирует со знаниями в определенной предметной
28. Проблемы ставятся перед системой в виде совокупности фактов, описывающих некоторую ситуацию, и система с помощью базы
29. Более перспективен второй подход, который основан на анализе данных с помощью статистических пакетов или нейронных сетей.
30. Поиск ассоциативных правил Ассоциативные правила позволяют находить закономерности между связанными событиями. Примером такого правила, служит утверждение,
31. Ассоциативным правилом называется правило «если X, то Y» Другими словами, целью анализа является установление следующих зависимостей:
32. Транзакцией называется некоторая последовательность действий, представляющих единое целое, например покупка человеком товаров в магазине. Поддержкой ассоциативного
33. Задача нахождения ассоциативных правил разбивается на две подзадачи: Нахождение всех наборов элементов, которые удовлетворяют некоторому заданному
36. Классификация данных и извлечение правил из данных. «Дерево решений» как пример экспертной системы «Дерево решений» (Decision
37. У каждого клиента 6 параметров (переменных) Зависимая (целевая) переменная – кредитный рейтинг. Два возможных значения: 0
38. Эти данные – результат исследований, направленных на выяснение характеристик клиентов, позволяющих выяснить, какие из них позволяют
39. Пояснения после решения примера Что получено: Набор правил, позволяющий на основе знания объясняющих переменных предсказать результативную
40. Можно сохранить обученное дерево решений и применять сохранённый алгоритм для предсказания кредитного рейтинга клиента. Очевидно, что
41. Дискриминантный анализ Дискриминантный анализ включает в себя методы классификации наблюдений в ситуации, когда исследователь обладает достаточно
42. Метод может применяться во всех случаях, когда на основании уже имеющейся информации, требуется отнести новый случай
43. Графическая интерпретация Принципы дискриминантного анализа можно пояснить графически для простого случая, когда объекты надо распределить на
44. Далее вычисляются координаты центров этих множеств (координаты центроидов групп – по терминологии дискриминантного анализа). На рисунке
45. Через центроиды проводится прямая (синяя), а через точку, находящуюся на равном расстоянии от центроидов, проводится линия
46. Таким образом, обучающая выборка позволяет построить новую систему координат (синяя и фиолетовая линии), которая и позволяет
47. У каждого клиента 6 параметров (переменных) Зависимая (целевая) переменная – кредитный рейтинг. Два возможных значения: 0
48. Снова все данные разобьём на обучающую выборку (70%) и тестовую (30%) с помощью введения дополнительной переменной,
50. Пояснения после решения примера Основные результаты – в таблице Результаты классификации Алгоритм дискриминантного анализа может исключать
51. SPSS и PASW PASW (Predictive Analytics Software) это «бывшая» SPSS (Statistical Package for Social Science) (после
52. Манипуляция данными, импорт, экспорт файлов с сохранением в различных форматах. Получение описательной статистики (среднее, дисперсия и
53. Как представлять данные для анализа? (типы статистических шкал в PASW) Практически все известные пакеты анализа данных
54. Номинативная (категориальная) шкала является самым «низким» уровнем измерения. В этом случае числовое значение приписывается переменным произвольно.
55. Ясно, что переменные, измеренные в этой шкале, нельзя подвергать никаким арифметическим, алгебраическим или логическим операциям. Для
56. Порядковая шкала применяется, если переменная выражает степень проявления какого либо свойства, и ее значения могут быть
57. Интервальная шкала предполагает, что можно определить не только порядок значений, но и расстояние между значениями. Эта
58. Шкала отношений. Для переменных, измеренных в этой шкале, определены все арифметические и логические операции, которые можно
59. Кластерный анализ
60. Кластерный анализ ставит перед собой задачу классификации объектов. Синонимами термина «кластерный анализ» являются «автоматическая классификация объектов
61. Кластерный анализ рационально использовать на ранних стадиях исследования, когда о данных мало что известно. Методы автоматического
62. Виды кластерного анализа (реализованы в PASW) Метод К- средних (или итерационный метод). Метод используется при достаточно
63. Пусть, например, необходимо выделить К кластеров. На первом шаге вычисляются (или задаются пользователем) координаты К центров
65. Анализ результатов примера Оказалось, что около 80% «плохих» заемщиков попали в один кластер, что позволяет для
66. Иерархический кластерный анализ. Метод используется при сравнительно небольшом числе объектов (до нескольких сотен). Сущность метода состоит
67. Простой пример для иллюстрации алгоритма иерархического кластерного анализа Пусть имеется четыре объекта, для которых рассчитана матрица
68. На последнем шаге в кластер будет включен четвертый объект, имеющий наименьшее расстояние до первого объекта, включенного
69. Алгоритм иерархического кластерного анализа, реализованный в PASW, очень похож на описанный выше. Шкала расстояний при построении
70. Факторный анализ
71. Факторный анализ это процедура, с помощью которой большое число переменных, характеризующих имеющиеся наблюдения, сводится к меньшему
72. Алгоритм факторного анализа несложен, но описывается громоздкими математическими выражениями, поэтому ограничимся простейшим примером, допускающим графическую интерпретацию.
73. Видно, что есть определённая закономерность в расположении точек (между ценой автомобиля и ресурсом его двигателя есть
74. Отыскание такой новой системы координат и нахождение взаимосвязи «новых» координат f1 f2 (называемых факторами) и «старых»
75. Простой пример (не следует рассматривать всерьез в содержательном аспекте) Пятью респондентами, желающими приобрести путёвки на курорт,
76. Вопрос: нельзя ли передать смысл ответов респондентов меньшим числом переменных? (Не четырьмя, а тремя, двумя или,
77. Регрессионный анализ и прогнозирование
78. Задачей регрессионного анализа является построение математической модели взаимосвязи явлений на основе имеющихся данных об этих явлениях.
79. Регрессионные модели – это модели взаимосвязи, сформулированные в виде функциональной зависимости результативной (зависимой) переменной от одной
81. Будем считать вес – результативной переменной, а рост – факторной Если данные о росте и весе
82. На первом шаге регрессионного анализа исследователь должен выбрать вид зависимости между факторным и результативным признаками. Вид
83. После выбора вида зависимости можно начать регрессионный анализ. Первое, что должен сделать регрессионный анализ – это
84. Математически критерий «максимальной близости» прямой к наблюдаемым значениям yi , - это минимальность значения суммы квадратов
85. Основные результаты регрессионного анализа рассмотренного примера:
86. Расчеты статистической значимости в регрессионном анализе базируются на обычных статистических процедурах «проверки гипотез». Выдвигается «нулевая гипотеза»
87. Добавим в рассматриваемый пример еще одну переменную предиктор – возраст. Это соответствует предположению, что на вес
88. Можно сделать вывод о том, что по наблюдаемым данным вес не зависит от возраста (константа b2
89. Логистическая регрессия Эта разновидность регрессионного анализа применяется не для изучения взаимосвязи явлений, а для решения задач
90. Рассмотрим наиболее простой случай – случай бинарной логистической регрессии. В этом случае зависимая переменная y может
92. Выявление взаимосвязи явлений Корреляционный анализ
93. В задачах корреляционного анализа требуется установить наличие взаимосвязи между изучаемыми явлениями (вычислить коэффициент корреляции и оценить
94. Пример вычисления коэффициента корреляции по Пирсону Данные о «параметрах» футболистов сборной России по футболу «образца» 2008
95. Таблицы сопряжённости и критерий χ2 Таблицы сопряженности (или «перекрестные распределения») служат для выявления зависимости между двумя
96. Всего 2008 человек опрошено в Украине и 1600 в России. Вопрос: есть ли взаимосвязь между мнением
97. В «переводе» на язык статистики задача выглядит так: есть две переменные: первая переменная – это «страна»
98. Если бы числа ответов респондентов были бы равны ожидаемым частотам – это означало бы, что мнения
99. Построение экспертных систем на основе нейронных сетей
100. Задачи анализа данных, решаемые с помощью нейронных сетей Выявление взаимосвязей и прогнозирование Классификация Кластеризация Классификация и
101. Нейронные сети как средство анализа данных Под нейронными сетями понимаются вычислительные структуры, которые моделируют процессы хранения
102. Элементарным преобразователем данных в нейронных сетях является нейрон, названный так по аналогии с биологическим прототипом, который,
103. Схема «биологического» нейрона
104. Схема формального нейрона
105. Если на входе сигналы: x1, x2… xn, то на выходе из ядра возникает итоговый сигнал S
106. Классификация нейронных сетей В многослойных или слоистых нейронных сетях нейроны объединяются в слои. Слой содержит совокупность
107. Слои в нейронных сетях
108. «Обучение» нейронной сети. Алгоритм обратного распространения ошибок В классическом алгоритме обучения (алгоритм обратного распространения ошибки) в
109. В классическом алгоритме подстройка весов синапсов происходит после предъявления нейронной сети каждого примера Более быстрые алгоритмы
110. Для того чтобы сеть могла анализировать данные, она должна иметь достаточный уровень сложности. Для приближенной оценки
111. Такое приближенное определение числа нейронов еще не гарантирует хорошие прогностические качества нейронной сети. Решением проблемы служит
112. Пример задачи прогнозирования Есть данные о средних за текущую неделю характеристиках фондового рынка: х1 – доходность
114. Скачать презентацию

Слайд 2

Знания как основной ресурс менеджмента
Управление знаниями (Knowledge Management, KM) –

новая и быстро развивающаяся область практической деятельности, целью которой является систематизация работы с интеллектуальными ресурсами (активами) и накопленным опытом.
В силу своей нематериальности интеллектуальные ресурсы (имя компании - имидж, торговые марки - бренды, клиентская база, корпоративная культура, интеллектуальный капитал - знания и т.д.) могут показаться невесомыми, однако именно они являются реальными рычагами, обеспечивающими конкурентные преимущества предприятия перед другими.

Слайд 3

Если раньше стоимость компаний составляли финансовый капитал, здания, оборудование и другие

материальные ценности, то в новой, постиндустриальной эпохе главным источником богатства становится интеллектуальный капитал (систематизированные и уникальные знания).
Знания – это выявленные закономерности предметной области (принципы, связи, законы), позволяющие решать задачи в этой области.

Слайд 4

Управление знаниями предполагает широкое использование следующих информационных технологий:
баз данных и хранилищ

данных (Data Warehousing – DW);
систем управления документооборотом (Document Management);
средств для организации совместной работы – сети Intranet,
систем бизнес аналитики, специализированных программ обработки данных и поиска скрытых закономерностей (Data Mining – DM);
экспертных систем и баз знаний.
Весь этот комплекс информационных технологий можно назвать системой поддержки принятия решений

Слайд 5

Системы поддержки принятия решений
В 1980-е годы американские и японские компании начали

развивать новые информационные системы. Целью их было помочь конечным пользователям работать со всеми типами данных, проводить аналитические исследования, строить модели и разыгрывать сценарии для решения слабоструктурированных и вообще неструктурированных проблем в инновационных проектах.
Системы, предоставляющие такие возможности, и были названы системами поддержки принятия решений - СППР (Decision Support System - DSS).

Слайд 6

Современная компания с разветвленным бизнесом, как правило, имеет:
системы поддержки деятельности

руководителя (Executive Support Systems - ESS) на стратегическом уровне;
управляющие информационные системы (Management Information Systems - MIS) и системы поддержки принятия решений (Decision Support Systems - DSS) на среднем управленческом уровне;
рабочие системы знания (Knowledge Work System - KWS) и системы автоматизации делопроизводства (Office Automation Systems - OAS) на уровне знаний;
системы диалоговой обработки транзакций (Transaction Processing Systems - TPS) на эксплуатационном уровне.

Слайд 7

Задачи СППР
Анализ обстановки (ситуаций).
Генерация возможных управленческих решений (сценарий действия).

Оценка сгенерированных сценариев (действий, решений) и выбор лучшего.
Обеспечение постоянного обмена информацией об обстановке и принимаемых решениях. Согласование групповых решений.
Моделирование принимаемых решения (в тех случаях, когда это возможно).
Компьютерный анализ возможных последствий принимаемых решений.
Сбор данных о результатах реализации принятых решений и оценка результатов.

Слайд 8

Основные компоненты системы поддержки принятия решения

Слайд 9

Примеры социальных и экономических проблем, требующих анализа данных

Слайд 10

1. Опросы населения
Мониторинг общественного мнения и анализ социально-экономической ситуации. Анализ данных

нужен для выяснения ситуации в регионе и определения проблемных сфер.
Анализ реакции населения на внедрение различных федеральных и региональных программ. Возможность корректировки программ для повышения их эффективности.
Анализ экономического положения и уровня жизни населения.

Слайд 11

2. Общественная безопасность
Анализ преступности. Анализ данных необходим для того, чтобы понять,

какие типы преступлений совершаются, и в каких районах они происходят.
Отслеживание уровня рецидивизма. Анализ данных необходим для обнаружения причин, по которым правонарушители снова совершают преступления.

Слайд 12

3. Образование
Планирование школьных округов. Нахождение оптимального месторасположения новых школ, в зависимости

от условий района, демографической ситуации и других факторов.
Отслеживание успеваемости учащихся, выявление факторов способствующих повышению успеваемости.
Администрирование - контроль за уровнем выполнения обязательных программ и тестов.

Слайд 13

4. Трудоустройство
Анализ рынка труда - состав и структура рабочей силы. Анализ

предложений работодателей.
Анализ заявлений о приеме на работу - разработка профилей претендентов.
Отбор претендентов на престижные и конкурсные должности.

Слайд 14

5. Анализ прибыли
Оценка соответствия размеров уплаченных налогов и размеров собственности.
Анализ мошенничеств

- выявление характеристик предприятий и физических лиц, имеющих предрасположенность к совершению мошенничеств.
Создание образа ненадежного клиента в банковском деле.

Слайд 15

6. Здравоохранение
Анализ заболеваемости населения (по самым различным факторам).
Эпидемиология - выявление причин

заболеваний и территорий их распространения, а также контроль заболеваемости.
Медицинская помощь - определение профилей тех, кому часто требуется медицинская помощь.
Профилактика - выявление групп риска и необходимости медицинского вмешательства.

Слайд 16

7. Стратегическое планирование
Анализ удовлетворенности клиентов и изучение изменений потребностей общественности.
Профилирование населения.

Создание более эффективных программ рассчитанных на определенные слои населения.
Анализа затрат - выявления наиболее эффективных программ.

Слайд 17

8. Контроль качества продукции
Одна из наиболее важных прикладных областей принятия решений,

приносящих наибольший доход в денежном выражении - это обеспечение качества, основанное на применении статистического моделирования.
Например, в США – эффективность применения статистических методов только в области статистического контроля качества оценивается в размере не менее 20 миллиардов долларов ежегодно.
Японцы считают, что все, начиная от председателя совета директоров и до рядового рабочего в цехе, обязаны знать хотя бы основы статистических методов.

Слайд 18

9. Бизнес
Без современных методов анализа невозможно осуществить обработку огромного количества данных

и принятие решений, которые позволят оставить позади конкурентов. (Нет статистики - нет результативного анализа. Без анализа нет бизнеса).
Простейший пример – обработка данных, считанных с ленты кассовых аппаратов супермаркета, позволяет выявить группы товаров, которые приобретаются вместе. Размещение таких товаров недалеко друг от друга на полках большого магазина способно приносить ежемесячно увеличение прибыли на несколько процентов.

Слайд 19

9. Бизнес (продолжение)
Предсказание рыночных временных рядов. В этой области предсказания наиболее

тесно связаны с доходностью, и могут рассматриваться как один из видов бизнеса. Идея инвестиций - вложения денег сейчас с целью получения дохода в будущем - основывается на идее прогнозирования будущего.

Слайд 20

Современные методы добычи знаний: «Оперативная аналитическая обработка данных» (On-Line Analytical Processing или

(OLAP)) и «Обнаружение знаний в базах данных» (Knowledge discovery in databases (KDD) или даже Data Mining – «раскопка» данных)

Слайд 21

Хранилища данных
Основой для принятия решений является анализ данных, выявление скрытых закономерностей

и знаний, содержащихся в данных, прогноз развития явления.
Для полнофункциональной работы СППР, как правило, недостаточно иметь только корпоративную базу данных, в которой данные отражают текущее состояние дел, а нужно иметь специально организованное хранилище данных (Data Warehousing – DW)
С термином «хранилище данных» неразрывно связан термин «оперативная аналитическая обработка данных» (On-Line Analytical Processing или: OLAP)
Данные в хранилище попадают из оперативных систем (баз данных). Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов.

Слайд 22

Зачем строить хранилища данных - ведь они содержат заведомо избыточную информацию,

которая и так есть в базах данных или файлах оперативных систем?

Предприятие, как правило, имеет разрозненную систему баз данных, разбросанную в разных уголках корпоративной сети. Собирать данные для анализа в этом случае крайне затруднительно.
Данные в базе данных обновляются. Сохранение всей истории изменений данных приводит к «распуханию» БД и замедлению ее работы, а для анализа нужна именно динамика изменения данных.
Анализировать данные оперативных систем напрямую невозможно или очень затруднительно.

Слайд 23

Технология OLAP – это инструмент оперативного анализа данных, содержащихся в хранилище.
Главной

особенностью является то, что эти средства ориентированы на использование НЕ специалистом в области информационных технологий, НЕ экспертом-статистиком, а профессионалом в прикладной области управления - менеджером отдела, департамента, управления, и, наконец, директором.
Различие OLAP и KDD состоит в том, что при использовании технологии OLAP пользователь сам формирует модель – гипотезу об отношениях между данными – и после этого, используя серию запросов к базе данных, подтверждает или отклоняет эту гипотезу. OLAP очень часто используется в качестве предварительной стадии перед применением KDD.
Пример. Файл TORN.xls

Слайд 24

Обнаружение знаний в базах данных (Knowledge discovery in databases (KDD) или

Data Mining – «раскопка» данных)

Слайд 25

Основные направления углубленного анализа данных (KDD)
Можно выделить пять основных типов задач

анализа данных, для решения которых используются универсальные или специализированные пакеты прикладных программ:
выявление взаимосвязей и прогнозирование;
классификация;
кластеризация;
выявление логических правил «если – условие – то результат»;
нахождение ассоциаций и последовательностей.

Слайд 26

Интеллектуальные системы компьютерного анализа данных могут основываться на двух подходах:
Первый заключается

в том, что в системе фиксируется опыт эксперта, который и используется для оценки создавшейся ситуации. На этом подходе основывается построение экспертных систем.
Второй подход базируется на анализе накопленных данных, описывающих поведение изучаемого объекта, принятых в прошлом решениях, их результатах (например, анализе временных рядов стоимости валют и акций, статистики продаж различного рода товаров, результатов выборов и т.п.).
Возможен и третий подход – комбинация первых двух: результаты, полученные при анализе предыдущего опыта, оцениваются на основе опыта эксперта.

Слайд 27

Экспертные системы
Экспертная система — это программа для компьютера, которая оперирует со

знаниями в определенной предметной области с целью выработки обоснованных рекомендаций по путям решения проблем или формулировки решения.
Экспертные системы относят к системам искусственного интеллекта. Часто словосочетания «экспертные системы» (ЭС) и «системы, основанные на знаниях» считаются синонимами.
В системах, основанных на знаниях, правила, по которым решаются проблемы в конкретной предметной области, хранятся в базе знаний.

Слайд 28

Проблемы ставятся перед системой в виде совокупности фактов, описывающих некоторую ситуацию,

и система с помощью базы знаний пытается вывести заключение из этих фактов.
Примером ЭС может служить база знаний, которая по совокупности клинических признаков помогает диагностировать заболевание.
Такая база знаний создается с помощью эксперта в предметной области и должна постоянно обновляться и структурироваться. Вся эта деятельность по созданию экспертной системы и структурированию знаний эксперта называется инженерией знаний.
Важно подчеркнуть, что при создании экспертной системы в принципе можно обойтись без создания математической модели явления.

Слайд 29

Более перспективен второй подход, который основан на анализе данных с помощью

статистических пакетов или нейронных сетей.
Исходные данные здесь используются для автоматического построения модели явления на обучающей выборке и проверке модели на контрольной выборке. После этого, если модель дает статистически значимые результаты, ее можно использовать для принятия решений.
Такого рода системы также можно назвать экспертными, только знания здесь извлекаются из накопленных данных с помощью углубленного анализа данных, а эксперт нужен лишь на стадии осмысления полученных результатов.

Слайд 30

Поиск ассоциативных правил
Ассоциативные правила позволяют находить закономерности между связанными событиями.

Примером такого правила, служит утверждение, что покупатель, приобретающий хлеб, приобретет и молоко с вероятностью 75%.
Впервые задача поиска ассоциативных правил была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).

Слайд 31

Ассоциативным правилом называется правило «если X, то Y»
Другими словами, целью анализа

является установление следующих зависимостей: если в транзакции встретился некоторый набор элементов X, то на основании этого можно сделать вывод о том, что другой набор элементов Y также же должен появиться в этой транзакции.
Алгоритмы поиска ассоциативных правил предназначены для нахождения всех правил вида «если X, то Y», причем поддержка и достоверность этих правил должны быть выше некоторых, наперед определенных, порогов, называемых соответственно минимальной поддержкой и минимальной достоверностью.

Слайд 32

Транзакцией называется некоторая последовательность действий, представляющих единое целое, например покупка человеком

товаров в магазине.
Поддержкой ассоциативного правила «если X, то Y» называется доля транзакций во всем наборе данных, содержащих оба элемента Х и Y. Обычно поддержка выражается в процентах.
Достоверностью правила показывается, вероятность встретить правило если X, то Y среди всех транзакций. Например, если среди всех транзакций, в корзине покупателя хлеб и молоко встречается в 3 % случаев, а правило: если в корзине покупателя есть хлеб, то есть и молоко, выполняется в 75 % случаев, то говорят, что достоверность правила 75 % , а его поддержка 3%.

Слайд 33

Задача нахождения ассоциативных правил разбивается на две подзадачи:
Нахождение всех наборов

элементов, которые удовлетворяют некоторому заданному заранее минимальному порогу поддержки. Такие наборы элементов называются часто встречающимися.
Генерация правил из наборов элементов, найденных согласно п.1. с достоверностью, удовлетворяющей минимальному порогу достоверности.
Задача поиска ассоциативных правил впервые применялась для анализа рыночной корзины. Ассоциативные правила эффективно используются в сегментации покупателей по поведению при покупках, анализе предпочтений клиентов, планировании расположения товаров в супермаркетах, адресной рассылке, в медицине для установления типичных симптомов заболевания. (Пример)

Слайд 34

Слайд 35

Слайд 36

Классификация данных и извлечение правил из данных. «Дерево решений» как пример экспертной

системы

«Дерево решений» (Decision Tree) – это алгоритм классификации с «учителем», основанный на поиске внутренних закономерностей (знаний) в данных.
Классификация – разделение изучаемой совокупности на группы «схожих» объектов.
Данные, подлежащие анализу, должны иметь одну зависимую (результативную, целевую (target)) переменную и некоторое число независимых (объясняющих) переменных.
Пример (4.2). Данные о 2464 клиентах банка. Используем PASW (Predictive Analytics Software), «бывшая» SPSS (Statistical Package for Social Science)

Слайд 37

У каждого клиента 6 параметров (переменных)
Зависимая (целевая) переменная – кредитный рейтинг.

Два возможных значения: 0 – клиент задерживал возврат кредита («плохой» клиент), 1 – не задерживал возврат («хороший»).
Объясняющие переменные – это такие данные о клиентах, которые, по предположению банковских аналитиков, могут предсказать кредитный рейтинг («качество») клиента (каким он будет «хорошим» или «плохим»). Пять объясняющих переменных:
Возраст, Доход (1 – низкий, 2 – средний, 3 – высокий)
Количество кредитных карт у клиента (1 – меньше пяти, 2 – пять и более пяти кредитных карт)
Образование (1 – высшее, 2 – среднее)
Кредиты на покупку авто ( 1 – нет или один, 2 – два и более)

Слайд 38

Эти данные – результат исследований, направленных на выяснение характеристик клиентов, позволяющих

выяснить, какие из них позволяют предсказать риск невозврата кредита.
Алгоритмы дерева решений позволяют по значениям объясняющих переменных предсказать значение результативной переменной (с какой-то вероятностью).
Но для того, чтобы появилась возможность предсказания, дерево надо «обучить».
Для обучения дерева решений используем данные о 70% клиентов (выберем их случайным образом и это будет «Обучающая выборка»), а данные об остальных 30% клиентов используем для проверки (тестирования) обученного алгоритма – это будет «Контрольная выборка»
400 – 200

Слайд 39

Пояснения после решения примера
Что получено:
Набор правил, позволяющий на основе знания

объясняющих переменных предсказать результативную переменную (с определённой вероятностью)
Информация о том, какие независимые переменные влияют на результативную переменную, т.е. действительно являются объясняющими переменными. Обратите внимание: из данных получено знание!
Наглядное изображение алгоритма, поясняющее происхождение его названия «дерево решений»
Обобщённая характеристика качества работы алгоритма

Слайд 40

Можно сохранить обученное дерево решений и применять сохранённый алгоритм для предсказания

кредитного рейтинга клиента.
Очевидно, что дерево решения не может дать однозначный ответ – выбрав другие параметры алгоритма, мы получим другое решение, которое может несколько отличаться от первого. 200 - 100
Проблемы выбора параметров алгоритма: слишком большое количество получаемых правил (терминальных узлов) может означать «переобученность» алгоритма, т.е. очень хорошо классифицируется обучающая выборка, но контрольная – очень плохо.
Выбор первой объясняющей переменной – автоматически, но можно и задать принудительно.
Статистическая значимость – разделение по узлам не случайное.

Слайд 41

Дискриминантный анализ
Дискриминантный анализ включает в себя методы классификации наблюдений в ситуации,

когда исследователь обладает достаточно большим числом примеров правильной классификации (обучающими выборками).
Дискриминантный анализ иногда также называют классификацией с учителем.
Дискриминантный анализ является более универсальной статистической процедурой (по сравнению с деревом решений), но он преследует ту же самую цель – определить вероятность принадлежности заданного объекта к одной из заранее определенных групп.

Слайд 42

Метод может применяться во всех случаях, когда на основании уже имеющейся

информации, требуется отнести новый случай (наблюдение) к одной из заранее определенных групп.
В кадровых центрах, например, этот метод может быть использован для отбора претендентов на престижные должности. В медицине его широко применяют при постановке диагноза в сложных клинических случаях.
В экономике и управлении этот метод также незаменим для определения факторов, эффективно влияющих на конечный результат.
В дискриминантном анализе в общем случае число классов, по которым производится классификация объектов, может быть произвольным.

Слайд 43

Графическая интерпретация
Принципы дискриминантного анализа можно пояснить графически для простого случая, когда

объекты надо распределить на два класса (например, А и В), а каждый объект характеризуется всего двумя независимыми переменными x1 и x2.
Эти ограничения – только для возможности графического представления принципов дискриминантного анализа!!!
Пусть имеется n объектов, каждый характеризуется парой значений x1 и x2. Если «изобразить» каждый объект ОБУЧАЮЩЕЙ ВЫБОРКИ точкой в системе координат x1 x2, то может оказаться, что точки, соответствующие объектам, будут каким-то образом группироваться:

Слайд 44

Далее вычисляются координаты центров этих множеств (координаты центроидов групп – по

терминологии дискриминантного анализа). На рисунке это зелёная и красная точки.
Координаты центроидов – это средние значения x1 и x2 для каждой группы: x1Аcp, x2Аcp, x1Вcp, x2Вcp,

Слайд 45

Через центроиды проводится прямая (синяя), а через точку, находящуюся на равном

расстоянии от центроидов, проводится линия (фиолетовая), перпендикулярная синей.

Слайд 46

Таким образом, обучающая выборка позволяет построить новую систему координат (синяя и

фиолетовая линии), которая и позволяет определить к какому классу относится любой тестируемый объект. Для этого необходимо вычислить координату тестируемого объекта, соответствующую синей линии. Если эта координата окажется больше нуля, то объект можно отнести к классу А.
Как и для любой статистической процедуры, применение дискриминантного анализа возможно, если выполняются определенные условия.
Условия применимости дискриминантного анализа следует проверять для каждого нового набора данных.
Пример, тот же что и для дерева решений.

Слайд 47

У каждого клиента 6 параметров (переменных)
Зависимая (целевая) переменная – кредитный рейтинг.

Слайд 48

Снова все данные разобьём на обучающую выборку (70%) и тестовую (30%)

с помощью введения дополнительной переменной, которая с вероятностью 0,7 принимает значение, равное 1, а в остальных – 0.

Слайд 49

Слайд 50

Пояснения после решения примера
Основные результаты – в таблице Результаты классификации
Алгоритм дискриминантного

анализа может исключать из рассмотрения некоторые независимые переменные по определённому критерию. Опять из данных получено знание – алгоритм исключил некоторые независимые переменные из анализа, так как их влияние на разделение объектов на классы несущественно.
После нескольких продемонстрированных примеров – пора сказать несколько слов о программах, применяемых для анализа данных.

Слайд 51

SPSS и PASW
PASW (Predictive Analytics Software) это «бывшая» SPSS (Statistical Package

for Social Science) (после версии 17 её переименовали). «Программа для предсказаний, основанных на анализе (данных)».
Можно выделить несколько основных типов задач, для решения которых используются универсальные или специализированные пакеты программ. (естественно, возможна комбинация всех перечисленных ниже задач в различных сочетаниях).

Слайд 52

Манипуляция данными, импорт, экспорт файлов с сохранением в различных форматах.
Получение описательной

статистики (среднее, дисперсия и т. д.)
Установление взаимосвязи (корреляционный анализ).
Сравнение выборочных средних.
Регрессионный анализ.
Логистическая регрессия.
Анализ временных рядов.
Дискриминантный анализ.
Факторный анализ.
Кластерный анализ.
Построение деревьев решений и выявление правил «если- то-результат».
Построение ассоциаций и последовательностей.

Слайд 53

Как представлять данные для анализа? (типы статистических шкал в PASW)
Практически все известные

пакеты анализа данных оперируют данными, представленными исключительно в числовой форме. Поэтому, формируя данные, исследователь ставит в соответствие значениям переменной, имеющей содержательный смысл, числовые значения (например, пол мужской кодируется цифрой 1, женский – цифрой 2). Такое соответствие называется шкалой измерения переменной.
В зависимости от свойств переменной выделяют четыре шкалы:
номинативную,
порядковую (ранговую),
интервальную
шкалу отношений.

Слайд 54

Номинативная (категориальная) шкала является самым «низким» уровнем измерения. В этом случае

числовое значение приписывается переменным произвольно. Типичным примером переменной, которая измеряется в номинативной шкале, является пол. Например, в социологической анкете пол – мужской кодируется цифрой 1, а женский пол – цифрой 2. В данном случае значения 1 и 2 не связаны между собой какими либо отношениями. Бессмысленным бы было утверждение, что женский пол вдвое больше мужского. Другим примером переменной, измеряемой в номинативной шкале может, может служить профессия. Например, при изучении профессионального состава работников цеха можно использовать следующее кодирование: профессия токарь закодирована цифрой 1; профессия слесарь – цифрой 2; профессия электрик – цифрой 3.

Слайд 55

Ясно, что переменные, измеренные в этой шкале, нельзя подвергать никаким арифметическим,

алгебраическим или логическим операциям. Для переменных этого типа невозможно определить наименьшее и наибольшее значение, среднее значение, дисперсию, медиану и как следствие этого нельзя применять параметрическое тестирование (тестирование, основанное на использовании известных параметрах распределения).
Единственный параметр статистического распределения, который имеет смысл, – это мода распределения. В то же самое время переменные номинативного типа могут быть использованы как основание статистической группировки при проведении анализа, который позволяет установить взаимосвязь между переменными, измеренными например в номинативной и интервальной шкалах.

Слайд 56

Порядковая шкала применяется, если переменная выражает степень проявления какого либо свойства,

и ее значения могут быть упорядочены. Например, при обработке анкеты социологического опроса можно использовать порядковую шкалу для кодировании ответов на вопрос о том, представляется ли предлагаемая работа интересной:
очень интересная – 3;
интересная – 2;
мало интересная – 1;
совершенно неинтересная – 0.
В этом случае между значениями переменных можно установить отношения порядка. Есть возможность определить медиану и моду распределения.

Слайд 57

Интервальная шкала предполагает, что можно определить не только порядок значений, но

и расстояние между значениями. Эта шкала, однако, такова, что не имеет смысла рассматривать, во сколько раз одно значение больше другого. Примером может служить шкала измерения температуры по Цельсию – понятие разности температур можно определить и оно имеет смысл, а отношение температур – величина лишенная всякого смысла. Например, если утром температура была +1 0C , а днем поднялась до 6 0C, то можно сказать, что она стала выше на 5 градусов, но нельзя сказать, что стало теплее в 6 раз.
Переменные интервальной шкалы могут обрабатываться любыми статистическими методами без ограничений.

Слайд 58

Шкала отношений. Для переменных, измеренных в этой шкале, определены все арифметические

и логические операции, которые можно производить с числовыми переменными. Например, мы можем смело заявить, что зарплата в 10 000 руб. вдвое выше зарплаты в 5 000 руб.
К шкале отношений относятся и интервальные величины, которые имеют абсолютную нулевую точку (например, абсолютная температура, измеренная в шкале Кельвина). При статистическом анализе в SPSS и PASW переменные, относящиеся к интервальной шкале и шкале отношений, обычно не различаются.

Слайд 59

Кластерный анализ

Слайд 60

Кластерный анализ ставит перед собой задачу классификации объектов. Синонимами термина

«кластерный анализ» являются «автоматическая классификация объектов без учителя» и «таксономия».
В этом смысле по своим задачам кластерный анализ похож на дискриминантный анализ, но не использует обучающие выборки.
Если данные понимать как точки в пространстве независимых переменных (признаков), то задача кластерного анализа формулируется как группировка объектов в многомерном признаковом пространстве, или разбиение совокупности на «однородные» подмножества объектов.

Слайд 61

Кластерный анализ рационально использовать на ранних стадиях исследования, когда о данных

мало что известно.
Методы автоматического разбиения на кластеры редко используются сами по себе, т.е. просто для получения групп схожих объектов. Анализ только начинается с разбиения на кластеры, и если кластеры обнаружены, то естественно использовать другие методы Data Mining, чтобы попытаться выяснить причины такого разбиения на кластеры.
К недостаткам кластерного анализа следует отнести зависимость результатов от выбранного метода кластеризации. И ещё: методы кластерного анализа не дают какого-либо способа для проверки достоверности разбиения на кластеры (проверки гипотезы о статистической значимости такого разбиения).

Слайд 62

Виды кластерного анализа (реализованы в PASW)
Метод К- средних (или итерационный метод). Метод

используется при достаточно большом числе случаев, когда переменные относятся к интервальной шкале и когда число кластеров (классов) известно заранее. Классификация объектов производится на основании понятия «расстояния» между объектами в многомерном признаковом пространстве. В программе PASW возможны восемь различных способов определения «расстояния» между объектами, поэтому решение задачи классификации объектов в кластерном анализе не является однозначным.

Слайд 63

Пусть, например, необходимо выделить К кластеров. На первом шаге вычисляются (или задаются

пользователем) координаты К центров будущих кластеров.
На втором шаге происходит просмотр всех объектов, и каждый объект присоединяется к тому кластеру, расстояние до центра которого оказалось наименьшим.
После того как все объекты просмотрены, рассчитываются новые координаты центров кластеров, а после этого снова просматриваются все объекты и присоединяются к тому кластеру, расстояние до центра которого оказалось наименьшим…
Описанный итерационный процесс заканчивается тогда, когда после очередного шага координаты центров кластеров остаются практически неизменными. Пример 4.2

Слайд 64

Слайд 65

Анализ результатов примера
Оказалось, что около 80% «плохих» заемщиков попали в один

кластер, что позволяет для клиента с неизвестным кредитным рейтингом, если он попал в этот кластер, с вероятностью примерно 80% предсказать, что клиент будет «плохим». Применить табл. сопряженности
Но если по результатам анализа для неизвестного клиента будет получено, что он попал в другой кластер («хороший»), то кластерный анализ бессилен, так как в другой кластер попали примерно 50 на 50.
Подчеркнем, что алгоритм кластерного анализа при разбиении на кластеры никак не использует данные о кредитном рейтинге!

Слайд 66

Иерархический кластерный анализ. Метод используется при сравнительно небольшом числе объектов (до нескольких

сотен). Сущность метода состоит в том, что на первом шаге каждый объект выборки рассматривается как отдельный кластер. Затем по исходным данным вычисляется матрица расстояний между всеми объектами статистической совокупности. Процесс объединения кластеров происходит последовательно: отыскиваются два объекта, расстояние между которыми является наименьшим, и они объединяются в один кластер. Затем отыскивается следующий объект, расстояние до которого от объектов, включенных в первый кластер, является наименьшим, и он присоединяется к первому кластеру. Процесс продолжается до тех пор, пока не будет получен один кластер.

Слайд 67

Простой пример для иллюстрации алгоритма иерархического кластерного анализа
Пусть имеется четыре объекта,

для которых рассчитана матрица евклидовых расстояний, представленная в таблице:

На первом шаге будут объединены объекты 1 и 2, поскольку между ними наименьшее расстояние, равное 2,06. На втором шаге к первому кластеру будет присоединен объект 3, имеющий наименьшее расстояние, равное 2,24 со вторым объектом первого кластера.

Слайд 68

На последнем шаге в кластер будет включен четвертый объект, имеющий наименьшее

расстояние до первого объекта, включенного в кластер на первом шаге. Схема объединения кластеров в один кластер в иерархическом кластерном анализе обычно изображается с помощью дендрограммы, приведенной для рассматриваемого случая:

Слайд 69

Алгоритм иерархического кластерного анализа, реализованный в PASW, очень похож на описанный

выше. Шкала расстояний при построении дендрограммы в PASW нормируется на 25, так что максимальное расстояние между кластерами всегда равно 25.
Существенным недостатком иерархического кластерного анализа является то, что этот метод не выявляет число реально существующих кластеров. Это число нужно определять самому исследователю, исходя из анализа расстояний между объектами.

Слайд 70

Факторный анализ

Слайд 71

Факторный анализ это процедура, с помощью которой большое число переменных, характеризующих

имеющиеся наблюдения, сводится к меньшему количеству независимых величин, называемых факторами.
Идея алгоритмов факторного анализа состоит в уменьшении числа независимых переменных, но при сохранении ПОЧТИ той же информации, которая была в исходном наборе независимых переменных.
К факторному анализу обычно прибегают тогда, когда пытаются определить скрытые (латентные) переменные, которые в действительности определяют изучаемое явление. Очень часто такие факторы или неизвестны заранее, или не поддаются непосредственному измерению.

Слайд 72

Алгоритм факторного анализа несложен, но описывается громоздкими математическими выражениями, поэтому ограничимся

простейшим примером, допускающим графическую интерпретацию.
На графике представлены данные о стоимости и ресурсе двигателя для нескольких десятков автомобилей (каждая точка – один автомобиль)

Слайд 73

Видно, что есть определённая закономерность в расположении точек (между ценой автомобиля

и ресурсом его двигателя есть статистическая связь).
В какой-то другой системе координат f1 f2 разброс точек будет практически полностью определяться одним фактором f1.

Слайд 74

Отыскание такой новой системы координат и нахождение взаимосвязи «новых» координат f1

f2 (называемых факторами) и «старых» - задача, решаемая алгоритмом факторного анализа.
Кроме этого, факторный анализ позволяет оценить долю влияния тех факторов, которые будут «отброшены» как «слабо влияющие».

Слайд 75

Простой пример (не следует рассматривать всерьез в содержательном аспекте)
Пятью респондентами, желающими

приобрести путёвки на курорт, даны оценки значимости условий выбора места отдыха (четыре критерия, по стобалльной шкале):

Слайд 76

Вопрос: нельзя ли передать смысл ответов респондентов меньшим числом переменных? (Не четырьмя,

а тремя, двумя или, может быть, даже одной). Может быть меньшее число факторов почти полностью отражает пожелания (мнение) респондентов?
Факторный анализ, возможно, дает ответ на этот вопрос.

Слайд 77

Регрессионный анализ и прогнозирование

Слайд 78

Задачей регрессионного анализа является построение математической модели взаимосвязи явлений на основе

имеющихся данных об этих явлениях.
Существенно то, что регрессионный анализ даёт и оценку статистической значимости взаимосвязи.
Если построенная модель статистически значима, то она позволяет строить прогноз развития явления. (Прогнозирование является важнейшей составной частью принятия управленческих решений. Эффективное управление требует предвидения).

Слайд 79

Регрессионные модели – это модели взаимосвязи, сформулированные в виде функциональной зависимости

результативной (зависимой) переменной от одной (или более) независимых переменных (факторов, предикторов).
Для объяснения ограничимся случаем парной (однофакторной) регрессии – когда результативная переменная зависит только от одной независимой переменной (от одного фактора)
Рассмотрим простейший пример такого однофакторного регрессионного анализа – выясним, есть ли взаимосвязь между весом и ростом человека. Пусть есть данные о весе и росте для некоторого множества людей (сборная России по футболу «образца 2008 года»)

Слайд 80

Слайд 81

Будем считать вес – результативной переменной, а рост – факторной
Если данные

о росте и весе представить графически, то можно «уловить» некоторую закономерность в «поведении» точек (каждая точка соответствует данным об одном объекте рассматриваемой совокупности)

Слайд 82

На первом шаге регрессионного анализа исследователь должен выбрать вид зависимости между

факторным и результативным признаками. Вид функциональной зависимости должен быть задан, так как сам по себе регрессионный анализ никогда не может дать вид зависимости!
Вид зависимости выбирается обычно либо исходя из теории, дающей связь между наблюдаемыми переменными, а если теории нет, то выбирается наиболее простой вид, но соответствующий «поведению» наблюдаемой зависимости.
В рассматриваемом примере вполне разумно предположить линейную зависимость между ростом и весом: y = b0 + b1x y – вес, x – рост, b1 и b0 постоянные (пока неизвестные).

Слайд 83

После выбора вида зависимости можно начать регрессионный анализ.
Первое, что должен сделать

регрессионный анализ – это найти постоянные b1 и b0. Эти постоянные должны быть такими, чтобы рассчитанные по этой зависимости величины y(xi) были максимально близки к величинам yi .
Графически это означает, что прямая с полученными b1 и b0, должна пройти «максимально близко» ко всем точкам:

Слайд 84

Математически критерий «максимальной близости» прямой к наблюдаемым значениям yi , -

это минимальность значения суммы квадратов отклонений наблюдаемых yi и вычисленных y(xi). Сумма рассчитывается по всем объектам.

Алгоритм регрессионного анализа позволяет оценить и статистическую значимость уравнения регрессии и отдельно статистическую значимость полученных коэффициентов в уравнении регрессии (величин b1 и b0)

Слайд 85

Основные результаты регрессионного анализа рассмотренного примера:

Слайд 86

Расчеты статистической значимости в регрессионном анализе базируются на обычных статистических процедурах

«проверки гипотез».
Выдвигается «нулевая гипотеза» H0 и затем на основе какого-то из статистических критериев рассчитывается «уровень значимости», который служит основой для принятия решения отклонить или принять гипотезу H0. Нулевая гипотеза практически всегда выдвигается в такой форме: «взаимосвязи нет», «различия нет», «взаимозависимости нет»
Уровень значимости – это вероятность получить наблюдаемые результаты, если верна нулевая гипотеза. (Или: вероятность сделать ошибку первого рода – отклонить нулевую гипотезу, когда она верна).

Слайд 87

Добавим в рассматриваемый пример еще одну переменную предиктор – возраст. Это

соответствует предположению, что на вес влияет не только рост, но и вес. Если независимых переменных две и более, то регрессию называют множественной (многофакторной)
Оставим в силе предположение о том, что связь между результативным признаком и предикторами – линейная: y = b0 + b1x + b2z. z – возраст, b2, b1 и b0 – постоянные.
Основные результаты анализа – на следующем слайде

Слайд 88

Можно сделать вывод о том, что по наблюдаемым данным вес не

зависит от возраста (константа b2 с вероятностью 0,95 лежит в интервале от -0,296 до +1,176 , а этот интервал содержит нуль)

Слайд 89

Логистическая регрессия
Эта разновидность регрессионного анализа применяется не для изучения взаимосвязи явлений,

а для решения задач классификации с использованием обучающей выборки.
Регрессионная функция в этом случае имеет вид:

y – зависимая переменная, x1, x2,… xk, – факторы, b0 , b1,… bk постоянные.

Слайд 90

Рассмотрим наиболее простой случай – случай бинарной логистической регрессии. В этом случае

зависимая переменная y может принимать только два возможных значения (например, 0 и 1).
Применим метод бинарной логистической регрессии для рассмотренной выше задачи классификации (выявление ненадёжного «плохого» заёмщика).
Все данные разобьём на обучающую выборку (70%) и тестовую (30%) с помощью введения дополнительной переменной Отбор, которая с вероятностью 0,7 принимает значение, равное 1, а в остальных – 0. Независимые переменные могут быть любого типа, но для порядковых переменных производится замена на (m-1) номинативных переменных (m – число градаций порядковой переменной). (Метод условного исключения)

Слайд 91

Слайд 92

Выявление взаимосвязи явлений Корреляционный анализ

Слайд 93

В задачах корреляционного анализа требуется установить наличие взаимосвязи между изучаемыми явлениями

(вычислить коэффициент корреляции и оценить его статистическую значимость).
В PASW имеется возможность вычислить коэффициент корреляции Пирсона, Спирмена и Кендалла.
Коэффициент корреляции по Пирсону следует использовать в том случае, когда изучаемые величины измеряются в интервальной шкале и имеют закон распределения близкий к нормальному. Для переменных измеренных в порядковой шкале или измеренных в интервальной шкале, но имеющих распределение сильно отличающееся от нормального, следует вычислять ранговые коэффициенты корреляции по Спирмену или Кендаллу.

Слайд 94

Пример вычисления коэффициента корреляции по Пирсону
Данные о «параметрах» футболистов сборной России

по футболу «образца» 2008 года. РегрессФутболВозраст.sav
Результаты:

Можно сравнить с результатами анализа взаимосвязи, полученными в регрессионном анализе

Слайд 95

Таблицы сопряжённости и критерий χ2
Таблицы сопряженности (или «перекрестные распределения») служат для

выявления зависимости между двумя и более переменными, которые измерены в номинативной или порядковых шкалах и имеют не очень большое число градаций.
В таблице приведены данные социологического опроса, проведённого в мае 2009 года в России и Украине. Задан был один и тот же вопрос: Какими бы Вы хотели видеть отношения Украины с Россией? и предложено было 4 варианта ответа: 1 – они должны быть такими же как с другими странами 2 – Украина и Россия должны быть независимыми но дружественными странами 3 – Украина и Россия должны объединиться в одно государство 4 – трудно сказать

Слайд 96

Всего 2008 человек опрошено в Украине и 1600 в России.
Вопрос: есть

ли взаимосвязь между мнением россиян и украинцев по заданному вопросу? (совпадает мнение, не совпадает…)

Слайд 97

В «переводе» на язык статистики задача выглядит так: есть две переменные:

первая переменная – это «страна» (она принимает одно из двух возможных значений 1 – Украина; 2 – Россия)
вторая переменная – это «ответ» (эта переменная принимает одно из четырёх возможных значений (в соответствии с выбранным респондентом вариантом ответа)
Вопрос: есть ли взаимосвязь между этими переменными? (зависит ли вторая переменная от значения первой?).
Обе переменные – номинативного типа
Результаты – на следующем слайде

Слайд 98

Если бы числа ответов респондентов были бы равны ожидаемым частотам –

это означало бы, что мнения украинцев и россиян не различаются

Слайд 99

Построение экспертных систем на основе нейронных сетей

Слайд 100

Задачи анализа данных, решаемые с помощью нейронных сетей
Выявление взаимосвязей и прогнозирование
Классификация
Кластеризация

Классификация и кластеризация – разделение изучаемой совокупности объектов на группы «схожих» объектов, называемых кластерами.
Различие: при классификации есть так называемая «целевая функция» и некоторое число «обучающих» примеров, а для кластеризации не требуется ни целевая функция, ни обучающие примеры.

Слайд 101

Нейронные сети как средство анализа данных
Под нейронными сетями понимаются вычислительные структуры,

которые моделируют процессы хранения и обработки информации в биологических системах.
Архитектура этих вычислительных систем принципиально отличается от архитектуры традиционных ЭВМ. Они представляют собой распределенные системы, способные к параллельным вычислениям и обучению на примерах, путем накапливания информации о «положительных» и «отрицательных» воздействиях

Слайд 102

Элементарным преобразователем данных в нейронных сетях является нейрон, названный так по

аналогии с биологическим прототипом, который, как предполагается, выполняет в нейронной сети примерно те же функции, что и биологический нейрон в коре головного мозга человека.
На следующих слайдах показаны схемы «биологического» и искусственного (формального) нейрона.

Слайд 103

Схема «биологического» нейрона

Слайд 104

Схема формального нейрона

Слайд 105

Если на входе сигналы: x1, x2… xn, то
на выходе из ядра

возникает итоговый сигнал S

Аксон связывает ядро нейрона с его выходом и производит дополнительное в общем случае нелинейное преобразование сигнала:

Слайд 106

Классификация нейронных сетей
В многослойных или слоистых нейронных сетях нейроны объединяются в

слои.
Слой содержит совокупность нейронов, с одинаковыми входными сигналами. Число нейронов в слое может быть любым и не зависеть от числа нейронов в других слоях.
Слои нейронов упорядочены слева направо, и выходной сигнал предыдущего слоя является входным для всех нейронов следующего слоя.
Внешние сигналы подаются на входы нейронов первого слоя, а выходами сети являются выходные сигналы последнего слоя.

Слайд 107

Слои в нейронных сетях

Слайд 108

«Обучение» нейронной сети. Алгоритм обратного распространения ошибок
В классическом алгоритме обучения (алгоритм

обратного распространения ошибки) в качестве целевой функции обучения используется величина ошибки сети для одного из обучающих сигналов (добиваются минимума ошибки):

реальное состояние нейрона

требуемое состояние нейрона

Слайд 109

В классическом алгоритме подстройка весов синапсов происходит после предъявления нейронной сети

каждого примера
Более быстрые алгоритмы используют так называемое «обучение по эпохам», когда коррекция весов происходит после предъявления сети всех примеров из обучающей выборки.
Эпохой при таком подходе называется цикл обучения, при котором предъявляются все объекты обучающей выборки.

Слайд 110

Для того чтобы сеть могла анализировать данные, она должна иметь достаточный

уровень сложности.
Для приближенной оценки числа нейронов в скрытых слоях однородных сетей (имеющих одну и ту же передаточную функцию) можно пользоваться формулой:

L – число нейронов в скрытых слоях, N – объем выборки, n – число входов, m – число выходов нейронной сети.

Слайд 111

Такое приближенное определение числа нейронов еще не гарантирует хорошие прогностические качества

нейронной сети.
Решением проблемы служит разделение всех имеющихся в нашем распоряжении данных на два множества: обучающее – на котором подбираются конкретные значения весов, и кросс - проверочное (валидационное) – на котором оценивается предсказательные способности сети и выбирается оптимальная сложность модели.
На самом деле, должно быть еще и третье – тестовое множество, которое вообще не влияет на обучение и используется лишь для оценки предсказательных возможностей уже обученной сети.

Слайд 112

Пример задачи прогнозирования
Есть данные о средних за текущую неделю характеристиках фондового

рынка:
х1 – доходность по годовым казначейским векселям;
х2 – средняя доходность в расчете на акцию активов из списка Standard & Poor;
х3 – средние дивиденды в расчете на акцию; х4 – значения индекса S&P 500.
Кроме этих данных есть и значения индекса S&P 500 на следующую неделю (переменная y ), которые могут использоваться для обучения нейронной сети.
Требуется: создать нейронную сеть, обучить ее для предсказания значений индекса S&P 500 на следующую неделю. Используя обученную сеть, предсказать значения индекса S&P500 для другого входного набора данных. Пример_5_1.xls

Информационные технологии поддержки принятия решений

Содержание

Знания как основной ресурс менеджмента Управление знаниями (Knowledge Management, KM) –

Если раньше стоимость компаний составляли финансовый капитал, здания, оборудование и другие

Управление знаниями предполагает широкое использование следующих информационных технологий:баз данных и хранилищ

Системы поддержки принятия решенийВ 1980-е годы американские и японские компании начали

Современная компания с разветвленным бизнесом, как правило, имеет: системы поддержки деятельности

Задачи СППР Анализ обстановки (ситуаций). Генерация возможных управленческих решений (сценарий действия).

Основные компоненты системы поддержки принятия решения

Примеры социальных и экономических проблем, требующих анализа данных

1. Опросы населенияМониторинг общественного мнения и анализ социально-экономической ситуации. Анализ данных

2. Общественная безопасностьАнализ преступности. Анализ данных необходим для того, чтобы понять,

3. ОбразованиеПланирование школьных округов. Нахождение оптимального месторасположения новых школ, в зависимости

4. ТрудоустройствоАнализ рынка труда - состав и структура рабочей силы. Анализ

5. Анализ прибылиОценка соответствия размеров уплаченных налогов и размеров собственности.Анализ мошенничеств

6. ЗдравоохранениеАнализ заболеваемости населения (по самым различным факторам).Эпидемиология - выявление причин

7. Стратегическое планированиеАнализ удовлетворенности клиентов и изучение изменений потребностей общественности.Профилирование населения.

8. Контроль качества продукцииОдна из наиболее важных прикладных областей принятия решений,

9. БизнесБез современных методов анализа невозможно осуществить обработку огромного количества данных

9. Бизнес (продолжение)Предсказание рыночных временных рядов. В этой области предсказания наиболее

Современные методы добычи знаний: «Оперативная аналитическая обработка данных» (On-Line Analytical Processing или

Хранилища данныхОсновой для принятия решений является анализ данных, выявление скрытых закономерностей

Зачем строить хранилища данных - ведь они содержат заведомо избыточную информацию,

Технология OLAP – это инструмент оперативного анализа данных, содержащихся в хранилище.Главной

Обнаружение знаний в базах данных (Knowledge discovery in databases (KDD) или

Основные направления углубленного анализа данных (KDD)Можно выделить пять основных типов задач

Интеллектуальные системы компьютерного анализа данных могут основываться на двух подходах:Первый заключается

Экспертные системыЭкспертная система — это программа для компьютера, которая оперирует со

Проблемы ставятся перед системой в виде совокупности фактов, описывающих некоторую ситуацию,

Более перспективен второй подход, который основан на анализе данных с помощью

Поиск ассоциативных правил Ассоциативные правила позволяют находить закономерности между связанными событиями.

Ассоциативным правилом называется правило «если X, то Y»Другими словами, целью анализа

Транзакцией называется некоторая последовательность действий, представляющих единое целое, например покупка человеком

Задача нахождения ассоциативных правил разбивается на две подзадачи: Нахождение всех наборов

Классификация данных и извлечение правил из данных. «Дерево решений» как пример экспертной

У каждого клиента 6 параметров (переменных)Зависимая (целевая) переменная – кредитный рейтинг.

Эти данные – результат исследований, направленных на выяснение характеристик клиентов, позволяющих

Пояснения после решения примераЧто получено: Набор правил, позволяющий на основе знания

Можно сохранить обученное дерево решений и применять сохранённый алгоритм для предсказания

Дискриминантный анализДискриминантный анализ включает в себя методы классификации наблюдений в ситуации,

Метод может применяться во всех случаях, когда на основании уже имеющейся

Графическая интерпретацияПринципы дискриминантного анализа можно пояснить графически для простого случая, когда

Далее вычисляются координаты центров этих множеств (координаты центроидов групп – по

Через центроиды проводится прямая (синяя), а через точку, находящуюся на равном

Таким образом, обучающая выборка позволяет построить новую систему координат (синяя и

У каждого клиента 6 параметров (переменных)Зависимая (целевая) переменная – кредитный рейтинг.

Снова все данные разобьём на обучающую выборку (70%) и тестовую (30%)

Пояснения после решения примераОсновные результаты – в таблице Результаты классификацииАлгоритм дискриминантного

SPSS и PASWPASW (Predictive Analytics Software) это «бывшая» SPSS (Statistical Package

Манипуляция данными, импорт, экспорт файлов с сохранением в различных форматах.Получение описательной

Как представлять данные для анализа? (типы статистических шкал в PASW)Практически все известные

Номинативная (категориальная) шкала является самым «низким» уровнем измерения. В этом случае

Ясно, что переменные, измеренные в этой шкале, нельзя подвергать никаким арифметическим,

Порядковая шкала применяется, если переменная выражает степень проявления какого либо свойства,

Интервальная шкала предполагает, что можно определить не только порядок значений, но

Шкала отношений. Для переменных, измеренных в этой шкале, определены все арифметические

Кластерный анализ

Кластерный анализ ставит перед собой задачу классификации объектов. Синонимами термина

Кластерный анализ рационально использовать на ранних стадиях исследования, когда о данных

Виды кластерного анализа (реализованы в PASW)Метод К- средних (или итерационный метод). Метод

Пусть, например, необходимо выделить К кластеров. На первом шаге вычисляются (или задаются

Анализ результатов примераОказалось, что около 80% «плохих» заемщиков попали в один

Иерархический кластерный анализ. Метод используется при сравнительно небольшом числе объектов (до нескольких

Простой пример для иллюстрации алгоритма иерархического кластерного анализаПусть имеется четыре объекта,

На последнем шаге в кластер будет включен четвертый объект, имеющий наименьшее

Алгоритм иерархического кластерного анализа, реализованный в PASW, очень похож на описанный

Факторный анализ

Факторный анализ это процедура, с помощью которой большое число переменных, характеризующих

Алгоритм факторного анализа несложен, но описывается громоздкими математическими выражениями, поэтому ограничимся

Видно, что есть определённая закономерность в расположении точек (между ценой автомобиля

Отыскание такой новой системы координат и нахождение взаимосвязи «новых» координат f1

Простой пример (не следует рассматривать всерьез в содержательном аспекте)Пятью респондентами, желающими

Знания как основной ресурс менеджмента
Управление знаниями (Knowledge Management, KM) –

Управление знаниями предполагает широкое использование следующих информационных технологий:
баз данных и хранилищ

Системы поддержки принятия решений
В 1980-е годы американские и японские компании начали

Современная компания с разветвленным бизнесом, как правило, имеет:
системы поддержки деятельности

Задачи СППР
Анализ обстановки (ситуаций).
Генерация возможных управленческих решений (сценарий действия).

1. Опросы населения
Мониторинг общественного мнения и анализ социально-экономической ситуации. Анализ данных

2. Общественная безопасность
Анализ преступности. Анализ данных необходим для того, чтобы понять,

3. Образование
Планирование школьных округов. Нахождение оптимального месторасположения новых школ, в зависимости

4. Трудоустройство
Анализ рынка труда - состав и структура рабочей силы. Анализ

5. Анализ прибыли
Оценка соответствия размеров уплаченных налогов и размеров собственности.
Анализ мошенничеств

6. Здравоохранение
Анализ заболеваемости населения (по самым различным факторам).
Эпидемиология - выявление причин

7. Стратегическое планирование
Анализ удовлетворенности клиентов и изучение изменений потребностей общественности.
Профилирование населения.

8. Контроль качества продукции
Одна из наиболее важных прикладных областей принятия решений,

9. Бизнес
Без современных методов анализа невозможно осуществить обработку огромного количества данных

9. Бизнес (продолжение)
Предсказание рыночных временных рядов. В этой области предсказания наиболее

Хранилища данных
Основой для принятия решений является анализ данных, выявление скрытых закономерностей

Технология OLAP – это инструмент оперативного анализа данных, содержащихся в хранилище.
Главной

Основные направления углубленного анализа данных (KDD)
Можно выделить пять основных типов задач

Интеллектуальные системы компьютерного анализа данных могут основываться на двух подходах:
Первый заключается

Экспертные системы
Экспертная система — это программа для компьютера, которая оперирует со

Поиск ассоциативных правил
Ассоциативные правила позволяют находить закономерности между связанными событиями.

Ассоциативным правилом называется правило «если X, то Y»
Другими словами, целью анализа

Задача нахождения ассоциативных правил разбивается на две подзадачи:
Нахождение всех наборов

У каждого клиента 6 параметров (переменных)
Зависимая (целевая) переменная – кредитный рейтинг.

Пояснения после решения примера
Что получено:
Набор правил, позволяющий на основе знания

Дискриминантный анализ
Дискриминантный анализ включает в себя методы классификации наблюдений в ситуации,

Графическая интерпретация
Принципы дискриминантного анализа можно пояснить графически для простого случая, когда

У каждого клиента 6 параметров (переменных)
Зависимая (целевая) переменная – кредитный рейтинг.

Пояснения после решения примера
Основные результаты – в таблице Результаты классификации
Алгоритм дискриминантного

SPSS и PASW
PASW (Predictive Analytics Software) это «бывшая» SPSS (Statistical Package

Манипуляция данными, импорт, экспорт файлов с сохранением в различных форматах.
Получение описательной

Как представлять данные для анализа? (типы статистических шкал в PASW)
Практически все известные

Виды кластерного анализа (реализованы в PASW)
Метод К- средних (или итерационный метод). Метод

Анализ результатов примера
Оказалось, что около 80% «плохих» заемщиков попали в один

Простой пример для иллюстрации алгоритма иерархического кластерного анализа
Пусть имеется четыре объекта,

Простой пример (не следует рассматривать всерьез в содержательном аспекте)
Пятью респондентами, желающими