Информационная безопасность

Содержание

Слайд 2

АКТУАЛЬНОСТЬ Информационная безопасность - одно из самых динамично развивающихся направлений ИТ.

АКТУАЛЬНОСТЬ

Информационная безопасность - одно из самых динамично развивающихся направлений ИТ. Это

обусловлено большой ролью человеческого фактора - он вносит большое разнообразие и спонтанность в реализацию атак. В связи с этим мы имеем дело с большим количеством хаотичных данных, которое не позволяет выделять и различать разные угрозы - а следовательно, и бороться с ними. И тут на помощь приходит машинное обучение.
Слайд 3

ЦЕЛЬ ПРОЕКТА Провести исследование на основе существующих вариантов програмного решения, которые

ЦЕЛЬ ПРОЕКТА

Провести исследование на основе существующих вариантов програмного решения, которые будут

иметь достаточный диапазон и степень достоверности данных об опасности тех или иных аномалий трафика.
Слайд 4

Классификаторы машинного обучения Метод k-ближайших соседей (K-Nearest Neighbors); Метод опорных векторов

Классификаторы машинного обучения

Метод k-ближайших соседей (K-Nearest Neighbors);
Метод опорных векторов (Support

Vector Machines);
Классификатор дерева решений (Decision Tree Classifier) / Случайный лес (Random Forests);
Изоляционный лес (Isolation forest)
Наивный байесовский метод (Naive Bayes);
Линейный дискриминантный анализ (Linear Discriminant Analysis);
Логистическая регрессия (Logistic Regression);
Слайд 5

С чем мы работаем Для наших операций используем язык программирования Python

С чем мы работаем

Для наших операций используем язык программирования Python со

специализированными библиотеками.
Генерируем датасет с фиксированными параметрами
Вводим классификацию аномалий: нормальное распределение имеет один пик, аномальное два.
Слайд 6

Выбор алгоритма Анализируя f1-score, выявляем, что OneClassSVM, Isolation forest и Random

Выбор алгоритма

Анализируя f1-score, выявляем, что OneClassSVM, Isolation forest и Random Forest

сами по себе не справляются с поставленной задачей
Таким образом, мы решили использовать автокодировщик. Принцип его действия представлен на рисунке ниже.
Слайд 7

Слайд 8

Устранение недостатков модели Обучая модель, мы сталкиваемся с неразличимостью восстановленных после

Устранение недостатков модели

Обучая модель, мы сталкиваемся с неразличимостью восстановленных после сжатия

данных для аномального и нормального распределений. Заметив, что аномальное распределение до сжатия характеризуется пиком, мы вводим функцию разницы, которая значительно улучшает детекцию.
В итоге в работе была использована связка автоенкодер + функция разницы + случайный лес. Отметим важность порядка – при перестановке последних двух шагов случайный лес “загрязнит” данные, и работа модели будет некорректной.
Слайд 9

Наблюдающийся пик в score’-ах натолкнул нас на использование гистограмм (см.рис). Чётко

Наблюдающийся пик в score’-ах натолкнул нас на использование гистограмм (см.рис). Чётко

выделяется дополнительная “ступенька” в аномальном распределении. Заключаем, что наша модель пригодна для детекции аномалий.

Представление результатов исследования

Слайд 10

Итоги Детекция аномалий требует тщательного подбора инструментов машинного обучения для каждой

Итоги

Детекция аномалий требует тщательного подбора инструментов машинного обучения для каждой конкретной

задачи, а иногда и комбинированного подхода, как в нашем случае. Также немаловажным оказалась вторичная обработка датасета с помощью вспомогательной функции, позволившей многократно повысить точность индикации отличия рассматриваемых выборок.
Также не стоит забывать о формате визуального представления результатов (в нашем случае хорошо подошла гистограмма). Именно оно в конечном счёте показывает успешность модели.
Таким образом, хорошее решение должно содержать проработку всех этапов работы с данными, а также опираться на их качественную интеграцию друг с другом.