Информационная безопасность

Август 21, 2022

Главная
Информатика
Информационная безопасность

Содержание

2. АКТУАЛЬНОСТЬ Информационная безопасность - одно из самых динамично развивающихся направлений ИТ. Это обусловлено большой ролью человеческого
3. ЦЕЛЬ ПРОЕКТА Провести исследование на основе существующих вариантов програмного решения, которые будут иметь достаточный диапазон и
4. Классификаторы машинного обучения Метод k-ближайших соседей (K-Nearest Neighbors); Метод опорных векторов (Support Vector Machines); Классификатор дерева
5. С чем мы работаем Для наших операций используем язык программирования Python со специализированными библиотеками. Генерируем датасет
6. Выбор алгоритма Анализируя f1-score, выявляем, что OneClassSVM, Isolation forest и Random Forest сами по себе не
8. Устранение недостатков модели Обучая модель, мы сталкиваемся с неразличимостью восстановленных после сжатия данных для аномального и
9. Наблюдающийся пик в score’-ах натолкнул нас на использование гистограмм (см.рис). Чётко выделяется дополнительная “ступенька” в аномальном
10. Итоги Детекция аномалий требует тщательного подбора инструментов машинного обучения для каждой конкретной задачи, а иногда и
12. Скачать презентацию

Слайд 2

АКТУАЛЬНОСТЬ
Информационная безопасность - одно из самых динамично развивающихся направлений ИТ. Это

обусловлено большой ролью человеческого фактора - он вносит большое разнообразие и спонтанность в реализацию атак. В связи с этим мы имеем дело с большим количеством хаотичных данных, которое не позволяет выделять и различать разные угрозы - а следовательно, и бороться с ними. И тут на помощь приходит машинное обучение.

Слайд 3

ЦЕЛЬ ПРОЕКТА
Провести исследование на основе существующих вариантов програмного решения, которые будут

иметь достаточный диапазон и степень достоверности данных об опасности тех или иных аномалий трафика.

Слайд 4

Классификаторы машинного обучения
Метод k-ближайших соседей (K-Nearest Neighbors);
Метод опорных векторов (Support

Vector Machines);
Классификатор дерева решений (Decision Tree Classifier) / Случайный лес (Random Forests);
Изоляционный лес (Isolation forest)
Наивный байесовский метод (Naive Bayes);
Линейный дискриминантный анализ (Linear Discriminant Analysis);
Логистическая регрессия (Logistic Regression);

Слайд 5

С чем мы работаем
Для наших операций используем язык программирования Python со

специализированными библиотеками.
Генерируем датасет с фиксированными параметрами
Вводим классификацию аномалий: нормальное распределение имеет один пик, аномальное два.

Слайд 6

Выбор алгоритма
Анализируя f1-score, выявляем, что OneClassSVM, Isolation forest и Random Forest

сами по себе не справляются с поставленной задачей
Таким образом, мы решили использовать автокодировщик. Принцип его действия представлен на рисунке ниже.

Слайд 7

Слайд 8

Устранение недостатков модели
Обучая модель, мы сталкиваемся с неразличимостью восстановленных после сжатия

данных для аномального и нормального распределений. Заметив, что аномальное распределение до сжатия характеризуется пиком, мы вводим функцию разницы, которая значительно улучшает детекцию.
В итоге в работе была использована связка автоенкодер + функция разницы + случайный лес. Отметим важность порядка – при перестановке последних двух шагов случайный лес “загрязнит” данные, и работа модели будет некорректной.

Слайд 9

Наблюдающийся пик в score’-ах натолкнул нас на использование гистограмм (см.рис). Чётко

выделяется дополнительная “ступенька” в аномальном распределении. Заключаем, что наша модель пригодна для детекции аномалий.

Представление результатов исследования

Слайд 10

Итоги
Детекция аномалий требует тщательного подбора инструментов машинного обучения для каждой конкретной

задачи, а иногда и комбинированного подхода, как в нашем случае. Также немаловажным оказалась вторичная обработка датасета с помощью вспомогательной функции, позволившей многократно повысить точность индикации отличия рассматриваемых выборок.
Также не стоит забывать о формате визуального представления результатов (в нашем случае хорошо подошла гистограмма). Именно оно в конечном счёте показывает успешность модели.
Таким образом, хорошее решение должно содержать проработку всех этапов работы с данными, а также опираться на их качественную интеграцию друг с другом.

Информационная безопасность

Содержание

АКТУАЛЬНОСТЬИнформационная безопасность - одно из самых динамично развивающихся направлений ИТ. Это

ЦЕЛЬ ПРОЕКТАПровести исследование на основе существующих вариантов програмного решения, которые будут

Классификаторы машинного обученияМетод k-ближайших соседей (K-Nearest Neighbors); Метод опорных векторов (Support

С чем мы работаемДля наших операций используем язык программирования Python со

Выбор алгоритмаАнализируя f1-score, выявляем, что OneClassSVM, Isolation forest и Random Forest

Устранение недостатков моделиОбучая модель, мы сталкиваемся с неразличимостью восстановленных после сжатия