Научная статья на тему 'КОМПЬЮТЕРНОЕ ЗРЕНИЕ КАК СРЕДСТВО ЗАЩИТЫ ОТ ИНСАЙДЕРСКИХ АТАК'

КОМПЬЮТЕРНОЕ ЗРЕНИЕ КАК СРЕДСТВО ЗАЩИТЫ ОТ ИНСАЙДЕРСКИХ АТАК Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
223
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИСТЕМА КОМПЬЮТЕРНОГО ЗРЕНИЯ / СИСТЕМА ЗАЩИТЫ КОНФИДЕНЦИАЛЬНОЙ ИНФОРМАЦИИ / НЕСАНКЦИОНИРОВАННЫЙ ДОСТУП / ПОСТРОЕНИЕ ДАТАСЕТА / ОБУЧЕНИЕ НЕЙРОННОЙ СЕТИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карачурин А. М.

Объектом исследования является информационная система защиты конфиденциальной информации от инсайдерских атак. Проанализированы данные об утечках информации. Составлен датасет из трех классов. На базе датасета обучена нейронная сеть для распознавания фотоаппаратуры. Реализован функционал реагирования на инциденты

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPUTER VISION AS A MEANS OF PROTECTION AGAINST INSIDER ATTACKS

The object of research is an information system for protecting confidential information from insider attacks. Analyzed data on information leaks. The dataset is composed of three classes. Based on the dataset, a neural network was trained to recognize photographic equipment. Incident response functionality implemented.

Текст научной работы на тему «КОМПЬЮТЕРНОЕ ЗРЕНИЕ КАК СРЕДСТВО ЗАЩИТЫ ОТ ИНСАЙДЕРСКИХ АТАК»

УДК 004.8

Карачурин А.М.

магистр,

Уфимский университет науки и технологий (г. Уфа, Россия)

КОМПЬЮТЕРНОЕ ЗРЕНИЕ КАК СРЕДСТВО ЗАЩИТЫ ОТ ИНСАЙДЕРСКИХ АТАК

Аннотация: объектом исследования является информационная система защиты конфиденциальной информации от инсайдерских атак. Проанализированы данные об утечках информации. Составлен датасет из трех классов. На базе датасета обучена нейронная сеть для распознавания фотоаппаратуры. Реализован функционал реагирования на инциденты.

Ключевые слова: система компьютерного зрения, информационная система защиты конфиденциальной информации, несанкционированный доступ, построение датасета, обучение нейронной сети, YOLOv8.

В эпоху неослабевающего технологического прогресса, компьютерное зрение вступает на сцену как значимый актив в области кибербезопасности. С учетом непрекращающегося роста объемов цифровых данных, сгенерированных как людьми, так и машинами, инсайдерские атаки становятся все более существенной угрозой для индивидов, компаний и государственных учреждений. Поиск эффективных средств противодействия инсайдерским угрозам не прекращается, и в данной работе представляется новый подход к их преодолению - использование технологий компьютерного зрения.

Компьютерное зрение — это научная дисциплина, которая изучает возможности создания искусственных систем, способных "видеть" и анализировать визуальную информацию так же, как это делают люди. Благодаря продвинутым алгоритмам и машинному обучению, эта область достигла значительных успехов и начинает находить применение во многих секторах. От

исследований в области автономных транспортных средств до медицинских диагностических инструментов - компьютерное зрение открывает новые возможности. Однако, его потенциал в области кибербезопасности еще далеко не исчерпан.

В данной статье исследуется применение технологий компьютерного зрения в контексте защиты от инсайдерских атак. Цель этой работы - исследовать и оценить, как компьютерное зрение может помочь распознавать и предотвращать подозрительную или аномальную активность, связанную с потенциальными инсайдерскими угрозами.

Если обратится к исследованию утечек информации от InfoWatch, выясняется следующее.

В первой половине 2022 года Россия столкнулась с тревожной ситуацией в области защиты данных, поскольку было установлено, что почти 188 миллионов записей попали в нежелательные руки. Эти цифры свидетельствуют о серьезном нарушении конфиденциальности и безопасности информации. Особенно тревожным является факт, что внутренние нарушения составляют 75 процентов от общего числа случаев.

Утечки данных представляют значительную угрозу для частной жизни и финансовой безопасности граждан, а также для бизнесов и организаций, которые могут быть подвержены мошенничеству и хищению личной информации. Нарушения внутреннего характера только усиливают эту тревогу, поскольку они указывают на возможные проблемы внутри организаций и их систем защиты.

Количество утекших записей, млн

Доля нарушений внутреннего характера

Рисунок 1. Исследование утечек информации в 1 половине 2022 года.

Для защиты информации от утечек предлагается внедрить систему защиты информации от инсайдерских атак. При этом предполагается, что внедрение будет происходить уже на существующую систему защиты информации, включающую в себя такие стандартные меры, как СЗИ от НСД, СКУД и DLP-систему.

Перед построением системы необходимо осуществить выбор архитектуры компьютерного зрения. Для выбора архитектуры было решено обратится к системному подходу принятия решений, а именно к методу анализа иерархий (МАИ).

Основные критерии:

- производительность;

- сложность обучения;

- кадровая частота обученных моделей;

- точность распознавания;

- интегративные возможности (работа системы не только на специально предназначенных камерах со встроенным ПО, но и на IP/веб камерах, камерах под управлением Raspberry Pi...);

- возможность работы с видеопотоком;

- возможность распознавания мелких объектов.

Основные альтернативы:

- R-CNN;

- Fast R-CNN;

- Faster R-CNN;

- YOLO. Бальная шкала:

- равно, безразлично = 1;

- немного лучше (хуже) = 3 (1/3);

- лучше (хуже) = 5 (1/5);

- значительно лучше (хуже) = 7 (1/7);

- принципиально лучше (хуже) = 9 (1/9).

Составим матрицу попарных сравнений критериев (Таблица 1):

Таблица 1. Матрица попарных сравнений критериев

Производи Слож FPS Точнос Интегра Возмо Возмо Yi Yffl

тельность ность мод ть тивные жност жность

обуче елей распозн возмож ь распоз

ния авания ности работ навани

ы с я

видео мелких

поток объект

ом ов

Производи 1 7 5 1 3 1 3 2,27 0,2371

тельность 4582 31695

Сложность 1/7 1 1/2 1/8 1/5 1/8 1/5 0,23 0,0249

обучения 9076 24365

FPS 1/5 2 1 1/5 1/3 1/6 1/4 0,37 0,0394

моделей 8412 50585

Точность 1 8 5 1 4 1 3 2,41 0,2518

распознава 5653 38753

ния

Интеграти вные возможнос ти 1/3 5 3 1/4 1 1/4 1 0,84 6907 0,0882 925

Возможнос ть работы с видеопото ком 1 8 6 1 4 1 3 2,47 9397 0,2584 84298

Возможнос ть распознава ния мелких объектов 1/3 5 4 1/3 1 1/3 1 0,95 8034 0,0998 77805

Сумма 4,00952381 36 24,5 3,90833 3333 13,5333 3333 3,875 11,45 9,59 206 1

Согласно нормализованному вектору приоритетов, больший приоритет отдается таким критериям, как «Производительность», «Точность распознавания» и «Возможность работы с видеопотоком»

Составим матрицы попарных сравнений для альтернатив по критериям (Таблица 2-8):

Таблица 2. Матрица попарных сравнений альтернатив по критерию «Производительность»

Производительность R-CNN Fast R-CNN Faster R-CNN YOLO Yi YiH

R-CNN 1 1/3 1/5 1/9 0,29337 1 0,04747

Fast R-CNN 3 1 1/4 1/7 0,57212 5 0,09257 5

Faster R-CNN 5 4 1 1/3 1,60685 7 0,26000 3

YOLO 9 7 3 1 3,70779 3 0,59995 2

Сумма 18 12,3333333 3 4,45 1,58730158 7 6,18014 5 1

Таблица 3. Матрица попарных сравнений альтернатив по критерию «Сложность

обучения»

Сложность обучения R-CNN Fast R-CNN Faster R-CNN YOLO Yi Yrn

R-CNN 1 1/3 1/5 1/9 0,29337 1 0,04747

Fast R-CNN 3 1 1/4 1/7 0,57212 5 0,09257 5

Faster R-CNN 5 4 1 1/3 1,60685 7 0,26000 3

YOLO 9 7 3 1 3,70779 3 0,59995 2

Сумма 18 12,3333333 3 4,45 1,58730158 7 6,18014 5 1

Таблица 4. Матрица попарных сравнений альтернатив по критерию «FPS моделей»

FPS моделей R-CNN Fast R-CNN Faster R-CNN YOLO Yi Yrn

R-CNN 1 1/8 1/8 1/9 0,20412 4 0,03543 9

Fast R-CNN 8 1 1 1/3 1,27788 6 0,22185 9

Faster R-CNN 8 1 1 1/3 1,27788 6 0,22185 9

YOLO 9 3 3 1 3 0,52084 3

Сумма 26 5,125 5,125 1,77777777 8 5,75989 7 1

Таблица 5. Матрица попарных сравнений альтернатив по критерию «Точность

распознавания»

Точность распознавания R-CNN Fast R-CNN Faster R-CNN YOLO Yi Yrn

R-CNN 1 1/5 1/5 1/6 0,28574 4 0,05423 1

Fast R-CNN 5 1 1 1/3 1,13621 9 0,21564 3

Faster R-CNN 5 1 1 1/3 1,13621 9 0,21564 3

YOLO 6 3 3 1 2,71080 6 0,51448 3

Сумма 17 5,2 5,2 1,83333333 3 5,26898 9 1

Таблица 6. Матрица попарных сравнений альтернатив по критерию «Интегративные возможности»

Интегративные возможности R-CNN Fast R-CNN Faster R-CNN YOLO Yi Yrn

R-CNN 1 1/3 1/3 1/7 0,35494 8 0,06489 8

Fast R-CNN 3 1 1 1/4 0,93060 5 0,17015

Faster R-CNN 3 1 1 1/4 0,93060 5 0,17015

YOLO 7 4 4 1 3,25315 3 0,59480 1

Сумма 14 6,33333333 3 6,33333333 3 1,64285714 3 5,46931 1 1

Таблица 7. Матрица попарных сравнений альтернатив по критерию «Возможность работы с видеопотоком»

Возможность работы с видеопотоком R-CNN Fast R-CNN Faster R-CNN YOLO Yi Yrn

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

R-CNN 1 1/9 1/9 1/9 0,19245 0,035714

Fast R-CNN 9 1 1 1 1,732051 0,321429

Faster R-CNN 9 1 1 1 1,732051 0,321429

YOLO 9 1 1 1 1,732051 0,321429

Сумма 28 3,111111111 3,111111111 3,111111111 5,388603 1

Таблица 8. Матрица попарных сравнений альтернатив по критерию «Возможность распознавания мелких объектов»

Возможность распознавани я мелких объектов R-CNN Fast R-CNN Faster R-CNN YOLO Yi Yrn

R-CNN 1 1/3 1/3 3 0,75983 6 0,15089 2

Fast R-CNN 3 1 1 5 1,96799 0,39081 3

Faster R-CNN 3 1 1 5 1,96799 0,39081 3

YOLO 1/3 1/5 1/5 1 0,33980 9 0,06748 1

Сумма 7,33333333 3 2,53333333 3 2,53333333 3 14 5,03562 4 1

Приступаем к вычислению глобальных приоритетов и выбору одной из альтернатив (Таблица 9):

Таблица 9. Вычисление глобальных приоритетов

Произвол Сложност FPS Точност Интеграт Возмож Возможн Глоба

ительност ь моделе ь ивные ность ость льный

ь обучения й распозна возможн работы распозна приор

вания ости с видеопо током вания мелких объектов итет

0,237 0,025 0,039 0,252 0,088 0,258 0,1

R-CN 0,047 0,047 0,035 0,054 0,064 0,036 0,15 0,0572

N 07

Fast 0,093 0,093 0,222 0,22 0,17 0,32 0,39 0,2249

R-CN 84

N

Faster 0,26 0,26 0,222 0,22 0,17 0,32 0,39 0,2687

R-CN 38

N

YOL 0,6 0,6 0,52 0,51 0,594 0,32 0,067 0,4475

O 32

Как показали подсчеты, наиболее удачной для поставленных целей архитектурой является YOLO.

Приступим к созданию датасета. При составлении датасета было сделано три типа выборок:

Обучающая выборка (Training set): это основная выборка, используемая для тренировки нейронной сети.

Валидационная выборка (Validation set): это выборка, которая используется для настройки параметров модели и выбора лучших моделей в процессе обучения. Она используется для оценки производительности модели на новых данных и для выбора гиперпараметров, таких как скорость обучения или количество скрытых слоев.

Тестовая выборка (Test set): это выборка, которая используется для окончательной оценки производительности модели после ее обучения. Тестовая выборка также отделяется от обучающей выборки и содержит данные, которые модель не видела ни во время обучения, ни во время валидации.

В качестве инструмента для создания выборок конкретно к архитектуре YOLO была выбрана онлайн-платформа Roboflow.

Ключевым инструментом при создании датасета для архитектуры YOLO являются ограничивающие рамки. Ограничивающие рамки используются для точного локализации объектов на изображении и дальнейшего классифицирования. Они помогают алгоритму определить, где находятся объекты и какого они размера, что позволяет системе эффективно обрабатывать и распознавать объекты в реальном времени.

Рисунок 2. Расстановка ограничивающих рамок для классов «смартфон», «ноутбук» и «камера».

После расстановки рамок и генерации датасета, он будет иметь следующий вид:

Имя Дата изменения Тип Размер

Ш test 10.04.2023 12:24 Папка с файлами

Ш train 10.04.2023 12:26 Папка с файлами

Ш valid 10.04.2023 12:28 Папка с файлами

D data.yaml 10.04.2023 12:51 Исходный файл У... 1 КБ

Рисунок 3. Общий вид папки с датасетом.

Файл data.yaml - это конфигурационный файл, который используется для описания датасета в формате YAML (YAML Ain't Markup Language). Он

содержит информацию о структуре и свойствах датасета, таких как пути к изображениям, аннотации, классы объектов и другие метаданные. Файл data.yaml является важным компонентом датасета и используется в различных инструментах и библиотеках компьютерного зрения.

После генерации датасета, можно приступать к обучению нейронной

сети.

Для обучения использовалась не только вычислительная мощность центрального процессора, но и видеокарты (Nvidia CUDA).

Несмотря на то, что полученная таким образом нейросеть распознает необходимые объекты, этого недостаточно. В случае внедрения такой системы на реальное предприятие специалисту по информационной безопасности придется постоянно мониторить камеры и происходящее на экране потенциального внутреннего злоумышленника. Система лишь отображает использование фотоаппаратуры, но никак не реагирует на него. Для того, чтобы это исправить была реализована возможность вести видеозапись экрана

Рисунок 4 - Код для обучения нейронной сети.

(Листинг 1). Теперь, если сотрудник достает фотоаппаратуру, это фиксируется нейросетью, и ведется видеозапись происходящего на его экране. В ходе фиксаций получается видеофайл, который можно просмотреть в ускоренном режиме и понять, пытался ли сотрудник произвести инсайдерскую атаку или нет. Листинг А.1 Система распознавания фотоаппаратуры. from ultralytics import YOLO import cv2 import pyautogui import numpy as np

# Создаем экземпляр модели YOLO

model = YOLO("rans/detect/yolov8test2/weights/best.pt")

# Устанавливаем параметры записи видео output_filename = 'output_video.avi'

fps = 30

screen_size = (1920, 1080) # Разрешение экрана

# Искомый класс

target_classes = ['Mobile-phone', 'Laptop', 'Camera'] camera = cv2.VideoCapture(0)

# Создаем VideoWriter для записи видео fourcc = cv2.VideoWriter_fourcc(*'XVID') video_writer = None

is_target = False while True:

is_target = False

# Чтение кадра с камеры

ret, streamFrame = camera.read()

# Захватываем текущий кадр с экрана screenFrame = pyautogui.screenshot() screenFrame = np.array(screenFrame)

screenFrame = cv2.cvtColor(screenFrame, cv2.COLOR_RGB2BGR) # Выполняем распознавание объектов

results = model.predict(streamFrame, show=True, stream=True) res = list(results)[0] # Получаем результат из генератора names = res.names classes = []

for key in res.boxes.cls:

classes.append(names[int(key)])

# Проверяем, содержит ли результат искомый класс for target_class in target_classes:

if target_class in classes: if video_writer is None:

# Создаем VideoWriter при обнаружении искомого класса video_writer = cv2.VideoWriter(output_filename, fourcc, fps,

screen_size)

print(,Начата видеозапись') is_target = True

# Записываем кадр в видео if is_target:

video_writer.write(screenFrame) if cv2.waitKey(1) == ord('q'): video_writer.release() break

Таким образом была разработана и представлена система защиты информации от инсайдерских атак с использованием компьютерного зрения. На основе полученных знаний и анализа существующих архитектур, была разработана система защиты, основанная на компьютерном зрении. Система включает в себя следующие компоненты:

- мониторинг и обнаружение: с использованием камер видеонаблюдения и алгоритмов компьютерного зрения, система непрерывно отслеживает действия сотрудников и идентифицирует потенциально подозрительное поведение, связанное с доступом к конфиденциальной информации;

- автоматическое реагирование: при обнаружении подозрительной активности система принимает меры для предотвращения утечки информации или нанесения ущерба. Этой мерой является создание файла с видеозаписью экрана потенциального внутреннего злоумышленника.

СПИСОК ЛИТЕРАТУРЫ:

1 Отчет об утечках данных за 1 полугодие 2022 года от InfoWatch (URL: https://www.infowatch.ru/sites/default/files/analytics/files/otchyot-ob-utechkakh-dannykh-za-1-polugodie-2022-goda 1.pdf), дата обращения: 04.03.2023.

2 Object Detection with 10 lines of code. Moses Olafenwa, 2018 (URL: https://towardsdatascience.com/object-detection-with-10-lines-of-code-d6cb4d86f606), дата обращения: 06.04.2023.

3 Официальный сайт Ultralytics YOLO v8 (URL: https://docs.ultralytics.com/), дата обращения: 06.04.2023.

4 R-CNN, Fast R-CNN, Faster R-CNN, YOLO - алгоритмы обнаружения объектов (URL: https://machinelearningmastery.ru/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e/), дата обращения: 17.02.2023.

5 Онлайн-платформа для создания датасета (URL: https://app.roboflow.com/), дата обращения: 07.04.2023.

6 Обучение YOLO v8 на пользовательском наборе данных (URL: https://habr.com/ru/articles/714232/), дата обращения: 06.04.2023.

7 Dr. Adrian Rosebrock. Deep Learning for Computer Vision with Python: учебник по глубокому машинному обучению на Python [Текст] / Adrian Rosebrock - PylmageSearch, 2017. - 332 с.

Karachurin A.M.

Ufa University of Science and Technology (Ufa, Russia)

COMPUTER VISION AS A MEANS OF PROTECTION AGAINST INSIDER ATTACKS

Abstract: the object of research is an information system for protecting confidential information from insider attacks. Analyzed data on information leaks. The dataset is composed of three classes. Based on the dataset, a neural network was trained to recognize photographic equipment. Incident response functionality implemented.

Keywords: computer vision system, confidential information protection information system, unauthorized access, dataset building, neural network training, YOLOv8.

i Надоели баннеры? Вы всегда можете отключить рекламу.