Научная статья на тему 'Выделение групп интернет-пользователей на основе журнала сервера доступа'

Выделение групп интернет-пользователей на основе журнала сервера доступа Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
197
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КИБЕРБЕЗОПАСНОСТЬ / ИНТЕРНЕТ-РЕСУРСЫ / КЛАСТЕРНЫЙ АНАЛИЗ / БОЛЬШИЕ ДАННЫЕ / CYBERSECURITY / INTERNET RESOURCES / CLUSTER ANALYSIS / BIG-DATA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Исаев С.В.

Автором предложен подход выделения кластеров пользователей для контроля использования интернет-ресурсов. Его применение может повысить кибербезопасность организаций ракетно-космической отрасли за счет обнаружения аномалий использования ресурсов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFYING GROUPS OF INTERNET USERS BASED ON THE proxy SERVER LOG

The author proposes an approach of clustering users to control the use of Internet resources. Its use can improve the cybersecurity at organizations of rocket-space industry through the detection of anomalies in the use of resources.

Текст научной работы на тему «Выделение групп интернет-пользователей на основе журнала сервера доступа»

Решетневские чтения. 2017

УДК 004.738

ВЫДЕЛЕНИЕ ГРУПП ИНТЕРНЕТ-ПОЛЬЗОВАТЕЛЕЙ НА ОСНОВЕ ЖУРНАЛА СЕРВЕРА ДОСТУПА

С. В. Исаев

Институт вычислительного моделирования СО РАН Российская Федерация, 660036, г. Красноярск, Академгородок, 50/44 Е-mail: si@icm.krasn.ru

Автором предложен подход выделения кластеров пользователей для контроля использования интернет-ресурсов. Его применение может повысить кибербезопасность организаций ракетно-космической отрасли за счет обнаружения аномалий использования ресурсов.

Ключевые слова: кибербезопасность, интернет-ресурсы, кластерный анализ, большие данные.

IDENTIFYING GROUPS OF INTERNET USERS BASED ON THE PROXY SERVER LOG

S. V. Isaev

Institute of Computational Modeling SB RAS 50/44, Akademgorodok, Krasnoyarsk, 660036, Russian Federation Е-mail: si@icm.krasn.ru

The author proposes an approach of clustering users to control the use of Internet resources. Its use can improve the cybersecurity at organizations of rocket-space industry through the detection of anomalies in the use of resources.

Keywords: cybersecurity, internet resources, cluster analysis, big-data.

Введение. В настоящее время, в связи с массовым использованием интернет-ресурсов как в профессиональной, так и в бытовой сфере, накапливается большое количество остаточных данных, как на компьютерах пользователей, так и на оборудовании интернет-провайдеров. Это могут быть истории поисковых запросов, посещенных сайтов, время серфинга, тип устройства, местоположение, браузер, адрес и многое другое. Методы обработки и анализа подобного рода информации начинают активно использоваться в разных целях под общим названием Big-data. На основе анализа таких данных иногда удается сделать неожиданные выводы, позволяющие повысить эффективность работы.

В нашем случае источником данных послужили журналы прокси-сервера - посредника по доступу пользователей в Интернет. Целью работы было исследование возможности кластеризации пользователей Интернет-ресурсов за разные промежутки времени и анализ результатов, для выявления аномалий потребления ресурсов. Выявление аномалий может свидетельствовать об активности компьютерных вирусов, утечках информации и прочих угрозах кибер-безопасности организаций, что особенно значимо в таких наукоемких отраслях, как ракетно-космическая промышленность и научные исследования [1].

В Институте вычислительного моделирования СО РАН длительное время ведется работу по сбору и анализу информации о попытках атак на различные сервисы фИц КНЦ СО РАН [2-3]. Для этого используются как системы обнаружения вторжений (СОВ), так и собственные аналитические разработки [4]. Все

эти системы ориентированы на обнаружение и блокирование атак из внешнего периметра защищаемой сети. В то же время существует достаточно существенная угроза безопасности из внутреннего периметра сети - вирусы, распространяющиеся через мобильные носители информации и электронные гаджеты, получающие доступ ко внутренней сети. Как правило, зараженный компьютер, производит некоторые действия в сети, в том числе пытается получить доступ во внешний мир. Если антивирусное программное обеспечение отсутствует или неспособно идентифицировать вирус, то для большинства СОВ доступ с компьютера по некоему адресу в Интернет не вызывает подозрений.

Одним из источников данных об использовании Интернет-ресурсов пользователями организации может служить журнал прокси-сервера.

Прокси-сервер - это сервер, выступающий промежуточным слоем или посредником между клиентами и ресурсами, находящимися в сети Интернет. На основе данных об Интернет активности можно решать различные задачи: оптимизировать систему, уменьшая нагрузку путем распределения ресурсов, улучшить ее защиту, отслеживать действия, которые могут навредить системе, или пользователей с подозрительной активностью.

В качестве исходных данных были взяты журналы прокси-сервера за каждый день его функционирования в течение месяца. Общий объем данных составляет около 8 Гигабайт, а количество обрабатываемых запросов около 100 миллионов, что позволяет говорить об области Big-data.

Методы и средства защиты информации

Результат применения LDA для визуализации разбиения на 3 кластера

В каждой строке журнала содержится информация о запросе пользователя прокси-сервера: тип, время, URL-адрес, тип контента, имя пользователя, код результата запроса.

Для дальнейшего анализа использованы лишь два основных параметра: URL, Имя пользователя. Кроме того, были оставлены лишь строки с кодом успешно выполненного запроса.

Полученные данные были нормализованы с помощью введения справочников доменов и пользователей, и агрегирующей таблицы содержащий ключи справочников и счетчик посещений <KeyUserName, KeyDomain, Count>. Данные, хранящиеся в полученной базе можно представить в виде многомерного пространства, в котором каждая координата - это число посещений конкретного домена конкретным пользователем.

Размерность пространства равна количеству анализируемых доменов и в нашем случае составила около 4000. Учитывал что количество пользователей существенно меньше этой величины (около 1000), было принято решение снижение размерности пространства с помощью перехода от подсчета посещений по доменам подсчету по тематикам сайтов. Тематики сайтов были определены с помощью сервиса Яндекс.Каталог. Полученные таким образом данные имели размерность 160, что более пригодно для анализа.

Перед началом кластеризации было выполнено нормирование данных [5]. Для разбиения на группы применялся метод иерархической кластеризации. При расчете расстояний использовался алгоритм минимизации дисперсии Уорда. Для определения оптимального количества разбиений был применен метод локтя, когда строится функция, отражающая изменение суммы внутрикластерных вариаций данных от количества кластеров. Было рассчитано, что при значениях количества кластеров равных 2 и 3 наблюдаются наибольшие изменения данной функции, поэтому при дальнейшем анализе можно использовать только эти значения числа кластеров.

Для визуализации полученных результатов были опробованы дендрограммы, метод главных компонент (PCA) и линейный дискриминантный анализ (LDA). Наиболее наглядный результат для трех и большего количества кластеров показал метод LDA (см. рисунок). При анализе различных временных интервалов сохраняются оптимальное разбиение на три кластера, что свидетельствует о существовании устойчивых групп пользователей со похожими сценариями использования Интернет-ресурсов. Обнаружение аномалий возможно, как визуально, так и с помощью выделения одиночных наиболее удаленных элементов.

Кроме того, может быть реализован динамический контроль распределения пользователей по кластерам. Признаком опасного изменения является переход пользователя в отдельный кластер. Перспективным представляется дальнейшие исследования в данном направлении.

Библиографические ссылки

1. Исаев С. В. Анализ динамики интернет-угроз сети Красноярского научного центра СО РАН // Вестник СибГАУ. 2012. Вып. 3 (43). С. 20-25.

2. Исаев С. В. Кибербезопасность научного учреждения-активы и // Информатизация и связь. 2015. № 1. С. 53-57.

3. Исаев С. В. Идентификация и визуализация источников интернет-угроз // Решетневские чтения : материалы ХХ Междунар. науч. конф. (09-12 ноября 2016, г. Красноярск) : в 2 ч. / под общ. ред. Ю. Ю. Логинова ; Сиб. гос. аэрокосмич. ун-т. Красноярск, 2016. Ч. 2. С. 260-262.

4. Исаев С. В. Анализ киберугроз и их источников для корпоративной сети Красноярского научного центра СО РАН // Информационные и математические технологии в науке и управлении. Иркутск : ИСЭМ СО РАН. 2016. № 4-1. С. 76-85.

5. Data Clustering: A Review / A. K. Jain, M. N. Murty, P. J. Flynn. ACM Computing Surveys, 1999. 323 c.

PewemHeecKye umeHUH. 2017

References

1. Isaev S. V. An analysis of Internet threats network dynamics of the Krasnoyarsk Scientific Center of the Russian Academy of Sciences // Vestnik SibSAU. 2012. № 3 (43). P. 20-25. (In Russ.)

2. Isaev S. V. Cybersecurity of a scientific institution -assets and threats // Informatization and communication. 2015. Vol 1. P. 53-57. (In Russ.)

3. Isaev S. V. Identification and visualization of the sources of internet threats // Reshetnevskie chteniya // Materialy XX Mezhdunar. nauch. konf. "Reshetnevskie chteniya" [Materials XX Intern. Scientific. Conf

"Reshetnev reading"]. Krasnoyarsk, 2016. Ch. 2. P. 260262. (In Russ.)

4. Isaev S. V. [Analysis of cyber threats and their sourceson the corporate network Krasnoyarsk Scientific Center of the SB RAS] // Informatsionnyie i matema-ticheskie tehnologii v nauke i upravlenii. Irkutsk : ISEM SO RAN. 2016. № 4-1. P. 76-85. (In Russ.)

5. Data Clustering: A Review / A. K. Jain, M. N. Murty, P. J. Flynn. ACM Computing Surveys, 1999. 323 p.

© HcaeB C. B., 2017

i Надоели баннеры? Вы всегда можете отключить рекламу.