УДК 004.738
ВЫЯВЛЕНИЕ ИСТОЧНИКОВ КИБЕРУГРОЗ НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА
ЖУРНАЛОВ ИНТЕРНЕТ-СЕРВИСОВ
С. В. Исаев
Институт вычислительного моделирования СО РАН Российская Федерация, 660036, г. Красноярск, Академгородок, 50/44 Е-mail: si@icm.krasn.ru
Предложен подход для кластеризации потребителей интернет-ресурсов c целью обнаружения и идентификации источников киберугроз. Его применение может повысить кибербезопасность организаций за счет анализа и своевременного реагирования на обнаруженные аномалии использования ресурсов.
Ключевые слова: кибербезопасность, интернет-ресурсы, кластерный анализ.
DETECTION OF CYBER THREATS SOURCES BASED ON CLUSTER ANALYSIS
OF INTERNET SERVICE LOGS
S. V. Isaev
Institute of Computational Modelling SB RAS 50/44, Akademgorodok, Krasnoyarsk, 660036, Russian Federation Е-mail: si@icm.krasn.ru
The author suggests an approach for clustering Internet users in order to detect and identify sources of cyber-threats. Its application can enhance the cybersecurity of organizations by analyzing and timely responding to discovered anomalies of resource use.
Keywords: cybersecurity, internet resources, cluster analysis.
Введение. Профессиональная и бытовая деятельность большинства современных людей связана с использованием различных интернет-ресурсов, как непосредственно через WEB, так и опосредованно, эксплуатируя всевозможные программы и устройства, ориентированные на взаимодействие и обновление через сеть. Из-за все возрастающего количества таких устройств возрастают риски неправильной их настройки, несанкционированного доступа к информационным ресурсам и другим угрозам кибербезопасно-сти. Привлечение экспертов в области безопасности для предотвращения возможных рисков не представляется возможным в связи с массовостью явления. Все более актуальными становятся средства защиты, требующие минимального внимания и знаний со стороны их владельца. Всевозможные антивирусы и встроенные средства защиты хотя и решают множество задач, но не покрывают всех проблем кибербезо-пасности. Вместе с тем накапливается большое количество всевозможных журналов взаимодействия с интернет-ресурсами, как на компьютерах пользователей, так и на оборудовании интернет провайдеров.
В данной работе предлагается использовать эти данные для анализа и устранения ряда проблем, влекущих риски кибербезопасности. Методы обработки и анализа подобного рода информации начинают активно использоваться в разных целях под общим названием Big-data. В нашем случае источником данных будут служить журналы прокси-сервера - посредника
по доступу пользователей в Интернет и журналы работы www-серверов.
Целью работы является исследование возможности кластеризации потребителей Интернет-ресурсов и выявления проблемных групп, характеризующихся аномальной активностью. Выявление аномалий может свидетельствовать об активности компьютерных вирусов, утечках информации и прочих угрозах кибербезопасности организаций [1].
В Институте вычислительного моделирования СО РАН длительное время ведется работу по сбору и анализу информации о попытках атак на различные сервисы ФИЦ КНЦ СО РАН [2-3]. Анализ такой информации помогает оценить степень риска и выработать эффективные способы противодействия обнаруженным угрозам [4]. Как правило, большинство источников угроз находится за внешним периметром защищаемой сети. Вместе с тем, существуют достаточно существенная угроза безопасности из внутреннего периметра сети - вирусы, распространяющиеся через мобильные носители информации и электронные гаджеты, получающие доступ ко внутренней сети. Как правило, зараженный компьютер производит некоторые действия в сети, в том числе пытается получить доступ во внешний мир. Такие устройства и программы не имеют информации о регламентированных способах доступа в сеть и их можно выявить и обезвредить с помощью анализа аномальных потребителей.
Информационная безопасность
Дендрограмма иерархической кластеризации источников
Одним из источников данных об использовании Интернет-ресурсов пользователями организации может служить журнал прокси-сервера. Прокси-сервер -это сервер, выступающий промежуточным слоем или посредником между клиентами и ресурсами, находящимися в сети Интернет.
На основе данных об интернет-активности можно решать различные задачи: оптимизировать систему, уменьшая нагрузку путем распределения ресурсов, улучшить ее защиту, отслеживать действия, которые могут навредить системе, или пользователей с подозрительной активностью.
В данной задаче в качестве исходных берутся данные, содержащие ошибки доступа к интернет-ресурсам из журналов прокси-сервера за каждый день его функционирования в течение месяца. Общий объем данных составляет около 2 Гигабайт, а количество обрабатываемых запросов около десятки миллионов, что позволяет говорить об области Big-data. В каждой строке журнала содержится информация о запросе пользователя прокси-сервера: тип, время, URL-адрес, метод доступа, имя пользователя. На основе этих данных, для каждого идентифицированного источника можно вычислить такие показатели как: время начала запросов, длительность работы источника, частота запросов, показатели доступа к различным ресурсам.
После нормализации всех характеристик эти данные, х можно представить в виде многомерного пространства, в котором каждая координата - это значение показателя.
Размерность пространства равна количеству анализируемых показателей и в нашем случае составляет порядка нескольких сотен. Анализ такого пространства возможен только с помощью автоматических методов кластеризации. Для разбиения на группы применяется метод иерархической кластеризации (см. рисунок).
Аналогичный подход может быть использован для обнаружения проблем доступа к www-ресурсам организации. Для анализа необходимо взять журнал ошибок web-сервера и провести кластеризацию источников ошибок. Возможен также анализ журнала доступа, для выявления и противодействия угрозам, не идентифицируемым обычными СОВ из-за ограниченного набора данных для анализа.
Обнаружение аномальных источников возможно, как визуально, так и с помощью выделения одиночных наиболее удаленных элементов. Перспективным представляется создание автоматизированной системы подготовки и анализа данных, а также разработка типовых решений по противодействию обнаруженным угрозам.
Библиографические ссылки
1. Исаев С. В. Кибербезопасность научного учреждения - активы и угрозы // Информатизация и связь. 2015. № 1. С. 53-57.
2. Исаев С. В. Выделение групп интернет-пользователей на основе журнала сервера доступа // Решетневские чтения : материалы Междунар. науч. конф. : в 2 ч. / под общ. ред. Ю. Ю. Логинова ; Сиб. гос. аэрокосмич. ун-т. Красноярск, 2017. Ч. 2. С. 408-411.
3. Исаев С. В. Идентификация и визуализация источников интернет-угроз // Решетневские чтения : материалы ХХ Междунар. науч. конф. (09-12 ноября 2016, г. Красноярск) : в 2 ч. / под общ. ред. Ю. Ю. Логинова ; Сиб. гос. аэрокосмич. ун-т. Красноярск, 2016. Ч. 2. С. 260-262.
4. Исаев С.В. Анализ киберугроз и их источников для корпоративной сети Красноярского научного центра СО РАН / Информационные и математические технологии в науке и управлении. Иркутск: ИСЭМ СО РАН. 2016. № 4-1. С. 76-85.
References
1. Isaev S. V. Cybersecurity of a scientific institution -assets and threats. Informatization and communication. 2015. Vol 1. P. 53-57. (In Russ.)
2. Isaev S. V. Identifying groups of internet users based on the proxy server log // Мaterialy Mezhdunar. nauch. konf. "Reshetnevskie chteniya" [Materials Intern. Scientific. Conf "Reshetnev reading"]. Krasnoyarsk, 2017. Ch. 2. P. 408-411. (In Russ.)
3. Isaev S. V. Identification and visualization of the sources of internet threats // Мaterialy XX Mezhdunar. nauch. konf. "Reshetnevskie chteniya" [Materials XX Intern. Scientific. Conf "Reshetnev reading"]. Krasnoyarsk, 2016. Ch. 2. P. 260-262. (In Russ.)
4. Isaev S. V. [Analysis of cyber threats and their sourceson the corporate network Krasnoyarsk Scientific Сenter of the SB RAS] // Informatsionnyie i mate-maticheskie tehnologii v nauke i upravlenii. Irkutsk: ISEM SO RAN. 2016. № 4-1. P. 76-85. (In Russ.)
© HcaeB C. B., 2018