Научная статья на тему 'ОБНАРУЖЕНИЕ ИНФОРМАЦИОННОГО ВЗАИМОДЕЙСТВИЯ ОБЪЕКТОВ ИНФОРМАЦИОННОЙ СИСТЕМЫ С DGA ДОМЕНАМИ'

ОБНАРУЖЕНИЕ ИНФОРМАЦИОННОГО ВЗАИМОДЕЙСТВИЯ ОБЪЕКТОВ ИНФОРМАЦИОННОЙ СИСТЕМЫ С DGA ДОМЕНАМИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
8
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
информационная безопасность / DNS / Domain Generation Algorithm / information security / DNS / Domain Generation Algorithm

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Я.В. Пигалев, В.Г. Жуков

Рассмотрено применение методов машинного обучения для решения задачи обнаружения информационного взаимодействия скомпрометированных объектов информационной системы с C&C серверами вредоносного программного обеспечения. Представлены результаты оценки эффективности на тестовом множестве доменных имен.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DETECTION OF INFORMATION SYSTEM OBJECTS INTERACTION WITH DGA DOMAINS

The machine learning methods application for detection of compromised information system objects interaction with malware C&C servers is considered in the paper. Results of efficiency evaluation using test domain names dataset are presented.

Текст научной работы на тему «ОБНАРУЖЕНИЕ ИНФОРМАЦИОННОГО ВЗАИМОДЕЙСТВИЯ ОБЪЕКТОВ ИНФОРМАЦИОННОЙ СИСТЕМЫ С DGA ДОМЕНАМИ»

УДК 004.056.57

ОБНАРУЖЕНИЕ ИНФОРМАЦИОННОГО ВЗАИМОДЕЙСТВИЯ ОБЪЕКТОВ

ИНФОРМАЦИОННОЙ СИСТЕМЫ С DGA ДОМЕНАМИ

*

Я. В. Пигалев , В. Г. Жуков

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газеты «Красноярский рабочий», 31

*

E-mail: pigalevyan1998@mail.ru

Рассмотрено применение методов машинного обучения для решения задачи обнаружения информационного взаимодействия скомпрометированных объектов информационной системы с C&C серверами вредоносного программного обеспечения. Представлены результаты оценки эффективности на тестовом множестве доменных имен.

Ключевые слова: информационная безопасность, DNS, Domain Generation Algorithm.

DETECTION OF INFORMATION SYSTEM OBJECTS INTERACTION

WITH DGA DOMAINS

Y. V. Pigalev*, V. G. Zhukov

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation

E-mail: pigalevyan1998@mail.ru

The machine learning methods application for detection of compromised information system objects interaction with malware C&C servers is considered in the paper. Results of efficiency evaluation using test domain names dataset are presented.

Keywords: information security, DNS, Domain Generation Algorithm.

Согласно аналитическому отчету Malwarebytes, угрозы безопасности, источником которых является вредоносное программное обеспечение (ВПО) - Malicious software (malware) - остается актуальными [1]. Для передачи информации и получения команд управления ВПО со скомпрометированных объектов информационной системы организует взаимодействие с серверами управления (C&C, Command and Control Server), используя инфраструктуру системы доменных имен DNS. Средства защиты информации препятствуют подобному взаимодействию путем выявления и блокирования DNS запросов на разрешение доменных имен C&C центров, например с помощью механизма черных списков. Чтобы обойти эти ограничения, злоумышленники используют специальное программное обеспечение (ПО) для генерации доменных имен в соответствии с заданным алгоритмом -Domain Generation Algorithm (DGA). Применение DGA позволяет злоумышленникам уйти от статического списка доменных имен C&C центров и сделать черные списки, применяемые средствами защиты малоэффективными - DGA позволяет генерировать огромное количество вредоносных доменов - добавить их всех в черный список невозможно, при блокировке одного домена C&C сервер «переезжает» на новый сгенерированный домен [2].

Таким образом, разработка механизмов обнаружения информационного взаимодействия объектов информационной системы с DGA доменами является актуальной задачей,

Актуальные проблемы авиации и космонавтики - 2020. Том 2

результаты решения которой могут оказать существенное значение на эффективность работы средств защиты информации.

Сгенерированные домены имеют ряд общих свойств, отличающих их от обычных доменных имен, такие как длина доменного имени, отсутствие лексического смысла, большое количество цифр в имени, например: dgu1qg143aulimg.net, ycexgngjlajr.com. Кроме этого, в рамках ВПО, имеющих единый модельно-алгоритмический базис, как правило, используется общий алгоритм DGA, т.е. имена сгенерированы по определенным правилам и имеют общие признаки. Отталкиваясь от этих исходных данных, представляется возможным построить механизм классификации с целью выделения DGA доменов в общем потоке DNS запросов на разрешение доменных имен со стороны объектов информационной системы для идентификации скомпрометированных узлов ИТ инфраструктуры организации.

Для построения модели доменного имени в качестве атрибутов были выбраны:

1) длина доменного имени;

2) отношение суммы длин всех осмысленных слов (слов, встречающихся в словарях человеческого языка) в доменном имени к общей длине имени;

3) отношение длины самого длинного осмысленного слова в доменном имени к общей длине имени;

4) отношение количества цифр в доменном имени к его общей длине;

5) расстояние Левенштейна между текущим и предыдущим доменным именем -минимальное количество символов, которые нужно добавить, удалить или изменить, чтобы из предыдущего доменного имени получилось текущее (например, расстояние Левенштейна между test.ru и 1t3st.su равняется 3).

Для сокращения времени разработки в качестве модельно-алгоритмического ядра использовались методы машинного обучения: «случайный лес» (Random Forest), деревья классификации и регрессии (CART, Classification And Regression Tree), опорных векторов (SVC, support vector machine).

Модель разрабатывалась на языке Python, для машинного обучения использовался набор библиотек scikit-learn [3].

Для обучения и оценки эффективности каждого алгоритма использовалась выборка, состоящая из нормальных и DGA доменных имен. Нормальные доменные имена были взяты из списка самых популярных доменных имен, составленного DomCop [4], источником DGA доменов стал Bambenek Consulting [5]. Размеры обоих выборок составили 25000 доменных имен, что в сумме дало 50000 доменных имен. Для решения задачи классификации применялся метод кросс-валидации с десятью блоками. Суммарная выборка имен разбивается на десять блоков одинакового размера, затем поочередно каждый блок рассматривается, как тестовая выборка, а остальные девять блоков - как обучающая выборка. Для каждого такого блока рассчитывается точность классификации и подсчитывается средняя точность:

1) точность Random Forest составила 96,49%;

2) точность CART составила 96,31%;

3) точность SVC составила 94,64%.

Полученные результаты близки к значениям точности, полученным в ходе исследования A Machine Learning Framework for Domain Generation Algorithm-Based Malware Detection [6]. Таблица сопряжённости для тестового набора из 5000 имен и обучающего набора из 45000 имен представлена в таблице.

Для повышения точности классификации и уменьшения ошибок первого рода дополнительно рекомендуется использовать внешнюю информацию для обогащения информационного контекста, в рамках которого решается задача классификации. Так, одно доменное имя может разрешаться в несколько IP-адресов и в соответствии с исследованием EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis [7], вредоносные домены

одного семейства ВПО разрешаются в ГР-адреса разных стран. Дополнительно целесообразно использовать регистрационную информацию домена, получаемую с помощью whois: как правило, домены сгенерированы недавно, функционируют короткое время (на что укажет дата создания и дата окончания регистрации) и о БОЛ доменах содержится меньше регистрационной информации (например, адреса, названия организации, страны) чем о легитимных [6].

Таблица сопряжённости

Классифицировано,% Итого, %

DGA Нормальный

Фактически,% DGA 48.3 1.7 50

Нормальный 1.8 48.2 50

Итого, % 50.1 49.9 100

Предложенный механизм обнаружения информационного взаимодействия объектов информационной системы с DGA доменами можно использовать как для активного противодействия ВПО, использующего технику DGA, в дополнение к применяемым средствам защиты информации, так и для апостериорного анализа инцидентов информационной безопасности.

Библиографические ссылки

1. Malwarebytes Labs 2019 State of Malware Report [Электронный ресурс]. URL: https://resources.malwarebytes.com/files/2019/01/Malwarebytes-Labs-2019-State-of-Malware-Report-2.pdf (дата обращения 12.03.2020).

2. Threat Brief: Understanding Domain Generation Algorithms (DGA) [Электронный ресурс]. URL: https://unit42.paloaltonetworks.com/threat-brief-understanding-domain-generation-algo-rithms-dga/ (дата обращения 05.03.2020).

3. Scikit-learn: machine learning in Python [Электронный ресурс]. URL: https://scikit-learn.org/stable (дата обращения 16.01.2020).

4. Top 10 million Websites based on Open data from Common Crawl & Common Search [Электронный ресурс]. URL: https://www.domcop.com/top-10-million-websites. (дата обращения 15.02.2020).

5. Bambenek Consulting [Электронный ресурс]. URL: http://osint.bambenekconsulting.com/ feeds/dga-feed.txt. (дата обращения 27.02.2020).

6. A Machine Learning Framework for Domain Generation Algorithm-Based Malware Detection / Y. Li, K. Xiong, T. Chin и др. // IEEE Journals & Magazine [Электронный ресурс]. URL: https://ieeexplore.ieee.org/document/8631171/authors#authors (дата обращения 15.01.2020).

7. EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis / L. Bilge, E. Kirda, C. Kruegel и др. // Institue Eurecom, Sophia Antipolic [Электронный ресурс]. URL: https://sites.cs.ucsb.edu/~chris/research/doc/ndss11_exposure.pdf (дата обращения 11.03.2020).

© Пигалев Я. В., Жуков В. Г., 2020

i Надоели баннеры? Вы всегда можете отключить рекламу.