10.36724/2409-5419-2020-12-1-70-76
ПРОЕКТИРОВАНИЕ СИСТЕМЫ ОБНАРУЖЕНИЯ ВТОРЖЕНИЙ ДЛЯ ИНФОРМАЦИОННОЙ СЕТИ С ИСПОЛЬЗОВАНИЕМ БОЛЬШИХ ДАННЫХ
КРАСОВ
Андрей Владимирович1 САХАРОВ
Дмитрий Владимирович2 ТАСЮК
Александр Андреевич3
Сведения об авторах:
1к.т.н., доцент, заведующий кафедрой Санкт-Петербургского государственного университета телекоммуникаций имени профессора М. А. Бонч-Бруевича, г. Санкт-Петербург, Россия, [email protected]
2к.т.н., доцент, преподаватель Санкт-Петербургского государственного университета телекоммуникаций имени профессора М. А. Бонч-Бруевича, г. Санкт-Петербург, Россия,
3студент Санкт-Петербургского государственного университета телекоммуникаций имени профессора М. А. Бонч-Бруевича, г. Санкт-Петербург, Россия, alexsandric7@gmailcom
АННОТАЦИЯ
Информационные технологии способны позволить современному человеку обрабатывать большой объем данных, сделать иерархическую систематизацию, а также выявить какие-либо закономерности там, где человеческий мозг не смог бы их определить. Направление Больших данных открывает абсолютно новые возможности относительно использования данных. Установлено, что внедрение Big Data в современном мире является обязательным условием с целью развития лидирующих позиций в сфере информационных технологий. Не имея полного анализа поведения своих пользователей, не имея средств прогнозирования, при этом опираясь исключительно на опыт или же интуицию, практически невозможно оставаться конкурентоспособным в современном мире. Грамотно настроенная и эффективно работающая система Big Data имеет возможность в доли секунды проанализировать и воспроизвести требуемую информацию на основе результата работы миллиарда действий клиентов компании. Предлагаемая система полезна в различных областях с большой гибкостью и хорошей таксономий атак. С растущей сложностью и быстрыми изменениями, система обнаружения вторжений должна конкурировать в информационном пространстве. В работе рассматривается методы классификации, кластеризации, фильтрации, гибридизации, интеллектуальный анализ данных и усовершенствованный генетический алгоритм обнаружения вторжений. Доказанные результаты эксперимента основываются на алгоритмах G.A и C4.5 для атак DoS, Probe, U2R и R2L. Проектирование гибридного подхода к анализу атак осуществляется с применением технологии Big Data и визуализации архитектуры гибридного подхода. Проведенный эксперимент на основе данных алгоритмов привел к допустимому количеству ложноположительных результатов срабатывания тревоги и обнаружению большинства видов атак с вероятностью 94,40%.
КЛЮЧЕВЫЕ СЛОВА: система обнаружения вторжений; информационные сети; большие данные; информационная безопасность; компьютерные атаки.
Для цитирования: Красов А.В., Сахаров Д.В., Тасюк А.А. Проектирование системы обнаружения вторжений для информационной сети с использованием больших данных // Наукоемкие технологии в космических исследованиях Земли. 2020. Т. 12. № 1. С. 70-76. doi: 10.36724/2409-5419-2020-12-1-70-76
Введение
В настоящее время объем обрабатываемой информации в мире растет в геометрической прогрессии. С целью быстрого реагирования на какие-либо изменения рынка, получения конкурентоспособных преимуществ, а также абсолютного повышения эффективности производства требуется правильно и быстро получать, обрабатывать и конечно же анализировать большое количество данных [1].
Для таких целей необходимы разработки соответствующих инструментов, такими решениями стали «Большие данные» (Big Data). Большие данные — это совокупность технологий, инструментов, которые призваны совершать улучшенные операции. Во-первых, обрабатывать большие по сравнению со «стандартными» сценариями объемы данных. Во-вторых, уметь работать с быстро поступающими данными в очень больших объемах. В-третьих, они должны уметь работать со структурированными и плохо структурированными данными параллельно в разных аспектах [2].
Появление Больших данных в публичном пространстве было связано с тем, что эти данные затронули практически всех людей, а не только научное сообщество, где подобные задачи решаются давно. В публичную сферу технологий Big Data вышла, когда речь стала идти о вполне конкретном числе — числе жителей планеты. 7 миллиардов, которые собираются в социальных сетях и других проектах, которые агрегируют людей. YouTube, Facebook, ВКонтакте, где количество людей измеряется миллиардами, а количество операций, которые они совершают одновременно,— огромно. Поток данных в этом случае — это пользовательские действия. Например, данные того же хостинга YouTube, которые переливаются по сети в обе стороны. Под обработкой такой информации понимается не только интерпретация, но и возможность правильно обработать каждое из этих действий, то есть поместить его в нужное место и сделать так, чтобы эти данные были доступны каждому пользователю быстро, поскольку социальные сети не терпят ожидания [3].
В настоящее время объемы цифровых данных удваиваются каждые два года. Международная исследовательская и консалтинговая компания IDC, занимающаяся изучением мирового рынка информационных технологий и телекоммуникаций, сначала прогнозировала, что с 2009 г до 2020 г. объем мировых данных увеличится в 44 раза, потом, что в 50 раз, теперь уже значится цифра 55 раз. Каждый год IDC с учетом анализа новых данных перестраивает кривую роста вверх, как правило, на несколько зеттабайт (Збайт). Согласно последнему отчету по заказу компании Seagate объем данных в мире к концу 2018 года достиг 33 зеттабайт (1 Збайт равен триллиону гигабайт), а к 2025-му показатель достигнет 175 Збайт, что на 9% больше, чем ожидалось ранее [4]. Три года назад, по не-
которым оценкам, вся всемирная паутина содержала около 500 эксабайт (Эбайт) — это 5 миллиардов гигабайт, и только половина одного зеттабайта.
Описание исследования
1. Анализ систем обнаружения вторжений
В работе [6] предлагается система обнаружения вторжений (СОВ), основанная на использовании двухслойной нейронной сети с обратной связью. Преимуществом такого подхода является его распределенность, способность к обучению и адаптации. Получаемая в ходе анализа информация подвергается предварительной обработке путем отображения символьных данных (тип протокола, сервисы, флаги) в числовое значение из отрезка (-1,1). После обнаружения атаки ее тип и характеристики рассматриваются более подробно.
Несмотря на ряд введений, направленных на увеличение скорости обучения и снижения накладных расходов, такой подход значительно зависит от выбора функции активации, а также недостаточно эффективен при обнаружении атак типа внедрение (R2L, remote-to-user) и повышение привилегий (U2R, user-to-root).
В публикации [7] предлагается система, использующая сигнатурный подход к обнаружению сетевых атак. В процессе работы происходит отслеживание сетевых пакетов и их последовательное сравнение с базой данных известных шаблонов и атрибутов атак. Кроме того, существует возможность работы в фоновом режиме контроля сети. К основным недостаткам предложенного подхода можно отнести: сложность в распознавании неизвестных атак, а также необходимость в постоянном обновлении базы данных сигнатур. Подобные недостатки позволяют сделать вывод о невозможности применения такого решения в сложных, высокоскоростных магистральных сетях.
Исследование коммерческого сектора решений, приводит к таким системам: Spark, Cloudera Hadoop, Hadoop MapReduce. Hadoop MapReduce (рис. 1) использует архитектуру «master-worker», где master — единственный экземпляр управляющего процесса (JobTracker), как правило, запущенный на отдельной машине (вычислительном узле).
В большинстве случаем выделяется следующий недостаток. Принцип восстановления в узлах JobTracker и TaskTracker описан ниже. При сбое TaskTracker-узла JobTracker-узел переназначает задания неисправного узла другому узлу TaskTracker. В случае неисправности JobTracker-узла, для продолжения исполнения MapReduce-приложения, необходим перезапуск JobTracker-узла. При перезапуске узел JobTracker читает из специального журнала данные, о последней успешной контрольной точке (checkpoint), восстанавливает свое состояние на момент записи checkpoint и продолжает работу с места последней контрольной точки.
Рис. 1. Типовая разработка приложения для Hadoop MapReduce
2. Сравнение технологий хранения
Проведено небольшое исследование традиционной базы данных в сравнении с технологиями Big Data, результаты структурированы (табл. 1).
Исходя из анализа таблицы, можно сделать вывод, что технологии Big Data являются наиболее эффективными и более рациональными в работе относительно традиционных баз данных [5].
Характеристические особенности ■
3. Проектное решение
Для достижения указанных целей формализуем постановку задачи, основная задача, проектирование системы обнаружения вторжения (СОВ), функции которой сводится к повышению оперативности обнаружения компьютерной атаки в информационной сети (ИС) за счет определения информации о подготовке компьютерной атаки путем использования гибридного подхода анализа событий.
Таблица 1
диционной базы данных и BigData
Характеристика Традиционная БД BigData
Информационный объем От гигабайта (109 байт), до терабайта (1012 байт) От петабайта (1015 байт), до эксабайта (1018 байт)
Структурированность данных Структурированы Полу-структурированы и не структурированы
Способ хранения Централизованный Децентрализованный
Взаимосвязь между данными Сильная Слабая
Модель хранения и обработки данных Вертикальная модель Горизонтальная модель
Помимо функций постоянного мониторинга и анализа происходящего, система выполняет следующие функции:
- сбор и запись информации;
- оповещения администраторов системы о произошедших изменениях (alert);
- создание отчетов для суммирования логов.
Основу исследования составляют мероприятия по защите информации [44], средств ее хранения, обработки, передачи и автоматизации процессов от воздействий противника, включающие действия средств защиты информации, необходимых для решения задач управления и блокирования обфускации, распространяемой и внедряемой в программе управления.
Необходимо исследования идентификаторов Big Data для дальнейшего проектирования. Здесь рассматривается выбор доступных наборов данных и их атрибутов. В технологии Big Data существует правило «3V», которое и определяет принадлежность информации к большим данным — объем (volume), скорость (velocity) и разнообразие (variety). Объем определяет количество данных, создается трудоемкая задача, когда огромные объемы данных создают препятствия для обработки различными вычислительными технологиями. Скорость обуславливает темп, с которым обрабатываются данные и может появиться проблема, когда скорость передачи данных становится затратной, чем задача обработки. Разнообразие объясняет сложность данных, и это также про большие данные, когда данные содержат разнородную структуру, такую как высокая пространственность данных, данные из гетерогенных источников или данные, имеющие большое количество различных структур данных. В дополнение к этому, еще выделяют еще два «V»: достоверность (veracity) и ценность (value). Достоверность как точность данных может иметь проблемы с корректностью данных, поврежденные или пропущенные значения. Ценность определяет значимость обработки информации, оправдание работы вычислительного комплекса.
Предполагается, что все пять «V» должны учитываться при проектировании СОВ. Проблемы с данными при обнаружении вторжений, в основном обсуждается на уровне избыточности данных и их ценности. Например, если рядовой пользователь производит от пяти до семидесяти мегабайт данных в восемь часов и проанализировать один час данных занимает продолжительное время, это не целесообразно. Следует учесть методы кластеризации, фильтрации и выбора объектов, на основе данных, если ожидается обнаружение в реальном времени, что может улучшить правильность обнаружения. На сегодняшний день, существует потребность в необходимости улучшения систем безопасности и предотвращения вторжений.
В прошлом системным администраторам выполнялся мониторинг безопасности, проверялись файлы и журнал сервера. С появлением идентификаторов, отдельных устройств мониторинга все проверки проводятся в сети или на уровне хоста. Несмотря на то, что СОВ имеет проблему больших данных, связанную с большим массивом информации и обнаружений инцидентов вторжения. Выбор наборов данных всегда является сложной задачей. Многие из исследователей подчеркивают, что даже анализ простого массива данных доставляет сложности исследованию. Что особенно важно при использовании наборов данных из разнородных источников. Для того, чтобы СОВ функционировала исправно, выбор набора функций является первостепенной целью. Такое действие повышает точность классификации информации за счет удаления шума. Исследовано, что правильность выбора функций улучшает время обработки классификации с точки зрения эффективности системы. Данный экспериментальный подход в генерации наборов близок к генерации наборов в реальном времени.
Установлено, что в отношении точности классификации, метод выбора особенностей из общедоступной базы международной конференции по обнаружению знаний и интеллектуальному анализу данных (KDD99) [8] содержащей порядка 5 миллионов классифицированных по 22 типам экземпляров атак достигает самого лучшего результата. Поскольку выбор объекта занимает определенное количество вычислительного времени, то это время может быть уменьшено вдвое, при использовании метода опорных векторов (SVM, support vector machine) [9], алгоритма для построения деревьев решений (С4.5) [10] и наборов данных KDD99 [11].
4. Предлагаемая архитектура
В ходе исследования были получены разнородные данные из разных источников, собранных из набора данных базы KDD и сегрегированных на этап обучения и этап обнаружения. В процессе обучения известные атаки всегда идентифицируются. Для того, чтобы идентифицировать эти известные атаки, необходимо выбрать лучшие атрибуты из набор данных KDD. Аналогично с этапом обнаружения необходима выборка лучших атрибутов. На Рис. 2 выходная характеристика будет выбрана и применена в качестве входных данных для предварительной обработки, и здесь данные будут циклически обрабатываться на различных этапах. Для идентификации известных атаки таких как, отказ в обслуживании (DoS), зондирования (Probe), R2L, U2R. Атаки, которые не идентифицированы, рассматриваются на этапе повторного обнаружения. В этой фазе обнаружения используется усовершенствованный алгоритм C4.5 и усовершенствованный генетиче-
Рис. 2. Архитектура гибридной СОВ
ский алгоритм (G.A). Эти два метода хранят данные в базах данных независимо.
Далее две базы данных вместе образуют гибридную базу данных. Выходные данные этой большой гибридной базы данных будет применяться в качестве входных данных для Больших данных с использованием метода ограничения потока данных. Применение этого метода будет генерировать классификацию набора данных, в этом наборе мы можем найти известные и схожие типы атаки, такие как, DoS, Probe, R2L и U2R.
Предполагается, что наша гибридная схема увеличит скорость обнаружения, а также определит принадлежность к типу атаки.
5. Экспериментальная установка
Цель эксперимента состояла в том, чтобы сосредоточиться на создании классификаторов правил для 25 типов атак, принадлежащих к четырем различным категориям, и для создания правила, которое может классифицировать все эти соединения с минимальной частотой ложных срабатываний (FPR). Оценки демонстрируют жизнеспособность и возможности исследуемого метода с чрезвычайно отличным исполнением с 94,80% обнаружения для DoS атак, 90,87% обнаружения для R2L атак, 95,52% обнаружения для U2R атак и 96,42% обнаружения для Probe атак с общей долей FPR—0,058%. Тестовое решение этой методики свидетельствовало о ее полезности и важно-
Таблица 2
Частота обнаружения и ложные срабатывания для гибридной схемы
№ Тип атаки Частота обнаружения % Ложные срабатывания (%)
1 DoS 94.80 0.043
2 Probe 96.42 0.082
3 U2R 95.52 0.063
4 R2L 90.87 0.045
Средний Показатель Успеха 94.40 0.058
сти. Данный алгоритм привел к допустимому количеству ложноположительных результатов срабатываний тревоги (FAR) и обнаружению большинства видов атак с вероятностью в 94,40%, проектирование данной СОВ близко к оптимальной СОВ (табл. 2).
Заключение
Основной вклад этой работы заключается в динамичном развитии СОВ путем использования гибридного подхода к анализу атак с применением технологии Big Data.
Применение данной методологии обучения СОВ — это последовательность для лучшего выявления аномалий и снижения ложноположительной частоты срабатываний тревоги. Предлагаемый алгоритм представляет результаты работы эксперимента с показателем успеха по определении атаки с 94,40% вероятности, так что общие результаты методики реализовано отлично.
С ростом инцидентов нападений на ИС, СОВ с отличной производительностью в реальном времени имеет важное значение. Для будущего развития данной работы следует проверить дополнительные методы интеллектуального анализа данных для более плодотворного извлечения атрибутов. Предлагаемая система задает набор правил и поведение для DoS, R2L, U2R, Probe атак. Можно попытаться получить результаты выше заявленных, повысив эффективность и снизив сложность, присутствующую в модели. В будущем несколько методов анализа могут быть дополнены, чтобы получить больше возможностей.
Литература
1. Косов Н.А., Гельфанд А.М., Лаптев А. А. Анализ темных данных для обеспечения устойчивости информационных систем от нарушения конфиденциальности или несанкционированных действий // Colloquium-Journal. 2019. № 13-2 (37). С. 100-103.
2. Тиндал С. Большие данные: все, что вам необходимо знать // PC Week/RE. 2012. № 25 (810). URL: https://www.pcweek. ru/idea/article/detail.php? ID=141962 (дата обращения 12.08.2019).
3. Тасюк А.А, Радынская В. E. Kerberos, защита данных в Big Data // Материалы VIII Международной научно-технической и научно-мето-дической конференции «Актуальные проблемы инфотеле-коммуникаций в науке и образовании» (Санкт-Петербург, 28 февраля 2019 г.). Санкт-Петербург, 2019. С. 125-134.
4. Reinsel D., Gantz J., Rydning J. The Digitization of the WorldFrom Edge to Core An // IDC White Paper. URL: https://www. seagate.com/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf (дата обра-щения 12.08.2019).
5. Веретенников А. В. BigData: анализ больших данных сегодня // Молодой ученый. 2017. № 32. С. 9-12.
6. Haddadi F. Intrusion detection and attack classification using feedforward neural network // International Conference on Computer and Network Technology. 2010. Pp. 262-266.
7. Gandhi M., Srivatsa S. K. Detecting and preventing attacks using network intrusion detection systems // International Journal of Computer Science and Security. 2008. No. 1. Pp. 49-58.
8. Srikanth B. V. S., Reddy V. K. Efficiency of stream processing engines for processing BIGDATA Streams // Indian Journal of Science and Technology. 2016. № 9(14). Pp 145-151.
9. Машина опорных векторов. URL: http://www. machinelearning.ru/wiki/index.php?title=SVM (дата обращения 12.08.2019)
10. Подоплелова Е. С. Интеллектуальный анализ данных. Алгоритм С4.5. URL: http://hdl.handle.net/10995/65645 (дата обращения 12.08.2019).
11. KDD99. URL: https://kdd.ics.uci.edu/databases/kddcup99/ kddcup99 (дата обращения 12.08.2019)
DESIGN OF INTRUSION DETECTION SYSTEM FOR INFORMATION NETWORK USING BIG DATA
KEYWORDS: intrusion detection system; information networks; big data; information security; computer attacks.
DMITRIJ V. SAHAROV,
St. Petersburg, Russia
ALEKSANDR A. TASYUK
St. Petersburg, Russia, [email protected]
ANDREJ V. KRASOV,
St. Petersburg, Russia, [email protected]
ABSTRACT
These technologies are able to allow modern man to process a large amount of data, to make a hierarchical systematization, as well as to identify any patterns where the human brain would not be able to
determine them. The direction of Big data opens up completely new possibilities regarding the use of data. It is established that the introduction of BigData in the modern world is a prerequisite for the de-
velopment of leading positions in the field of information technology. Without a complete analysis of the behavior of its users, without the means of forecasting, while relying solely on experience or intuition, it is almost impossible to remain competitive in the modern world. Properly configured and effectively working system BigData has the ability in a split second to analyze and reproduce the required information based on the result of the work of a billion actions of the company's customers. The proposed system is useful in various fields with great flexibility and good taxonomy of attacks. With increasing complexity and rapid changes, intrusion detection systems must compete in the information space. In this paper we consider the methods of classification, clustering, filtering, hybridization data mining and advanced genetic algorithm for intrusion detection. Proven results of the experiment are based on algorithms G. A and C4.5 to attacks, DoS, Probe, U2R and R2L. Designing a hybrid approach to attack analysis using BigData technology. Visualizations of the hybrid approach architecture. Conducting an experiment with this algorithm led to an acceptable number of false-positive results and the detection of most types of attacks with a large data set of 94.40%.
REFERENCES
1. Kosov N. A., Gelfand A. M., Laptev A. A. Analysis of dark data to ensure sustainability information systems from breach of privacy or unauthorized actions. Colloquium-journal. 2019. No.13-2 (37). Pp. 100-103. (In Rus)
2. Tyndall S. Big data: everything you need to know. PC Week/RE. 2012. № 25 (810). (date of access 10.08.2018). (In Rus)
3. Tasyuk A. A., Radynskaya V. E. Kerberos, zashchita dannykh v Big Data [Data Protection In Big Data]. Materialy VIII Mezhdunarodnoy nauchno-tekhnicheskoy i nauchno-metodicheskoy konferentsii "Ak-tual'nye problemy infotelekommunikatsiy v nauke i obrazovanii" [Materials of VIII International scientific-technical and scientific-methodical conference "Actual problems of infotelecommunica-tions in science and education", Saint-Petersburg, 28 February,
2019]. Saint-Petersburg, 2019. Pp. 125-134. (In Rus)
4. Reinsel D., Gantz J., Rydning J. The Digitization of the World-From Edge to Core An. IDC White Paper. URL: https://www.seagate. co m/www-content/o ur-story/t re nds/files/id c-se agate-data age-whitepaper.pdf (date of access 10.08.2018)
5. Veretennikov A. V. BigData: analiz bol'shih dannyh segodnya [BigData: big data analysis today]. Molodoj uchenyj [Young scientist]. 2017. No. 32. Pp. 9-12. (In Rus)
6. Haddadi F. Intrusion detection and attack classification using feedforward neural network. International Conference on Computer and Network Technology (ICCNT). 2010. Pp. 262-266.
7. Gandhi M., Srivatsa S. K. Detecting and preventing attacks using network intrusion detection systems. International Journal of Computer Science and Security. 2008. No. 1. Pp. 49-58.
8. Srikanth B. V.S, Reddy V. K. Efficiency of stream processing engines for processing BIGDATA Streams. Indian Journal of Science and Technology. 2016. № 9(14). Pp 145-151.
9. Mashina opornyh vektorov [Support vector machine]. URL: http:// www.machinelearning.ru/wiki/index.php?title=SVM (date of access 12.08.2018). (In Rus)
10. Podoplelova E. S. Intellektual'nyj analiz dannyh. Algoritm S4.5. [Data maning. Algorithm S4.5]. URL: http://hdl.handle. net/10995/65645 (date of access 12.08.2018). (In Rus)
11. KDD99. URL: https://kdd.ics.uci.edu/databases/kddcup99/kd-dcup99 (date of access 12.08.2019)
INFORMATION ABOUT AUTHORS:
Krasov A.V., PhD, Docent, BrE of secure communication systems of the Bonch-Bruyevich Saint-Petersburg State University of Telecommunications;
Saharov A.A., PhD, Docent, Lecturer of the Bonch-Bruyevich Saint-Petersburg State University of Telecommunications; Tasyuk A.A., Student of the Bonch-Bruyevich Saint-Petersburg State University of Telecommunications.
For citation: Krasov A.V., Saharov A.A., Tasyuk A.A. Design of intrusion detection system for information network using Big data. H&ES Research. 2020. Vol. 12. No. 1. Pp. 70-76. doi: 10.36724/2409-5419-2020-12-1-70-76 (In Rus)