УДК 004.021
ИССЛЕДОВАНИЕ МЕТОДОВ ЗАЩИТЫ ИНФОРМАЦИИ ПРИ ПОСТРОЕНИИ СРЕДСТВ ЗАЩИТЫ КЛАССА «APPLICATION FIREWALL»
Р. К. Саядян Научный руководитель - М. Н. Жукова
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Рассматривается способы извлечения, отбора и классификации признаков с целью повышения эффективности работы Web Application Firewall.
Ключевые слова: Web Application Firewall, извлечение признаков, отбор признаков, классификация.
INVESTIGATION OF METHODS OF INFORMATION PROTECTION FOR DESIGNING
"APPLICATION FIREWALL" MEASURES
R. K. Sayadyan Scientific Supervisor - M. N. Zhukova
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
Feature extraction, selection and classification methods are considered in order to increase in efficiency of Web Application Firewall.
Keywords: Web Application Firewall, feature extraction, feature selection, classification.
На сегодняшний день высокая стоимость информации, обрабатываемая в веб-приложениях, в совокупности с угрозой взлома увеличивает риски информационной безопасности компаний. В этих условиях возникает вопрос, что необходимо предпринимать для защиты веб-приложений. Имеются стандарты [1; 2] написания безопасных веб-приложений. Разработка приложений в соответствии с этими стандартами - трудозатратная и дорогая процедура.
Брандмауэры для веб-приложения являются решением описанных проблем. Наложенные средства защиты - системы предотвращения вторжений, межсетевые экраны следующего поколения), а также средства фильтрации трафика прикладного уровня, специально ориентированные на веб-приложения (Web Application Firewall (WAF)). Применение Web Application Firewall традиционно считается наиболее эффективным подходом к защите веб-ресурсов. Одним из основополагающих факторов здесь служит узкоспециализированная разработка.
Проанализировав основные лидирующие продукты на мировом рынке, можно сформировать список защитных механизмов, которые обычно присущи WAF [3]:
1) проверка протокола;
2) сигнатурный анализ;
3) машинное обучение;
Машинное обучение представляет из себя процесс внесения идентификаторов доступа веб-приложения в специальную модель, с последующим сравнением к ней поступающих запросов. Сопоставление запросов с выученной эталонной моделью помогает предотвращать как известные, так и неизвестные уязвимости. В теории, механизм защиты, основанный на машинном обучении, хоть и имеет свои ограничения и не всегда применим, перекрывает необходимость использования сигнатурного анализа.
Актуальные проблемы авиации и космонавтики - 2016. Том 1
Критерии для выборок
Таблица 1
Публичная доступность HTTP-трафик Запросы помечены Два класса Актуальность Неанонимизирован-ность
UNB ISC X
ECML/ PKDD X X
LBNL X X X
DEFCON X
DARPA 98/99 X
CISC
Для построения и тестирования модели необходима выборка. В табл. 1 приведен список различных доступных выборок, а также требований, предъявляемых к ним.
Извлечение признаков
>- Предобработка
Отбор признаков
<
Тренировка модели
Тестирование модели
Обработка
Этапы разработки WAF
Разработка модели включает в себя два этапа (рис. 1):
Предобработка. Этот этап состоит из извлечения признаков и их отбора [5]. Для извлечения признаков сравниваем два метода: используя набор некоторых описательных признаков и автоматически методом n-grams. В первом случае выделены следующие признаки:
1) длина запроса, пути, аргументов и различных заголовков
2) идентификатор метода (GET/POST);
3) количество аргументов, букв, цифр и «специальных» символов в аргументах;
4) количество букв в пути;
5) количество цифр в пути;
6) количество «специальных» символов в пути;
7) количество остальных символов в пути;
8) количество cookie;
9) минимальный и максимальный байт в запросе;
10) количество различающихся байтов;
11) энтропия;
12) количество ключевых слов в пути и в аргументах.
N-грамма - последовательность из n элементов. Входной вектор - [x0, ... , xi], где xi - количество раз, которое n-грамма встречается в запросе. N берем равным 1.
Обработка. Данный этап включает в себя классификацию. Сравнивается набор алгоритмов, таких как байесовский классификатор, метод опорных векторов и деревья решений. Выбор основан на решении, принятом на «The IEEE Conference on Data Mining» (2006) [4] и том, что Oracle предлагает в своих продуктах. В табл. 2 приведены результаты тестирования при извлечении списка описательных признаков. В табл. 3 результаты для автоматического извлечения признаков. Столбцы таблицы -это алгоритмы классификации, показавшие наибольшую эффективность. В строках приведены алгоритмы отбора признаков, а в ячейках процент правильно классифицированных элементов.
Таблица 2
Тестирование с отбором описательных признаков
C4.5 CART RandomTree
CFS + BestFirst 8 признаков 90.4839 % 90.4839 % 88.4418 %
CFS + Genetic 10 признаков 91.7187 % 91.4042 % 90.1957 %
CFS + RankSearch 6 признаков 90.312 % 90.3938 % 89.991 %
CFS + LinearForward 8 признаков 90.4839 % 90.4839 % 88.4418 %
ConsistencySubsetEval + GreedlyStepwise 16 признаков 93.2924 % 92.8846 % 92.4818 %
ConsistencySubsetEval + LinearForward 16 признаков 93.2924 % 92.8846 % 92.4818 %
FULL (20 признаков) 93.4578 % 92.5424 % 91.5025 %
Таблица 3
Тестирование с автоматическим отбором признаков
C4.5 CART RandomTree
CFS + BestFirst 12 признаков 81.7686 % 81.7686 % 81.7899 %
CFS + Genetic 40 признаков 84.0318 % 84.6508 % 70.3447 %
CFS + RankSearch 30 признаков 84.5345 % 84.5001 % 83.8762%
CFS + GreedlyStepwise 12 признаков 81.803 % 81.8357 % 82.0159 %
FULL (87 признаков) 83.8762% 85.1601 % 82.3794 %
По результатам исследования первый метод показал наибольшую эффективность. Для отбора признаков, в этом случае, больше всего подходит комбинация генетического алгоритма с корреляционным, для классификации C4.5. При такой конфигурации удается в 2 раза уменьшить размерность пространства, при этом качество распознавания упало менее чем на 2 %. Стоит заметить, что в случае автоматического извлечения признаков, уменьшение размерности с 87 признаков до 40 не только не ухудшает качество классификации, но и повышает его.
Библиографические ссылки
1. РС БР ИББС-2.6-2014. Рекомендации в области стандартизации Банка России. Обеспечение информационной безопасности организаций банковской системы Российской Федерации // Банк России [Электронный ресурс]: URL: http://www.cbr.ru/credit/Gubzi_docs/rs-26-14.pdf (дата обращения: 09.04.2016).
2. Payment application data security standard. Requirements and security assessment procedures. Version 3.1. // Payment Card Industry (PCI) [Электронный ресурс]. URL: https://www.pcisecurity-standards.org/documents/PADSS_v3-1.pdf (дата обращения: 09.04.2016).
3. Бейбутов Э. Р. Обзор рынка защиты веб-приложений (WAF) в России и в мире [Электронный ресурс]. URL: http://www.antimalware.ru/ reviews/web_application_firewall_market_overview_russia (дата обращения: 09.04.2016).
4. Top 10 Algorithms in Data Mining [Электронный ресурс]. URL: http://www.cs.uvm.edu/~icdm/ algorithms/index.shtml (дата обращения 09.04.2016).
5. Коромыслов Н. А. О предварительном анализе параметров для обнаружения инцидентов информационной безопасности в системах со многими параметрами // Актуальные проблемы авиации и космонавтики : тезисы Междунар. науч.-практ. конф. 2015. Т. 1. С. 495-499.
© Саядян Р. К., 2016