Раздел IV. Новые информационные технологии
УДК 621.391
А.В. Гаврилов, А.В. Тихомиров
ПРИМЕНЕНИЕ ИММУННЫХ СИСТЕМ В ЦЕЛЯХ ЗАЩИТЫ КОРПОРАТИВНОЙ ИНФОРМАЦИИ ОТ НЕЦЕЛЕВОГО ИСПОЛЬЗОВАНИЯ
Предлагается использование иммунного подхода при решении задачи снижения угрозы для критической корпоративной информации, связанной с нецелевым использованием данных, доступных сотрудникам организации (т.н. инсайдерские атаки — ИА). Анализ данных по утечкам корпоративной информации свидетельствуют о том, что существующие на рынке программные комплексы и др. системы информационной безопасности малоэффективны против рассматриваемых в данной статье угроз. Для решения задачи в работе предлагается применить динамический подход, основанный на поведенческом анализе операций сотрудников при работе с информационной системой, с использованием методов иммунных сетей - высокопараллельных структур для обработки данных, в которых реализованы механизмы обучения, памяти и ассоциативного поиска для решения задач распознавания и классификации. Предложенный подход позволил обнаруживать атаки, которые не удавалось распознать традиционными методами сигнатурного анализа.
Инсайдер; иммунные системы; утечка корпоративной информации.
A.V. Gavrilov, A.V. Tikhomirov
APPLICATION OF IMMUNE SYSTEMS TO CORPORATE INFORMATION
PROTECTION FROM MISUSE
This paper deals with using the immune approach for the critical information leak risk reduction problem solving. We focused on information leaks related to the illegal data access by organization employees (insider attacks). The analysis of reports on corporate information leaks reveals that existing industrial security systems are inefficient against the threats discussed in this paper. We suggest using dynamic approach based on the behavioral stuff operations analysis involving the immune networks method to solve the problem discussed. Immune networks are highly parallel structures for data processing, which implement the learning, memory and associative data mining mechanisms to carry out the tasks of recognition and classification. The proposed approach allows us to detect the attacks which could not be recognized by traditional signature-based methods.
Insider; immune systems; corporate information leak.
Введение. При построении систем, направленных на защиту от утечек информации, систем обнаружения вторжений, а также антивирусных систем в основном используются два метода анализа [9] (рис. 1):
♦ сигнатурный анализ, который предполагает проверку анализируемого объекта на наличие определенного набора паттернов, что ограничивает идентификацию только ранее известными угрозами;
♦ динамический анализ, к которому относят:
■ эвристический, то есть основанный на вероятностных алгоритмах, выявляющих подозрительные объекты;
поведенческии, предполагающий, что решение о характере проверяемого объекта принимается на основе анализа выполняемых им операций; анализ контрольных сумм, отслеживающий изменения в объектах компьютерной системы и позволяющий на основании анализа характера изменений делать вывод о наличии угрозы.
Рис. 1. Предметная область
Разработка систем защиты от инсайдерской деятельности ведется во многих промышленно-развитых странах. Наибольших успехов в области защиты информации от инсайдерской угрозы были достигнуты такими производителями как InfoWatch (использует вариации структурного анализа), SecurelT (применяет по большей части методику статических блокировок), WebSense (осуществляет наиболее комплексную безопасность), Alladdin Security Solutions (предлагает сочетание шифрования и статических блокировок). Таким образом, большинство производителей использует сигнатурный подход, что существенно ограничивает спектр распознаваемых угроз классом ранее встречавшихся ситуаций. Это обусловлено низкой рентабельностью использования динамического подхода в текущих моделях реализации. Причиной является то, что динамический анализ требует оптимизированных и производительных подходов для обработки больших наборов данных, которые на сегодня недостаточно проработаны с точки зрения реализации информационных систем (ИС).
Таким образом, актуальной является задача разработки эффективных методов динамического анализа, применимых для распознавания нецелевого использования данных, доступных сотрудникам организации, в рамках специализированной ИС.
Подход искусственных иммунных систем. Одним из подходов, позволяющих решать слабо формализованные задачи выделения и отбора на больших массивах данных, является подход искусственных иммунных систем (ИИС), появившийся в 1990-х годах как новая вычислительная парадигма искусственного интеллекта. Также как нейронные сети и генетические алгоритмы, ИИС работают по принципу функционирования живого организма, в данном случае - его иммунной системы.
Естественная иммунная система обладает мощными и гибкими способностями обработки информации, представляя собой децентрализованную интеллектуальную систему, которая обеспечивает превосходную адаптацию на локальном уровне и системный эффект поведения на глобальном уровне. Способности обработки информации естественной иммунной системой, в полной мере, были оценены только недавно [1].
В основу методов искусственных иммунных систем положены три иммунологических принципа [2]:
♦ теория иммунной сети;
♦ механизм негативной селекции;
♦ принцип клонального отбора.
В настоящее время ИИС используются в разнообразных типах приложений, таких как: обнаружение аномалий, распознавание образов, Data Mining, компьютерная безопасность, адаптивное управление, обнаружение сбоев.
(сжатие сети)
Рис. 2. Пример фрагмента иммунной сети
Иммунная сеть. Теория иммунной сети была предложена Ерне еще в 1974 году [4]. Согласно ей, иммунная система представляет собой идиотипическую (idiotype-based, idiotypic) сеть сцепленных B-лимфоцитов, предназначенных для распознавания антигенов (рис. 2) [3]. Эти лимфоциты стимулируют и сдерживают друг друга в нескольких направлениях, что и лежит в основе стабильности сети. Также вводится понятие связанности лимфоцитов: два B-лимфоцита связаны, если степень распознавания одним из них идиотопа на поверхности другого превышает определенный порог. При этом сила связи прямо пропорциональна количеству таких идеотопов и степени распознавания.
Негативная селекция. Назначение негативной селекции (Negative Selection) состоит в обеспечении переносимости «своих» клеток. Это связано с возможностью иммунной системы распознавать неизвестные антигены и при этом не реагировать на «свои» клетки. В процессе генерации T-лимфоцитов рецепторы получаются в результате псевдослучайного мутационного генетического процесса перестановок пептидов. Затем они подвергаются анализу в тимусе, называемому негативной селекцией. Там T-лимфоциты, которые реагируют на «свои» белки, уничтожаются, и только те, которые не притягиваются к «своим» белкам, получают «разрешение на выход» из тимуса. Эти «зрелые» T-лимфоциты циркулируют по организму для обеспечения иммунологических функций и защищают организм от инородных антигенов.
Клональный отбор. Принцип клонального отбора (Clonal Selection) описывает основные возможности иммунного ответа на антигенное стимулирующее воздействие. Он устанавливает закон, согласно которому только те клетки, которые распознали антиген, размножаются, будучи таким образом выделенными по отношению к тем, которые не распознали никакой антиген. Главные возможности теории клонального отбора таковы:
♦ новые клетки являются копиями их родителей (клонами), подвергаются мутации с высокими темпами (соматическая гипермутация);
♦ исключение лимфоцитов, рецепторы которых проявляют признаки само-акивности;
♦ размножение и дифференциация при контакте зрелых лимфоцитов с антигенами.
Формализация угрозы ИА для предметной области страхования. В качестве типичной области, в которой велика вероятность появления рассматриваемой угрозы инсайдеров, предлагается рассмотреть страхование. Страховой бизнес оперирует большим количеством информации, критически важной для функционирования компании. Кроме того, в бизнес-процессах страховщика участвует достаточное количество лиц, имеющих по должностным обязанностям допуск к корпоративной информации, чтобы свести на нет все положительные результаты применяемых систем защиты от утечки.
К особенностям применения систем обнаружения утечек информации в организации крупного страховщика можно отнести наличие большого числа сотрудников со схожими должностными обязанностям и полномочиями. Это отражается в объеме исходной информации для анализа поведения сотрудников.
Для анализа взаимодействия сотрудников организации с информационной системой предприятия необходимо построить модель этой ИС.
Информационная система характеризуется набором некоторых объектов и множеством состояний этих объектов. В процессе жизнедеятельности ИС переходит от одного состояния к другому, то есть меняются состояния отдельных объектов, составляющих ее. Деятельность пользователя ИС сводится к манипуляциям этими объектами. Это можно условно представить следующей формальной моделью:
♦ множество типов объектов О = (О2, 02,...,0х} - конечное;
♦ множество объектов типа О, = (О2, 02, ....} - бесконечное;
♦ набор атрибутов объекта А, = <А2,.....Ат> типа О, - конечное;
♦ множество доступных операций над объектами Г = (Е2,Е2,Е3,Е4}, где:
■ Г2 - операция добавления нового объекта. Операция является одноместной <Г2, А>;
■ Г2 - операция изменения существующего объекта. Операция является двуместной <¥2, Ор, А>;
■ Г3 - операция удаления существующего объекта. Операция является одноместной <Г3, Ор>;
■ Г4 - операция получения существующего объекта. Операция является одноместной <¥4, Ор>.
Таким образом, в любой момент времени рассматривается двойка:
♦ <ИС, Б1> = {{01Ь 012^ ■ . 01т} {02Ъ 022^ ■ ■ 02К2},‘ ■ ■ {01Ь 012,...,01й_1> 0^ 01(]+1),_, 0ш1},..., {0п1, 0п2,..., 0пш}}, где ИС - моделируемая информационная система, а Б1 - состояние, в котором она находится.
Профиль поведения пользователя ИС. Предлагается рассматривать ориентированный граф. Орграф - это упорядоченная пара <У, А> такая, что:
♦ V - это множество вершин (или узлов);
♦ А - это множество дуг (дугу можно представить как упорядоченную пару <Уи, У12>, где V2 - вершина начала, V2 - вершина конца).
Модель пользователя ИС в виде графа является надстройкой над орграфом. В понятие дуги добавляется вес. Таким образом, мы получаем ориентированный
граф с взвешенными дугами. В приведенной выше модели функционирования ИС рассматривались ее переходы из одного состояния в другое <ИС, Б1, Б2>, которые заключались в смене состояния одного из объектов информационной системы. Пример такого подхода иллюстрирует рис. 3.
Таким образом, формально задачу построения профиля можно сформулировать как нахождение такого преобразования A, которое из входных данных, имеющих схему DI, выдаст данные в схеме DO, где DI - журнал ИС в срезе на сессии определенного пользователя, а DO - набор вероятностных переходов между состояниями ИС.
Для решения поставленной задачи предлагается использовать секвенционный анализ (задача нахождения последовательностей) [7] - подвид задачи нахождения ассоциативных правил, основным методом решения которой является алгоритм Apriory.
Суть этого метода заключается в расчете для создаваемых последовательностей объектов величины поддержки (Supp). Под объектом здесь понимается элемент множества, которое подвергается анализу. Все методы, решающие рассматриваемую задачу, разделяются по критериям: как и когда рассчитывается поддержка, как строятся последовательности. Упорядочивающим параметром для всех пар будет являться время операции.
Так, например, в рамках представленной на рис. 4 модели предметной области, роль признака «потребительской» корзины будет играть атрибут сессии пользователя, в которую была произведена операция над объектом информационной системы. Элементом же «потребительской» корзины будет являться совокупность <объект информационной системы, тип операции>, т.е., переходя на язык предметной области, - пара <Таблица, Операция>.
Идентификация аномального профиля
Предобработка данных. Под предобработкой данных понимается изменение формы представления данных при сохранении их информационного содержания [1].
После выполнения секвенционного анализа мы получаем следующие структуры: <TableOperationID, TablelD, Operation, Supp>. Нам необходимо перевести данные в язык, понятный алгоритмам иммунных сетей.
Был выбран бинарный язык, а в качестве представления - строка. Таким образом, указанная выше структура переводится в строку, формируемую определенным алгоритмом.
Структура состоит из четырех дискретных величин и одной непрерывной (Бирр). Принципы кодирования будут следующие:
♦ оценивается число объектов ИС (Ыаъ), которые мы будем контролировать. Этот этап важен тем, что он влияет на адекватность модели и сложность дальнейших расчетов, так как увеличивает величину I.
♦ осуществляем кодирование объектов ИС на основе бинарного алфавита:
2к-1 < N.. < 2к, где к є N.
(1)
♦ операции с объектами ИС кодируются 2 битами.
♦ кодирование непрерывной величины Бирр. Ее трансформацию будем осуществлять следующим образом: введем параметр (настраиваемый параметр трансформации) й є (0,0.5] - точность. Рассчитывается диапазон значений, принимаемых Бирр (наиболее адекватно рассматривать интервал от [0, 1)). Затем диапазон с заданной точностью делится на интервалы:
1 - й
[ій, (і + 1)й), і = 0, [----].
й
(2)
♦ в результате получаем строки длиной I = 2к + 4 + [—] бит.
й
Идентификация аномалий. На рис. 5 приведены этапы процесса идентификации аномалий в данных на основе иммунных сетей.
I
Предоработка
данных
(кодирование)
Г енерация детекторов
Негативная
селекция
Идентификация
„ і , Конец
Рис. 5. Общий алгоритм поиска аномального поведения
^гласно описанному выше механизму, было сформировано описание сценариев использования системы в виде строк. Таким образом, далее мы будем оперировать строками, которые подразделяются на:
♦ «свои» [6] - строки, представляющие сценарии использования системы, соответствующие основному назначению системы и лежащие в рамках сценариев направленных на достижение бизнес-целей;
♦ «чужие» [6] - строки, представляющие сценарии использования системы, потенциально несущие угрозу безопасности.
Введем обозначения:
♦ S - множество «своих», набор строк подлежащих «защите»;
♦ R0 - начальное множество детекторов [6], под которыми понимаются такие строки, которые представляют собой некоторые характерные признаки сценариев использования системы, потенциально несущих угрозу системе;
♦ R - репертуарное множество детекторов (в него попадают детекторы, прошедшие механизм негативной селекции);
♦ m - мощность алфавита (в нашем случае m=2);
♦ M - событие, при котором две произвольные строки совпали по критерию негативной селекции;
♦ A - событие, при котором произвольный детектор прошел механизм негативной селекции (означает, что детектор попадает в репертуарное множество детекторов);
♦ F - событие, при котором произвольный антиген не обнаружен репертуарным набором детекторов.
Во всех алгоритмах используются следующая установка на правило сравнения строк (Matching rule): два строки s1 и s2 длины l алфавита размера m совпадают, если имеется более r (заданное наперед значение 1 < r < l) одинаковых идущих подряд позиций.
Динамический алгоритм генерации детекторов [5,6] основан на рассмотрении всего пространства строк, не совпадающих с множеством «своих». Схема алгоритма приведена на рис. 6.
Введем понятие шаблона строки 1^8,, т.е. строки, в которой, начиная с символа
і, должна находиться подстрока э (і є {1,..., І — г +1} ).
( Конец )
Рис. 6. Динамический алгоритм генерации детекторов
При подсчете количества несовпадений правых дополнений шаблонов используется следующий принцип: если шаблон содержится в «своих», то 0, иначе -сумма несовпадений правых дополнений для шаблона следующего уровня, где совершена одна подстановка справа.
В блоке выбора первичного поддерева осуществляется выбор из вершин 1-ого яруса, упорядоченных по порядковым значениям строк э, связанных с ними. Диапазон «проваливания» в то или иное дерево выбирается следующим образом:
Р е (Х X где 1 е [1,2Г]. (3)
5 < 5, 5 <= 5,
Сложность алгоритма. Приведенный алгоритм имеет сложность, линейно зависимую от размера «своего» и Г:
О((1 - г)* ) + О((1 - г) * 2г) + О(1 * Ыг). (4)
При этом данный алгоритм имеет следующие требования по памяти:
О((1 - г)2 * 2г). (5)
Число генерируемых детекторов можно ограничить снизу следующим выражением для выбранных вероятностей утечки (так как РА для динамического
метода = 1):
- ln<PfУР , (6)
/ M
где Pf - вероятность отсутствия обнаружения произвольного антигена сформированным репертуарным множеством детекторов.
Результаты апробации. Для проверки применимости изложенного выше подхода к построению систем обнаружения утечек корпоративной информации, на его основе была реализована программная подсистема. Были реализованы три базовых модуля подсистемы:
♦ модуль сбора и предобработки информации для поведенческого анализа;
♦ модуль обнаружения изменений в поведении сотрудников;
♦ модуль визуализации динамики поведения пользователей.
Разработанная подсистема прошла апробацию в информационной среде
ОСАО «Ингосстрах». Опытная эксплуатация подсистемы показала применимость и эффективность предложенного подхода для обнаружения ранее неизвестных утечек, относящихся к классу задач обнаружения несанкционированной работы в рамках разрешенного доступа к корпоративным данным. Это обусловлено тем, что система осуществляет контроль не за конкретными признаками нарушений, а обнаруживает отклонение от нормы в целом.
К ограничениям реализации относится то, что при малом потоке данных надежность результатов анализа существенно снижается. Это приводит к ограничению ее применимости крупными организациями (с размерами ролевых кластеров не менее 5-ти человек).
Отметим, что рассмотренный в этой статье подход не является полным решением проблемы информационной безопасности предприятия, так как, хотя и позволяет постфактум определять каналы утечки информации в результате ИА, однако не предотвращает собственно описанный вид утечек.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Дасгупта Д. Искусственные иммунные системы и их применение / Пер. с англ. под ред. А .А. Романюхи. - М.: ФИЗМАТЛИТ, 2006. - 344 с.
2. Dasgupta D. and others Artificial Immune System Research in the Last Five Years. The University of Memphis, Memphis, TN. 38152, 2003.
3. Литвиненко В.И. и др. Гибридная иммунная сеть для решения задач структурной идентификации // Научная сессия МИФИ - 2005. Сборник научных трудов. - М.: МИФИ, 2005. - Ч.2: VII Всероссийская научно-техническая конференция "Нейроинформатика-2005". - С. 143-155.
4. Jerne N.K. Towards a Network Theory of the Immune System // Ann. Immunol. (Inst. Pasteur), 1974. - 125 с.
5. Dhaeseleer P. An Immunological Approach to Change Detection: Theoretical Results. In Proceedings of the 9th IEEE Computer Security Foundations Workshop. IEEE Computer Society Press, 1996.
6. Forrest S., Perelson A. and others A Change-Detection Algorithm Inspired by the Immune System. Submitted to IEEE Transactions on Software Engineering, IEEE Computer Society Press, 1995.
7. Чубукова И.А. Data Mining: учебное пособие - 2-ое издание. исправ. - М.: Интернет-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2008. - 382 с.
8. Open Security Foundation's DataLossDB, 2005. - http://datalossdb.org
9. Katheleen A. Jackson Intrusion detection system (СОВ). Los Alamos, New Mexico USA. 1999. - 106 c.
Гаврилов Александр Викторович
Национальный Исследовательский Ядерный Университет «МИФИ». Email: [email protected].
115409, г. Москва, Каширское шоссе, 31.
Тел.: 84953239326.
Тихомиров Александр Владимирович
Email: [email protected].
123557, г. Москва, ср. Тишинский пер., 16, кв. 18. Тел.:+79035273776.
Gavrilov Alexander Viktorovich
National Research Nuclear University “MEPHI”.
E-mail: [email protected].
31, Kashirskoe sh., Moscow, 115409, Russia.
Phone: +74953239326.
Tikhomirov Alexander Vladimirovich
E-mail: [email protected].
16, ap. 18, sr. Tishinskiy per. street, Moscow, 123557, Russia.
Phone: +79035273776.
УДК 621.391
М.И. Дулин
ИССЛЕДОВАНИЕ ВЗАИМОКОРРЕЛЯЦИОННЫХ СВОЙСТВ СИСТЕМЫ ФУНКЦИЙ УОЛША, НА ОСНОВЕ МОДЕЛИ LABVIEW
Рассматриваются вопросы исследования взаимокорреляционных свойств системы функций Уолша. Автором предлагается разработанная в среде LabView 8.2 модель системы связи с когерентным приемом. Оценено влияние на помехоустойчивость системы кор-релированности функций Уолша.
Функции Уолша; взаимокорреляционные свойства системы функций Уолша; цифровая связь; ортогональное разделение; вероятность ошибки.
M.I. Dulin RESEARCH OF MUTUAL CORRELATION PROPERTIES OF SYSTEM OF FUNCTIONS WALSH ON BASED MODEL LABVIEW
Questions of research of mutual correlation properties of system of functions Walsh are considered in article. Developed by the author in the environment of LabView 8.2 model of a communication system with coherent reception is offered. Influence on a noise stability of system of mutual correlation properties of functions Walsh is estimated.
Functions Walsh; mutual correlation properties of system of functions Walsh; digital communication; orthogonal division; probability of an error.
Средства беспроводной связи в последнее время все шире используются в сетях передачи информации, все актуальнее становится дальнейшее повышение скорости и объема передачи данных в таких сетях. Один из способов повышения пропускной способность канала связи, это применение, так называемых, MIMO-технологий (Multiple Input - Multiple Output, множественный вход - множественный выход). И, хотя существующие воплощения MIMO-идеи пока не всегда заметно ускоряют трафик на небольших расстояниях от точки доступа, уже доказано, что на больших удалениях они весьма эффективны. MIMO-принцип позволяет уменьшить число ошибок при радиообмене данными (BER) без снижения ско-