Научная статья на тему 'Функциональная модель системы распознавания разрушающих программных средств на основе скрытых марковских моделей'

Функциональная модель системы распознавания разрушающих программных средств на основе скрытых марковских моделей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
208
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНТИВИРУСНАЯ ЗАЩИТА / РАЗРУШАЮЩИЕ ПРОГРАММНЫЕ СРЕДСТВА / СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ / КЛАСТЕРИЗАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мацкевич А. Г., Кузьмин А. Л., Козачок А. В.

Рассмотрены системы распознавания разрушающих программных средств на основе скрытых марковских моделей, подробно рассмотрена функциональная модель системы распознавания и приведены результаты оценки ее эффективности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мацкевич А. Г., Кузьмин А. Л., Козачок А. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FUNCTIONAL MODEL FOR MALWARE RECOGNITION SYSTEM BASED ON HMM

The malware recognition systems based on hidden markov models are observed, its functional model and efficiency test are resulted.

Текст научной работы на тему «Функциональная модель системы распознавания разрушающих программных средств на основе скрытых марковских моделей»

Полноценная реализация организационного обеспечения ликвидации ЧС (планов помещений, спасательного оборудования и т. д.) обеспечивается оперативным обновлением информации о появлении на объекте первичных средств ликвидации ЧС.

Унификация протоколов обмена информацией на межсегментном уровне позволит реализовать систему безопасности несколькими разработчиками, без затруднений в межподсистемном взаимодействии при обмене информацией.

Список литературы

1. Концепция комплексной системы обеспечения безопасности жизнедеятельности населения / С.К. Шойгу, Р.Г. Нургалиев, А.В. Бортников, 2010, 14 с.

Y. V. Sedelnikov, A.A. Sychugov

SEGMENTS OF THE COMPREHENSIVE SECURITY SYSTEM IN THE IMPLEMENTATION OF INFRASTRUCTURE PROJECTS

The concept of an infrastructure project, the features of organization of system of complex security in the implementation of infrastructure projects is concidered. Once-developed model segments, are constructed the requirements and features of realization, are discussed the advantages of the proposed approach are propound.

Key words: infrastructure project, the comprehensive system of safe-sti, segments, protocols of information exchange.

Получено 16.09.11

УДК 004.056.57

А. Г. Мацкевич, канд. техн. наук, (4862) 549933, (Россиия, Орел, Академия ФСО),

А. Л. Кузьмин, нач. научно-исследовательской лаб., (4862) 549726, (Россиия, Орел, Академия ФСО), А. В. Козачок, инж., (4862) 549725, totrin@list.ru (Россиия, Орел, Академия ФСО)

ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ СИСТЕМЫ РАСПОЗНАВАНИЯ РАЗРУШАЮЩИХ ПРОГРАММНЫХ СРЕДСТВ НА ОСНОВЕ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ

Рассмотрены системы распознавания разрушающих программных средств на основе скрытых марковских моделей, подробно рассмотрена функциональная модель системы распознавания и приведены результаты оценки ее эффективности.

Ключевые слова: антивирусная защита, разрушающие программные средства, скрытые марковские модели, кластеризация.

Задача по обеспечению информационной безопасности является одной из наиболее приоритетных при построении и эксплуатации автоматизированных систем. Среди множества угроз, существующих в настоящее

245

время, одной из наиболее опасных является угроза заражения разрушающими программными средствами (РПС), основными направлениями действий которых являются:

- модификация (удаление) данных;

- кражу конфиденциальной информации;

- затруднение функционирования или выведение из строя операционной системы.

Существует большое множество различных механизмов и подходов к обнаружению РПС, среди них наиболее распространенными являются: сигнатурный поиск (выявление вредоносного кода по последовательности байт, однозначно характеризующего его); эвристический поиск (выявление потенциально опасного кода по некоторым косвенным признакам, характеризующего его как вредоносного); "проактивные" механизмы, выявляющие выполнение процессами запрещенных операций (например, обращение в критические области памяти или внедрение исполняемого кода в другие процессы); поведенческие блокираторы (выявление аномального поведения пользователя (процесса) на основе его профиля). Общими недостатками всех представленных выше механизмов являются ограниченная возможность распознавания новых и модифицированных вирусов и необходимость вовлечения пользователя в процесс принятия решения о принадлежности файла к определенному классу.

Развитием эвристических механизмов распознавания РПС является структурный стохастический способ [1]. Суть данного подхода заключается в моделировании процесса порождения машинного кода различных классов программ (в частности, незараженных файлов и файловых вирусов) с помощью стохастических грамматик.

При этом были заданы два формальных языка: Ь(01), порождающий предложения (цепочки машинных команд) Т1, представляющие собой класс незараженных разрушающим программным кодом файлов, и язык Ь(02), порождающий предложения Т2, содержащие вредоносный код (файловые вирусы). Распознавание заключалось в процедуре оценки вероятности порождения исследуемой, выделенной из анализируемого файла, последовательности машинных команд каждой грамматикой и по критерию максимального правдоподобия принималось решение о принадлежности файла к определенному (наиболее вероятному) классу.

Программная реализация механизма стохастического структурного распознавания РПС позволила провести экспериментальные исследования эффективности распознавания, а также выявить основные его недостатки. На рис. 1 представлены зависимости оценок вероятностей ошибок первого и второго рода от длины анализируемой последовательности при распознавании.

Рис. 1. Зависимость ошибки первого рода и второго рода от длины анализируемой последовательности машинных команд при распознавании файловых вирусов

Из анализа графиков видно, что основным недостатком данного подхода является высокая вероятность ложных срабатываний равная 0,05 (при длине анализируемой последовательности 200 машинных команд), обусловленная усредненностью класса незараженных файлов (вероятность ошибки второго рода при этом составила 0,03). Также к недостаткам следует отнести невозможность распознавания принципиально нового машинного кода (новых классов или подклассов вирусов) и необходимость определения в процессе обучения выборок файлов, относящихся к строго определенному классу (например, файловые паразитические вирусы, текстовые редакторы, шифраторы файлов, аудио кодеки и др.), что в реальных условиях практически невозможно.

Одним из путей повышения эффективности структурного механизма распознавания РПС является введение процедуры внутриклассовой кластеризации цепочек машинных команд, которая позволит избавиться от усредненности классов машинного кода. В этом случае модели кластеров будут описывать более тонкие структуры, т. е. файлы со схожими свойствами, что приведет к снижению значений вероятностей ошибок первого и второго рода.

Для модификации стохастического структурного механизма распознавания РПС предложен механизм распознавания РПС на основе скрытых марковских моделей, который позволяет решить следующие задачи:

1) произвести автоматическую внутриклассовую кластеризацию цепочек машинных команд, выделенных из файлов обучающих выборок соответствующего класса;

2) сформировать модели каждого кластера программного кода в процессе обучения;

3) разработать процедуру распознавания класса машинного кода, к которому принадлежит исследуемый файл.

Решение задачи построения системы распознавания РПС на основе скрытых марковских моделей (СММ) включает в себя два этапа:

1) обучение множества СММ, задающих кластера машинного кода зараженных и незараженных файлов (подсистема обучения);

2) расчет правдоподобия порождения данными СММ некоторой последовательности машинных команд, выделенной из анализируемого файла, и принятия решения о принадлежности данного файла к определенному кластеру (подсистема распознавания). Значение правдоподобия характеризует возможность порождения анализируемых данных исследуемой моделью.

На рис. 2 представлена функциональная модель системы распознавания РПС на основе СММ.

Для обучения системы распознавания необходимо сформировать две выборки исполняемых файлов: незараженных файлов и вирусов, при этом каждая из выборок должна удовлетворять требованию репрезентативности. Для оценки эффективности системы распознавания подготавливается контрольная выборка, состоящая из файлов, не принадлежащих к множеству обучающих выборок и являющихся незараженными, для оценки вероятности ошибок первого рода, и зараженными разрушающим программным кодом, для оценки вероятности ошибок второго рода.

На этапе предварительной обработки из поступающих на вход системы исполняемых файлов производится выделение цепочек машинных команд, в семантическом смысле характеризующих их функциональное предназначение. Для блока обучения необходимо выделение цепочек машинных команд из всего множества файлов репрезентативной обучающей выборки. Для блока распознавания необходимо выделение цепочки из поступившего на вход системы распознавания файла.

Рассмотрим подробнее процесс обучения, он включает в себя три основных этапа:

1) обучение множества скрытых марковских моделей по алгоритму Баума - Уэлча;

2) построение матрицы межкластерных расстояний;

3) кластеризация и обучение моделей полученных кластеров.

На первом этапе процесса обучения для каждой выделенной цепочки машинных команд задается СММ 1 = (A, B, р), где A - распределение переходных вероятностей (изменения состояний); B - распределение веро-

ятностей наблюдаемых значений; к - распределение вероятностей начальных состояний. Под состояниями будем понимать скрытые состояния СММ, под наблюдаемыми значениями - последовательность из идентификаторов машинных команд (цепочка машинных команд).

Рис. 2. Функциональная модель системы распознавания РПС на основе СММ

Далее производится обучение модели по алгоритму Баума - Уэлча (БУ), являющийся модификацией алгоритма обучения Expectation Modification (ЕМ). Он предназначен для решения задачи фильтрации в аспекте СММ (поиск модели максимального правдоподобия). Данный алгоритм позволяет подобрать такие значения параметров А, В, и, при которых максимизируется правдоподобие порождения анализируемой цепочки данной моделью. Алгоритм БУ представляет собой итеративную процедуру поиска локального максимума (градиентный подъем). Результатом данного этапа обучения являются N СММ (кластеров) по числу цепочек в репрезентативной обучающей выборке.

На втором этапе производится расчет матрицы межкластерных расстояний. Исходя из определения СММ [2] для расчета расстояний между моделями можно воспользоваться мерами для определения близости распределений вероятностей. Для построения матрицы межкластерных расстояний было выбрано расстояние Кульбака - Лейблера (относительная энтропия) [3].

Данное расстояние является мерой того, насколько далеки друг от друга два вероятностных распределения. Однако оно не является метрикой на пространстве распределений вследствие несимметричности. Для преодоления данного недостатка была выбрана процедура симметризации расстояния по схеме «среднего сопротивления» (Resistor Average), которая дает наименьшую среднюю ошибку при использовании оптимального байесовского классификатора [4].

Результатом второго этапа обучения является матрица размером N х N заполненная значениями симметризованных расстояний КЛ, рассчитанными попарно между всеми моделями кластеров относительно последовательностей, на которых производилось обучение моделей.

На последнем этапе обучения производится выделение схожих кластеров по принципу минимизации межкластерного расстояния по матрице, полученной на втором этапе. Затем производится повторное обучение СММ l = (A, B, p) по вновь образованным кластерам на цепочках машинных команд, объединенных в один кластер. На данном этапе возможно управление числом кластеров, исходя из ограничений, указанных исследователем.

Результатом процедуры обучения являются N моделей кластеров, хранящихся в базе данных, каждая из которых задана СММ.

Процедура распознавания включает в себя два основных этапа:

1) расчет правдоподобия порождения цепочки каждым из кластеров по алгоритму прямого хода;

2) выбор кластера по критерию максимального правдоподобия.

На первом этапе на вход системы распознавания поступает выделенная из анализируемого файла цепочка машинных команд. Затем производится расчет правдоподобия порождения данной последовательности машинных команд каждой СММ из базы моделей кластеров на основе алгоритма прямого хода [2].

На втором этапе по критерию максимального правдоподобия производится выбор кластера и принимается решение о принадлежности анализируемого файла к определенному классу программ.

Программная реализация механизма распознавания РПС на основе СММ позволила добиться существенного снижения значений оценок вероятностей ошибок первого и второго рода по сравнению со структурным стохастическим механизмом. При этом оценка вероятности ложных срабатываний составила порядка 0,005, оценка вероятности пропуска цели -0,007, при длине анализируемой последовательности 90 машинных команд и 5 скрытых состояний СММ.

В заключение необходимо отметить, что, несмотря на значительное уменьшение ошибок первого рода в процессе распознавания, остается нерешенной задача выбора рациональных значений длины оцениваемой последовательности и числа скрытых состояний, а также выбор числа кла-

стеров. Решение данных задач является направлением дальнейших исследований.

Список литературы

1. Мацкевич А.Г., Козачок В.И. Математическая модель системы стохастического структурного распознавания файловых вирусов // Безопасность информационных технологий. М: Изд-во МИФИ, 2007. Вып. 3. С. 44-50.

2. Рабинер Л. Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: обзор // ТИЭР. 1989. Вып. 2. Том 77. С. 86-102.

3. Кельберт М. Я., Сухов Ю. М. Вероятность и статистика в примерах и задачах. Т. II. Марковские цепи как отправная точка теории случайных процессов и их приложения. М: Изд-во МЦНМО, 2009. 571 с.

4. Don H. Jonson, Sinan Sinanovic Symmetrizing the Kullback-Leibler distance // IEEE Trans. on Comm. Tech. 2007.

A.G. Matskevich, A.L. Kuzmin, A.V. Kosachok

FUNCTIONAL MODEL FOR MALWARE RECOGNITION SYSTEM BASED ON

HMM

The malware recognition systems based on hidden markov models are observed, its functional model and efficiency test are resulted.

Key words: virus protection, malware, hidden markov models, clustering.

Получено 16.09.11

УДК 681.3

А.В. Бабич, асп., 8-920-273-25-34, babich@tula.ru (Россия, Тула, ТулГУ), Г.Б. Берсенев, канд. техн. наук, доц., (4872) 33-24-45, bersgen@gmail.com (Россия, Тула, ТулГУ)

АЛГОРИТМЫ ДИНАМИЧЕСКОЙ БАЛАНСИРОВКИ НАГРУЗКИ В РАСПРЕДЕЛЕННОЙ СИСТЕМЕ АКТИВНОГО МОНИТОРИНГА

Рассматриваются вопросы создания распределенных систем активного мониторинга, использующих свободные ресурсы серверов корпоративной сети. Предложены алгоритмы локальной и многоуровневой балансировки нагрузки, приведены результаты исследования эффективности алгоритма локальной балансировки.

Ключевые слова: корпоративная сеть, активный мониторинг, SNMP, распределенная система, балансировка нагрузки.

В настоящее время компьютерные сети предприятий и организаций включают в себя множество различных элементов, в том числе сетевое

251

i Надоели баннеры? Вы всегда можете отключить рекламу.