ОБОСНОВАНИЕ ВЫБОРА СПОСОБА ПОИСКА ПРИЗНАКОВ КОМПЬЮТЕРНЫХ АТАК В СЛОВАРЕ ПРИЗНАКОВ

Гончаров Е.С.; Тухватуллин Р.Т.; Единархова А.О.

Гончаров Е.С., к.т.н. старший преподаватель Тухватуллин Р.Т.

преподаватель Единархова А.О. инженер УКП ВКА им. А.Ф.Можайского Россия, г. Санкт-Петербург ОБОСНОВАНИЕ ВЫБОРА СПОСОБА ПОИСКА ПРИЗНАКОВ КОМПЬЮТЕРНЫХ АТАК В СЛОВАРЕ ПРИЗНАКОВ Аннотация: В статье приводится сравнение различных способов поиска признаков компьютерной атаки в словаре признаков.

Ключевые слова: компьютерные атаки, способ поиска, последовательный поиск, упорядоченный словарь, бинарный поиск, лучевой поиск, хэш-адресация

Анализ литературы по исследуемому вопросу, в частности [1, 2, 3], показывает, что основным методом поиска признаков в словаре является последовательный способ. К его достоинствам следует отнести то, что сравнение отобранного признака с эталонным в словаре осуществляется позначно по всей длине (это при искажениях отдельных знаков позволяет принимать то или иное решение по результатам поиска с некоторой доверительной вероятностью (оценка осуществляется на интервале)): при этом снижается величина вероятности пропуска компьютерной атаки (КА), но возрастает величина вероятности ложной тревоги. Наряду с указанным достоинством последовательный способ обладает и существенным недостатком, связанным со значительными затратами времени на поиск, что при больших объемах словаря признаков, например, содержащих сотни тысяч элементов (что при исследовании потока входной информации по структуре вполне оправдано), не позволяет осуществлять анализ и оценку в реальном масштабе времени.

Оценим соотношение временных затрат для различных способов поиска в словаре признаков. Предположим, что число признаков в словаре признаков составляет N. Тогда для случая последовательного способа поиска предельное количество шагов, в результате которых будет проанализирован весь объем словаря, составит [4]: с _ N +1

посл 2 . (1) Из литературы, в частности [4], известно, что наибольший эффект в смысле быстродействия при последовательном поиске обеспечивается за счет применения упорядоченных словарей признаков. В этом случае выражение (1) примет вид: _ N + 2

^посл о

3 . (2)

Последовательные способы поиска, рассмотренные выше, по сути, имеют только два варианта ветвления поиска - в зависимости от выполнения

К = N.

или не выполнения условия г.

Рассмотрим способ поиска, основанный на линейном упорядочении ключей. После сравнения данного признака К с признаком N1 из словаря поиск продолжается одним из трех путей, в зависимости от того, какое из

условий - К < N^'К = N^ или К > N^ - истинно. Данный способ поиска получил название бинарный поиск [4]. Суть бинарного поиска состоит в следующем. Признак К сравнивается со средним признаком в словаре признаков, в результате этого сравнения определяется половина словаря признаков, в которой находится искомый признак, и снова применяется та же процедура к половине словаря признаков. Согласно [4] бинарный поиск никогда не делает шагов более чем:

Оин = (N) + 1. (3)

Далее рассмотрим способ поиска, использующий представление словаря признаков в виде последовательности знаков.

Рассмотрим способ поиска, получивший название «лучевой поиск».

На первом шаге сравнивается первый знак анализируемого признака с первыми знаками N признаков словаря. Признаки в словаре, у которых первый знак не совпал, на втором шаге не анализируются, иными словами, по второму знаку сравниваются лишь те признаки, у которых совпал первый знак. Среднее количество шагов для данного способа поиска, согласно [4], составляет:

СЛуч = 1в (N) +1.33275. (4)

Существенно сократить время поиска в словаре можно путем разработки специальных мер повышения скорости поиска; вопросы создания эффективных алгоритмов обсуждаются, в частности, в [4]. В общем случае все способы сокращения времени поиска сводятся к переходу от последовательного поиска по списку (словарю) к поиску по содержанию (иными словами, по той структуре комбинации знаков, которые формируют признак).

Поиск по содержанию отличается от обычного поиска тем, что адрес в словаре признаков определяется структурой комбинации знаков, его образующих или, другими словами, адрес ассоциируется с содержанием [5].

Не останавливаясь на рассмотрении процедур упорядоченного поиска, базирующихся на рассмотренных выше метрических критериях, кратко остановимся на принципах хэш-адресации.

Сущность способа заключается в преобразовании структуры признака (ключа поиска) в адрес, по которому записан либо сам признак, либо метка отбора для систем автоотбора. Вопросы выбора хэш-функций, преобразующих ключи поиска в адреса, изложены, в частности, в [4], однако рассматриваемые там способы хеширования ориентированы на

вычислительные устройства со значительными объемами памяти.

Один из возможных способов хеширования базируется на представлении исходного ключа в виде числа с последующим делением этого числа на некоторое число, а остаток от деления интерпретируется в качестве хэш-адреса. Количество возможных адресов определяется значением выбранного числа-делителя. Во множестве целых чисел наиболее целесообразно использование в качестве делителя простого числа или числа, разлагаемого на небольшое количество сомножителей, каждый из которых не менее 20 [4].

В простейшем случае словарь признаков может состоять из 21 (где l -степень полинома-делителя) однобитовых ячеек памяти, содержащих метки разрешенных и запрещенных структур комбинаций. В процессе формирования словаря признаки хешируются путем деления на задаваемый полином, по полученным хэш-адресам записываются метки.

В общем случае под хэш-функцией будем понимать функцию, определенную на множестве структур комбинаций признаков и отображающую их на номера строк словаря признаков (число строк полагаем заданным и равным, например, N). Если (d) означает произвольную структуру комбинации признаков; (i) - номер строки словаря, а f - хэш-функцию, то отображение, реализуемое хэш-функцией, условно можно записать в виде формулы:

i = f ( d ).

Хэш-функции могут быть различными. В частности, хэш-функцию можно построить так. Предположим, что число знаков, применяемых при написании структур комбинации признаков, равно (m). Через (d) обозначим число, образуемое цифрами, отражающими в некотором порядке символы алфавита структуры комбинации признаков в (т)-ичной системе счисления. Тогда в качестве хэш-функции можно, например, взять:

f (d) = ([d] mod N) +1

где: N - число строк словаря.

Предлагаемый способ не требует дополнительных затрат времени на просмотр всего словаря признаков, объем последнего может быть практически любым, процедура хеширования выполняется в реальном масштабе времени в темпе поступления признакового пространства, что и является достаточным условием для применения способа к обнаружению КА, использующего анализ и оценку структур комбинаций признаков (структур признаков).

Необходимым условием применения рассматриваемого способа является обоснованный, с точки зрения минимизации величин вероятностей пропусков (а) и ложных тревог (в), выбор словаря признаков как по объему (форма), так и по содержанию.

Вопрос выбора объема словаря связан с понятием коэффициента заполнения при хешировании, который является отношением количества

размеру словаря,

занимаемых ключами хэш-адресов к потенциальному определенному степенью полинома-делителя:

к - ^

2 ,

степень полинома-делителя; W - количество

(5)

ключей

где: 1 -(признаков).

В [4] показано, что величина коэффициента заполнения должна выбираться в пределах 0.2...0.5. При меньших значениях снижается эффективность использования памяти, при больших - возрастают трудности обеспечения не повторяемости хэш-адресов.

Для данного способа среднее количество шагов поиска может быть определено [4]:

С -

хэш

(л М - 1 ^ 1 +-

^ М - N )

(6)

где: М - объем памяти словаря признаков.

Проведем сравнительный анализ рассмотренных способов поиска в словаре признаков. Пусть объем словаря признаков составляет 10 000 (К = 10 000), а объем памяти словаря признаков 14 000 (М = 14 000). Сравнительный анализ временных затрат (или количества итераций) на поиск признаков в словаре различными способами представлен на рис.

5000 4500 4000 3500 3000 2500 2000 1500 1000 500 0

□ последовательный

□упорядоченный словарь

□бинарный

□лучевой

]ХЭШ

Рис. 1. Сравнительный анализ временных затрат на поиск признаков в словаре различными способами

Из гистограмм, представленных на рис. 1 видно, что наименьшие временные затраты при поиске в словаре признаков имеет способ, основанный на использовании хэш-функции. График зависимости временных затрат при поиске в словаре признаков различными способами от

объема словаря признаков представлен на рис. 2.

Для того чтобы установить возможность практического использования способа хеширования, рассмотрим его недостатки. Один из них заключается в том, что различные структуры признаков (комбинаций признаков) могут давать одинаковые хэш-адреса; такое состояние называется коллизией.

С 1 -ю4

1 -10

100

10

""Т

г—="~

0 / *

¿И

оследовательныи

порядоченныи

10

100

1 103М

1 -10

Рис. 2. Зависимость временных затрат при поиске в словаре

признаков

различными способами от объема словаря признаков

В результате моделирования процессов хеширования структур признаков (комбинаций признаков) различной длительности [6] получены гистограммы частости возникновения коллизий при различных объемах словаря и варьировании коэффициента заполнения. Анализ результатов моделирования показал весьма близкий к линейному росту частости коллизий с увеличением коэффициента заполнения, причем тенденция роста и характер зависимости практически одинаковы для различных методов хеширования.

Пути разрешения коллизий обсуждаются, в частности, в [4].

Таким образом, результаты сравнения способов поиска признаков в словаре для обнаружения КА позволяют утверждать, что, наиболее применимым, с точки зрении снижения временных затрат, является способ поиска, основанный на использовании хэш-функций.

Использованные источники:

1. Лукацкий А. В. Обнаружения атак. - СПб.: БХВ-Петербург, 2001. - 624 с.

2. Гончаров Е.С., Тараскин М.М. Сравнительный анализ подходов к обнаружению компьютерных атак.

3. Корт С. С. Теоретические основы защиты информации. - М.:Гелиус-АРВ, 2004. - 233 с.

4. Кнут Д. Искусство программирования для ЭВМ. В семи томах. Т.3. Сортировка и поиск. Пер. с англ. - М.: Мир, 1978. - 848 с.

5. Кохонян Т. Ассоциативные запоминающие устройства. Пер. с англ. - М.: Мир, 1982. - 384 с.

6. Тараскин М.М. Модель распознавания радиоразведывательной обстановки. Тезисы доклада./ Материалы Всероссийской научной конференции. Ч.1. - Орел: ВИПС, 1997. - 2 с.

Гончаров Е.С., к.т.н. старший преподаватель Тухватуллин Р.Т.

преподаватель Единархова А.О. инженер УКП ВКА им. А.Ф.Можайского Россия, г. Санкт-Петербург ПОДХОД К ПОСТРОЕНИЮ ПЕРСПЕКТИВНЫХ СИСТЕМ ПОИСКА ИНФОРМАЦИИ ИЗ ОТКРЫТЫХ ИСТОЧНИКОВ, В ЧАСТНОСТИ СЕТИ INTERNET Аннотация: В статье изложен подход к построению поисковых систем, способных осуществлять поиск разноплановой информации для удовлетворения запросов пользователей.

Ключевые слова: поисковые системы, метапоисковые системы, многоагентные системы.

На сегодняшний день известны системы способные выполнять поиск материала и его сортировку по запросу потребителя (поисковые системы). Поиск материала несколькими поисковыми системами и его ранжирование в соответствии с запросом потребителя (метапоисковые системы). Пример метапоисковой системы (МПС) представлен на рис. 1.

ОБОСНОВАНИЕ ВЫБОРА СПОСОБА ПОИСКА ПРИЗНАКОВ КОМПЬЮТЕРНЫХ АТАК В СЛОВАРЕ ПРИЗНАКОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гончаров Е.С., Тухватуллин Р.Т., Единархова А.О.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гончаров Е.С., Тухватуллин Р.Т., Единархова А.О.

Текст научной работы на тему «ОБОСНОВАНИЕ ВЫБОРА СПОСОБА ПОИСКА ПРИЗНАКОВ КОМПЬЮТЕРНЫХ АТАК В СЛОВАРЕ ПРИЗНАКОВ»