ных медиа, и, в частности, все более актуализируется проблема измерения репутации в социальных медиа.
Вследствие чего возникают задачи сбора актуальной информации во Всемирной сети о какой-либо компании, ее анализе и принятии на этой основе выводов по репутации компании [2].
Своевременный автоматизированный мониторинг информации позволяет оперативно обнаруживать источники распространения информации и, при необходимости, ее блокировать. Также с помощью мониторинга происходит отслеживание неправомерного распространения корпоративной информации, а также быстрое обнаружение фактов ненадлежащего поведения сотрудников в Интернете.
В настоящее время существует множество поисковых программ в сети Интернет, способных по запросу аналитика выдавать достаточно большие массивы данных по интересующей аналитика организации или фирме. Однако найденную информацию нужно еще и проанализировать, отсеять лишнее, выбрать наиболее значимое. При увеличении объема найденной информации сделать эту работу человеку за достаточно короткий срок и качественно становится сложнее. Таким образом, возникают актуальные задачи по автоматизации процессов анализа контентной информации с целью поиска взаимосвязей между массивами информации, ее источников и уровня доброжелательности.
На сегодняшний день существуют коммерческие разработки, направленные на оценку репутации бизнеса. Однако подобных продуктов в России совсем немного, можно сказать, единицы. И строятся они на применении методов лингвистического анализа, т. е. ищется источник, оценивается его контентная составляющая и делается вывод о наличии негативной либо позитивной информации.
Применение подобных систем не позволяет найти взаимосвязь между источниками информации, так как
выводы делаются на простом превышении «пороговых» значений. Между тем, источник на самом деле может быть один - просто он «размножает» свои «высказывания» в социальных сетях, на нескольких сайтах, в различных блогах и т. д., а система оценки рассматривает каждый источник по отдельности. Применение интеллектуальных методов поиска, распознавания и оценки позволит избежать данной проблемы, так как на найденных ресурсах текст не просто распознается и оценивается уровень позитива или негатива в написанных предложениях, но и ищутся взаимосвязи между источниками, пересечение их на других ресурсах и т. д.
Для построения подобных систем необходимо не только провести анализ возможных источников информации, но и выбрать адаптивный метод поиска сетевых ресурсов, так как от эффективности поискового алгоритма будет зависеть и качество получаемой для анализа информации. На данный момент ведутся разработки в области построения поискового алгоритма с последующим включением его в систему анализа контентной информации.
Библиографические ссылки
1. Перегудов Ф. И., Тарасенко Ф. П. Основы системного анализа (framework for system analysis). Томск, 2001.
2. Randall F., Farmer B. Glass Web reputation systems. USA, 2010. 316 p.
References
1. Peregudov F. I. Tarasenko F. P. Osnovy systemnogo analiza (framework for system analysis). Tomsk, 2001.
2. Randall F. Farmer, B. Glass, Web reputation systems. USA, 2010. 316 p.
© Силина И. С., 2013
УДК 004.056
О ВЫБОРЕ ФУНКЦИИ РАССТОЯНИЯ В ЗАДАЧЕ ПРЕЦЕДЕНТНОГО ОБНАРУЖЕНИЯ ИНЦИДЕНТОВ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ*
М. М. Соколов
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Россия, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 E-mail: [email protected]
Исследуется влияние функций нахождения расстояния и использование весовых коэффициентов на эффективность работы системы прецедентного обнаружения инцидентов информационной безопасности. Для оценки эффективности функций нахождения расстояния используется статистический анализ, основанный на сопоставлении результатов прецедентного обнаружения с использованием различных функций нахождения расстояния. С помощью регрессионного анализа выведены весовые коэффициенты, улучшающие точность определения расстояния между прецедентами информационной безопасности.
Ключевые слова: инцидент, прецедент, функция нахождения расстояния.
*Работа поддержана грантом Президента молодым кандидатам наук, договор № 14.124.13.473-МК от 04.02.2013.
Решетневскуе чтения. 2013
ABOUT CHOICE OF THE DISTANCE FUNCTION IN THE PROBLEM OF PRECEDENT DETECRION INFORMATION SECURITY INCIDENTS
M. M. Sokolov
Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russia E-mail: [email protected]
The influence of the functions of calculating the distance and the influence of the weight coefficients on the effectiveness of the system of the precedential detection and information security incidents analysis are researched. To evaluate effectiveness of the functions of calculating the distance there are statistic analysis used. The analysis is based on a comparison of the results of precedential detection using the functions of calculating the distance. The weight coefficients are calculated using regression analysis. These coefficients increase the accuracy of determining the distance between the precedents of information security.
Keywords: incident, precedent, function of the calculating the distance.
Задача обнаружения инцидентов [1] является задачей классификации - разбиения множества инцидентов на априорно заданные группы, внутри каждой из которых инциденты имеют примерно одинаковые свойства и признаки. Решение данной задачи возможно с помощью прецедентного анализа. В основе метода лежит оценка расстояния между всеми наблюдениями в и-мерном пространстве признаков. Для повышения эффективности алгоритма прецедентного анализа необходимо оценить влияние различных метрик определения расстояний между объектами на его работу.
В целом некоторые инциденты информационной безопасности могут характеризоваться одинаковым набором параметров, но для каждого инцидента он может быть уникален. Инциденты можно классифицировать по своей природе: несанкционированный доступ к информации, атака по сети передачи данных, физический доступ к носителям информации, нарушение целостности информации и т. д. Инциденты, находящиеся в одном классе, имеют определенные интервалы значений параметров. С помощью данных интервалов определяется, к какому классу принадлежит инцидент. Также не исключается вероятность появления аномального инцидента, значения параметров которого лежат в интервалах данного класса.
Для снижения вероятности возможной ошибки в расчетах, метод прецедентного обнаружения инцидентов информационной безопасности должен состоять в общем случае из двух этапов:
1) определение принадлежности инцидента к классу. С помощью метрики без весовых коэффициентов, рассчитывается расстояние до всех классов инцидентов, и выбирается наиболее близкий;
2) определение наиболее близких прецедентов. С помощью метрики с весовыми коэффициентами, определяется набор похожих прецедентов. Так как класс инцидента известен, использование метрики
с весовыми коэффициентами позволяет более точно определить круг близких прецедентов, так можно увеличить или уменьшить значимость конкретных параметров инцидента.
Большое количество функций нахождения расстояния не позволяет с уверенностью утверждать, что одна конкретная метрика является наилучшей для прецедентного анализа. Также нельзя утверждать, что классы инцидентов информационной безопасности не могут иметь схожие интервалы параметров инцидента.
Выбор метрики основывается на результатах статистического анализа. Очевидно, более подходящей метрикой нужно считать ту, для которой процентное соотношение аномальных прецедентов в классе минимально по отношению к другим метрикам. Так, выбранная метрика может являться динамическим параметром алгоритма, меняющимся в зависимости от анализируемого класса.
Исходными данными для анализа выступает KDD Dataset, содержащая в себе описание инцидентов информационной безопасности. Так как нельзя утверждать, что в базе содержатся минимальные и максимальные значения всех параметров прецедента, во избежание ошибок используется метод мини-максной нормализации. Для каждого инцидента рассчитывается расстояние до остальных инцидентов в классе. Посчитав все расстояния для каждого инцидента в классе, рассчитывается среднее расстояние по классу. На основе среднего расстояния высчитывается стандартное отклонение, которое используется при построении верхней и нижней границ расстояния по классу. Далее определяется количество инцидентов, входящих в данный интервал - прецедентов. На основе этих данных составляется статистика для каждой метрики по количеству прецедентов в классе и количеству инцидентов, не попавших в класс - аномалий. Фрагмент результатов исследования приведен в таблице.
Результаты исследования влияния функции расстояния на эффективность работы прецедентного анализа
Класс атаки (количество прецедентов в классе) Количество аномалий, %
Функция Евклида Функция Миньковского Функция Хеминга
back;(715) 28,81 34,83 35,10
ipsweep; (630) 11,59 12,06 12,06
satan; (326) 11,35 29,45 15,03
smurf; (614) 14,17 15,64 13,19
teardrop; (685) 34,16 16,20 25,26
warezclient; (791) 20,35 19,34 20,86
После определения эффективности отдельно взятых метрик, с помощью регрессионного анализа для каждой функции были определены несколько типов весовых коэффициентов:
1) линейно-зависимые коэффициенты;
2) коэффициенты, имеющие логарифмическую зависимость;
3) коэффициенты, имеющие экспоненциальную зависимость.
Результаты статистического анализа с использованием весовых коэффициентов дали весьма ощутимый результат для классов атак: back, imap, gues_password; smurf удалось точно определить распределение и подобрать весовые коэффициенты, которые снижают вероятность появления возможной ошибки при поиске ближайшего прецедента к нулю. Что нельзя сказать о классе teardrop.
Во всех экспериментах при разных коэффициентах аномальный инцидент не был обнаружен, что и на-
талкивает на предположение, что некоторое распределение инцидентов в классе может быть составным.
Таким образом, статистический анализ данных об инцидентах информационной безопасности позволит решить проблему выбора метрики для алгоритма прецедентного анализа.
Библиографическая ссылка
1. Вагин В. Н., Головина Е. Ю., Загорянская А. А., Фомина М. В. Достоверный и правдоподобный вывод в интеллектуальных системах / под ред. В. Н. Вагина, Д. А. Поспелова. 2-е изд. М. : Физматлит, 2008.
References
1. Vagin V. N., Golovina E. Ju., Zagorjanskaja A. A., Fomina M. V. Dostovernyj i pravdopodobnyj vyvod v intellektual'nyh sistemah. 2-e izdanie // Pod redakciej V. N. Vagina, D.A. Pospelova. M.: Fizmatlit, 2008.
© Соколов М. М., 2013
УДК 004.056
ОБ ОПРЕДЕЛЕНИИ АКТУАЛЬНЫХ УГРОЗ ДЛЯ ИНФОРМАЦИОННЫХ СИСТЕМ ПЕРСОНАЛЬНЫХ ДАННЫХ*
А. П. Стефаров
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Россия, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-шаП: [email protected]
Предлагается подход к определению актуальных угроз для информационных систем персональных данных, основанный на классификации угроз, источником которых является нарушитель, в соответствии с уровнями воздействия нарушителей.
Ключевые слова: модель нарушителя, модель угроз, персональные данные, информационная система.
*Работа выполнена при поддержке РФФИ, № НК 07-13-00222 от 09.04.2013 г.