Научная статья на тему 'Сравнительный обзор методов категоризации, применяемых в DLP-системах'

Сравнительный обзор методов категоризации, применяемых в DLP-системах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
426
193
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
DLP-СИСТЕМЫ / ЗАЩИТА ИНФОРМАЦИИ ОТ УТЕЧЕК / СЕМАНТИЧЕСКИЙ АНАЛИЗ / КАТЕГОРИЗАЦИЯ / ОНТОЛОГИИ / РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ / ЦИФРОВЫЕ ОТПЕЧАТКИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зверев И.Н.

Целью настоящей работы является сравнительный обзор методов категоризации, применяемых в системах защиты информации от утечек (DLP-системах). Определяются основные преимущества и недостатки методов, проводится их сравнительный анализ. Отдельно выделяются методы семантического анализа как наиболее перспективные. Предложенный аналитический обзор позволяет определить недостатки существующих DLP-систем и их дальнейшее развитие.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сравнительный обзор методов категоризации, применяемых в DLP-системах»

СРАВНИТЕЛЬНЫЙ ОБЗОР МЕТОДОВ КАТЕГОРИЗАЦИИ, ПРИМЕНЯЕМЫХ В DLP-СИСТЕМАХ

© Зверев И.Н.*

Ульяновский государственный университет, г. Ульяновск

Целью настоящей работы является сравнительный обзор методов категоризации, применяемых в системах защиты информации от утечек (DLP-системах). Определяются основные преимущества и недостатки методов, проводится их сравнительный анализ. Отдельно выделяются методы семантического анализа как наиболее перспективные. Предложенный аналитический обзор позволяет определить недостатки существующих DLP-систем и их дальнейшее развитие.

Ключевые слова: DLP-системы, защита информации от утечек, семантический анализ, категоризация, онтологии, регулярные выражения, цифровые отпечатки.

По мере развития информационных технологий выяснилось, что не внешняя угроза, а именно утечка изнутри организации является не меньшей, если не большей опасностью для организации, чем внешние атаки. Создание средств (систем) защиты от утечек информации (Data Leakage Protection, DLP) вошло в компетенцию основных производителей, специализирующихся на безопасности: Check Point, nexTier Networks, McAfee и других [4].

В литературе по информационной безопасности [1, с. 35] дается следующее определение:

DLP-системы (Data Leak Prevention) - технологии предотвращения утечек конфиденциальной информации из информационной системы вовне, а также технические устройства (программные или программно-аппаратные) для такого предотвращения утечек. DLP-системы строятся на анализе потоков данных, пересекающих периметр защищаемой информационной системы.

1. Принципы функционирования DLP-систем

Итак, основные задачи системы защиты от утечек:

- получить описание конфиденциальных данных;

- после описания уметь распознавать их в потоке, исходящем из внутреннего информационного поля организации вовне;

- реагировать на обнаруженные попытки.

Рассмотрим схему функционирования DLP-системы (рис. 1).

* Аспирант.

Программные-аппаратные средства для

перехвата информации, передаваемой по внешним каналам передачи информации

01_Р-система

Информационные потоки

' Категорированная информация

Категоризатор

Средства реагирования и регистрации

Информационные потоки

Блокирование " (сигнализация)

_

Защищаемая автоматизированная система

Рис. 1. Схема функционирования БЬР-системы

Можно выделить 3 основных элемента БЬР-системы:

1. Средства перехвата информации, передаваемой по внешним каналам (за пределы защищаемой автоматизированной системы). К данной категории относятся драйвера для контроля вывода информации печать, драйвера для контроля подключаемых устройств, межсетевые экраны, контролирующие сетевой траффик и т.д.

2. Категоризатор, составляющий ядро БЬР-системы. Его работа заключается в анализе передаваемой информации, в результате которого однозначно определяется категория, значит, степень конфиденциальности информации.

3. Средства реагирования и регистрации. На основании определенной категоризатором степени конфиденциальности информации БЬР-система реагирует в соответствии с системными настройками - производится блокирование передачи конфиденциальной информации, либо производится оповещение (сигнализация) администратора безопасности о несанкционированной передаче (утечке) информации.

На протяжении последних десяти лет, а именно столько и существует данное направление защиты информации, главной проблемой при внедрении

DLP-системы является повышение эффективности - надежность обнаружения утечки и снижение количества ложных срабатываний. Главная задача DLP-системы - обнаружить утечку информации, то есть, в автоматическом режиме определить категорию информации и прореагировать соответствующим образом (например, заблокировать несанкционированную передачу конфиденциальной информации в Internet).

Процесс определения категории и конфиденциальности информации на основе смысловой близости будем называть процессом категоризации информации [2].

Предметом исследования настоящей статьи является сравнительный обзор методов категоризации, применяемых в DLP-системах.

2. Классификация методов категоризации информации

Проведем классификацию методов категоризации. Основным критерием, по которому предлагается классифицировать методы категоризации, является использование семантики текста. Можно выделить следующие группы методов по данному критерию:

1. несемантические;

2. псевдосемантические;

3. семантические.

Основными несемантическими методами являются ручная разметка содержания, использование контекста хранения информации, использование меток и программы-агента, регулярные выражения. Общая черта данных методов - при анализе практически не используется содержание (смысл) используемого текста, за исключением ограниченного поиска по строго определенным сигнатурам и поиска предустановленных меток.

К псевдосемантическим методам отнесем лингвистический анализ (поиск по словарю), гибридный анализ и снятие «цифровых отпечатков». Общая черта данных методов - использование содержимого текста, но без привязки анализа непосредственно к семантике информации, содержащейся в тексте.

К третьей группе относятся семантические методы, максимально использующие для анализа смысловую нагрузку текста. Это методы с использованием онтологий, нейронные сети, метод опорных векторов и др.

На протяжении всего периода существования DLP-систем (с 2002 г. по настоящее время) шло постепенное наращивание базы используемых методов категоризации. На первом этапе DLP-системы использовали только методы первой группы (примерно 2002-2005 годы). Соответственно, на втором этапе (до настоящего времени) активно стали использоваться методы второй группы. Третья группа методов - перспективное направление развития DLP-систем. На сегодняшний день уже существует несколько систем, реализующих семантические методы (например, DLP-системы компаний nexTier Networks и Perimetrix).

Далее будут рассмотрены методы перечисленных групп и проведен сравнительный анализ.

3. Несемантические методы Ручная разметка содержания

Этот метод называют еще контекстным и морфологическим [1]. Определение конфиденциальной информации производится на основе выделения в ней множества значимых, определяющих содержание слов, называемых также ключевыми.

Преимущества:

а) можно обеспечить очень тонкую настройку на отдельные документы, в результате будут отлавливаться даже их фрагменты.

Недостатки:

а) подготовка хорошей, тонкой настройки предполагает ручную работу квалифицированного специалиста. Это может занять немало времени и такой специалист будет вовлечен в работу с конфиденциальной информацией;

б) на практике трудно осуществим быстрый пилотный запуск системы;

в) относительно высок уровень ложных срабатываний.

Использование контекста хранения информации

Отслеживаются параметры, относящиеся не к содержанию, а к файлу с конфиденциальной информацией. Контролироваться могут формат (причем не по расширению файла, а по его сигнатуре), расположение, размер и т.д. Таким образом, можно задавать правила, препятствующие перемещению файлов, например, определенного формата, вовне.

Преимущества:

а) простота реализации и настройки.

Недостатки:

а) хотя подобные технологии контроля реализованы практически во всех DLP-системах, они могут быть использованы лишь как дополняющие основные методы, основанные на анализе содержания.

Использование меток и программы-агента

Этот метод основан на описанном выше подходе, но существенно его расширяет. Изначально необходимо пометить документ, вручную или путем размещения его в определенную папку в сети. После чего система начнет воспринимать его как конфиденциальный. Технически для осуществления такого механизма необходимо наличие на рабочем месте специальной программы-агента, которая, собственно, и могла бы распознавать документ как конфиденциальный, «навешивать» признак конфиденциальности на все производные документы и блокировать отдельные действия пользователя с помеченными документами.

Преимущества:

а) простота развертывания и возможность «быстрого старта» реального проекта;

б) контроль операций, когда компьютер вне сети;

в) минимальное время анализа проверяемых данных.

Недостатки:

а) нет контроля за черновиками;

б) не закрывается сценарий стенографирования документа.

Регулярные выражения

С помощью некоторого языка регулярных выражений определяется «маска», структура данных, которые относятся к конфиденциальным. На практике существует немало случаев, когда определение объектов слежения через их формат оказывается эффективным и надежным. В качестве примера можно привести номера кредитных карт, паспортные данные, регистрационные номера автомобилей, активационные коды программного обеспечения и т.д.

Преимущества: минимальное время анализа проверяемых данных и высокая надежность обнаружения.

Недостатки:

а) разработка и отладка регулярного выражения требует привлечения квалифицированного специалиста;

б) может быть применено только к очень узкому классу данных.

4. Псевдосемантические методы Лингвистический анализ

В лингвистическом методе определение конфиденциальной информации производится на основе выделения в ней множества значимых, определяющих содержание слов, называемых также ключевыми.

Преимущества:

а) можно обеспечить очень тонкую настройку на отдельные документы, в результате будут отлавливаться даже их фрагменты;

б) возможен контроль и над вновь создаваемыми документами, если они содержат выделенные ранее ключевые термины.

Недостатки:

а) подготовка хорошей, тонкой настройки предполагает ручную работу квалифицированного специалиста;

б) такой специалист будет вовлечен в работу с конфиденциальной информацией.

в) относительно высок уровень ложных срабатываний.

Гибридный анализ

В дополнение к лингвистическому методу часто используют еще вероятностный метод, основанный на теореме Байеса, с помощью которого, по

весовым коэффициентам и на основе вероятностей появления в тексте ключевых слов, и проводится категоризация. Комбинация нескольких методов и называется гибридным анализом.

Преимущества:

а) можно обеспечить очень тонкую настройку на отдельные документы, в результате будут отлавливаться даже их фрагменты;

б) возможен контроль и над вновь создаваемыми документами, если они содержат выделенные ранее ключевые термины;

в) интегрирование различных методов (гибридный анализ) позволяет увеличить эффективность их применения.

Недостатки:

а) подготовка хорошей, тонкой настройки предполагает ручную работу квалифицированного специалиста;

б) такой специалист будет вовлечен в работу с конфиденциальной информацией.

в) относительно высок уровень ложных срабатываний.

Снятие «цифровых отпечатков»

Этот метод основан на построении некоторого идентификатора исходного текста. Как правило, реализуется следующий автоматический алгоритм:

1. Из документа, содержание которого считается конфиденциальным, выделяется текстовое содержание.

2. Текст некоторым образом разбивается на фрагменты.

3. Для каждого такого фрагмента система создает некий идентификатор, что-то вроде «хэша», «отпечатка».

4. Конфиденциальный документ представляется в системе набором таких «отпечатков».

Для сопоставления проверяемого текста с множеством конфиденциальных документов для него «на лету» по аналогичному алгоритму строится аналогичный же набор «отпечатков». Если оба множества отпечатков демонстрируют некоторую схожесть, система диагностирует попытку утечки.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Как правило, реализуется алгоритм «оцифровки» таким образом, что по «отпечаткам», создаваемым системой, восстановить исходный документ невозможно.

Преимущества:

а) процесс определения конфиденциального документа полностью автоматизирован, не требуется привлечения консультанта для разметки текста;

б) быстрая настройка системы на новые документы;

в) отслеживание черновиков и фрагментов документа;

г) осуществление контроля утечек записей из баз данных;

д) минимальное время задержки при анализе исходящих документов;

е) низкий уровень ложных срабатываний.

Недостатки:

а) хранение «цифровых отпечатков» требует дополнительных ресурсов. При больших объемах информации база данных «цифровых отпечатков» разрастается как «снежный ком»;

б) размер надежно распознаваемого фрагмента обычно составляет от половины страницы текста;

в) требует предварительно созданной базы защищаемых документов, для произвольного текста с конфиденциальной информацией алгоритм не работает.

5. Семантические методы

Из данной группы методов на сегодняшний день в БЬР-системах применяется только метод анализа с применением онтологий. Соответственно, его и будем рассматривать.

Метод анализа с применением онтологий

В качестве метода семантического анализа предлагается использовать категоризацию с применением онтологий. Под онтологией (инженерной онтологией) понимается спецификация (формальное описание) представления предметной области [4].

Это решение позволяет повысить эффективность системы и более точно описать объект защиты, учитывая его взаимосвязи с другими объектами [2]. Например, работа полицейского будет более результативной, если он будет знать не только цвет угнанной машины, но также номер, модель и место угона, информацию о владельце. Точно так же категоризация поможет DLP-сис-теме более эффективно защищать конфиденциальность данных.

С точки зрения структуры онтология включает в себя:

- классы предметной области или областей;

- свойства классов (атрибуты, роли);

- экземпляры;

- отношения;

- ограничения и правила.

Процесс создания онтологии разбивается на несколько этапов:

- выделение классов, то есть тех понятий, которые отражают сущность предметной области (угрозы, средства защиты и т.д.);

- выделение наиболее общих классов, которые включает в себя другие, более частные случаи и т.д.;

- задание свойств классов и определение границ допустимых значений;

- указание конкретных экземпляров (примеров) для классов.

При разработке онтологии необходимо понимать, что любая созданная онтология не должна претендовать на единственно правильный вариант описания конкретной предметной области. Для одной и той же предметной

области может существовать несколько онтологий, и все они будут правильными в зависимости от поставленных задач.

Поскольку окружающая действительность постоянно меняется, то онтологии должны постоянно корректироваться и редактироваться для получения адекватных результатов от их применения.

Изначально идея использования онтологий определенных предметных областей была реализована в экспертных системах для получения ответов на запросы от пользователей.

В последнее время с увеличением объемов информации онтологии стали применяться в поисковых системах помимо традиционных методов поиска по ключевым словам. Это является основой для создания семантического веба (Semantic Web), где выполняется интеллектуальный поиск по базам знаний.

Одним из перспективных направлений использования онтологий является защита конфиденциальности данных. Очевидно, что от правильности категоризации зависит эффективность DLP-системы. Онтологии дают возможность описывать те сведения, которые необходимо защитить, и на их основе категоризировать документы.

Общая схема работы категоризатора представлена на рис. 2.

Рис. 2. Схема работы категоризатора

По сравнению с остальными данный метод обладает следующими преимуществами:

1. масштабируемость - количество документов в базе защищаемой информации не существенно влияет на время работы алгоритма;

2. сокращение «концептуального несоответствия», т.к. онтология является инструментом, работающим приближенно к человеческому способу мышления;

3. упрощение повторного использования знаний - использование уже определенных в других онтологиях понятий, соответственно возможно использовать уже существующие для данной предметной области онтологий;

4. «семантическая эффективность» - при сравнении семантики текста и онтологии предметной области возможно добиться наибольшей

точности в категорировании и существенно снизить количество ложных срабатываний;

5. готовый набор средств для создания (использования существующих) онтологий и задания правил анализа - существующие редакторы он-тологий (например, Protege) предоставляют удобный инструментарий для создания и редактирования онтологий предметной области.

Из недостатков можно отметить тот факт, что данное направление является достаточно новым и требуется время для его внедрения в существующие DLP-системы.

6. Сравнительный анализ

При сравнении будут использоваться следующие критерии:

- быстродействие алгоритма анализа;

- количество (вероятность) ложных срабатываний;

- надежность определения утечек (вероятность необнаруженных утечек);

- возможность применения метода для вновь создаваемого документа, не внесенного заранее в базу защищаемых документов.

Данные критерии являются основными при эксплуатации и внедрении DLP-системы.

Результаты сравнительного анализ методов представлен в табл. 1.

Таблица 1

Сравнительный анализ методов

Наименование метода Быстродействие Вероятность ложных срабатываний Вероятность необнаруженных утечек Возможность применения для нового документа

Ручная разметка содержания Высокое Низкая Высокая Нет

Использование контекста хранения информации Высокое Высокая Высокая Нет

Использование меток и программы-агента Высокое Низкая Высокая Нет

Регулярные выражения Высокое Высокая Высокая Есть

Снятие «цифровых отпечатков» Низкое Низкая Высокая Нет

Лингвистический анализ Среднее Высокая Низкая Есть

Гибридный анализ Среднее Высокая Высокая Есть

Использование онтологий Среднее Низкая Низкая Есть

Из полученных результатов следует, что наилучшими характеристиками (с учетом преимуществ и недостатков методов, описанных в предыдущих разделах) обладает метод с использованием онтологий.

При выборе методов анализа необходимо исходить из того, что в современных условиях больших информационных потоков предпочтение нужно отдавать методам, способным автоматически обрабатывать большие объемы информации. Данное обстоятельство также свидетельствует в пользу метода с использованием онтологий.

Заключение

В работе был произведён сравнительный обзор методов категоризации, которые применяются в DLP-системах. В результате было отдано предпочтение методам семантического анализа, в частности, методу с применением онтологий. Основой выбора послужили низкая вероятность необнаруженных утечек, низкое количество ложных срабатываний и ряд других преимуществ. Выбранный метод является перспективным направлением развития DLP-систем.

Список литературы:

1. Левцов В. Технические средства контроля утечек информации // Журнал IT Менеджер. - 2008. - № 8.

2. Ефременко Н. Онтологии в DLP-системах третьего поколения // Журнал «Information Security / Информационная безопасность». - 2009. - № 4. -С. 32-33.

3. Лапшин В.А. Онтологии в компьютерных систмах. - М.: Научный мир, 2010. - 224 с.

4. Черняк Л. Семантический анализ на службе // Журнал «Открытые системы». - 2010. - № 10.

i Надоели баннеры? Вы всегда можете отключить рекламу.