Научная статья на тему 'ПОДХОДЫ К ВЫЯВЛЕНИЮ КОНФИДЕНЦИАЛЬНОЙ ИНФОРМАЦИИ'

ПОДХОДЫ К ВЫЯВЛЕНИЮ КОНФИДЕНЦИАЛЬНОЙ ИНФОРМАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
104
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОНФИДЕНЦИАЛЬНАЯ ИНФОРМАЦИЯ / ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ / ЛСА / АНАЛИЗ ДАННЫХ / УТЕЧКА ИНФОРМАЦИИ / ЗАЩИТА ИНФОРМАЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нечай А.А., Краснов С.А., Першина И.В.

В статье рассматриваются особенности распознавания конфиденциальной информации, описаны наиболее известные факты утечки конфиденциальной информации, представлен анализ существующих методов распознавания конфиденциальной информации, их преимущества и недостатки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ПОДХОДЫ К ВЫЯВЛЕНИЮ КОНФИДЕНЦИАЛЬНОЙ ИНФОРМАЦИИ»

также налоговому стимулированию местных предприятий с целью повышения их конкурентоспособности.

Использованные источники:

1. Дементьев Д.В., Щербаков В.А. Бюджетная система РФ: учеб. пос. - 2-е изд. - М: КНОРУС, 2013 г.

2. Качур О.В. Некоторые аспекты налоговой политики // Экономический анализ: теория и практика. - 2012 г.

3. Новикова А. И. Налоговая статистика и прогнозирование // Налоговый вестник - 2010 г.

Нечай А.А. преподаватель кафедры Краснов С.А., к.т.н. старший преподаватель кафедры

Першина И.В. курсант 2-го курса Военно-космическая академия имени А. Ф. Можайского

Россия, г. Санкт-Петербург ПОДХОДЫ К ВЫЯВЛЕНИЮ КОНФИДЕНЦИАЛЬНОЙ

ИНФОРМАЦИИ

В статье рассматриваются особенности распознавания конфиденциальной информации, описаны наиболее известные факты утечки конфиденциальной информации, представлен анализ существующих методов распознавания конфиденциальной информации, их преимущества и недостатки.

Ключевые слова: конфиденциальная информация, латентно-семантический анализ, ЛСА, анализ данных, утечка информации, защита информации.

Для решения задачи выявления утечки конфиденциальной информации, необходимо использовать методы, позволяющие распознать наличие конфиденциальной информации, как в исходном, так и в измененном виде. Подаваемые на вход подсистеме анализа данные разделяются на сообщения, для которых метки конфиденциальности заранее определены и уже известны, и на сообщения, конфиденциальность которых еще не определена. Решения по первой группе сообщений принимается достаточно просто, на основе имеющейся метки конфиденциальности. Для принятия решения по второй группе сообщений, для которых конфиденциальность еще не определена, необходимо провести анализ. Для этого используется ряд статистических методов анализа текстов естественного языка, и методы, основанные на морфологическом анализе передаваемых сообщений. В силу специфики анализируемых сообщений (небольшая длина сообщений, наличие специальных терминов, аббревиатур) эффективный анализ с помощью статистических методов, которые довольно

хорошо зарекомендовали себя в поисковых задачах, затруднителен, потому что статистический метод не учитывает синтаксические и семантические особенности. Для решения задачи выявления утечки конфиденциальной информации необходимо использование лингвистических технологий, основанных на морфологических (аналитических) моделях. Последним этапом морфологического анализа является семантический анализ. Одной из задач семантики является снятие лексической и структурной неоднозначности.

Наиболее известные факты утечки конфиденциальной информации и их последствия.

Количество зарегистрированных утечек конфиденциальной информации увеличивается с каждым годом. Это связано как с развитием и повсеместным распространением информационных систем, применяемых для обработки данных, так и с увеличением ценности самих информационных активов компаний. На рисунке 1 показан постоянный рост числа зарегистрированных утечек конфиденциальной информации с 2006 по 2013 годы.

1400 1200

1000 800 600 -400 -200 п П 1 п 1 п 1

2006 2007 2008 2009 2010 2011 2012 2013

■ Число утечек 198 333 530 747 794 801 934 1143

Рисунок 1. Число зарегистрированных утечек информации с 2006 по

2013 г.

В июле 2013 года произошла серьезная утечка в российском представительстве страховой компании Zurich. В базе данных, которая досталась злоумышленникам, содержалась информация о более чем 1 млн клиентов компании за период с января 2012 по февраль 2013 года.

Крупная утечка документации произошла осенью 2012 года в концерне "Тракторные заводы". Потенциальный ущерб — более 50 млн рублей. Обвинение было предъявлено бывшему сотруднику предприятия, возглавившему затем конкурирующий "ЧТЗ-Уралтрак". По версии следствия, документы, составляющие коммерческую тайну, вынесли бывшие коллеги инсайдера.

Летом 2013 года экс-начальник отдела продаж "ФосАгро" в период с 2010 по 2011 год незаконно передавал заинтересованным иностранцам служебную информацию в области реализации минеральных удобрений — данные об объемах производства кормовых фосфатов, ценах, взаимоотношениях с клиентами. Полученную конфиденциальную

информацию клиенты использовали в своих коммерческих интересах, что "давало определенные конкурентные преимущества" на рынке продажи минеральных удобрений.

Анализ существующих методов распознавания конфиденциальной информации, их преимущества и недостатки.

Производители систем защиты от утечек конфиденциальной информации используют различные технологии для распознавания конфиденциальной информации. Все эти методы основаны на синтезе нескольких принципиально различных подходов. Рассмотрим основные методы распознавания.

Ручная разметка содержания. Этот подход называют еще контекстным и морфологическим. Определение конфиденциальной информации производится на основе выделения в ней множества значимых, определяющих содержание слов, называемых ключевыми. Для каждого из слов определяется некоторый вес, и каждое слово соотносится с некоторой предметной категорией. Кроме того, для каждой категории задается и свой порог чувствительности. Система ищет в исходящих документах эти самые ключевые слова. Так как у каждого слова свой вес и категория, не составляет труда посчитать суммарный вес обнаруженных в документе ключевых слов для каждой категории. В результате документ признается конфиденциальным или нет по тем категориям, для которых был превышен порог чувствительности.

Плюсы:

• Можно обеспечить очень тонкую настройку на отдельные документы, в результате будут отлавливаться даже их фрагменты;

• Возможен контроль над вновь создаваемыми документами, если они содержат выделенные ранее ключевые термины.

Минусы:

• Подготовка хорошей тонкой настройки предполагает ручную работу квалифицированного специалиста. Это занимает много времени.

• Такой специалист будет вовлечен в работу с конфиденциальной информацией.

• Высок уровень ложных срабатываний.

Поиск регулярных выражений (метод масок). С помощью некоторого языка регулярных выражений определяется «маска», структура данных, которые относятся к конфиденциальным. Чаще всего данный метод используется для определения персональных данных (ИНН, номера счетов, документов).

Плюсы:

• Минимальное время анализа проверяемых данных;

• Высокая надежность обнаружения;

Минусы:

• Наличие большого количества ложных срабатываний;

• Метод совершенно не применим к анализу неструктурированной информации.

Метод «цифровых отпечатков». С эталонной информации снимается «отпечаток» при помощи хеш-функции. Далее отпечаток сравнивается с фрагментами анализируемой информации. Автоматический алгоритм:

1. Из документа, содержание которого считается конфиденциальным, выделяется текстовое содержание.

2. Текст некоторым образом разбивается на фрагменты.

3. Для каждого такого фрагмента система создает идентификатор, что-то вроде «хэша», «отпечатка».

4. Конфиденциальный документ представляется в системе набором таких «отпечатков»

Для сопоставления проверяемого текста с множеством конфиденциальных документов для него по аналогичному алгоритму строится аналогичный набор «отпечатков». Если оба множества отпечатков демонстрируют некоторую схожесть, система диагностирует попытку утечки.

Плюсы:

• Отслеживание черновиков и документов;

• Осуществление контроля утечек записей из баз данных;

• Минимальное время задержки при анализе исходящих документов;

• Низкий уровень ложных срабатываний.

Минусы:

• Хранение «цифровых отпечатков» требует дополнительных ресурсов;

• Размер надежно распознаваемого фрагмента обычно составляет от половины страницы текста.

Использование статистических вероятностных методов

представляет интерес в некоторых случаях. Например, при анализе больших объемов неструктурированных данных или при анализе неявного сходства. Можно предположить, что эти методы будут все активнее применяться на практике, но как дополнительные.

Плюсы:

• Уникальная эффективность в некоторых случаях, например, для противодействия примитивным обратимым подменам символов.

Минусы:

• Применимо только к небольшому классу сценариев;

• Потенциально высокий уровень ложных срабатываний.

Метод использования меток. Изначально необходимо пометить документ, вручную или путем размещения его в определенную папку в сети. После чего система начнет воспринимать его как конфиденциальный.

Плюсы:

• Контроль операций, когда компьютер вне сети.

• Минимальное время анализа проверяемых данных.

Минусы:

• Нет контроля за черновиками.

• Не закрывается сценарий стенографирования документа.

Сигнатурный метод. Этот метод можно назвать самым простым, с

его помощью реализуется поиск последовательности символов в общем потоке данных. Запрещенные к распространению последовательности символов иногда называют «стоп-выражениями». Если система контролирует одно слово или фразу, то она будет работать со 100%-ой эффективностью. Но такое положение возможно, скорее всего, в теории, чем на практике, так как системам контроля за конфиденциальной информацией приходится оперировать не одним десятком, сотней или тысячью слов.

Плюсы:

• Очевидность работы сигнатурного метода;

• Простота пополнения словаря запрещенных фраз.

Минусы:

• Для защиты русскоязычной информации потребуется внесение в базу кроме стоп-слова всех его форм;

• Неустойчивость к примитивному кодированию выражений, например, замене слов или символов на другие, схожие с ним по начертанию.

Метод латентно-семантического анализа, его пригодность к задаче распознавания конфиденциальной информации.

В основе подхода лежит предположение, что содержание текста отражается наиболее часто встречающимися словами. Суть статистического анализа заключается в подсчете количества вхождений слов в документ. Эффективным подходом, основанным на статистическом анализе, является латентно-семантическое индексирование. Латентно-семантический анализ (ЛСА) - это теория и метод для извлечения контекстно-зависимых значений слов при помощи статистической обработки больших наборов текстовых данных. ЛСА основывается на идее, что совокупность всех контекстов, в которых встречается и не встречается данное слово, задает множество обоюдных ограничений, которые в значительной степени позволяют определить похожесть смысловых значений слов и множеств слов между собой.

Главный недостаток статистических методов состоит в невозможности учета связности текста, а представление текста как простого множества слов недостаточно для отражения его содержания. Текст представляет набор слов, выстроенных в определенной заданной последовательности. Преодолеть этот недостаток позволяет использование лингвистических методов анализа текста. Для решения задачи выявления угрозы утечки конфиденциальной

информации необходимо использование лингвистических технологий, позволяющих выявить попытку передачи защищаемой информации как в исходном, так и в измененном виде. Для повышения показателей полноты и точности обнаружения угрозы утечки конфиденциальной информации необходимо развивать, дорабатывать и исследовать метод ЛСА.

Использованные источники:

1. Краснов С.А. Оценка эффективности применения алгоритма вычисления коэффициента ранговой корреляции Спирмена в методе латентно-семантического анализа при автоматической рубрикации документов / С.А. Краснов, А.Д. Хомоненко, Я.В. Яковлев // Бюллетень результатов научных исследований. 2012. № 3 (2). - С. 153-162.

2. Краснов С.А. Выявление противоречий в семантически близкой информации на основе латентно-семантического анализа / С.А. Краснов,

A.Д. Хомоненко, В.Л. Дашонок // Сборник научных трудов СПбГПУ «Проблемы информационной безопасности. Компьютерные системы» № 2 г. С-Пб 2014. - С. 73-84.

3. Нечай А.А. Выявление недекларированных возможностей аппаратно-программного обеспечения / А.А. Нечай // Экономика и социум. 2014. № 1-2(10), - С. 457-460.

4. Захаров И.В. Способ априорной оценки возможности идентификации пользователей веб-ресурсов на основе энтропийного подхода / И.В. Захаров,

B.С. Забузов, С.И. Фомин, К.А. Эсаулов // Современные проблемы науки и образования. - 2014. - № 1, - С. 219.

5. Захаров И.В., Забузов В.С. Оценка возможности идентификации пользователей веб-ресурсов на основе энтропии признаков / И.В. Захаров, В.С. Забузов // Мир современной науки. - М.: ООО «Издательство «Перо», 2014. № 3(25). - С.28-31.

6. Лохвицкий В.А. Подход к построению системы автоматизированной интеграции информации в базу данных для её своевременной актуализации /

B.А. Лохвицкий, С.В. Калиниченко, А.А. Нечай // Мир современной науки. Издательство «Перо». Москва. 2014. №2(24), - С. 8-12.

7. Нечай А.А. Выбор и обоснование показателей эффективности решения задачи распределения объектов по средствам поражения / А.А. Нечай

C.В. Матвеев, В.М. Сафонов // Мир современной науки. Издательство «Перо». Москва. 2014. №2(24), - С. 13-16.

8. Нечай А.А. Специфика проявления уязвимостей в автоматизированных системах управления критически важными объектами / А.А. Нечай, П.Е. Котиков // В сборнике: Современные тенденции в образовании и науке сборник научных трудов по материалам Международной научно-практической конференции: в 14 частях. Тамбов, 2014. С. 96-97.

i Надоели баннеры? Вы всегда можете отключить рекламу.