Научная статья на тему 'Подходы к анализу данных как ключевой элемент современных образовательных программ по информационной безопасности'

Подходы к анализу данных как ключевой элемент современных образовательных программ по информационной безопасности Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
613
75
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЕДАГОГИЧЕСКАЯ ДЕЯ-ТЕЛЬНОСТЬ / ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ / ЗАЩИТА ОТ УТЕЧЕК / АНАЛИЗ ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пшехотская Екатерина Александровна, Михальский Олег Олегович

Информационная безопасность одна из быстро меняющихся областей информаци-онных технологий. Цикл существования тех-нологии в индустрии по длительности равен или незначительно превосходит курс выс-шего образования. Для подготовки каче-ственных специалистов в этой области тре-буется нестандартные подходы к формиро-ванию образовательных программ. В статье рассматривается как может быть построена образовательная программа, приводится об-зор актуальных подходов к анализу данных, ключевой составляющей подготовки специа-листов-аналитиков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Подходы к анализу данных как ключевой элемент современных образовательных программ по информационной безопасности»

УДК 004.942

ПОДХОДЫ К АНАЛИЗУ ДАННЫХ КАК КЛЮЧЕВОЙ ЭЛЕМЕНТ СОВРЕМЕННЫХ ОБРАЗОВАТЕЛЬНЫХ ПРОГРАММАХ ПО ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ

Е.А. Пшехотская, О.О. Михальский

Информационная безопасность - одна из быстро меняющихся областей информационных технологий. Цикл существования технологии в индустрии по длительности равен или незначительно превосходит курс высшего образования. Для подготовки качественных специалистов в этой области требуется нестандартные подходы к формированию образовательных программ. В статье рассматривается как может быть построена образовательная программа, приводится обзор актуальных подходов к анализу данных, ключевой составляющей подготовки специалистов-аналитиков.

Ключевые слова: педагогическая деятельность, информационная безопасность, защита от утечек, анализ данных

Аналитик по информационной безопасности - одна из наиболее востребованных практических специализаций в данной отрасли. Высокая ценность качественного аналитика определяется тем, что на основе его работы принимаются решения, от которых зависит безопасность и бесперебойность работы предприятия, защита информации, соблюдение требований законодательства и поддержание деловой репутации. В большинстве традиционных образовательных программ по информационной безопасности рассматриваются общие вопросы организационных и технических мер защиты информации [1], либо делается акцент на решениях конкретных поставщиков программных и аппаратных решений. В меньше степени уделяется внимание решению практических задач и формированию у студентов практических навыков анализа рисков, моделирования угроз, разработки политик безопасности и подготовки управленческих решений.

Материал данной статьи основан на практике преподавания дисциплин информационной безопасности в Московском политех-

ническом университете. Применяемый в университете подход разработан экспертами-практиками из компаний, специализирующихся в различных областях защиты информации и внедряется в магистерские программы, а также программы бакалавриата и специалитета. Такие компании сами являются потенциальными работодателями будущих выпускников и заинтересованы в наиболее точном отображении своих требований к навыкам и компетенциям в образовательные программы.

В частности, формируемые к аналитикам по информационной безопасности требования включают не только знание теоретических основ управления рисками, но и опыт практической оценки безопасности информационных систем, а также понимание подходов к сбору и анализу информации. Статья актуальна для профессионалов в области образования, рассматривающих способы повышения эффективности подготовки специалистов по аналитике в информационной безопасности.

Спецификой решений по защите от утечек является то, что они используют широкой набор технологий обнаружения утечек, который постоянно развивается и дополняется. Различные технологии предназначены для обнаружения утечек в различных типах носителей данных и без понимания основ их функционирования затруднено усвоение материала по проектированию и внедрению систем защиты от утечек, невозможно провести полную и адекватную оценку рисков и построение защиты. Как следует из приведенного ниже обзора методов анализа данных, в идеальной образовательной программе курс по защите от утечек должен сочетаться с курсом по алгоритмам интеллектуального анализа данных [2; 3; 4; 9].

В современном мире всё больше стран принимают законы о защите персональной

информации, который плохо либо совсем не детектируется современными системами защиты от утечек. Также стоит заметить, что существует тип текстовой информации, анализ которого обычными методами позволит предотвратить утечку, при этом в системе защиты от утечек будет большое количество ложноположительных срабатываний, то есть будет детектироваться то, что детектировать как утечку, не следует.

Применение классических технологий

Основным недостатком данного подхода было ограничение перечня защищаемой информации. Так, невозможно было защитить, например, видеозапись либо фотографию секретного документа.

защиты от утечек позволяет предотвращать большинство утечек информации, выраженной в виде текста (классификатор, цифровые отпечатки, текстовые объекты — динамически изменяемая информация, редко изменяемая информация и информация составленная по известному шаблону) [6; 7]. Рассмотрим эволюцию средств анализа трафика. Изначально системы защиты от утечек перехватывали и анализировали только трафик, представленный в виде текста [Рисунок 1].

Дальнейшее развитие технологий перехвата и анализа привело к тому, что кроме текста стало возможным защищать от утечек информацию, представленную в двоичном виде, то есть любой файл [Рисунок 2].

Текстовые документы (файлы пакета MS Office, pdf, txt) Тело перехваченного письма Переписка в системах обмена сообщениями Результат работы OCR

Рисунок 1. - Типовая схема перехвата текста.

Текстовые документы (файлы пакета MS Office, pdf, txt) Тело перехваченного письма Переписка в системах обмена сообщениями Результат работы OCR

Бинарные данные

Архивы (zip, tar, gz и т.д.) Видео файлы

Графические форматы (jpg, png, tiff, gif и т.д.)

Pdf-файлы (содержащие изображения)

Изображения из файлов пакета MS Office

Рисунок 2. - Расширенная схема перехвата текста

Этот подход позволил защитить более широкий круг информации, но в силу специфики бинарных данных, это не было универсальным решением. Например, если в систему в качестве эталона загрузить изображение, а затем перекодировать это же изображение в другой формат, то система уже не перехватит его, так как изменится внутреннее перераспределение байт. То есть данный подход работал только при точном совпаде-

нии анализируемого документа с эталоном и при малейшем изменении формата представления данной информации, система защиты уже не могла обеспечить надлежащий уровень защиты.

Для устранения части этих недостатков было предложено выделить в бинарных данных отдельный подкласс - изображения и анализировать их другими способами, доступными на современном уровне развития техники [Рисунок 3].

Трафик

Текст

1

Обычный текст Текст с внутренними зависимостями между данными

Текстовые документы пакета MS Office, pdf, • txt)

Переписка в системах обмена сообщениями Результат работы OCR

Выгрузки из баз данных Заполненные анкеты

Бинарные данные

Изображения

Остальное

• Графические форматы (jpg, png, tiff, gif и т.д.)

• Pdf-файлы (содержащие изображения)

• Изображения из файлов пакета MS Office

Архивы (zip, tar, gz и

т.д.)

Видео файлы Экзотические форматы из которых невозможно извлечь информацию (текст и графику)

Рисунок 3. - Классификация способов анализа данных

Таким образом, в современной системе защиты от утечек для анализа изображений используются специально разработанные методы, которые позволяют избежать зависимости от формата изображения и в некоторых случаях от масштаба, поворота, наличия помех и шума. Стоит заметить, что некоторые новые методы анализа достаточно требовательные к мощности процессора и памяти, но современные серверы с этим справляются.

Дальнейшим развитием в этом направлении может стать создание технологий анализа для ещё не затронутых форматов, которые в настоящее время могут быть проанали-

зированы лишь как набор бит. Например, это могут быть технологии анализа видео, но, к сожалению, в настоящее время мощности современных процессоров не хватает для анализа видео в режиме реального времени.

Ещё одним направлением развития технологий анализа является анализ внутренних взаимосвязей между данными внутри текста. Примерами таких технологий могут служить технология детектирования утечек выгрузок из баз данных и технология анализа заполненных форм.

Для предотвращения утечек информации через фотографии или сканированные документы используется распознавание текста.

Это увеличивает охват анализируемого трафика, но не предотвращает утечек информации, которую невозможно преобразовать в текстовую.

Как видно из приведённых классификаций, в настоящее время наметилось несколько тенденций в развитии технологий анализа:

1. Анализ изображений

Применяются различные методы анализа изображений.

• Классификация изображений. Для данной технологии необходима обучающая коллекция с положительными и отрицательными примерами [5; 8]. Например, данную технологию можно использовать для предотвращения утечек отсканированных личных документов, таких как паспорт или права.

• Поиск эталонной печати на документе. В данном методе используется заранее заданная эталонная печать и если отсканированный документ содержит данную печать, то его следует признать конфиденциальным и запретить передавать вне сети.

• Копирайтный анализ (цифровые отпечатки) для картинок. В данном подходе используется заранее заданный образец картинки и если перехваченный объект совпадает с эталоном, то утечка предотвращается. При этом перехваченное изображение может иметь другой формат, размер, его качество может быть ухудшено, а так же оно может быть повёрнуто на несколько градусов относительно исходного изображения.

• Детектирование утечек сканов или фотографий кредитных карт.

2. Мультиуровневый подход

Специализированные технологии анализа,

учитывающие взаимосвязи внутри данных. Данные виды анализа используются тогда, когда классические технологии дают большое количество ложноположительных срабатываний. Например:

• Технология детектирования выгрузок из баз данных. Функционирование современных предприятий невозможно представить без использования больших хранилищ данных. Такими хранилищами обычно являются базы данных. Кроме всего прочего в этих базах данных может храниться информация, являющаяся конфиденциальной, либо, являющаяся коммер-

ческой тайной. Логично было бы предположить, что защитив базу от утечки мы перекроем достаточно много рисков, но если вдуматься такой подход требует много ресурсов (базы данных обычно большие по объёму, при этом значительный объём занимает информация не являющаяся конфиденциальной), не позволяет защитить информацию которую видит пользователь (довольно часто некоторые поля в выгружаемых отчётах формируются динамически и конкретные данные не хранятся в прямом виде в базе данных), обычно доступ непосредственно к базе данных имеет ограниченный круг лиц, а конечные пользователи работают с базой через чётко определённые механизмы и могут получать только определённые данные, хранящиеся в базе. Исходя из вышеизложенного, можно предложить решение, которое защищает именно выгрузки из баз данных. Это позволяет защищать именно то, что может утечь. Но стоит отметить ещё один нюанс: некоторая информация не является секретной сама по себе, а только в совокупности с другой информацией. Например, список сотрудников сам по себе не секретен, а список сотрудников и их зарплат уже составляет коммерческую тайну. Поэтому целесообразно ввести некий механизм, позволяющий задавать отношения секретности между столбцами выгрузки. Все эти действия позволяют повысить точность и снизить количество ложно-положительных срабатываний.

• Технология детектирования заполненных форм (анкет). В целом для детектирования анкет достаточно технологии цифровых отпечатков. Но с помощью цифровых классических отпечатков детектироваться будут как заполненные, так и не заполненные анкеты. Соответственно будет много срабатываний и на пересылку пустых анкет, которые не содержат конфиденциальные сведения. Также в силу того, что поля анкеты обычно состоят из довольно распространённых выражений (Фамилия, Имя, Паспорт, домашний адрес и т. д.) ложноположительные срабатывания возможны и на перехваченных данных, не являющихся эталонной анкетой. Для повышения качества работы системы защиты от утечек можно использовать более сложный вид анализа, учитывающий взаимное расположение полей анкеты, а так же

3. Комбинированный анализ

В связи с увеличением использования электронных средств обмена информацией и расширением видов представления информации необходимо развивать набор инструментов для детектирования утечек конфиденциальной информации. С одной стороны, увеличение разнообразия форматов данных обрабатываемых в технологиях анализа ведёт к большему покрытию рисков утечек данных, с другой стороны, специализация известных технологий позволяет снижать количество ложноположительных срабатываний, что особенно важно в высоконагру-женных системах, с большим количеством трафика. Дальнейшее развитие отрасли защиты от утечек нам видится именно в данных направлениях. Кроме того, развитие комбинированного анализа может дать повышение качества системы защиты от утечек. С помощью него возможно более точное описание класса данных, утечки которых нельзя допускать.

В классических системах защиты от утечек для вынесения вердикта используется ограниченный набор технологий, при этом на решение каждая технология влияет по отдельности. Для повышения точности детектирования и снижения ложноотрицательных срабатываний и ложноположительных срабатываний предлагается использовать комбинированный анализ. Его особенностью является то, что при принятии решения используется результат работы нескольких технологий. Этот подход даёт возможность более гибко настраивать систему защиты, а также позволяет использовать более простые алгоритмы для перехвата утечек. Например, при старом подходе предотвратить утечку некоторых типов документов возможно только, используя технологию классификации трафика, но этот метод при неправильной настройке даёт довольно большое количество ложноположительных и ложноотрица-тельных срабатываний. Если же применять комбинированный анализ, то предотвратить утечку можно с помощью более точных технологий, таких как: детектор заполненных форм, детектор выгрузок из баз данных, анализатор шаблонов и другие технологии. При этом результаты работы этих технологий

учитываются в совокупности, и окончательный вердикт выносится с учётом всех тонкостей защищаемого документа.

В практике преподавания курсов по защите от утечек на базе Московского политехнического университета данный материал эффективно сочетается с практическими работами по аудиту безопасности персональных данных, разработке простых и наглядных программ для детектирования персональных данных в информационных базах. В результате теоретический материал закрепляется на практике, однако это требует точной синхронизации курса с другими дисциплинами программы, такими как изучение языков программирования и веб-технологии.

Рассмотрим пример лабораторного практикума. Для иллюстрации правильности приводимых доводов мы собрали коллекцию документов. В данную коллекцию попали документы, содержащие текст, графику либо их комбинацию. Далее мы настроили систему защиты от утечек на предотвращение утечек сначала с использованием только трёх классических технологий, а затем включили дополнительные технологии анализа. В результате сравнения качества работы системы защиты от утечек в двух режимах видно заметное увеличение качества работы. Например, если в качестве эталона была представлена анкета, то в первом случае, при пересылке пустой анкеты она детектировалась как утечка, а во втором случае как утечка детектировалась только заполненная анкета, то есть уменьшилось количество ложноположительных срабатываний. В случае же с эталонными выгрузками ситуация обратная. При добавлении эталонной выгрузки в качестве классического эталона для копирайтного анализа детектирование происходит только при перехвате значительной части выгрузки, при этом одна строчка выгрузки, составляющая секретные данные не перехватывается, что приводит к ложноотри-цательным срабатываниям. При применении специализированной технологии анализа удаётся детектировать и такие сложные случаи, как часть одной строчки эталонной выгрузки, являющейся конфиденциальной информацией. Та же ситуация и с изображе-

ниями.

Разработка лабораторного проекта с использованием нескольких технологий позволяет обучающимся на практике закрепить полученные знания о различиях между существующими технологиями защиты от утечек, самостоятельно выявить их возможности и недостатки, что позволит в дальнейшем более качественно выполнять работу аналитика.

В работе раскрыты основные подходы к анализу данных, применяемые при разработке решений по защите от утечек информации. Для качественной подготовки специалиста, способного выполнять задачи аналитика по информационной безопасности, понимание этих подходов необходимо так как позволяет сравнивать и оценивать эффективность решений по защите от утечек в конкретной ситуации - с привязкой к типам данных, которые реально встречаются на предприятии [10]. Лабораторный практикум по аудиту безопасности персональных данных и разработке простого решения по обнаружению утечек с использованием представленных в курсе технологий обеспечивает закрепление теоретических знаний и получение практических навыков в области защиты от утечек. Однако такой подход к построению образовательной программы требует четкой согласованности отдельных курсов и дисциплин, включая основы программирования и интеллектуального анализа данных. Успешное решение этой методологической задачи повышает качество образования в такой быстро меняющейся сфере как защита информации.

Список литературы

1. Конотопов, П. Ю. Аналитика. Методология, технологические и организационные аспекты информационно-аналитической работы / П. Ю. Конотопов, Ю. В. Курносов -М.: Русаки, 2004. - 520 с., илл.

2. Deerwester, S., Dumais S., Landauer T., Furnas G., Beck L. Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988,

pp. 36-40.

3. Blei, D. M.; Ng, A. Y.; Jordan, M. I. (January 2003). "Latent Dirichlet allocation". In Laf-ferty, John. Journal of Machine Learning Research 3 (4-5): pp. 993-1022.

4. Bishop C.M. (2006) Pattern recognition and machine learning. Springer, Berlin

5. Casella, G., Edward, I. (1992). "Explaining the Gibbs sampler". The American Statistician 46 (3): pp. 167-174.

6. Pshehotskaya E., Sokolova T., Ryabov S., New Approaches to Data Classification in DLP Systems, The International Conference on Computing Technology and Information Management (ICCTIM2014), pp. 209-214, 2014

7. Mikolov T., Chen K., Corrado G., Dean, J., Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

8. Kaufman L, Rousseeuw P.J. (2005) Finding groups in data. An introduction to cluster analysis. New York: Wiley, Hoboken

9. Tan, P.-N.; Steinbach, M.; Kumar, V. (2005), Introduction to Data Mining

10. Manning, C. D, Raghavan, P. & Schütze, H., Introduction to Information Retrieval. Cambridge University Press

References

1. Konotopov, P. YU. Analitika. Metod-ologiya, tekhnologicheskie i organizacionnye aspekty informacionno-analiticheskoj raboty / P. YU. Konotopov, YU. V. Kurnosov - M.: Ru-saki, 2004. - 520 s., ill.

2. Deerwester, S., Dumais S., Landauer T., Furnas G., Beck L. Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36-40.

3. Blei, D. M.; Ng, A. Y.; Jordan, M. I. (January 2003). "Latent Dirichlet allocation". In Laf-ferty, John. Journal of Machine Learning Research 3 (4-5): pp. 993-1022.

4. Bishop C.M. (2006) Pattern recognition and machine learning. Springer, Berlin

5. Casella, G., Edward, I. (1992). "Explaining the Gibbs sampler". The American Statistician 46 (3): pp. 167-174.

6. Pshehotskaya E., Sokolova T., Ryabov S., New Approaches to Data Classification in DLP Systems, The International Conference on Computing Technology and Information Management (ICCTIM2014), pp. 209-214, 2014

7. Mikolov T., Chen K., Corrado G., Dean, J., Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

8. Kaufman L, Rousseeuw P.J. (2005) Finding groups in data. An introduction to cluster analysis. New York: Wiley, Hoboken

9. Tan, P.-N.; Steinbach, M.; Kumar, V. (2005), Introduction to Data Mining

10. Manning, C. D, Raghavan, P. & Schütze, H., Introduction to Information Retrieval. Cambridge University Press

Сведения об авторах

Пшехотская Екатерина Александровна - к.ф.н., доцент факультета информатики и систем управления, руководитель образовательной программы «Безопасность

перспективных информационных систем», Московский Политехнический Университет, г. Москва

Михальский Олег Олегович - руководитель образовательной программы «Информационная безопасность веб-приложений и облачных технологий» факультета информатики и систем управления, Московский Политехнический Университет, г. Москва

Information about author

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Pshehotskaya E-А. - PhD. in Linguistics, Associate professor Faculty of Informatics and Control systems, chair of educational program «Information systems security», Moscow Polytechnic University

Mikhalsky O.O. - chair of magister degree educational program «Information security in web development and cloud technologies», Faculty of Informatics and Control systems, Moscow Polytechnic University

i Надоели баннеры? Вы всегда можете отключить рекламу.