УДК 004.021/003.63/004.5
ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА ДЛЯ ИСПОЛЬЗОВАНИЯ BIG DATA И DATA MINING В ЦЕЛЯХ ОБЕСПЕЧЕНИЯ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ - ПОДХОДЫ, ОПЫТ ПРИМЕНЕНИЯ
П.Ю. Филяк, Э.Э.О. Байларли, В.В. Растворов, В.И. Старченко
Аннотация. Рассматриваются подходы к обеспечению информационной безопасности на базе работы с большими массивами структурированных и неструктурированных данных - «большими данными» (Big Data) и осуществления интеллектуального анализ этих данных (Data Mining^ использованием информационно-аналитических систем (ИАС), что позволяет осуществлять эффективный и качественный анализ в целях прогнозирования и принятия управленческих решений для своевременного и адекватного реагирования на угрозы и вызовы. Показаны актуальность и эффективность использования подобных подходов на практике.
Ключевые слова: безопасность, информационная безопасность, угрозы, вызовы, данные, структурированные данные, неструктурированные данные, информация, анализ, информационно-аналитические системы (ИАС), большие данные (Big Data), интеллектуальный анализ данных (Data Mining), платформа для создания законченных аналитических решений Deductor, ИАС «SAS», ИАС «STADIA», ИАС «PolyAnalyst».
TOOLS FOR USE BY BIG DATA AND DATA MINING IN ORDER TO ENSURE INFORMATION SECURITY -APPROACHES, EXPERIENCES
P.Yu. Filyak, E.E.O. Bailarly, V.V. Rastvorov, V.I. Starchenko
Abstract. Examines the approaches to information security based on the work with large amounts of structured and unstructured data - the Big Data and the implementation of intelligent data analysis (Data Mining), using information-analytical systems that enables effective and qualitative analysis, with a view to forecasting and decision-making for timely and adequate response to threats and challenges. Showing the relevance and effectiveness of the use of such approaches in practice.
Key words: security, information security, threats, challenges, data, structured data, unstructured data, information, analysis, information - analytical system (IAS), Big Data, Data Mining, platform for building complete analytical solutions - Deductor, IAS «SAS», IAS «STADIA», IAS «PolyAnalyst».
В новой редакции Доктрины информационной безопасности Российской Федерации [1] дается четкое определение обеспече-
ния информационной безопасности. Это осуществление взаимоувязанных правовых, организационных, оперативно-розыскных, разведывательных, контрразведывательных, научно-технических, информационно-аналитических, кадровых, экономических и иных мер по прогнозированию, обнаружению, сдерживанию, предотвращению, отражению информационных угроз и ликвидации последствий их проявления.
В ситуационной составляющей, предусматривающей меры быстрого реагирования в соответствии с имеющейся реальной и прогнозируемой обстановкой, характеризующейся появлением новых угроз и вызовов современности, требуется изменение подходов, предполагающих быстрые и незамедлительные меры реагирования как на существующие проблемы, так и на прогнозируемые негативные события и тенденции.
Если к 2003 г., по словам Эрика Шмидта (председателя совета директоров компании Google), количество информации, созданной человечеством с момента зарождения цивилизации, составляло пять экзабайт, то в настоящее время оно уже исчисляется десятками зеттабайт, неуклонно приближаясь к максимальным величинам -йоттабайтам.
В настоящее время приходится работать с большими объемами разнообразной информации и данных практически во всех сферах жизни (рис. 1) [5] - данных как структурированных, так и (в большинстве случаев) неструктурированных. Нарастание информации,
200000
■ Big Data
0
2008 2009 2010 2011 2012 2013 2014 2015
Рисунок 1. Возрастание количества публикаций
данных в настоящее время происходит практически в экспоненциальной зависимости. Значительную часть (страту) этих возрастающих объемов данных составляют появившиеся не так давно, но крайне стремительно нарастающие в настоящее время данные из социальных сетей («Однокласники», «ВКонтакте» и другие, в том числе ныне заблокированной «Linkedin»), - как результат и пример в действии сетецентрической парадигмы (сетецентрических систем, моделей и т.д.). Эти данные также могут быть структурированными или нетруктурированными, их флуктуации - случайными и непредсказуемыми, либо иметь какие-либо тенденции - явные или неявные. Выявить такие тенденции и закономерности, особенно неявные, которые не просматриваются «невооруженным глазом», но на самом деле могут заключать в себе очень значительный потенциал развития и перерасти в крайне серьезные тенденции и процессы, представляется возможным только на основе совокупного и комплексного применения разнообразных методов анализа (прежде всего - математического). Такой подход позволяет выявить не только закономерности, но и законы.
Человеческий мозг, позволяющий вместить примерно 35 эк-забайт информации, в настоящее время уже в принципе не может «впитывать и перерабатывать» всю имеющуюся в мире информацию, что знаменует собой переход за барьер восприятия и наступление эры хронически нарастающей информационной перегрузки, - «запирание» по «входу» восприятия информации, когда человек, - лицо, принимающее решение (ЛПР), вынужден работать не с первичной информацией, а с субстратами информации, что требует применения специальных подходов и методов при выработке и принятии управленческих решений [8; 10].
По существу это означает, что помимо традиционных методов обеспечения информационной безопасности и сложившихся в этом плане подходов необходимо широко и интенсивно осваивать и внедрять подходы, которые можно отнести к методам быстрого реагирования [8; 10]. Они должны основываться на математическом моделировании, широко использовать методы, позволяющие работать с большими объемами первичных данных и информации - Big Data - и своевременно, и эффективно извлекать из огромных объемов данных знания посредством интеллектуального анализа данных
и информации - Data Mining [6-7], что невозможно без широкого внедрения и использования современных информационно-аналитических систем, представляющих собой эффективный симбиоз математики, современных средств вычислительной техники, программного обеспечения и средств мультимедиа.
В настоящее время на рынке представлен достаточно широкий спектр информационно-аналитических систем (ИАС), позволяющих работать с Big Data и осуществлять Data Mining как отечественных, так и зарубежных разработчиков - информационно-аналитические системы - «Семантический архив», «Галактика Zoom», «Web-Observer», «Intellectum.BIS», RCO «Fact Extractor», «Астарта», «Тренд», «GetNews», «Невод», «ИСКРА», продукты, ориентированные на реализацию методов Data Mining российского разработчика - Лаборатория BaseGroup (г. Рязань), ИАС «Oracle Express OLAP», «Statistica», ИАС OLAP-анализа «Business Objects», ИАС «Контур Стандарт», ИАС «PolyAnalyst», используемая в более чем 20 странах мира, «RapidMiner» как открытое платформенное решение - среда для работы с Big Data и аналитики и другие.
Многие разработчики предлагают программные продукты с самостоятельным наполнением - эксклюзивным наполнением самостоятельной начинкой, по существу - с уникальным сочетанием реализацией математических методов и информационных технологий, но достаточно и таких предложений, где аналитические функции «почетно делегируются» знаменитому, до боли известному приложению MS Office Excel. Поэтому в таких случаях об уникальности методик говорить не приходится, разве что уникальность может заключаться в уникальности предложенной платформы и интерфейса как системного интегратора.
Задача заключается в выборе такого инструмента, который бы позволял эффективно достигать поставленных целей и решать конкретные задачи при максимально оптимальной величине традиционного критерия - соотношения цены / качества. Кроме того, немаловажными при выборе являются такие критерии (параметры), как совместимость с реально располагаемой и широко распространенной программно-аппаратной составляющей потенциальных пользователей ИАС, удобство и дружественность интерфейса, удобство и наглядность инструментов и способов представления «входной»
информации, информации, предоставляемой на «выходе» ИАС. Очень важно при выборе инструмента получить собственный опыт в решении реальных задач для того, чтобы рекомендовать выбор того или иного средства. Зачастую спектр конкретных задач исследователя-пользователя может не потребовать всего спектра возможностей, которыми располагает мощный уникальный «суперпакет» именитого разработчика или новичка рынка, либо может оказаться слишком сложным, неудобным и / или дорогостоящим.
В статье, представлен опыт применения инструментальных средств (ИАС), которые, по мнению авторов статьи, показали свою эффективность в решении конкретных прикладных задач обеспечения информационной экономической безопасности организации.
Аналитическая платформа «Дедуктор» компании «Base Group Labs» (г. Рязань) [9] для создания законченных аналитических решений позволяет решать задачи безопасности в аналитике. В платформу встроены современные методы извлечения, визуализации и анализа данных.
«Дедуктор» позволяет создавать защищенные пополняемые хранилища с данными для анализа. Для быстрого «перемещения» информации в «Дедуктор» и из него существуют операции импорта и экспорта, что позволяет в короткие сроки создавать целые базы данных для дальнейшей обработки, а главное - защищенной базы данных (рис. 2).
В рамках виртуализации «Дедуктор» позволяет быстро и эффективно реализовать огромное количество видов представления информации, такие как графики, диаграммы, OLAP-кубы и т.п. и к тому же настройка виртуализации проста (рис. 3).
Рисунок 2. Схема работы ИАС «Дедуктор»
Новый вуз-лартнер: Северо- МигКредит снизил свои Кавказский федеральный риски с помощью С)ес1ис1ог
Рисунок 3. Интерфейс ИАС «Дедуктор»
Информационно-аналитическая система (ИАС) «SAS» разработана компанией SAS Institute Inc. («SAS»), США [3-4].
ИАС SAS предоставляет интегрированную среду для работы с Big Data и Data Mining, которая позволяет:
- применять широкий спектр статистических методов, включающий в себя: дисперсионный анализ, многомерный анализ, смешанные модели, категориальный анализ данных, байесовский анализ, анализ выживаемости, психометрический анализ, кластерный анализ, непараметрический анализ, анализ результатов опросов, регрессию, метод множественного восстановления, расчет размера и мощности выборки, анализ данных с использованием построенных моделей и др.;
- строить описательные и прогнозные модели;
- осуществлять интеллектуальный анализ: данных, текста из всех источников неструктурированных данных - различные web-ресурсы (социальные сети, блоги, форумы, новостные сайты), записи и комментарии операторов call-центров, результаты опросов, письма в электронной почте, письменные обращения клиентов и др;
- выполнять: прогнозирование, оптимизацию;
- осуществлять имитационное моделирование, решение задач нейросетевыми методами, динамическую визуализацию данных, построение прогнозных моделей, планирование экспериментов;
- применять широкий набор методов сбора, классификации, анализа и интерпретации данных для обнаружения скрытых закономерностей, отклонений, аномалий, тенденций, значимых переменных и их взаимосвязей;
- оперативно принимать обоснованные аналитические и управленческие решения;
- выполнять многие другие операции.
ИАС SAS имеет целый ряд конкурентных преимуществ для
пользователей:
- интуитивно понятный интерфейс для работы с операционной системой Windows, Mac или Linux;
- удобный язык программирования - Base SAS;
■ STADIA 8.0/учебная для Windows (С) Кулаичев А.П., 1996-2013, для DOS: 1988-1996
Файл Графики;F6 Калькулятор: F7 Преобразования=Р8 Статистика; F9 Окна Помощь^
Ё> н| X 1 (Sil alai I _ВсехХ=0,х1=0,у1
Таблица данных
1 XI х2 хЗ 1 х4 x5 1 x6 1 x7 1 x8 X,
1 ____ ----
2 3 4 -- Графики даннь •a X
5 6 fâ 1=Функции: Y=f(X] целивые it Ol 7 r сто л б. диаграмм а j—
7 8 lili 2=с отклонениями Й 8-днаграмма-башня
9 10 -j ¡•■У: 4=аиагр.рассеяния | ® А=круг.диаграмма
11 И 5-распреаеления столбики Зй-эффект
12 13 14 Щ £-ящнки-оусани КЗ В=карта I -
15 16 17 tí £=ииагр.рассеяния | ^ D=Har.функция 1=интерполяция \гг ^сглаживание U- —
18 19 Й> Е=поверхность Сглаж: Шагов= 1 Козф=|юо ¡—
20 21 И!| Е=карта ||3 _ll iE G=cynepûHarpaMMa | X <Esc>=OTMeHHTb В —
23
24 -
Рисунок 4. Диалоговое окно STADIA
МОСКОВСКИЙ ФИНАНСОВО-ЮРИДИЧЕСКИЙ УНИВЕРСИТЕТ МФЮА
- эффективные комплексные инструментальные средства для статистической обработки данных - SAS/STAT;
- удобный язык программирования матриц для углубленного специализированного анализа - SAS/IML;
- инструменты для упрощенного доступа к данным и работы с файлами формата PC - SAS/ACCESS и другие возможности.
Кроме того, разработчик предоставляет бесплатное приложение SAS - SAS Universiry Edition, которое позволяет ознакомиться с основными возможностями указанной ИАС.
Инструментальное средство для анализа, обработки и хранения данных STADIA. Пакет STADIA (Statistical Dialogue System) [2] - универсальный статистический пакет, разработанный специалистами Московского государственного университета им. М.В. Ломоносова совместно с НПО «Информатика и компьютеры». Первая версия пакета была выпущена в 1989 г. На сегодняшний день разработана 8-я версия пакета STADIA 8.0.
По мнению разработчиков, пакет ориентирован на массового пользователя, имеющего небольшой опыт как в статистическом анализе, так и в общении с персональным компьютером, но нуждающегося в быстром и удобном средстве оформления и обработки данных.
Пакет предоставляет пользователям широкий набор методов статистического анализа данных: описательная статистика, дисперсионный, корреляционный и спектральный анализ, сглаживание, прогнозирование, простая, нелинейная регрессия, кластерный
Рисунок 5. Графический вид модели угроз и модели нарушителя на территории
-Я К 15 И .В "Н
Рисунок 6. Интенсивность инцидентов нарушений ИБ на территории
и факторный анализ, методы контроля качества, анализ и замена пропущенных значений. Также возможно построение и редактирование двух-, трех- и многомерной графики: зависимости, прогнозы, диаграммы рассеяния, карты, гистограммы, столбиковые, башенные и круговые диаграммы, установка размеров, надписей по осям и под рисунком и пр. [2]. Данные могут быть заданы как в виде аналитических зависимостей, так и с помощью областей их значений.
Внешний вид диалогового окна STADIA представлен на рис. 4.
Достоинства STADIA:
- наличие системы контекстной экранной помощи, включающей объемный гипертекстстовый справочник и экспертную систему по выбору метода статистического анализа;
- обработка больших объемов данных (до 32 000 наблюдений);
- наличие режима выдачи оглавления архива данных с комментариями;
- селективный поиск файлов по контексту комментариев, присвоенных архиву с данными;
- минимальные требования к аппаратной части - для работы программы требуется лишь 8 MB оперативной памяти, сама программа занимает 4.1 MB на жестком диске компьютера;
- экспорт данных и результатов;
- простой и удобный дружественный интерфейс.
Недостатки STADIA:
- наличие только русскоязычной версии;
- несовместимость с операционными системами, отличными от Windows.
С помощью ИАС STADIA можно вычислить и наглядно представить параметры, количественно характеризующие уровень информационной безопасности на объектах защиты - по результатам расчетов авторов статьи - (рис. 5-6), что позволяет оперативно оценивать ситуацию и предпринимать меры реагирования.
Библиографический список
1. Указ Президента РФ от 5 декабря 2016 г. N° 646 «Об утверждении Доктрины информационной безопасности Российской Федерации» // СПС «КонсультантПлюс». URL: http://www.consultant.ru (дата обращения: 03.02.2017).
2. STADIA-8.0. URL: http://protein.bio.msu.ru/~akula/Podr2~1.htm (дата обращения: 08.01.2017).
3. Аналитика SAS. URL: http://www.sas.com/ru_ru/software/analytics.html (дата обращения: 05.01.2017).
4. Бесплатное ПО для статистики, SAS University Edition // SAS. URL:http:// www.sas.com/ru_ru/software/university-edition.html (дата обращения: 05.01.2017).
5. Будзко В.И., Шмид А.В., Иванов Н.А., Садовский С.П. Безопасность и конфиденциальность централизованной системы профилактики заболеваний. URL: https://yadi.sk/d/F-CaJt3J3DgeS4 (дата обращения: 19.03.2017).
6. Большие данные (Big Data): изменение будущего человечества. URL: http://www.kitaichina.com/se/txt/2013-03/28/content_530849.htm (дата обращения: 05.01.2017).
7. Майер-Шенбергер В., Кукьер К. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. М., 2014.
8. Остапенко А.Г., Ермилов Е.В., Калашников А.О. Риски ущербности, шансы полезности и жизнестойкость компонент автоматизированных систем в условиях воздействия на них информационных угроз // Информация и безопасность. 2013. Т. 16. № 2.
9. Технологии анализа данных компании BaseGroup Labs Аналитика SAS. URL: https://basegroup.ru/ (дата обращения: 05.01.2017).
П.Ю. Филяк
кандидат технических наук, доцент
доцент кафедры информационной безопасности Сыктывкарского государственного университета им. Питирима Сорокина» Е-mail: [email protected]
Э.Э.О. Байларли
студент направления «Информационная безопасность» Сыктывкарского государственного университета им. Питирима Сорокина Е-mail: [email protected]
В.В. Растворов
студент направления «Информационная безопасность» Сыктывкарского государственного университета им. Питирима Сорокина Е-mail: [email protected]
В.И. Старченко
студент направления «Информационная безопасность» Сыктывкарского государственного университета им. Питирима Сорокина Е-mail: [email protected]