Секция «Информационно-экономические системы»
УДК 004.652
А. С. Соболь Научный руководитель - С. И. Сенашов Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск
ОБРАБОТКА «БОЛЬШИХ ДАННЫХ» В ТЕЛЕКОММУНИКАЦИОННЫХ КОМПАНИЯХ
Анализируются вопросы обработки «больших данных» на примере задачи о сборе, хранении и анализе информации Б1ЕМ системой посредствам СУБД, с учётом требования обработки информации в реальном времени. Формализуются требования к аппаратно-программной платформе. Разрабатываются и апробируются методики по использованию СХД и СУБД в рамках поставленной задачи. Описывается результат работы готового решения в ргоёисйоп-среде.
Технологии «больших данных» успешно реализуются в различных индустриях, таких как банки, телеком, ритейл, энергетика, медицина и управление городской инфраструктурой. В секторе телекоммуникаций более 45 % компаний ведут активные проекты с участием «больших данных» [1]. Основными задачами в данном секторе являются бизнес-аналитика, «умные» маркетинговые кампании, выявление мошенничества, улучшение качества связи. Интересно, что при всем разнообразии задач вендорские решения в сфере «больших данных» пока не приобрели ярко выраженной отраслевой направленности. Рынок находится не просто на стадии активного формирования, а в самом начале этой стадии.
Под задачами выявления мошенничества в первую очередь понимаются задачи, связанные с анализом поступающей информации от различных систем (таких как DLP, IDS, антивирусов, файерволов, маршрутизаторов) для дальнейшего выявления отклонения от норм по каким-либо критериям и последующей генерацией инцидентов.
Сама по себе данная задача не является наукоёмкой и решается при помощи SIEM-систем (с англ. -Security Information and Event Management - система сбора и корреляции событий). Основная проблема стоит в том, что при расширении информационной инфраструктуры (равно как и при перенаправлении потока событий на SIEM-систему с других ИС) количество событий генерируемое в единицу времени становится больше, что в итоге сказывается на увеличении времени обслуживания БД в общем, и к пропуску каких-либо важных инцидентов безопасности в частности, что в свою очередь недопустимо.
В статье ставится задача: проанализировать объём, источники и типы генерируемых событий информационной инфраструктурой, сформулировать критерии к аппаратно-программной части комплекса и настроить СУБД и СХД (систему хранения данных) таким образом, чтобы SIEM система при помощи данной СУБД могла обеспечивать обработку всех событий в режиме реального времени.
В ходе работы над задачей было определено среднее количество генерируемых в день событий (порядка одного миллиарда) и объём, занимаемый событиями в СХД (порядка 20 Тб). На основании требования
обеспечения обработки событий в реальном времени с учётом роста нагрузок в среднесрочной перспективе было принято решение выбрать СХД «Mid-Range» сегмента, обладающего таким функционалом как «Tiering» (перемещение данных между дисками и/или дисковыми массивами различных классов стоимости и производительности) и «Thin provisioning» (динамические тома).
СХД была настроена с учётом использования RAID 6 массива. Данная структура массива обеспечивает приемлемую скорость при относительно небольшой потери места в СХД, что с учётом требуемых объёмов является очень значимым фактором.
Для реализации задачи была выбрана СУБД Mon-goDB. Основным фактором выбора данной СУБД явилась поддержка вычислительной парадигмы, известной как MapReduce. Преимущество MapReduce заключается в том, что она позволяет распределенно производить операции предварительной обработки и свертки. Операции предварительной обработки работают независимо друг от друга и могут производиться параллельно (хотя на практике это ограничено источником входных данных и/или количеством используемых процессоров). MapReduce может быть применена к большим объемам данных, которые могут обрабатываться большим количеством серверов [2].
К самой СУБД были применены оптимизационные алгоритмы чтения и записи, которые в первую очередь повысили производительность, а так же позволили снизить нагрузку на аппаратную часть.
Результатом стала рабочая программно-аппаратная платформа с SIEM-системой, способная обрабатывать «большие данные» в режиме реального времени, снизив тем самым риск пропуска значимых инцидентов до нуля.
Библиографические ссылки
1. URL: http://www.tadviser.ru/images/3/3d/Cnews_ infa_bigdata_4.jpg (дата обращения: 15.04.2014).
2. URL: http://www.tadviser.ru/index.php/%D0%9F %D 1%80%D0%BE%D0%B4%D1%83%D0%BA%D1% 82:MapReduce (дата обращения: 15.04.2014).
© Соболь А. С., 2014