Научная статья на тему 'ПРИМЕНЕНИЕ BIG DATA ПРИ АНАЛИЗЕ БОЛЬШИХ ДАННЫХ В КОМПЬЮТЕРНЫХ СЕТЯХ'

ПРИМЕНЕНИЕ BIG DATA ПРИ АНАЛИЗЕ БОЛЬШИХ ДАННЫХ В КОМПЬЮТЕРНЫХ СЕТЯХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
532
79
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОЛЬШИЕ ДАННЫЕ / ВНЕДРЕНИЕ / РЕСУРСЫ / АЛГОРИТМЫ / КОМПЬЮТЕРНЫЕ ВЫЧИСЛЕНИЯ / ИНТЕРПРЕТАЦИЯ / ПРОИЗВОДИТЕЛЬНОСТЬ / BIG DATA / INTRODUCTION / RESOURCES / ALGORITHMS / COMPUTER COMPUTING / INTERPRETATION / PERFORMANCE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Орлов Григорий Александрович, Красов Андрей Владимирович, Гельфанд Артем Максимович

Понятие Big Data заключает в себе совокупность всех наборов данных, общий размер которых в разы превосходит возможности работы обычных баз данных, так же требуется отметить применение неклассических методов обработки данных. К примеру, в управлении, анализе полученной информации или же просто хранении. Алгоритмы работы Big Data в наши дни смогли возникнуть параллельно с внедрением первых, в своем роде серверов с высокой производительностью, к примеру, мэйнфреймов, которые имеют достаточные ресурсы, требуемые с целью оперативной обработки информации, а также соответствующих компьютерным вычислениям с последующим анализом. Алгоритмы основаны на выполнении последовательно-параллельных вычислений, что значительно увеличивает скорость выполнения различных задач. В Big Data заинтересованы предприниматели и ученые, которых заботят вопросы, касающиеся не только качественной, но и актуальной интерпретации данных, а также создание инновационных инструментов для работы с ними. Гигантское количество данных обрабатывается для того, чтобы конечный пользователь получил нужные ему результаты для их дальнейшего эффективного использования. Big Data дает возможность компаниям расширить количество своих клиентов, привлекать новую целевую аудиторию, а тек же помогает реализовывать проекты, которые будут пользоваться спросом не только у текущих клиентов, но и привлекать новых. Решению данных проблем и соответствует активное внедрение, а также последующее использование Big Data. В работе рассмотрено сравнение основных типов баз данных и проведен анализ обнаружения вторжений на примере технологий распределенной информационной системы по обработке Big Data. Своевременное обнаружение вторжений в системы обработки данных необходимы для принятия мер по сохранению конфиденциальности и целостности и данных, а также для грамотного исправления ошибок и совершенствованию защите системы обработки данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Орлов Григорий Александрович, Красов Андрей Владимирович, Гельфанд Артем Максимович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE USE OF BIG DATA IN THE ANALYSIS OF BIG DATA IN COMPUTER NETWORKS

The concept of Big Data includes the totality of all data sets, the total size of which is several times larger than the capabilities of conventional databases.it is also necessary to note the use of non-classical data processing methods. For example, in the management, analysis of information received, or simply storage. Big Data algorithms have emerged in parallel with the introduction of the first high-performance servers of their kind, such as the mainframe, which have sufficient resources required for operational information processing, as well as corresponding to computer calculations with subsequent analysis. The algorithms are based on performing series-parallel calculations, which significantly increases the speed of performing various tasks. Entrepreneurs and scientists are interested in Big Data, who are concerned with issues related to not only high-quality, but also up-to-date interpretation of data, as well as creating innovative tools for working with them. A huge amount of data is processed in order for the end user to get the results they need for their further effective use. Big Data enables companies to expand the number of their customers, attract new target audiences, and also helps them implement projects that will be in demand not only among current customers, but also attract new ones. Active implementation and subsequent use of Big Data correspond to the solution of these problems. In this paper, we compare the main types of databases and analyze intrusion detection using the example of distributed information system technologies for processing Big Data. Timely detection of intrusions into data processing systems is necessary to take measures to preserve the confidentiality and integrity of data, as well as to correctly correct errors and improve the protection of the data processing system.

Текст научной работы на тему «ПРИМЕНЕНИЕ BIG DATA ПРИ АНАЛИЗЕ БОЛЬШИХ ДАННЫХ В КОМПЬЮТЕРНЫХ СЕТЯХ»

doi: 10.36724/2409-5419-2020-12-4-76-84

ПРИМЕНЕНИЕ BIG DATA ПРИ АНАЛИЗЕ БОЛЬШИХ ДАННЫХ В КОМПЬЮТЕРНЫХ СЕТЯХ

ОРЛОВ

Григорий Александрович1 КРАСОВ

Андрей Владимирович2

ГЕЛЬФАНД Артем Максимович3

Сведения об авторах:

студент Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, г. Санкт-Петербург, Россия, grlgory.a.orlov@gmall.com

2

к.т.н., доцент, преподаватель Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, г. Санкт-Петербург, Россия, krasov@lnbox.ru

3аспирант Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, г. Санкт-Петербург, Россия, amgelfand@mall.ru

АННОТАЦИЯ

Понятие Big Data заключает в себе совокупность всех наборов данных, общий размер которых в разы превосходит возможности работы обычных баз данных, так же требуется отметить применение неклассических методов обработки данных. К примеру, в управлении, анализе полученной информации или же просто хранении. Алгоритмы работы Big Data в наши дни смогли возникнуть параллельно с внедрением первых, в своем роде серверов с высокой производительностью, к примеру, мэйнфреймов, которые имеют достаточные ресурсы, требуемые с целью оперативной обработки информации, а также соответствующих компьютерным вычислениям с последующим анализом. Алгоритмы основаны на выполнении последовательно-параллельных вычислений, что значительно увеличивает скорость выполнения различных задач. В Big Data заинтересованы предприниматели и ученые, которых заботят вопросы, касающиеся не только качественной, но и актуальной интерпретации данных, а также создание инновационных инструментов для работы с ними. Гигантское количество данных обрабатывается для того, чтобы конечный пользователь получил нужные ему результаты для их дальнейшего эффективного использования. Big Data дает возможность компаниям расширить количество своих клиентов, привлекать новую целевую аудиторию, а тек же помогает реализовывать проекты, которые будут пользоваться спросом не только у текущих клиентов, но и привлекать новых. Решению данных проблем и соответствует активное внедрение, а также последующее использование Big Data. В работе рассмотрено сравнение основных типов баз данных и проведен анализ обнаружения вторжений на примере технологий распределенной информационной системы по обработке Big Data. Своевременное обнаружение вторжений в системы обработки данных необходимы для принятия мер по сохранению конфиденциальности и целостности и данных, а также для грамотного исправления ошибок и совершенствованию защите системы обработки данных.

КЛЮЧЕВЫЕ СЛОВА: большие данные; внедрение; ресурсы; алгоритмы; компьютерные вычисления; интерпретация; производительность.

Для цитирования: Орлов Г. А., Красов А. В., Гельфанд А. М. Применение Big Data при анализе больших данных в компьютерных сетях // Наукоемкие технологии в космических исследованиях Земли. 2020. Т. 12. № 4. С. 76-84. doi: 10.36724/2409-5419-2020-12-4-76-84

Введение

В настоящее время объем обрабатываемой информации в мире растет в геометрической прогрессии. С целью быстрого реагирования на какие-либо изменения рынка, получения конкурентоспособных преимуществ, а также абсолютного повышения эффективности производства требуется правильно и быстро получать, обрабатывать и, анализировать большое количество данных [1].

Для того, чтобы наиболее эффективно работать с такими объемами информации, разработчикам была поставлена задача модернизировать инструменты, применяемые для анализа больших данных. Именно так в начале 2000-х годов появилось понятие Big Data, которое в то время интересовало узкий круг специалистов.

В наши дни практически каждый человек, имеющий отношение к цифровым технологиям, от обычного пользователя в социальных сетях до лидирующих разработчиков, имеет представление о данном определении. Данное направление в развитии информационных технологий становится не только наиболее популярным, но также и стратегически важным в современном мире [2].

Данные технологии способны позволить современному человеку обрабатывать большой объем данных, сделать иерархическую систематизацию, а также выявить какие-либо закономерности там, где человеческий мозг не смог бы их определить. Направление Big Data открывает абсолютно новые возможности относительно использования данных.

Основная часть

Основываясь на небольшом исследование традиционной базы данных в сравнении с технологиями Big Data, результаты структурированы в табл. 1.

Исходя из анализа таблицы, можно сделать вывод, что технологии Big Data являются наиболее эффективными и рациональными в работе по сравнению с традиционными базами данных.

Понятие Big Data включает в себя не только огромные пласты памяти, но также и сотни гигабайтов, и даже петабайтов данных, которые возможно обработать, проанализировать, а в дальнейшем извлечь из них необходимую информацию. Если обобщить все вышесказанное, то можно определить Big Data как набор технологий, предназначенных для получения информации [3, 4].

Также важно подчеркнуть, что объем данных, обрабатываемых через Big Data, непрерывно растет, растет параллельно со скоростью их обработки. Совершенствование этой области знаний в сфере информационных технологий полностью соответствует миру в наши дни, который стремительно развивается и накапливает огромное количество инновационных знаний (рис. 1).

■ Операционная эффективность Клиентский сервис ■ Риск-менеджмент

Рис. 1. Сфера использования технологий Big Data

На текущий момент, Big Data удел не только гигантов IT мира. Благодаря таким решениям как Hadoop от ApacheSoftwareFoundation, набору облачных сервисов от IBM, Amazon, Google, это направление, становится доступным практически любым компаниям, работающим в сфере ИТ. А такие решения как Clickhouse, Cassandra, InfluxDB позволяют войти в сферу работы с Big Data даже отдельным персонам.

Таблица 1

Характерные особенности традиционной базы данных и Big Data

Характеристика Традиционная БД Big Data

Информационный объем От гигабайта ( 109байт), до терабайта (1012 байт) От петабайта ( 1015 байт), до эксабайта ( 1018 байт)

Структурированность данных Структурированы Полу-структурированы и не структурированы

Способ хранения Централизованный Децентрализованный

Взаимосвязь между данными Сильная Слабая

Модель хранения и обработки данных Вертикальная модель Горизонтальная модель

Как видно из диаграммы (см. рис. 1), технологии Big Data наиболее распространены в сфере тестирования эффективности операционных систем, далее находятся разработки, касающиеся определения риск-менеджмента и клиентского сервиса.

Внедрение Big Data в современном мире является обязательным условием для развития лидирующих компаний в сфере информационных технологий. Не имея полного анализа поведения своих клиентов и средств прогнозирования, опираясь исключительно на опыт или интуицию, практически невозможно оставаться конкурентоспособным в современном мире. Грамотно настроенная и эффективно работающая система Big Data имеет возможность в доли секунд проанализировать и воспроизвести требуемую информацию на основе результата работы миллиарда действий клиентов компании.

В бизнесе современного мира уже появилось понятие DataDrivenManagment, смысл которого заключается в управлении компанией на основе анализа данных. Подобные способы управления имеют достаточно эффективные показатели1 [5, 6].

Facebook, Google, Мейл.ру, Яндекс уже длительное время основывают свою работу на данных способах управления с целью принятия решений. В современном мире Big Data смогло заинтересовать и традиционный бизнес, владельцы которых имеют потребность в инновационных инструментах с целью повышения эффективности процессов.

Основными принципами работы с Big Data являются:

- горизонтальная масштабируемость;

- отказоустойчивость;

- локальность данных.

Сфера использования технологии Big Data является достаточно обширной. К примеру, с помощью этой технологии пользователь способен узнать о предпочтении клиентов, эффективности каких-либо компаний или же провести полный анализ рисков бизнеса.

Также требуется отметить, что Big Data являются одними из самых быстроразвивающихся сфер в информационных технологиях. Опираясь на статистические данные, полный объем получаемых, а также хранимых данных увеличивается вдвое каждые 1-2 года.

Опираясь на вышеуказанную информацию, можно сделать вывод о том, что Big Data является уже устоявшейся сферой, несмотря на ее относительно молодой возраст по отношению к другим технологиям. Big Data смогла получить распространение практически во всех сферах

бизнеса, а также одну из самых важных ролей в развитии компаний.

Технологии Big Data, используемые для сбора и обработки Big Data, можно разделить на 3 группы:

- программное обеспечение;

- оборудование;

- сервисные услуги.

К наиболее распространенным подходам обработки данных (ПО) относятся:

MapReduce — модель распределения вычислений. Используется для параллельных вычислений над очень большими наборами данных (петабайты и более). В программном интерфейсе не данные передаются на обработку программе, а программа— данным. Таким образом запрос представляет собой отдельную программу. Принцип работы заключается в последовательной обработке данных двумя методами Map и Reduce. Map выбирает предварительные данные, Reduce агрегирует их [7].

SQL — язык структурированных запросов, позволяющий работать с базами данных. С помощью SQL можно создавать и модифицировать данные, а управлением массива данных занимается соответствующая система управления базами данных и др.

Наряду с множеством возможностей и более эффективной работы относительно традиционных баз данных, технологии Big Data имеют ряд проблем при внедрении их в организацию.

Ниже (рис. 2) представлен график, наглядно показывающий степень распространенности проблемы.

Подводя итоги, можно с уверенностью заявить о том, что современный мир нуждается в разработке и усовер-

'Xa6pxa6p//bigData от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce/ сост.: А. Петров. URL: https://habrahabr.ru/company/dca/ blog/267361/ (дата обращения: 24.07.2019)

Рис. 2. Основные проблемы внедрения технологии Big Data: 1 — вопросы безопасности; 2 — Ограниченный бюджет организации; 3 — Нехватка персонала с целью внедрения данной технологии; 4 — Нехватка персонала для ведения проектов; 5 — Существующая сложность интеграции

с существующими системами; 6 — Ограниченное число поставщиков данных; 7 — Предприятие не является готовым к технологиям Big Data

шенствовании сферы Big Data в области информационных технологий.

Эпоха Big Data уже наступила — объемы данных, генерируемых в науке, бизнесе, индустрии и управлении ИТ, растет экспоненциально. Однако существующие приложения обработки Big Data не позволяют контролировать этапы ввода данных, собирать статистику и подбирать оптимальные структуры для хранения индексов, оптимизировать размещение данных на диске для обеспечения высокой скорости ввода/вывода, для выполнения аналитических запросов нет возможности произвести глубокий статистический анализ и выработать оптимальный план выполнения.

Проведя анализ работы разных характеристик (табл. 2) можно сделать вывод, что даже в небольшой организации Защищенного контроля учета рабочего времени сотрудников (ЗКУ РВС) необходима для обработки различных видов связи структурных подразделений, для сохранности конфиденциальных персональных данных или же, например, финансовой отчетности. Понятда Big Data удaчно сочeтaeт в сeбe кaчeствa систeм пpогpaммногоупpaвлeния, систем aдaптивного упpaвлeния и систем интeллeк-туaльного упpaвлeния [8, 9]. С aлгоpитмичeской точки зpeния, комплeкс пpогpaмм модeли paздeляeтся нa двe чaсти — собствeнноимитaционную, котоpaя при своeм

функциониpовaнии имитиpуeт пpоцeссы, пpотeкaющиe по peaльной распределенной информационной системе (РИС) (рис. 3), и сepвисную, raTOpaa обeспeчивaeт взaимодeйствиe аппapaтно-пpогpaммного комплeкса (АПК) или опepaтоpa с имитaционной чaстью.

Подводя итоги табл. 2, Big Data необходимо выявить следующие основные моменты:

Проведем эксперимент в цифрах с целью сравнения основных харастеристик SQL, NoSQL, BDA.

1. В начале научного эксперимента выявим основные и ключевые структурные различия SQL и NoSQL баз данных и внимательно рассмотрим их функциональные особенности.

2. NoSQL реляционная СУБД. Преимущества NoSQL:

2.1. NoSQL по сравнению с SQL, также крайне развитая СУБД;

Совместимость: NoSQL по сравнению с SQL в 5 раз доступней на всех основных платформах, включая Linux, Windows, Mac, BSD и Solaris. Также у неё есть библиотеки для языков вроде Node.js, Ruby, C#, C++, Java, Perl, Python и PHP;

Окупаемость: NoSQL по сравнению с SQL в 2 раза более окупаемо с открытым исходным кодом, находящаяся в свободном доступе.

Таблица 2

Таблица сравнения для Big Data

Характеристики SQL NoSQL BDA Аналитика больших данных (сравнительные характеристики)

Объектно-ориентированное программирование БД Да Возможны разные варианты Нет Практические схожие характеристики изучаемых языков программирования без существенных отличий

Мультимедийные типы данных Да Да Не ограничено Практические схожие характеристики изучаемых языков программирования без существенных отличий

Макс размер таблиц Да указать размер числом Да указать размер числом Практически не ограничено Практические схожие характеристики изучаемых языков программирования без существенных отличий

Макс число таблиц в БД Не ограниченно Не ограниченно Не ограниченно Есть отличия но незначительные

Макс число таблиц на каждое соединение Не ограниченно Не ограниченно Не ограниченно Есть отличия но незначительные

Макс число пользователей БД Не ограниченно Не ограниченно Не ограниченно Есть отличия но незначительные

Рекомендуемая емкость ОП на одного пользователя Изменяемая величина Изменяемая величина Изменяемая величина Есть отличия но незначительные

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

Рис. 3. Модель управления Big Data (с функциями запуска АПК, систем правил работы Больших данных в ИС)

Реплицируемость: Базу данных NoSQL, по сравнению с SQL, можно распределять между несколькими узлами, таким образом уменьшая нагрузку и улучшая масштабируемость и доступность приложения;

Шардинг: В то время как шардинг невозможен на большинстве SQL баз данных, NoSQL является исключением.

BDA: нереляционная СУБД.

Преимущества Big Data:

Динамическая схема: Как упоминалось выше, эта СУБД позволяет гибко работать со схемой данных без необходимости изменять сами данные;

Масштабируемость: BDA горизонтально масштабируема, что позволяет легко уменьшить нагрузку на сервера при больших объёмах данных;

Собственно, сам АПК с Big Data — это комплeкс, состоящий из aппapaтного и пpогpaммного обeспeчeния системы, позволяющий осущeствлять сбор, обpaботку, хpaнeниe и отобpaжeниe инфоpмaции о состоянии объeктов

в peaльном мaсштaбe вpeмeни. Здeсь сepвep тожe выступaeт в роли буфepa мeжду БД и зaпpосaми от других устройств. Всe дpaйвepы содepжaт нeпосpeдствeнно инфоpмaцию об устpойствe, eго нaстpойкaх и компонeнтaх.

Контaктныe элeмeнты удобны для быстрого «схвaтывaния» Big Data ситуaции с ужe ввeдeнной чaстью исходных дaнных и для понимaния того, гак нaиболee быстро и эффeктивно ввeсти остaвшиeся дaнныe [6].

Big Data открывает новые горизонты в планировании производства, образовании, здравоохранении и других отраслях. Если их развитие будет продолжаться, то технологии Big Data могут поднять информацию, как фактор производства, на совершенно новый качественный уровень. Информация станет не только равноценна труду и капиталу, но и, возможно, станет наиважнейшим ресурсом современной экономики.

Для РИС с использованием Больших данных [6-8] принципиально важен первичный структурный анализ для повышения эффективности обнаружения выбранных шаблонов атаки по представленной модели (см. рис. 3).

За основу построения модели берутся предложенные ранее1 [2-4, 10] четыре категории обработки Больших данных в процессе работы ЗКУ РВС. Первая категория предполагает содержание в Больших данных определенной информации о вторжениях. Вторая категории содержит полиморфные алгоритмы, запутывающие противника. Наличие вторжений и найденных объектов выявляется в третьей категории, а в четвертой при отсутствии обнаруженных угроз определяются неудачные действия ЗКУ РВС. Обобщенная структура РИС с использованием

1Xабpxабp//BigData от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce/ сост.: А. Петров. URL: https://habrahabr.ru/company/dca/ blog/267361/ (дата обращения: 24.07.2019)

Больших данных на основе методики обнаружения вторжений может быть представлена с помощью формулы:

N = S(t)+ I(t)+ R(t)+ D(t), (1)

где N — общее количество объектов в системе (общий диапазон до 1600 объектов во всех тестах); S(t) — количество объектов без действий; I(t) — количество объектов с действием (t — примерное время выполнения до 200 сек),

R(t) — количество объектов с действием корреляционного анализа,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

D(t) — количество объектов, в которых обнаруженного вторжения, запущенный с помощью ЗКУ РВС (см. рис. 4).

Рис. 4. Зависимости изменения количества узлов от времени функционирования а - в = 0,2 ; б - в = 0,25 и к = 0,02; в — первый этап сбора данных, в = 0,25, к = 0,02, г — второй этап сбора данных, при в = 0,25, к = 0,02

Рис. 5. Оценка вероятности обнаружения вторжений ЗКУ РВС в ходе различных атак (оранжевым цветом — для категории 1, синим — для категории 2, желтым — для категории 3, лиловым — для категории 4)

Полученные зависимости изменения количества пораженных узлов от времени функционирования РИС [7] в условиях распространения вторжения представлены на рис. 4 (горизонтальная шкала — количество объектов в системе, вертикальная — время обнаружения вторжений в сек).

Из рис. 5 следует, что по совершенным операциям распространение ошибок в предлагаемой ЗКУ РВС [1] значительно возрастает к обработке по категориям Б и В, однако их уровень не так критичен. Данные результаты расчетов объясняются лишь тем, что чем больше действий приводят к обнаружению вторжений, тем больше увеличиваются риски ИБ для ПО1. Во всех проведенных тестах демонстрируется вероятность успеха различного рода атак, которая практически никогда не доходила до 100%, в то время как вероятность не обнаружения многих действий нарушителя всегда была от 50%.

Заключение

Предложенная модель обнаружения вторжений с использований Больших данных в качестве среды РИС повышает эффективность выявления различного рода атак при помощи временных рядов. Была осуществлена совокупность мер с использованием полученных данных и информации, расширенной благодаря применению иерар-

'Xa6pxa6p//BigData от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce/ сост.: А. Петров. URL: https://habrahabr.ru/company/dca/ blog/267361/ (дата обращения: 24.07.2019)

хического набора показателей, которые, в свою очередь, основываются на анализе временных рядов. За счет постоянного отслеживания и пересчета показателей пользователей данный способ позволяет снизить уровень возможных потерь от компьютерных атак.

Литература

1. Косое Н. А., Гельфанд А.М., Лаптев А. А. Анализ темных данных для обеспечения устойчивости информационных систем от нарушения конфиденциальности или несанкционированных действий // Colloquium-journal. 2019. № 13-2 (37). С. 100-103.

2. Котенко И. В., Ушаков И. А. Модели NoSQL баз данных для мониторинга кибербезопасности // Сборник научных статей VII Международной научно-технической и научно-методической конференции «Актуальные проблемы инфотелекоммуникаций в науке и образовании (Апино 2018)» (Санкт-Петербург, 28 фев-раля-01 марта 2018 г.). СПб., 2018. Т. 1. С. 498-501.

3. Котенко И. В., Ушаков И. А., Пелёвин Д.В., Овраменко А. Ю. Гибридная модель базы данных NoSQL для анализа сетевого трафика // Защита информации. Инсайд. 2019. № 1 (85). С. 46-54.

4. Котенко И. В., Ушаков И. А. Базы данных безопасности корпоративной сети: применение SQL и NoSQL технологий // Региональная информатика и информационная безопасность: сборник трудов. 2017. № 4. С. 254-255.

5. Котенко И. В., Ушаков И. А. Использование технологий больших данных для мониторинга инцидентов информационной безопасности // Материалы Юбилейной XV Санкт-Петербургской международной конференции «Региональная

информатика «РИ-2016» (Санкт-Петербург, 26-28 октября 2016 г.). СПб.: Политехника-принт, 2016. С. 168-169.

6. Леонова Е. М., Пестов И. Е. Разработка метода обнаружения и коррекции ошибок для распределенной информационной сети на основе больших данных // Материалы XVI Санкт-Петербургской международной конференции «Региональная информатика «РИ-2018» (Санкт-Петербург,24-26 октября 2018 г.). СПб., 2018. С. 570-571.

7. Федин М. В. Перспективы использования систем обработки больших данных (Big Data) в металлургической промышленности // Economics. 2015. № 8 (9). С. 52-54.

8. Штеренберг С. И., Полтавцева М. A. Paспpeдeлeннaя систeмaобнapужeния втоpжeний с зaщитой от внутpeннeго

нарушителя // Проблемы информационной безопасности. Компьютерные системы. 2018. № 2. С. 59-68.

9. Ушаков И. А., Котенко И. В., Крылов К.Ю. Анализ методик применения концепции больших данных для мониторинга безопасности компьютерных сетей // Материалы IX Санкт-Петербургской межрегиональной конференции «Информационная безопасность регионов России (ИБРР-2015)» (Санкт-Петербург, 28-30 октября 2015 г). СПб., 2015. С. 75-76.

10. Дешевых Е. А., Ушаков И. А., Чечулин А. А. Интеграция SIEM-систем с системами корреляции событий безопасности, основанных на технологии больших данных // Материалы 9-й конференции «Информационные технологии в управлении (ИТУ-2016)» (Санкт-Петербург, 4-6 октября 2016 г.). СПб., 2016. С. 684-687.

THE USE OF BIG DATA IN THE ANALYSIS OF BIG DATA IN COMPUTER NETWORKS

GRIGORY A. ORLOV KEYWORDS: Big Data; introduction; resources; algorithms; comput-

St. Petersburg,Russia,grigory.a.orlov@gmail.com er computing; interpretation; performance.

ANDREY V. KRASOV

St. Petersburg, Russia, krasov@inbox.ru

ARTEM M. GELFAND

St. Petersburg, Russia, amgelfand@mail.ru

ABSTRACT

The concept of Big Data includes the totality of all data sets, the total size of which is several times larger than the capabilities of conventional databases.it is also necessary to note the use of non-classical data processing methods. For example, in the management, analysis of information received, or simply storage. Big Data algorithms have emerged in parallel with the introduction of the first high-performance servers of their kind, such as the mainframe, which have sufficient resources required for operational information processing, as well as corresponding to computer calculations with subsequent analysis. The algorithms are based on performing series-parallel calculations, which significantly increases the speed of performing various tasks. Entrepreneurs and scientists are interested in Big Data, who are concerned with issues related to not only high-quality, but also up-to-date interpretation of data, as well as creating innovative tools for working with them. A huge amount of data is processed in order for the end user to get the results they need for their further effective use. Big Data enables companies to expand the number

of their customers, attract new target audiences, and also helps them implement projects that will be in demand not only among current customers, but also attract new ones. Active implementation and subsequent use of Big Data correspond to the solution of these problems. In this paper, we compare the main types of databases and analyze intrusion detection using the example of distributed information system technologies for processing Big Data. Timely detection of intrusions into data processing systems is necessary to take measures to preserve the confidentiality and integrity of data, as well as to correctly correct errors and improve the protection of the data processing system.

REFERENCES

1. Kosita N. A., Gelfand A. M., Laptev A. A. Analysis of dark data to ensure sustainability information systems from breach of privacy or unauthorized actions. Colloquium-journal. 2019. No. 13-2 (37). Pp. 100-103. (In Rus)

2. Kotenko I., Ushakov I. Models of NoSQL databases for cyber-security monitoring. Sbornik nauchnykh statey VII Mezhdunarodnoy nauchno-tekhnicheskoy i nauchno-metodicheskoy konferentsii "Ak-tual'nye problemy infotelekommunikatsiy v nauke i obrazovanii (Api-no 2018)" [Proc of scientific articles of the VII International scientific-technical and scientific-methodical conference " Actual problems of infotelecommunications in science and education (Apino 2018)", Saint Petersburg, February 28-March 01, 2018]. St. Petersburg, 2018. Vol. 1. Pp. 498-501. (In Rus)

3. Kotenko I. V., Ushakov I.A., Pelevin D. V., Ovramenko A. Yu. Hybrid NoSQL database model for analysis of network traffic. Zasita informacii. Inside. 2019. No. 1 (85). Pp. 46-54. (In Rus)

4. Ushakov I., Kotenko I. Model of discovery an inside attacker based on Big Data technologies. Proceedings Regional informatics and information security. 2017. No. 4. Pp. 254-255. (In Rus)

5. Kotenko I. V., Ushakov I. A. Using Big Data technologies to monitor information security incidents. Proceedings of the XVSt. Petersburg internatonal conference "Regional informatics (RI-2018)", St. Petersburg, October 26-28 2016. St. Petersburg, 2016. Pp. 168-169. (In Rus)

6. Lesnova E., Pestov I. Development of the method of detection and correction errors for Big Data based distributed information network. Proceedings of the XVI St. Petersburg internatonal conference "Regional informatics (RI-2018)", St. Petersburg, October 24-26 , 2018. St. Petersburg, 2018. Pp. 570-571. (In Rus)

7. Fedin M. Prospects of using Big Data in the steel industry. Eco-

nomics. 2015. No. 8 (9). Pp. 52-54. (In Rus)

8. Shterenberg S.I., Poltavtseva M. A. Distributed intrusion detection system with protection against internal intruder. Information Security Problems. Computer Systems. 2018. No. 2. Pp. 59-68. (In Rus)

9. Ushakov I.A., Kotenko I. V., Крылов K. Yu. Analysis of methods of application of the Big Data concept for monitoring the security of computer networks. Proceedings of the IX St. Petersburg interregional conference "Information security of Russian regions (ISRR-2015)", St. Petersburg, October 28-30, 2015. St. Petersburg, 2015. С. 75-76. (In Rus)

10. Deshevykh E.A., Ushakov I.A., Chechulin A.A. Integratsiya SI-EM-sistem s sistemami korrelyatsii sobytiy bezopasnosti, osnovan-nykh na tekhnologii bol'shikh dannykh [Integration of SIEM systems with security event correlation systems based on big data technology]. Materialy 9-y konferentsii "Informatsionnye tekhnologii v uprav-lenii (ITU-2016)" [Proc of the 9th conference " Information technologies in management (ITU-2016)", St. Petersburg, October 4-6, 2016]. St. Petersburg, 2016. Pp. 684-687. (In Rus)

INFORMATION ABOUT AUTHORS:

Orlov G. A., student of The Bonch-Bruevich Saint-Petersburg State University of Telecommunication;

Krasov A. V., PhD, Docent, Lecture of The Bonch-Bruevich Saint-Petersburg State University of Telecommunication; Gelfand A. M., postqraduate student of The Bonch-Bruevich Saint-Petersburg State University of Telecommunication.

For citation: Orlov G. A., Krasov A. V., Gelfand A. M. The use of Big Data in the analysis of big data in computer networks. H&ES Research. 2020. Vol. 12. No. 4. Pp. 76-84. doi: 10.36724/2409-5419-2020-12-4-76-84 (In Rus)

i Надоели баннеры? Вы всегда можете отключить рекламу.