Научная статья на тему 'СОВРЕМЕННЫЕ МЕТОДЫ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ'

СОВРЕМЕННЫЕ МЕТОДЫ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
92
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
база данных / информация / большие данные / обработка данных / database / information / big data / data processing

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — В В. Суетин, Д И. Пугачева, П Ю. Вайтекунайте, В В. Кукарцев

В данной статье рассмотрены современные методы обработки больших данных, а также упомянуто в каких случаях они эффективны.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODERN METHODS OF BIG DATA PROCESSING

This article discusses modern methods of processing big data, and also mentions in which cases they are effective.

Текст научной работы на тему «СОВРЕМЕННЫЕ МЕТОДЫ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ»

Секция «Информационно-управляющие системы»

УДК 004.657

СОВРЕМЕННЫЕ МЕТОДЫ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ

В. В. Суетин*, Д. И. Пугачева, П. Ю. Вайтекунайте Научный руководитель - В. В. Кукарцев

Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева Российская Федерация 660037, г. Красноярск, просп. им. газеты «Красноярский рабочий», 31

*E-mail: crifroquatraubo-2330@yopmail.com

В данной статье рассмотрены современные методы обработки больших данных, а также упомянуто в каких случаях они эффективны.

Ключевые слова: база данных, информация, большие данные, обработка данных. MODERN METHODS OF BIG DATA PROCESSING

V. V. Suetin, D. I. Pugacheva, P. Yu. Vaitekunaite Scientific supervisor - V. V. Kukartsev

Reshetnev Siberian State University of Science and Technology Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: crifroquatraubo-2330@yopmail.com

This article discusses modern methods of processing big data, and also mentions in which cases they are effective.

Keywords: database, information, big data, data processing.

Одно из стремительно развивающихся направлений IT-технологий — это большие данные (Big Data). И если само понятие возникло сравнительно давно, то понимание, что это такое сформировалось недавно.

Большие данные - это данные, которые описываются с помощью трёх Vs:

Volume (объем) — реально большие объемы данных в физическом смысле. Тот объем данных, который раньше накапливался годами, теперь генерируется каждую минуту.

Velocity (скорость) — поступление и обработка данных с высокой скоростью [1].

Variety (разнообразие) — разнородность данных, различные форматы и возможное отсутствие структурированности.

Большие данные недостаточно просто собрать, их нужно как-то использовать. А для использования данные требуется структурировать и анализировать. Рассмотрим, какие существуют методы больших данных и как они помогают обрабатывать большие данные.

Машинное обучение. Этот метод анализ данных содержит в своей основе способность аналитической системы самостоятельно обучаться в процессе решения различных задач. Т.е. программе задается алгоритм, который позволяет ей учиться выявлять определенные закономерности. Сферы применения такого метода достаточно разнообразны — например, с помощью машинного обучения проводятся маркетинговые исследования, социальные сети предлагают подборку постов, происходит разработка медицинских программ [2, 3].

Нейросеть. Нейросеть используют для распознавания визуальных образов. Такие модели работают по принципу нейронной сети живого существа: получение информации — ее

Актуальные проблемы авиации и космонавтики - 2022. Том 2

обработка и передача — выдача результата. Нейросеть способна проделать работу за несколько десятков людей. Ее используют для развлечений, прогнозирования, обеспечения безопасности, медицинской диагностики и т. д. То есть в различных социальных и профессиональных областях.

Технология Data Mining. Data Mining - это добыча данных или анализ данных. К технологии data mining часто относят и статистические методы.

Data mining решает несколько основных задач:

Классификация — распределение данных по заранее известным классам.

Кластеризация — распределение данных на группы по степени похожести друг на друга.

Ассоциация — поиск повторяющихся образцов данных [4].

Регрессионный анализ — нахождение важных факторов, влияющих на какой-либо заданный параметр.

Анализ отклонений — выявление данных, резко отличающихся от обычных.

Краудсорсинг. Краудсорсинг - привлечение к решению какой-либо проблемы большой группы людей. Они могут решить те задачи, с которыми компьютер не в состоянии справиться в одиночку. Примером может быть сбор и обработка данных социологического опроса.

Предиктивная аналитика. Слово «предиктивный» образовано от английского «predict» — «предсказывать, прогнозировать», поэтому такую аналитику еще иногда называют прогнозной. Задача предиктивной аналитики — выделить несколько параметров, которые влияют на данные. Методика прогнозов используется в различных сферах. Например, предиктивная аналитика позволяет выявить и предотвратить мошеннические схемы в кредитовании или страховании [5].

Статистический анализ. Суть метода заключается в сборе данных, их изучении на основе конкретных параметров и получении результата, выраженного, как правило, в процентах. У этого метода есть слабое звено — неточность данных в маленьких выборках. Поэтому для получения максимально точных результатов необходимо собирать большой объем исходных данных. Статистический анализ часто используют в машинном обучении или предиктивной аналитике.

Технология имитационного моделирования.

Имитационное моделирование отличается от методики прогнозирования тем, что учитываются факторы, чье влияние на результат трудно отследить в реальных условиях. Т. е. выстраиваются модели с учетом гипотетических, а не реальных данных, и затем эти модели исследуют в виртуальной реальности [6].

Визуализации аналитических данных. Для удобства оценки результатов анализа применяют визуализацию данных. Для реализации этого метода, при условии работы с большими данными, используют виртуальную реальность и «большие экраны». Основной плюс визуализации в том, что такой формат данных воспринимается лучше, чем текстовый, как известно до 90 % всей информации человек усваивает с помощью зрения.

Смешение и интеграция данных. В большинстве случаев большие данные получают из различных источников, соответственно, данные имеют разнородный формат. Загружать такие данные в одну базу нельзя, так как их параметры не имеют взаимного соотношения. Тут и применяют смешение и интеграцию, то есть приводят все данные к единому виду.

Чтобы использовать данные из разных источников, используют следующие методы: сведение данных в единый формат посредством конвертации документов, перевода текста в цифры, распознавание текста; информацию для одного объекта дополняют данными из разных источников; из лишней информации отсеивают и удаляют ту, которая недоступна для анализа.

После того как процесс интеграции завершен, следует анализ и обработка данных [7].

Секция «Инф ормауионно-управлжощие системы»

Одной из самых актуальных задач современных информационных технологий является задача быстрой обработки больших объёмов данных. Для эффективного принятия решения данной задачи, позволяет быстрее принимать решения на основе данных, полученных в прошлом. Поэтому, в работе были рассмотрены методы обработки больших данных.

Библиографические ссылки

1. Агапов А. В. и др. Обработка и обеспечение безопасности электронных данных. -2012. Самойлова, И. А. Технологии обработки больших данных — 2017. — № 49 (183). — С. 26-28.

2. Сенько А. В. Работа с BigData в облаках. Обработка и хранение данных с примерами из Microsoft Azure. - " Издательский дом"" Питер......, 2018.

3. Уикем Х., Гроулмунд Г. Язык R в задачах науки о данных: импорт, подготовка, обработка, визуализация и моделирование данных //Пер. с англ. СПб.: Изд-во «Альфа-книга. - 2018.

4. Чашкин Ю. Р. Математическая статистика. Анализ и обработка данных //учеб. пос./ЮР Чашкин. - 2010.

5. Кукарцев В. В., Шеенок Д. А. Оптимизация программной архитектуры логистических информационных систем //Логистические системы в глобальной экономике. - 2013. - №. 3-1. - С. 138-145.

6. Shalaeva D. S. et al. Analysis of the development of global energy production and consumption by fuel type in various regions of the world //IOP Conference Series: Materials Science and Engineering. - IOP Publishing, 2020. - Т. 952. - №. 1. - С. 012025.

7. Boyko A. A. et al. Using linear regression with the least squares method to determine the parameters of the Solow model //Journal of Physics: Conference Series. - IOP Publishing, 2020. -Т. 1582. - №. 1. - С. 012016.

© Суетин В. В., Пугачева Д. И., Вайтекунайте П. Ю., 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.