Научная статья на тему 'BIG DATA – ВЫИГРЫШНАЯ ИННОВАЦИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ БУДУЩИХ ТЕНДЕНЦИЙ'

BIG DATA – ВЫИГРЫШНАЯ ИННОВАЦИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ БУДУЩИХ ТЕНДЕНЦИЙ Текст научной статьи по специальности «Экономика и бизнес»

CC BY
14
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
большие данные (Big Data BD) / структура данных / атрибуты BD / угрозы / технологические тренды / Big Data (Big Data - BD) / data structure / BD attributes / threats / technolog-ical trends

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Савзиханова Сабина Эминовна

Big Data это современный тренд аналитики, который позволяет компаниям принимать больше решений на основе данных, чем когда-либо прежде. При анализе информация, предоставляемая этими большими объемами данных, приводит к реальным коммерческим возможностям, будь то маркетинг, разработка продукта или ценообразование. Компании всех размеров и отраслей присоединяются к движению специалистов по обработке и анализу данных и архитекторов решений для работы с большими данными. Ожидается, что к 2025 году рынок больших данных почти удвоится, а объем пользовательских данных растет, поэтому сейчас самое подходящее время, чтобы стать специалистом по большим данным. В данной статье рассмотрены главные источники и атрибуты больших данных, способы использования и инструменты, необходимые для любого начинающего специалиста по обработке и анализу данных, влияние человеческого фактора в управлении большими данными и аналитике, будущее больших данных и др.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BIG DATA IS A WINNING INNOVATION FOR PREDICTING FUTURE TRENDS

Big Data is a modern analytics trend that allows companies to make more data—driven decisions than ever before. When analyzed, the information provided by these large amounts of data leads to real commercial opportunities, be it marketing, product development, or pricing. Companies of all sizes and industries are joining the movement of data processing and analysis specialists and architects of big data solutions. The big data mar-ket is expected to almost double by 2025, and the volume of user data is growing, so now is the right time to become a big data specialist. This article examines the main sources and attributes of big data, the ways of using and tools necessary for any novice data processing and analysis specialist, the influence of the human factor in big data management and an-alytics, the future of big data, etc.

Текст научной работы на тему «BIG DATA – ВЫИГРЫШНАЯ ИННОВАЦИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ БУДУЩИХ ТЕНДЕНЦИЙ»

УДК 004.6 ББК 65.29

DOI 10.24412/2412-2025-2023-2-69- 76

Савзиханова Сабина Эминовна - доктор экономических наук, профессор кафедры Информационные технологии и информационная безопасность, Дагестанский государственный университет народного хозяйства

Savzikhanova Sabina Eminovna - Doctor of Economics, Professor of the Department of Information Technologies and Information Security, Dagestan State University of National Economy

BIG DATA - ВЫИГРЫШНАЯ ИННОВАЦИЯ ДЛЯ

ПРОГНОЗИРОВАНИЯ БУДУЩИХ ТЕНДЕНЦИЙ

BIG DATA IS A WINNING INNOVATION FOR PREDICTING FUTURE TRENDS

Big Data - это современный тренд аналитики, который позволяет компаниям принимать больше решений на основе данных, чем когда-либо прежде. При анализе информация, предоставляемая этими большими объемами данных, приводит к реальным коммерческим возможностям, будь то маркетинг, разработка продукта или ценообразование. Компании всех размеров и отраслей присоединяются к движению специалистов по обработке и анализу данных и архитекторов решений для работы с большими данными. Ожидается, что к 2025 году рынок больших данных почти удвоится, а объем пользовательских данных растет, поэтому сейчас самое подходящее время, чтобы стать специалистом по большим данным. В данной статье рассмотрены главные источники и атрибуты больших данных, способы использования и инструменты, необходимые для любого начинающего специалиста по обработке и анализу данных, влияние человеческого фактора в управлении большими данными и аналитике, будущее больших данных и др.

Ключевые слова: большие данные (Big Data - BD), структура данных, атрибуты BD, угрозы, технологические тренды

Big Data is a modern analytics trend that allows companies to make more data—driven decisions than ever before. When analyzed, the information provided by these large amounts of data leads to real commercial opportunities, be it marketing, product development, or pricing. Companies of all sizes and industries are joining the movement of data processing and analysis specialists and architects of big data solutions. The big data market is expected to almost double by 2025, and the volume of user data is growing, so now is the right time to become a big data specialist. This article examines the main sources and attributes of big data, the ways of using and tools necessary for any novice data processing and analysis specialist, the influence of the human factor in big data management and analytics, the future of big data, etc.

Keywords: big Data (Big Data - BD), data structure, BD attributes, threats, technological trends

Большие данные относятся к наборам данных, которые настолько велики и сложны, что ими трудно управлять традиционными инструментами баз данных. Big Data рассматривается как основа будущего в сфере информационных технологий. Сегодня организации зависят от объемов данных, поэтому их интерес к аналитике больших данных растет. Ключом к большим данным является организация данных для быстрого обращения, чтобы получить источник из сводок и индексов. Amazon AWS использует DDN с Lustre, Microsoft использует Cray с Lustre; и Google использует FUSE или собственное хранилище [8-12].

Знание больших данных может помочь разработать правильный план или стратегию развития отрасли. Но, как и во всех других областях, новичкам придется столкнуться как с некоторыми проблемами, так и вызовами. Сегодня мы имеем дело с типичными проблемами больших данных, с которыми сталкиваются организации, а также с их решениями. Часто многие организации пренебрегают преимуществами и недостатками Big Data как новой технологии на рынке. Они также не могут понять важность Big Data для организации своего бизнеса. Без какой-либо разумной информации у них разные точки зрения, например, это может быть опасно для проекта, или, может быть, это дорого и многое другое.

Большие данные - это данность, и это требование для обучения искусственному интеллекту и глубокому обучению [14]. Для проведения углубленного обучения нужно как можно больше данных, смысл глубокого обучения отчасти в том, чтобы найти закономерности.

Главные источники больших данных являются:

• интернет вещей (IoT) и подключенные к нему устройства;

• соцсети, блоги и СМИ;

• данные компаний: транзакции, заказы товаров и услуг, поездки на такси и каршеринге, профили клиентов;

• показания приборов: метеорологические станции, измерители состава воздуха и водоемов, данные со спутников;

• статистика городов и государств: данные о перемещениях, рождаемости и смертности;

• медицинские данные: анализы, заболевания, диагностические снимки.

Большие данные полезны для бизнеса в трех главных направлениях:

1) запуск продуктов и сервисов, которые точнее всего «выстрелят» по потребностям целевой аудитории;

2) анализ клиентского опыта в отношении продукта или услуги, чтобы улучшить их;

3) привлечение и удержание клиентов с помощью аналитики.

Для более эффективного управления большими данными необходимо создать структуры данных. Структуры данных позволяют эффективно управлять большими наборами данных и индексировать их. Структура данных, как правило, относится к структурированным или неструктурированным данным (см. таблицу 1) [7].

Таблица 1

Структура данных

Структура данных Определение Примеры База данных

Структурированные Данные, как правило, находятся в системе управления реляционными базами данных (РСУБД). табличные данные, содержащие имена, номера телефонов, адреса, номера социального страхования и любые элементы, которые могут содержаться в клиентских данных. «Язык структурированных запросов» (SQL) для необходимых реляционных баз данных.

Неструктурированные Все, что не подпадает под структурированные данные. текстовые файлы, электронная почта, социальные сети, веб-сайты, текстовые сообщения, телефонные звонки, данные о местоположении, медиафайлы, изображения и сенсорные данные, и это лишь некоторые из них. Наиболее распространенной базой данных этого типа является «не только SQL (NoSQL)».

В соответствии с определением и руководящими принципами Big Data, атрибуты Big Data сокращаются до «5V» (рис. 1) (Объем, Разнообразие, Скорость, Ценность и Достоверность) [8-9].

Рис.1. Атрибуты Big Data Базовое определение основано на трех V: Variety, Volume и Velocity.

• Разнообразие: несколько форм данных - разнообразие относится к множеству типов данных, которые поступают из многих источников.

• Объем: масштаб или размер данных — объем — это объем создаваемых данных.

• Скорость: анализ движущихся или потоковых данных — скорость относится к скорости создания данных и скорости, с которой они обрабатываются.

Важность больших данных заключается в добавленной стоимости измеримых и надежных данных. Современная версия больших данных по-прежнему следует определению очень больших, сложных данных, но недавно была расширена, чтобы включить в нее ценность и достоверность V.

• Ценность: Преимущества понимания данных.

• Достоверность: Неопределенность данных - Достоверность относится к качеству данных - являются ли они точными и надежными?

Постоянная эволюция Big Data означает, что ее основные концепции постоянно развиваются. Наше нынешнее понимание также будет развиваться за пределами «5V», поскольку мы будем определять, что означает «большие данные» в будущем. Некоторые возможные дополнения к буквам V:

• Валидность - относится более конкретно к точности и достоверности данных.

• Уязвимость - относится к риску кибербезопасности.

• Волатильность - относится к тому, как быстро данные становятся неактуальными и недействительными.

• Визуализация - представляет собой множество способов просмотра больших данных.

Big Data предполагает интеграцию данных с различными подразделениями бизнес-организаций. Многие организации считают, что большие данные могут представлять угрозу, когда они обмениваются информацией с различным сторонним программным обеспечением, чтобы сделать данные видимыми для других отделов организации [10]. Big Data всегда предоставляет большое количество серверного распределенного хранилища данных, которое не поддерживается локально различными платформами. Стороннее программное обеспечение может видеть только данные, но оно может получить доступ к данным для их использования.

Несмотря на то, что внедряются новые технологии и используются большие данные различными способами, безопасность и конфиденциальность больших данных вызывают озабоченность. Большие данные включают в себя различные проблемы безопасности и конфиденциальности. Основными проблемами в (BDS) Big Data Security являются защита и верификация данных [10-11].

Из-за большого объема, скорости и разнообразия больших данных обработка их является сложной задачей для традиционных моделей безопасности. Эта парадигма представляет собой вызов для специалистов по безопасности, которые должны адаптироваться к огромному объему больших данных. В таблице 2 перечислены распространенные угрозы для больших данных.

Еще одной проблемой, с которой сталкиваются организации, является стоимость хранения данных в Big Data. Большинство компаний считают, что Big Data обойдется им дороже по сравнению с традиционными методами хранения данных. Однако это не совсем так, стоимость будет зависеть от потребностей или требований.

Таблица 2

Угрозы для больших данных

Угроза Описание

Нарушение неприкосновенности частной жизни Big Data - это решение, которое часто используется для хранения больших объемов личной информации. Такой большой объем данных может облегчить злоумышленнику кражу конфиденциальной личной информации в рамках одной комплексной атаки.

Повышение привилегий Поскольку большие данные могут представлять собой большие массивы информации, некоторые пользователи могут просматривать данные, на просмотр которых у них нет разрешения. Это особенно актуально, если системы не ограничивают возможности пользователей просматривать и редактировать записи базы данных. Несколько пользователей с неограниченным доступом к данным могут угрожать их конфиденциальности.

Отказа Размер больших данных может затруднить или сделать невозможным мониторинг событий. Без надлежащих средств контроля злоумышленник может изменить данные, а затем правдоподобно отрицать это.

Судебная Сложности заключаются в том, что точная защита, сбор и оценка наборов больших данных особенно сложны, поскольку реализации больших данных часто не имеют согласованной структуры и имеют множество различных источников.

Большие данные сами по себе не имеют никакой ценности, тем не менее, у них большой потенциал. В конечном счете, ценность и преимущества инициатив в области больших данных для бизнеса зависят от сотрудников, которым поручено управлять данными и анализировать их. Некоторые инструменты для работы с большими данными позволяют менее технически подкованным пользователям запускать приложения прогнозной аналитики или помогают компаниям развернуть подходящую инфраструктуру для проектов по работе с большими данными, сводя к минимуму потребность в аппаратном и распределенном программном обеспечении.

Большие данные можно противопоставить малым данным — термин, который иногда используется для описания наборов данных, которые можно легко использовать для самостоятельной бизнес-аналитики. Часто цитируемая аксиома звучит так: «Большие данные предназначены для машин; Малые данные нужны людям».

Рассмотрим основные инструменты, используемые современными специалистами по обработке и анализу данных при создании решений для работы с большими данными:

• Hadoop - помогает в хранении и анализе данных;

• MongoDB - используется для часто изменяющихся наборов данных;

• Talend - используется для интеграции и управления данными;

• Cassandra - распределенная база данных, используемая для обработки фрагментов данных;

• Spark - используется для обработки и анализа больших объемов данных в режиме реального времени;

• STORM - вычислительная система реального времени с открытым исходным кодом;

• Kafka - распределенная стриминговая платформа, которая используется для отказоустойчивого хранения.

Hadoop - это надежная, распределенная и масштабируемая распределенная платформа обработки данных для хранения и анализа больших объемов данных. Hadoop позволяет объединять множество компьютеров в сеть, используемую для простого хранения и обработки больших наборов данных.

Привлекательность Hadoop заключается в его способности работать на дешевом стандартном оборудовании, в то время как его конкурентам может потребоваться дорогостоящее оборудование для выполнения той же работы. Он также имеет открытый исходный код. Hadoop делает решения для работы с большими данными доступными для повседневных предприятий и делает большие данные доступными для тех, кто находится за пределами технологической отрасли. Hadoop иногда используется в качестве общего термина, относящегося ко всем инструментам в экосистеме обработки и анализа данных Apache.

Ряд новых технологий, вероятно, повлияет на то, как собираются и используются большие данные. Наибольшее влияние на будущее больших данных окажут следующие технологические тренды:

• Анализ искусственного интеллекта и машинного обучения. Большие массивы данных становятся все больше и, следовательно, менее эффективно анализируются человеческим глазом. Алгоритмы искусственного интеллекта и машинного обучения становятся ключом к выполнению крупномасштабного анализа и даже предварительных задач, таких как очистка наборов данных и предварительная обработка. Автоматизированные инструменты машинного обучения, вероятно, будут полезны в этой области.

• Улучшенная система хранения данных с увеличенной емкостью. Возможности облачного хранения данных постоянно совершенствуются. Озера и хранилища данных, которые могут быть как локальными, так и облачными, являются привлекательными вариантами для хранения больших данных.

• Акцент на управлении. Управление данными и регулирование станут более всеобъемлющими и распространенными по мере увеличения объема используемых данных, что потребует больше усилий для их защиты и регулирования.

• Квантовые вычисления. Несмотря на то, что квантовые вычисления менее известны, чем искусственный интеллект, они также могут ускорить анализ больших данных за счет повышения вычислительной мощности. Он находится на ранних стадиях разработки и доступен только крупным предприятиям, имеющим доступ к обширным ресурсам.

Заключение. Сегодня данные затрагивают все сферы нашей жизни, а это означает, что существует высокий спрос на профессионалов, способных разобраться в них. Big Data рассматривается как основа будущего в сфере информационных технологий. Большие данные оказались одной из самых обнадеживающих и выигрышных инноваций для прогнозирования будущих тенденций. Желательно провести надлежащие исследования и изучить технологии настолько, насколько это возможно.

Список литературы:

1. Кулагин, В., Сухаревски, А., Мефферт, Ю. Digitaj@scale: настольная книга по цифровизации бизнеса / Владимир Кулагин, Алкександр Сухаревски, Юрган Мефферт. - М. Интеллектуальная литература, 2021. - 293 с.

2. Перспективы цифровой трансформаций в России [Электронный ресурс] - URL: https://ac.gov.ru/uploads/5Presentations/цифровой_трансформации_в_ Рос-сии._Точин^£

3. Модель цифровой трансформации [Электронный ресурс] - URL: https://digital.gov.ru/uploaded/files/model-tsifrovoj-transformatsii.pdf.

4. Стратегия цифровой трансформации: написать, чтобы выполнить / Под ред. Е.Г. Потаповой, П.М. Потеева, М.С. Шклярук. - М.: РАНХиГС, 2021. - 184 с.

5. Топ крупнейших компаний мира и России по капитализации 2021. -URL: https: //tyulyagin.ru/ratings/top -kompanij -mira-po-kapitalizacii.html

6. Цифровая трансформация государственного управления: датацен-тричность и семантическая интероперабельность / Под науч. Ред. И с предисл. В.А. Конявского. - М.: ЛЕНАНД, 2019. - 724 с.

7. Цифровые технологии в российской экономике / К. О. Вишневский, Л. М. Гохберг, В. В. Дементьев и др.; под ред. Л. М. Гохберга; Нац. ис-след. ун-т «Высшая школа экономики». - М.: НИУ ВШЭ, 2021 - 116 с. -400 экз. - ISBN 978-5-7598-2199-1

8. https://aws.amazon.com/big-data/what-is-big-data/

9. https://www.oracle.com/big-data/what-is-big-data.html

10. https: //aws.amazon.com/fsx/lustre/

11.https://www.cray.com/solutions/supercomputing-as-a-service/cray-clusterstor-in-azure

12.https://cloud.google.com/storage/docs/gcs-fuse

13.https://www.ibm.com/blogs/systems/ai-machine-learning-and-deep-learning-whats-the-difference/

14. https: //blogs.oracle.com/bigdata/ structured-vs -unstructured-data

i Надоели баннеры? Вы всегда можете отключить рекламу.