Научная статья на тему 'МЕТОДИЧЕСКИЕ ОСНОВЫ ПРОГНОЗИРОВАНИЯ РАЗВИТИЯ АГРОБИЗНЕСА В РАМКАХ КОНЦЕПЦИИ БОЛЬШИХ ДАННЫХ С ПРИМЕНЕНИЕМ ТЕХНОЛОГИИ HADOOP'

МЕТОДИЧЕСКИЕ ОСНОВЫ ПРОГНОЗИРОВАНИЯ РАЗВИТИЯ АГРОБИЗНЕСА В РАМКАХ КОНЦЕПЦИИ БОЛЬШИХ ДАННЫХ С ПРИМЕНЕНИЕМ ТЕХНОЛОГИИ HADOOP Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
51
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОДИЧЕСКИЕ ОСНОВЫ / РАЗВИТИЕ АГРОБИЗНЕСА / BIG DATA / HADOOP / HIVE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Михеев Михаил Юрьевич, Хилал Соня

Актуальность и цели. В настоящее время объем данных, генерируемых в агропромышленном секторе, чрезвычайно велик и растет быстрее, чем скорость вычислений. Таким образом, использование традиционных методов, таких как SQL, или одной машины для хранения или обработки данных может оказаться бесполезным и трудоемким. Эффективное управление современным агробизнесом в значительной степени опирается на цифровые технологии, что, в частности, предполагает реализацию технологий прогнозирования посредством анализа большого количества разнообразных данных сложной структуры. Практическая реализация такого подхода предполагает разработку методических основ прогнозирования с применением технологий больших данных, способа интеграции в глобальные цифровые рынки в сфере агробизнеса. Материалы и методы. Рассматриваются практические варианты применения методических основ анализа в рамках концепции больших данных с использованием технологии Hadoop , включающей HDFS , MapReduce и Hive , а также решений на базе Python . Результаты. Plotly - библиотека Python , которую можно использовать в области визуализации данных агробизнеса, - позволила интегрировать построение графиков статистических результатов. Выводы. Некоторые аспекты применения инструмента Hive экосистемы Hadoop в сочетании с гибкими приемами программирования на языке Python позволили выявить дополнительные технологические возможности создания BigData -проекта.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODOLOGICAL BASIS FOR FORECASTING THE DEVELOPMENT OF THE AGROBUSINESS WITHIN THE CONCEPT OF BIG DATA USING HADOOP TECHNOLOGY

Background. Currently, the volume of data generated in the agro-industrial sector is extremely large and is growing faster than the speed of computing. Thus, using traditional methods such as SQL or a single machine to store or process data can be both useless and time consuming. The effective management of modern agribusiness relies heavily on digital technologies, which, in particular, involves the implementation of forecasting technologies through the analysis of a large amount of various complex data. The practical implementation of this approach involves the development of methodological foundations for forecasting using big data technologies, a way to integrate into global digital markets in the field of agribusiness. Materials and methods. Practical options for applying the methodological foundations of analysis within the concept of big data using Hadoop technology, including HDFS, MapReduce and Hive, as well as solutions based on Python, are considered. Results. Plotly is a Python library that can be used in the field of agribusiness data visualization, has made it possible to integrate the plotting of statistical results . Conclusions. Some aspects of the Hive tool application of the Hadoop ecosystem, combined with flexible programming techniques in the Python language, made it possible to identify additional technological possibilities for creating a BigData project.

Текст научной работы на тему «МЕТОДИЧЕСКИЕ ОСНОВЫ ПРОГНОЗИРОВАНИЯ РАЗВИТИЯ АГРОБИЗНЕСА В РАМКАХ КОНЦЕПЦИИ БОЛЬШИХ ДАННЫХ С ПРИМЕНЕНИЕМ ТЕХНОЛОГИИ HADOOP»

УДК 61:007

doi:10.21685/2072-3059-2022-4-3

Методические основы прогнозирования развития агробизнеса в рамках концепции больших данных с применением технологии Hadoop

М. Ю. Михеев1, С. Хилал2 1,2Пензенский государственный технологический университет, Пенза, Россия 1mix1959@gmail.com, 2sonya.nina.helal@gmail.com

Аннотация. Актуальность и цели. В настоящее время объем данных, генерируемых в агропромышленном секторе, чрезвычайно велик и растет быстрее, чем скорость вычислений. Таким образом, использование традиционных методов, таких как SQL, или одной машины для хранения или обработки данных может оказаться бесполезным и трудоемким. Эффективное управление современным агробизнесом в значительной степени опирается на цифровые технологии, что, в частности, предполагает реализацию технологий прогнозирования посредством анализа большого количества разнообразных данных сложной структуры. Практическая реализация такого подхода предполагает разработку методических основ прогнозирования с применением технологий больших данных, способа интеграции в глобальные цифровые рынки в сфере агробизнеса. Материалы и методы. Рассматриваются практические варианты применения методических основ анализа в рамках концепции больших данных с использованием технологии Hadoop, включающей HDFS, MapReduce и Hive, а также решений на базе Python. Результаты. Plotly - библиотека Python, которую можно использовать в области визуализации данных агробизнеса, - позволила интегрировать построение графиков статистических результатов. Выводы. Некоторые аспекты применения инструмента Hive экосистемы Hadoop в сочетании с гибкими приемами программирования на языке Python позволили выявить дополнительные технологические возможности создания BigData-проекта.

Ключевые слова: методические основы, развитие агробизнеса, Big Data, Hadoop, Hive

Для цитирования: Михеев М. Ю., Хилал С. Методические основы прогнозирования развития агробизнеса в рамках концепции больших данных с применением технологии Hadoop // Известия высших учебных заведений. Поволжский регион. Технические науки. 2022. № 4. С. 25-36. doi:10.21685/2072-3059-2022-4-3

Methodological basis for forecasting the development of the agrobusiness within the concept of big data using Hadoop technology

M.Yu. Mikheev1, S. Helal2

1,2Penza State Technological University, Penza, Russia 1mix1959@gmail.com, 2sonya.nina.helal@gmail.com

Abstract. Background. Currently, the volume of data generated in the agro-industrial sector is extremely large and is growing faster than the speed of computing. Thus, using traditional methods such as SQL or a single machine to store or process data can be both useless and

© Михеев М. Ю., Хилал С., 2022. Контент доступен по лицензии Creative Commons Attribution 4.0 License / This work is licensed under a Creative Commons Attribution 4.0 License.

time consuming. The effective management of modern agribusiness relies heavily on digital technologies, which, in particular, involves the implementation of forecasting technologies through the analysis of a large amount of various complex data. The practical implementation of this approach involves the development of methodological foundations for forecasting using big data technologies, a way to integrate into global digital markets in the field of agribusiness. Materials and methods. Practical options for applying the methodological foundations of analysis within the concept of big data using Hadoop technology, including HDFS, MapReduce and Hive, as well as solutions based on Python, are considered. Results. Plotly is a Python library that can be used in the field of agribusiness data visualization, has made it possible to integrate the plotting of statistical results. Conclusions. Some aspects of the Hive tool application of the Hadoop ecosystem, combined with flexible programming techniques in the Python language, made it possible to identify additional technological possibilities for creating a BigData project.

Keywords: methodological foundations, agribusiness development, Big Data, Hadoop, Hive

For citation: Mikheev M.Yu., Helal S. Methodological basis for forecasting the development of the agrobusiness within the concept of big data using Hadoop technology. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki = University proceedings. Volga region. Engineering sciences. 2022;(4):25-36. (In Russ.). doi:10.21685/ 2072-3059-2022-4-3

Введение

Развитие агробизнеса вызывает необходимость все более точного управления отдельными технологическими и бизнес-процессами. Соответственно растет размер наборов обрабатываемых данных, собираемых и анализируемых в секторе агробизнеса, что делает традиционные решения для их хранения непомерно дорогими [1].

В настоящее время нет точного определения термина «большие данные». Большинство исследователей понимает под ним очень большой объем данных, которые поступают из различных источников с большой скоростью и имеют различный формат. В общем случае большие данные могут быть структурированными, неструктурированными или частично структурированными. Соответственно, требуют специализированных технологий обработки и управления. Данные могут находиться в облачных хранилищах в таких формах, как тексты, изображения, видео или сообщения в социальных сетях. Чтобы обрабатывать большие объемы данных недорогим и эффективным способом, используются параллельные технологии [1-3].

В работе рассмотрены методические основы прогнозирования развития агробизнеса на примере прогнозирования развития Африканского экономического, банковского и системного кризиса с применением технологий Hadoop.

Методология

Hadoop - это инфраструктура распределенной системы, разработанная Apache Foundation. Пользователи могут разрабатывать распределенные программы, не разбираясь в деталях архитектуры, чтобы в полной мере использовать возможности платформы по хранению массивных данных и быстрым вычислениям. В Hadoop реализована распределенная файловая система, называемая HDFS. HDFS обладает хорошими характеристиками, высокой

отказоустойчивостью и отсутствием необходимости использования дорогостоящего оборудования, как на других платформах. Кроме того, она обеспечивает высокоскоростной интерфейс для доступа к данным приложений, подходящий для приложений с очень большими наборами данных. HDFS смягчает требования к файловой системе, так что доступ к данным может осуществляться в потоковой форме [2].

Hadoop имеет множество экосистем, некоторые будут подробно описаны в этой статье:

1) HDFS (распределенная файловая система Hadoop);

2) MapReduce;

3) Hive.

1. HDFS

Файловая система Hadoop была разработана на основе модели распределенной файловой системы. Она работает на обычном оборудовании. HDFS может хранить очень большое количество данных, а также обеспечивает более легкий доступ к ним (рис. 1). Чтобы хранить такой большой объем данных, файлы хранятся в нескольких системах в избыточном виде, чтобы спасти систему от потенциальных потерь данных в случае сбоя. HDFS также делает приложения доступными для многопроцессорной обработки [2].

• HDFS отвечает за хранение данных в кластере (как распределенное хранилище) и обработку.

• Серверы данных узла имени и узла знаний позволяют пользователям просто проверять состояние кластера.

• Каждый блок реплицируется несколько раз (по умолчанию 3 раза). Реплики хранятся на совершенно разных Nodes.

• Hadoop Streaming действует как мост между кодом Python и, следовательно, HDFS на основе Java и позволяет беспрепятственно получать доступ к кластерам Hadoop и выполнять задачи MapReduce.

• HDFS обеспечивает права доступа к файлам и аутентификацию.

Рис. 1. Архитектура системы Hadoop

ЫатеЫоёе - это процесс для ИБЕБ в Иаёоор, который обычно запускается на отдельной машине. Он в основном отвечает за запись того, как хранимые или вычисляемые файлы делятся на блоки данных, необходимые для быстрой обработки, а также за запись расположения узлов, на которые делятся блоки данных. ЫатеЫоёе решает, следует ли сопоставить файл с блоком

копирования на ОМаНоёв. Хотя основной функцией узла НатвНоёв является управление модулями памяти и ввода-вывода, истинная обработка ввода-вывода не зависит от него. С НатвНоёв связаны только метаданные расположения узла, где хранится блок данных. Лишняя информация снижает скорость обработки данных сервером. Однако сам НатвНоёв является единственным узлом кластера Наёоор, и, пока существует проблема с сервисом ЫатвЫоёв, вся система будет находиться в кризисе [4].

По сравнению с единственным узлом ЫатвЫоёв, количество DataNodв очень велико. Программа DataNodв работает на каждом подчиненном сервере в кластере. Она отвечает за чтение и запись разделенного и выделенного ей блока данных в локальную систему, т.е. является адресом, используемым для его хранения. Когда пользователю необходимо использовать блок данных, НатвНоёв находит соответствующее местоположение хранилища DataNodв. Затем клиент напрямую связывается с процессом на DataNodв для соответствующей обработки требуемых блоков данных. DataNodв представлен в виде стойки, каждая стойка соединяет все данные для пользователя через коммутатор, NamвNodв.

Однако HDFS не имеет соответствующего доступа на основе ролей для управления проблемами безопасности. Кроме того, риск доступа к данным и их кражи возникает при внедрении данных в единую среду Hadoop. Реплици-рованные данные также не защищены от взломов и уязвимостей, что требует обеспечения большей безопасности [5-7].

2. МарИейысе

MapRвducв - это модель программирования, связанная с реализацией обработки и генерации больших наборов данных с помощью параллельных распределенных алгоритмических правил на кластере.

Программа MapRвducв состоит из процедуры карты, которая выполняет фильтрацию и сортировку, и метода сокращения, который выполняет операцию структуры [2].

ПрограммаMapRвducв выполняется в два этапа (рис. 2).

Рис. 2. Этапы MapReduce

Этап Map: работа карты или картографа заключается в обработке входных данных. Обычно они представлены в виде файла или каталога и хранятся в файловой системе Hadoop (HDFS). Входной файл передается функции сопоставления строка за строкой. Картограф обрабатывает данные и создает несколько небольших фрагментов данных.

Этап Reduce представляет собой комбинацию этапа перемешивания и этапа уменьшения. Работа Reduce заключается в обработке данных, поступающих от картографа. После обработки он создает новый набор выходных данных, который будет храниться в HDFS.

• MapReduce может быть платформой для обработки данных в кластере.

• MapReduce имеет два последовательных этапа: отображение и уменьшение.

• Каждая задача карты работает с отдельными частями данных.

• После карты редьюсер работает с данными, сгенерированными картографом на распределенных узлах данных.

• MapReduce использует дисковой ввод-вывод для выполнения операций с данными (рис. 3).

Output Results

Рис. 3. MapReduce использует операции дискового ввода-вывода

3. Hive

Хотя платформа MapReduce обеспечивает масштабируемость и низкоуровневую гибкость для выполнения сложных заданий с большими наборами данных, реализация одного задания MapReduce может занять несколько часов или даже дней. Понимая это, Facebook разработал Hive на основе знакомых концепций таблиц, столбцов и разделов, предоставив высокоуровневый инструмент запросов для доступа к данным из существующих хранилищ Hadoop [8]. Результатом является слой хранилища данных, который позволяет запрашивать структурированные данные и управлять ими с помощью построенного поверх Hadoop, SQL-подобного языка запросов, HiveQL и опционального пользовательского MapReduce, скрипты которого могут быть подключены к запросам. Hive трансформирует преобразования HiveQL в серию заданий MapReduce и операций HDFS.

На рис. 4. и в табл. 1 описан рабочий процесс операций между Hive и Hadoop.

Hive - это хранилище данных, созданное для управления и запроса только структурированных данных, хранящихся в таблицах. При работе с такими данными платформа Hive имеет пользовательские функции, поддерживающие оптимизацию и удобство использования. Оптимизация запросов здесь относится к эффективному с точки зрения производительности способу их выполнения.

Рис. 4. Рабочий процесс между Hive и Hadoop [8]

Таблица 1

Операции рабочего процесса между Hive и Hadoop

Шаг Операция

1 Выполнить запрос Интерфейс Hive такой, как командная строка или веб-интерфейс, отправляет запрос драйверу (любому драйверу базы данных, например JDBC, ODBC и т.д.) для выполнения

2 Получить план Драйвер использует компилятор запросов, который анализирует запрос, чтобы проверить его синтаксис и план или требование

3 Получить метаданные Компилятор отправляет запрос метаданных в Metastore (любую базу данных)

4 Отправить метаданные Metastore отправляет метаданные в качестве ответа компилятору

5 Отправить план Компилятор проверяет требование и повторно отправляет план драйверу. На этом синтаксический анализ и компиляция запроса завершены

6 Выполнить план Драйвер отправляет план выполнения механизму выполнения

7 Выполнить задание Внутренне процесс выполнения задания представляет собой задание MapReduce. Механизм выполнения отправляет задание в JobTracker, который находится в NameNode, и назначает это задание TaskTracker, который находится в узле Data. Здесь запрос выполняет задание MapReduce

7.1 Операции с метаданными Механизм выполнения может производить операции с метаданными с помощью Metastore

8 Получить результат Механизм выполнения получает результаты от Data nodes

9 Отправить результаты Механизм выполнения отправляет результирующие значения драйверу

10 Отправить результаты Драйвер отправляет результаты в Hive Interfaces

Новые версии Hive имеют ограниченную поддержку неструктурированных данных, инкапсулированных в специальные поля таблицы Hive. Новым важным компонентом Hive является Metastore. Он используется для хранения информации о схеме и обычно находится в реляционной базе данных. При работе с однопользовательским хранилищем метаданных Hive задействует базу данных derby, а для многопользовательских или общих метаданных - MySQL или PostgreSQL [8].

Поскольку Hive является одним из основных инструментов в экосистеме Hadoop, лучше использовать его с одним из самых популярных языков программирования - Python. Можно подключить Hive с помощью Python к созданию внутренней таблицы.

Одной из основных концепций Hive является наличие внутренних и внешних таблиц. Выбор соответствующего типа таблицы повлияет на то, как данные будут загружаться, контролироваться и управляться (табл. 2).

Таблица 2

Внутренние и внешние таблицы в технологии Hive

Тип Условия

ВНЕШНИЕ таблицы • Данные также используются вне Hive. Например, файлы данных считываются и обрабатываются существующей программой, которая не блокирует их. • Данные должны оставаться в базовом расположении даже после DROP TABLE. Это может применяться, если вы указываете несколько схем (таблиц или представлений) на один набор данных или если вы перебираете различные возможные схемы. • Hive не должен владеть данными и настройками управления, каталогами и т.д., это другой процесс

ВНУТРЕННИЕ таблицы • Данные временные. • Hive необходимо полностью управлять жизненным циклом таблицы и данных

Результаты

В разработке методических основ прогнозирования развития агробизнеса в рамках концепции больших данных авторы опирались на работы ряда исследователей [9-12], официальную статистику [13], отчеты статистических агентств [5], из которых сделаны выводы относительно зависимости параметров глобальной продовольственной устойчивости от Reinhart et. набора данных al Global Financial Stability [14].

В качестве базового языка программирования авторами выбран Python -широко используемый язык программирования общего назначения высокого уровня. Его технологические возможности позволяют обеспечить относительно компактный, удобный для понимания код. Python поддерживает несколько парадигм программирования, включая объектно-ориентированное, императивное и функциональное или процедурные стили. Он имеет динамическую систему типов и автоматическое управление памятью, а также большую и всеобъемлющую стандартную библиотеку. Во всех областях специализированные языки - лучший выбор, но Python - второй лучший выбор в области программирования. В Python есть несколько зрелых сторонних библиотек с открытым исходным кодом, а именно Numpy/Scipy для числовых

операций, Cython для низкоуровневой оптимизации, IPython для интерактивной работы и matplotlib для построения графиков. Python имеет несколько важных преимуществ:

- компактность и читабельность кода на языке Python;

- простота и доступность технологий объектно-ориентированного программирование в рамках языка Python;

- интенсивное развитие технологий программирования на языке Python в рамках открытого обсуждения;

- наличие широкого выбора графических пакетов и инструментов;

- соответствие языка Python общепринятым общественным стандартам.

Plotly - еще один отличный инструмент визуализации Python, способный обрабатывать географические, научные, статистические и финансовые данные. Компания, стоящая за Plotly, также известная как Plotly, производит целый набор инструментов визуализации для нескольких языков программирования, каждый из которых создает интерактивные веб-визуализации и даже веб-приложения [15]. Plotly имеет несколько преимуществ перед matplotlib. Одним из них является то, что для создания эстетически приятных интерактивных сюжетов необходимо всего несколько строк кода. Интерактивность также предлагает ряд преимуществ по сравнению со статическими графиками matplotlib:

- экономит время при первоначальном изучении набора данных;

- позволяет легко изменять и экспортировать графики;

- предлагает более богатую визуализацию, которая хорошо подходит для передачи важных идей, скрытых в наборе данных.

Рис. 5. Интеграция Python с Hadoop

Обсуждение

В Matplotlib и Plotly есть несколько инструментов, которые позволяют пользователю легко интегрировать с pandas, чтобы сделать график еще более эффективным.

Согласно разным факторным темам состояния цифрового сельского хозяйства агроинновации явились фактором экономического кризиса, как показано на графиках (рис. 6), соответствующих написанному коду на Python (рис. 7).

График посвящен банковскому, долговому, финансовому, инфляционному и системному кризисам, которые произошли с 1860 по 2014 г. в 13 африканских странах, включая Алжир, Анголу, Центральноафриканскую Республику, Кот-д'Ивуар, Египет, Кению, Маврикий, Марокко, Нигерию, Южную Африку, Тунис, Замбию и Зимбабве. Язык программирования Python обладает рядом преимуществ для научных исследований и приложений чис-

ленных расчетов. Используя недавнюю реализацию Python, мы экспериментируем с некоторыми числовыми примерами. По мере совершенствования модуля можно применять различные виды численных расчетов.

о О 127.0.0.1:49954 X О 127.0.0.1:49970 X — О X

G CD 127.0.0.1:49970 ^ A* to ^ i® (Sign in 0)

0 «¡1 + Ш Q.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Africain_crisis -fe

Ф

20k 15k = nflation_annual_cpi

20M 15M о Q,

10M +

5k I

Hill llllllllll IIIIIIIII llllllllll 1 D

T 49 ED

country Ф

Рис. 6. Данные по банковскому, долговому, финансовому, инфляционному и системному кризисам

import pandas as pd import plotly.express as px

df = pd.read_csv('C:/Users/admin/OneDrive/Desktop/Loading 2025/african_crises.csv ) fig = px.bar(df, x "country", y "exch_usd", color "inflation_annual_cpi", title "Africain_crisis") fig.show()

Рис. 7. Пример кода на Python Заключение

Таким образом, разработаны элементы методических основ прогнозирования развития агробизнеса в рамках концепции больших данных.

Рассмотрены варианты эффективного применения технологии Hadoop для решения задач прогнозирования на примере данных об экономическом, банковском, системном кризисе агробизнеса африканского континента.

Показана перспективность внедрения цифровых технологий для развития современного агробизнеса. Выявлены ограничения возможностей обработки больших данных с помощью традиционных систем управления базами данных, например реляционных баз. Проанализированы возможности более

эффективного управления агробизнесом с применением технологий прогнозирования посредством анализа больших данных.

Разработаны элементы методических основ прогнозирования с применением технологий больших данных на примере практически важных аспектов агробизнеса африканского континента в условиях системного кризиса.

Исследованы некоторые аспекты применения инструмента Hive экосистемы Hadoop в сочетании с гибкими приемами программирования на языке Python, что позволило выявить дополнительные технологические возможности создания BigData-проекта.

Приведены практически важные примеры повышения производительности технологии Hive при оптимальных размерах данных. Показано превосходство производительности технологии Hive над технологией MapReduce, что особенно важно при наборах данных больших размеров. Подтверждена высокая масштабируемость технологии Hive.

Список литературы

1. Siddiqa A., Karim A., Gani A. Big data storage technologies: a survey // Frontiers of Information Technology & Electronic Engineering. 2017. Vol. 18. P. 1040-1070. URL: https://doi.org/10.1631/FITEE.1500441

2. Khushboo K., Neeraj G. Analysis of hadoop MapReduce scheduling in heterogeneous environment // Ain Shams Engineering Journal. 2021. Vol. 12, Iss. 1. P. 1101-1110.

3. Mikheev M. Y., Meshcheryakova E. N. The method of data management organization of a control system of high-voltage equipment malfunctions and power supply quality for an engineering unit // Journal of Advanced Research in Dynamical and Control Systems. 2019. Vol. 11, Iss. 5. P. 113-118.

4. Gemayel N. Analyzing Google File System and Hadoop Distributed File System // Research Journal of Information Technology. 2016. Vol. 8, № 3. P. 66-74. doi:10.3923/rjit.2016.66.74

5. Saraladevi B., Pazhaniraja N., Victer Paul P., Saleem Basha M. S., Dhavachelvan P. Big Data and Hadoop-a Study in Security Perspective // Procedia Computer Science. 2015. Vol. 50. P. 596-601. URL: https://doi.org/10.1016/j.procs.2015.04.091.

6. Михеев М. Ю., Хилал С. Современное состояние исследований и разработок в области безопасного хранения биометрической информации // Труды Международного симпозиума Надежность и качество. 2022. Т. 2. С. 204-207.

7. Михеев М. Ю., Хилал С. Безопасный обмен данными в системе электронного медицинского документооборота с применением алгоритма HASBE // Современные информационные технологии. 2022. № 35 (35). С. 104-110.

8. Balaji K. J. Scalability Study of Hadoop MapReduce and Hive in Big Data Analytics // International Journal of Engineering and Computer Science. 2016. Vol. 5, № 11. URL: http://www.ijecs.in/index.php/ijecs/article/view/2841

9. Mikheev M. Yu., Helal S. The main trends in the development of technologies for the integrated processing of agricultural products on the african continent under the conditions of the digital transformation of the global economy // Цифровизация агропромышленного комплекса : c6. науч. ст. Тамбов, 2022. Т. 2. С. 334-337.

10. Mikheev M. Yu., Helal S. Agricultural technological innovation in Kenya // Цифровизация агропромышленного комплекса : сб. науч. ст. Тамбов, 2022. Т. 2. С. 52-53.

11. Helal S., Pepel L. N., Mikheev M. Yu. Mental reconstruction as a factor in the digital transformation of agro-business in the african continent // Цифровизация агропромышленного комплекса : сб. науч. ст. Тамбов, 2022. Т. 2. С. 356-357.

12. Пепел Л. Н., Крохин И. А., Михеев М. Ю. Технологии больших данных в задачах цифровизации управления агропромышленным комплексом // Цифровизация агропромышленного комплекса : сб. науч. ст. Тамбов, 2022. Т. 1. С. 477-479.

13. Open Data for Official Statistics: History, Principles, and Implentation. URL: https://opendatawatch.com/publications/open-data-for-official-statistics-history-principles-and-implentation/ (дата обращения: 14.10.2020).

14. Behavioral Finance & Financial Stability. Harvard Business School. URL: https://www.hbs.edu/behavioral-finance-and-financial-stability/data/Pages/global.aspx. (дата обращения: 11.10.2022).

15. Plotly Technologies Inc. 2020. Collaborative data science. URL: https://plot.ly/

References

1. Siddiqa A., Karim A., Gani A. Big data storage technologies: a survey. Frontiers of Information Technology & Electronic Engineering. 2017;18:1040-1070. Available at: https://doi.org/10.1631/FITEE.1500441

2. Khushboo K., Neeraj G. Analysis of hadoop MapReduce scheduling in heterogeneous environment. Ain Shams Engineering Journal. 2021;12(1):1101-1110.

3. Mikheev M.Y., Meshcheryakova E.N. The method of data management organization of a control system of high-voltage equipment malfunctions and power supply quality for an engineering unit. Journal of Advanced Research in Dynamical and Control Systems. 2019;11(5): 113-118.

4. Gemayel N. Analyzing Google File System and Hadoop Distributed File System. Research Journal of Information Technology. 2016;8(3):66-74. doi:10.3923/rjit.2016.66.74

5. Saraladevi B., Pazhaniraja N., Victer Paul P., Saleem Basha M.S., Dhavachelvan P. Big Data and Hadoop-a Study in Security Perspective. Procedia Computer Science. 2015;50:596-601. Available at: https://doi.org/10.1016/j.procs.2015.04.091.

6. Mikheev M.Yu., Khilal S. Current state of research and development in the field of secure storage of biometric information. Trudy Mezhdunarodnogo simpoziuma Nadezh-nost' i kachestvo = Proceedings of the International Symposium Reliability and Quality. 2022;2:204-207. (In Russ.)

7. Mikheev M.Yu., Khilal S. Secure data exchange in the electronic medical document management system using the HASBE algorithm. Sovremennye informatsionnye tekhnologii = Modern information technologies. 2022;(35):104-110. (In Russ.)

8. Balaji K.J. Scalability Study of Hadoop MapReduce and Hive in Big Data Analytics. International Journal of Engineering and Computer Science. 2016;5(11). Available at: http://www.ijecs.in/index.php/ijecs/article/view/2841

9. Mikheev M.Yu., Helal S. The main trends in the development of technologies for the integrated processing of agricultural products on the african continent under the conditions of the digital transformation of the global economy. Tsifrovizatsiya agropro-myshlennogo kompleksa: sb. nauch. st. = Digitalization of the agro-industrial complex: collected articles. Tambov, 2022;2:334-337.

10. Mikheev M.Yu., Helal S. Agricultural technological innovation in Kenya. Tsifrovizatsiya agropromyshlennogo kompleksa: sb. nauch. st. = Digitalization of the agro-industrial complex: collected articles. Tambov, 2022;2:52-53.

11. Helal S., Pepel L.N., Mikheev M.Yu. Mental reconstruction as a factor in the digital transformation of agrobusiness in the african continent. Tsifrovizatsiya agropromyshlennogo kompleksa: sb. nauch. st. = Digitalization of the agro-industrial complex: collected articles. Tambov, 2022;2:356-357.

12. Pepel L.N., Krokhin I.A., Mikheev M.Yu. Big data technologies in the tasks of digitalization of the management of the agro-industrial complex. Tsifrovizatsiya agropromyshlennogo kompleksa: sb. nauch. st. = Digitalization of the agro-industrial complex: collected articles. Tambov, 2022;1:477-479. (In Russ.)

13. Open Data for Official Statistics: History, Principles, and Implentation. Available at: https://opendatawatch.com/publications/open-data-for-official-statistics-history-principles-and-implentation/ (accessed 14.10.2020).

14. Behavioral Finance & Financial Stability. Harvard Business School. Available at: https://www.hbs.edu/behavioral-finance-and-financial-stability/data/Pages/global.aspx. (accessed 11.10.2022).

15. Plotly Technologies Inc. 2020. Collaborative data science. Available at: https://plot.ly/

Информация об авторах / Information about the authors

Михаил Юрьевич Михеев

доктор технических наук, профессор,

заведующий кафедрой информационных

систем и технологий, Пензенский

государственный технологический

университет (Россия, г. Пенза,

пр. Байдукова / ул. Гагарина, 1а/11)

E-mail: aak@sstu.ru

Mikhail Yu. Mikheev Doctor of engineering sciences, professor, head of the sub-department of information systems and technologies, Penza State Technological University (1a/11 Baydukova passage / Gagarina street, Penza, Russia)

СоняХилал

аспирант, Пензенский государственный технологический университет (Россия, г. Пенза, пр. Байдукова / ул. Гагарина, 1а/11)

E-mail: sonya.nina.helal@gmail.com

Sonya Helal

Postgraduate student, Penza State Technological University (1a/11 Baydukova passage / Gagarina street, Penza, Russia)

Поступила в редакцию / Received 28.10.2022

Поступила после рецензирования и доработки / Revised 12.11.2022 Принята к публикации / Accepted 14.12.2022

i Надоели баннеры? Вы всегда можете отключить рекламу.