Научная статья на тему 'ОСНОВНЫЕ ПРОБЛЕМЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ'

ОСНОВНЫЕ ПРОБЛЕМЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1531
199
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОЛЬШИЕ ДАННЫЕ / ОБРАБОТКА ДАННЫХ / НЕСТРУКТУРИРОВАННЫЕ ДАННЫЕ / NOSQL СИСТЕМЫ / ТЕХНОЛОГИИ ХРАНЕНИЯ ДАННЫХ / НАУКА О ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Менщиков Александр Алексеевич, Перфильев Владислав Эдуардович, Федосенко Максим Юрьевич, Фабзиев Ильшат Равильевич

В статье рассматривается проблематика использования больших данных в современных информационных системах. Представлены хронологические этапы становления термина Big Data, начиная с первого его упоминания главным редактором журнала Nature Клиффордом Линчем в выпуске «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?» и заканчивая становлением учебного и научного направления data science. Указаны крупные корпорации, внедряющие в свои производственные процессы большие данные (IBM, Oracle, Microsoft, Hewlett-Packard, EMC). Классификация больших данных рассмотрена согласно теории “VVV”, включающей в себя объём (volume), скорость (velocity), многообразие (variety) обрабатываемых данных, “4V”, включающей в себя помимо прочего достоверность (veracity), “5V”, включающей в себя помимо прочего жизнеспособность (viability), «7V», рассматривающая также переменчивость (variability) и визуализацию (vizualization). Сами массивы данных, в зависимости от формы их хранения и представления, характеризуются как структурированные, слабоструктурированные, неструктурированные. Отсюда, проблематика Big Data рассматривается исходя из большого объёма, способов хранения и обработки, неструктурированного вида и процесса структуризации, скорости обработки и существующих алгоритмов обработки. Само определение и процесс отнесения набора данных к Big Data в статье рассматривается со стороны количественного показателя скорости обработки NoSQL данных в системе. Для работы и анализа массивом больших данных существуют такие направления как Data Science (наука о данных), технологии Machine Learning (машинного обучения), частным случаем которого является Artificial Intelligence (искусственный интеллект)

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE MAIN PROBLEMS OF USE OF BIG DATA IN MODERN INFORMATION SYSTEMS

The article deals with the problems of using big data in modern information systems. The chronological stages of the formation of the term Big Data are presented, starting from its first mention by the editor-in-chief of the journal Nature Clifford Lynch in the issue “How can technologies that open up opportunities for working with large amounts of data affect the future of science?” and ending with the formation of the educational and scientific direction of data science. Large corporations that implement big data in their production processes (IBM, Oracle, Microsoft, Hewlett-Packard, EMC) are indicated. The classification of big data is considered according to the theory “VVV”, which includes the Volume, Velocity, Variety of processed data, “4V”, which includes Veracity, “5V”, which includes Viability, "7V", also considering Variability and Visualization. The data arrays themselves, depending on the form of their storage and presentation, are characterized as structured, semi-structured, unstructured. Hence, the problems of Big Data are considered based on the large volume, storage and processing methods, unstructured form and structuring process, processing speed and existing processing algorithms. The very definition and process of classifying a data set as Big Data is considered in the article from the side of a quantitative indicator of the speed of NoSQL data processing in the system. To work and analyze an array of big data, there are such areas as Data Science Machine Learning technologies, a special case of which is Artificial Intelligence.

Текст научной работы на тему «ОСНОВНЫЕ ПРОБЛЕМЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ»

Научная статья Original article УДК 004.043 + 004.622

ОСНОВНЫЕ ПРОБЛЕМЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ

THE MAIN PROBLEMS OF USE OF BIG DATA IN MODERN INFORMATION

SYSTEMS

Менщиков Александр Алексеевич, кандидат технических наук, доцент, ординарный доцент факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ORCID: 0000-0002-2287-4310, menshikov@itmo.ru Перфильев Владислав Эдуардович, аспирант, инженер факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ORCID: 0000-00017338-4939, vladik.perfilev@gmail. com

Федосенко Максим Юрьевич, магистрант, инженер факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ORCID: 0000-0001-8786-5661,

fedosenkomaksim98@gmail.com

Фабзиев Ильшат Равильевич, студент факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ifabzievr@gmail.com

Menshchikov Alexander Alekseevich, candidate of technical sciences, associate professor, ordinary associate professor of the Faculty of Information Technology

Security, ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ORCID: https://orcid.org/0000-0002-2287-4310, menshikov@itmo .ru

Perfiliev Vladislav Eduardovich, post-graduate student, engineer of the Faculty of Information Technology Security, ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ORCID: https://ordd.org/0000-0001-7338-4939, vladik.perfilev@gmail.com

Fedosenko Maksim Yurievich, master student, engineer of the Faculty of Information Technology Security, ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ORCID: https://orcid.org/0000-0001-8786-5661, fedosenkomaksim98@gmail.com

Fabziev Ilshat Ravilevich, student of the Faculty of Information Technology Security ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ifabzievr@gmail.com

Аннотация: В статье рассматривается проблематика использования больших данных в современных информационных системах. Представлены хронологические этапы становления термина Big Data, начиная с первого его упоминания главным редактором журнала Nature Клиффордом Линчем в выпуске «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?» и заканчивая становлением учебного и научного направления data science. Указаны крупные корпорации, внедряющие в свои производственные процессы большие данные (IBM, Oracle, Microsoft, Hewlett-Packard, EMC). Классификация больших данных рассмотрена согласно теории "VVV", включающей в себя объём (volume), скорость (velocity), многообразие (variety) обрабатываемых данных, "4V", включающей в себя помимо прочего достоверность (veracity), "5V", включающей в себя помимо прочего жизнеспособность (viability), «7V», рассматривающая также переменчивость (variability) и визуализацию

(vizualization). Сами массивы данных, в зависимости от формы их хранения и представления, характеризуются как структурированные,

слабоструктурированные, неструктурированные. Отсюда, проблематика Big Data рассматривается исходя из большого объёма, способов хранения и обработки, неструктурированного вида и процесса структуризации, скорости обработки и существующих алгоритмов обработки. Само определение и процесс отнесения набора данных к Big Data в статье рассматривается со стороны количественного показателя скорости обработки NoSQL данных в системе. Для работы и анализа массивом больших данных существуют такие направления как Data Science (наука о данных), технологии Machine Learning (машинного обучения), частным случаем которого является Artificial Intelligence (искусственный интеллект)

Abstract: The article deals with the problems of using big data in modern information systems. The chronological stages of the formation of the term Big Data are presented, starting from its first mention by the editor-in-chief of the journal Nature Clifford Lynch in the issue "How can technologies that open up opportunities for working with large amounts of data affect the future of science?" and ending with the formation of the educational and scientific direction of data science. Large corporations that implement big data in their production processes (IBM, Oracle, Microsoft, Hewlett-Packard, EMC) are indicated. The classification of big data is considered according to the theory "VVV", which includes the Volume, Velocity, Variety of processed data, "4V", which includes Veracity, "5V", which includes Viability, "7V", also considering Variability and Visualization. The data arrays themselves, depending on the form of their storage and presentation, are characterized as structured, semi-structured, unstructured. Hence, the problems of Big Data are considered based on the large volume, storage and processing methods, unstructured form and structuring process, processing speed and existing processing algorithms. The very definition and process of classifying a data set as Big Data is considered in the article from the side of a quantitative indicator of the speed of NoSQL data processing in the system. To work

and analyze an array of big data, there are such areas as Data Science Machine Learning technologies, a special case of which is Artificial Intelligence. Ключевые слова: большие данные, обработка данных, неструктурированные данные, NoSQL системы, технологии хранения данных, наука о данных. Keywords: big data, data processing, unstructured data, NoSQL systems, data storage technologies, data science.

Введение

Конец 20-го и начало 21 века характеризуется большим скачком в увеличении объёма использования цифровой информации. Увеличиваются размеры файлов, в жизнь стремительно внедряются информационные технологии: социальные сети, средства связи, электронный документооборот, безналичный расчёт, различные системы по сбору и хранению информации (напр. системы видеонаблюдения). Это в свою очередь увеличивает ресурсозатраты на технологии хранения и обработки данных, вынуждая научного сообщество вести активные исследования и разработки в данном направлении [1].

Увеличение объёма данных приводит к появлению термина Big Data. Big Data (с англ. большие данные) — это структурированные или неструктурированные (в большинстве своём) массивы данных большого объема. Данный термин был предложен редактором журнала Nature Клиффорд Линч в 2008 году, в сентябрьском спецвыпуске «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?». В нём говорилось о феномене взрывного роста объёмов и многообразия обрабатываемых данных в мире, а также об технологических перспективах в решении задачи их обработки [2]. Этапы становления

Уже с 2009 года термин распространился в научных кругах и деловой прессе, а к 2010 году начинают появляться первые продукты и решения,

относящихся непосредственно к обработке больших данных. До 2011 года анализом больших данных занимались только в рамках научных и статистических исследований. Их изучали, тестировали уже имеющиеся подходы, разрабатывали новые алгоритмы для работы с ними. Но уже к началу 2012-го объемы данных выросли до огромных масштабов, в связи с чем возникла потребность в их систематизации для практического применения [3]. С этого момента большинство крупнейших компаний - поставщиков информационных технологий, для организации рабочего процесса начинают использовать понятие о больших данных. Среди них стоит выделить компании IBM, Oracle, Microsoft, Hewlett-Packard, EMC - где аналитики рынка информационных технологий посвящают данной концепции отдельные выделенные исследования. Например, в компании Gartner отметили большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации), а также прогнозировали, что внедрение данной технологии окажет наибольшее влияние на информационные технологии в производстве, торговле, здравоохранении, государственном управлении и других в сферах и отраслях, где регистрируются частые перемещения информационных ресурсов. Другими словами, для данных сфер задача структуризации, обработки, выделения закономерностей и внедрения в производственные процессы большого объёма пользовательской информации наиболее актуальна. По этим же причинам, С 2014 на Big Data обратили внимание ведущие мировые вузы, обучающие не только «науке о данных» (data science), но и различным инженерным и ИТ-специальностям [4]. Проблемы

В сущности, понятие Big Data подразумевает работу с информацией огромного объема и разнообразного состава, которая часто обновляется и может располагаться в различных информационных источниках. Согласно отчету McKinsey Institute «Большие данные: новый рубеж для инноваций, конкуренции и производительности» (дословно Big data: The next frontier for innovation,

competition and productivity), данный термин относится к наборам данных, размер которых превосходит возможности типовых баз данных (БД) по хранению, управлению и анализу. В своей статье (в выпуске сентября 2008 года журнала Nature) Клиффорд Линч отнес к Big Data любые массивы неоднородных данных, превышающие объёмом обработки 150 Гб в сутки. Однако, единого критерия на объём до сих пор не существует в силу различий в особенностях данных из разных источников. Например, набор данных на 100000 записей, состоящей из серий и номеров документов будет в разы меньше по объёму набора данных из такого же количество профессиональных фотографий. И те, и те необходимо структурировать и обрабатывать, однако подходы и применяемые для этого технологии будут различаться [5].

Как было сказано ранее, одной из проблем в изучении вопроса больших данных является классификация. Несмотря на то, что есть способы классифицировать данные и применяемые к ним технологии, свойственный большим данным плюрализм не позволяет создать единые направления и методы для работы с ними. Существуют общие классификации и направления по работе с наборами данных они будут рассмотрены далее, однако каждый набор требует к себе индивидуального подхода в процессе его обработки. Указанная выше проблема вытекает из того, что подавляющее большинство наборов данных не структурированы. Другими словами, имея разный вид, особенности заполнения, поля, источники - данные не имеют единого вида, из-за чего становится сложно анализировать их единым механизмом. Это в свою очередь вызывают неудобства при работе с ним: найти необходимый элемент из кучи, где могут храниться картинки, метаданные, сетевые пакеты, хеш-значения и прочее. Данные хранилища называют нерелятивными NoSQL системами, однако для манипуляций всё же необходимо выявить закономерности и группировку.

Следующей проблемой при работе с Big Data выделяют их объём. Огромные массивы не всегда возможно хранить на одном сервере, что в свою очередь приводит к применению технологий распределённых систем. Под данной

системой прежде всего понимают совокупность взаимосвязанных автономных компьютеров и их вычислительных мощностей. Распределённое хранение также вызывает сложности при выборки данных и составлении алгоритмов их обработки. Большой объём в свою очередь требует от системы огромных вычислительных мощностей, что является дорогостоящей технологией [6]. Также, от объёма хранилища данных зависит и скорость их обработки. Если скорость обработки низкая, то данные могут устареть, прежде чем принесут практическую пользу. При небольшой скорости также увеличивается процесс выборки нужной информации их большого объёма, что приводит к несвоевременному получению необходимых составляющих. Отсутствия структурированного вида усугубляет данную проблемы.

Обобщая вышесказанное, у Big Data существую следующие проблемы, расположенные в порядке уменьшения их актуальности:

• Большой объём данных, требующий дорогостоящий технологий для их хранения и обработки

• Хранение данных, обеспечивающие их целостность (чтобы ничего не упустить и не «потерять»), доступность (возможность получить необходимую информацию по мере необходимости), конфиденциальность (очень часто датасеты содержат в себе персональные данные и не подлежат разглашению третьим лицам)

• Неструктурированный вид, где данные разного формата представления хранятся «в куче», а состав конкретного элемента не имеет однообразный вид

• Сложность структуризации, сортировки, распределения при составлении выборок и поиске конкретного элемента из общей системы

• Низкая скорость обработки (в сравнении с объёмом данных), способная привести к большому времени ожидания ответа при поиске определённой позиции, а также их устареванию уже в процессе обработки

• Отсутствие эффективных алгоритмов обработки, учитывающих объём хранилища данных, структуру и методы поиска необходимого элемента (ячейки памяти)

• Большое количество шумов и процесс их учёта при работе с датасетами [7].

Последнюю проблему стоит осветить чуть подробнее, поскольку она вытекает из всех остальных и имеет в себе противоречия. Дело в том, что в структурированных наборах данных, представляющих собой релятивные SQL системы, отклонения от общей структуры (по форме данных, их содержанию) считаются выбросами, и зачастую не учитываются (отбрасываются) при составлении общих выборок. Однако в случае с Big Data выбросы и отклонения зачастую содержат в себе наиболее важную информацию, а сам большой объём данных формируется с целью выявить эти самые отклонения. Небольшая по размеру их выборка (по сравнению с большим объёмом общего хранилище) имеет наибольшую ценность в практической и исследовательской деятельности. И очень важно при обработке датасета их не пропустить и не отбросить. Это первостепенное противоречие, связанная с проблемой наличия шумов. Затем уже идёт задача верно выявить выбросы, структурировать, классифицировать, проанализировать, сделать из них выводы и найти им применение. Эта задача, в свою очередь задействует упомянутые ранее проблемы, связанные с объёмом, скоростью обработки, структуризацией и алгоритмическими подходами при их обработке. Классификация

Одна из важных проблем при работе с Big Data является классификация. Однозначно классифицировать данные порой бывает сложно в силу их неоднородности, в связи с чем также различаются подходы к их обработке. Однако, общие закономерности всё-таки выделяются, с целью направить практическое применение массивов данных в нужное русло, дать некие рекомендации для работы с ними. Рассмотрим имеющиеся способы классификации общего понятия Больших данных без привязки к какому-то конкретному набору. Энциклопедии и имеющиеся научные труды в качестве определяющих характеристик для больших данных традиционно выделяют теорию «VVV», которая содержит в себе следующие характеристики:

• Объём (от англ. Volume) - представляет собой величину физического объёма данных

• Скорость (от англ. Velocity) - подразумевает под собой как скорость прироста информации, так и необходимость высокоскоростной обработки и получения результатов,

• Многообразие (от англ. Variety) - возможность одинаковой и одновременной обработки различных типов данных: структурированных и полуструктурированных, неструктрированных.

Также, с данные характеристики уместно добавить следующие:

• Достоверность (от английского veracity) - представляет собой набор истинной информации, учёт которой при обработке массивов данных является наиболее важным.

• Жизнеспособность (от англ. Viability) - характеризует данные в зависимости от времени их актуальности.

• Ценность (от англ. Value) - показатель, характеризующий важность и необходимость выборки данных при работе с ними над решением конкретных практических задач.

• Переменчивость (от англ. Variability) — способность данный терять свою актуальность со временем. Может является частным показателем для жизнеспособности, если рассматривать их как единое целое и в одной системе классификации.

• Визуализация (от англ. Visualization) - характеризует набор данных в зависимости от степени удобства их представления и графической интерпертации [8].

Набор признаков VVV (Volume, Velocity, Variety) был выработан Meta Group в 2001 году вне контекста представлений понятия Big Data как об определённой структуры информационно-технологических методов и инструментов, поскольку, в связи с ростом популярности концепции центрального хранилища данных для организаций того времени, отмечалась

равнозначимость проблематик при управлении данными по всем трём аспектам. Затем стали появляться интерпретации с «4V», где четвёртая V представляет собой достоверность (от английского veracity) - набор истинной и наиболее важной для практического применения данных (использовалась в рекламных материалах IBM). IDC интерпретирует «четвёртое V» как value c точки зрения важности экономической целесообразности обработки соответствующих объёмов в соответствующих условиях, что отражено также и в определении больших данных от IDC. Интерпретация «5V» прибавляет к набору характеристик жизнеспособность (от англ. Viability), и ценность (от англ. Value), представляющие собой схожее с достоверностью определения, однако не берущее во внимания истинную причину происхождения данных и характер их правдивости. Это сделано с целью взять во внимания все имеющиеся выборки и выявить из них максимально возможное количество характеристик [9]. Интерпретация «7V» ,кроме всего упомянутого, добавляет также переменчивость (от англ. Variability) — способность данный терять свою актуальность со временем и визуализацию (от англ. visualization) - показатель степени возможности графической интерпретации выборок данных и их закономерностей. В каждом из случаев, в этих признаках подчёркивается, что определяющей характеристикой для больших данных является не только их физический объём, но и другие категории, специально разработанные для формирования представления о сложности задачи обработки и анализа данных.

Также, наборы данных характеризуют и по их физическому представлению. Существуют следующие категории: 1. Структурированные данные: это когда данные хранятся, извлекаются, или могут быть использованы в конкретном, определенном формате. Например, информация о клиенте банка может содержаться в базе данных в виде таблицы, сериализованного пакета и содержать информацию, которую возможно найти однозначно и без особых усилий (имя, возраст, номер телефона, номер счёта, состояния счёта, аресты и др.)

2. Неструктурированные данные: этот вид данных трудно категорировать или структурировать. Неструктурированные данные не имеют определенной формы или общего формата, а храниться могут в виде текста, пакетов или мультимедийных файлов. Хорошим примером могут являться электронные письма, текстовые документы, презентации, видео — которые хоть и могут принадлежать конкретной категории, однако данные в них хранятся хаотично и непредсказуемое.

3. Слабоструктурированные (полуструктурированные) данные: представляет собой некий гибрид, смешанную категорию между структурированными и неструктурированными данными. Основное отличие заключается в том, что нельзя категоризировать, но они имеют некоторые определенные свойства (например логи, тэги), которые можно проанализировать и структурировать для их хранения.

Заключение

Рассмотренная выше классификация уже имеет своё отражение при исследовании проблематики использования Big Data. Исследуются оптимальные технологии для работы с учётом особенностей массива данных по «каждой из V», ведутся работы для разработки оптимальных алгоритмов при анализе неструктурированных массивов. Это достаточно важное направление для исследования, поскольку 80%-90% информации, которую получают компании — это неструктурированные данные [10]. Многообразные, большого объёма, имеющие не всегда необходимую скорость обработки, что приводит к их низкой жизнеспособности и ценности за счёт имеющейся переменчивости. Это всё представляет сложность при поиске необходимого значения. Достоверность данных уже является следующим направлением для исследования, хоть и для составления и анализ точных практических моделей необходимы правдивые наборы. Затем необходимо иметь алгоритмы, которые учитывают при работе каждую из особенностей датасета и способны давать ожидаемый результат. Для работы и анализа с Big Data используются такие направления как Data Science

(наука о данных), технологии Machine Learning (машинного обучения), частным случаем которого является Artificial Intelligence (искусственный интеллект). Но в основе любого подхода лежит серьёзный математический аппарат и большие вычислительные ресурсы для ЭВМ.

Литература

1. United Nations Development Programme. Public service excellence in the 21 st century

- Singapore: Springer Singapore, 2019 - 345 C.

2. Lynch C. How do your data grow? //Nature. - 2008. - V. 455. № 7209. - P. 28-29.

3. Корнев М.С. История понятия "Большие данные" (Big Data): словари, научная и деловая периодика // Вестник РГГУ. Серия: История. Филология. Культурология. Востоковедение. - 2018. - № 1(34). - С. 81-85.

4. Свириденкова М.А., Свириденков К.И.. Тенденции развития Big Data // Международный журнал информационных технологий и энергоэффективности.

- 2020. - № 1(15). - С. 23-29.

5. Сердюк С. В., Иващенко И. И. Применение Big Data в современных IT-технологиях. // Ассоциация научных сотрудников "Сибирская академическая книга". - 2017. - №1. - С. 73-74

6. XLVI международная научно-практическая конференция. Инновационные подходы в современной науке, Москва, 2019, 5 С.

7. Клименко А.В., Слащев И. С., Калайда А. В.. Методы обработки больших массивов данных в крупномасштабных системах // Инновационные подходы в современной науке (Москва, 24 мая 2019 года). - Москва, 2019.- С. 98-102.

8. Искаков Р.Р.. Big Data: Актуальные проблемы и пути решения // Моя профессиональная карьера - 2020. - Т.2 № 12. - С. 129-133.

9. Шаталова В.В., Лихачевский Д.В., Казак Т.В.. Большие данные: как технологии Big Data меняют нашу жизнь. // Big data and advanced analytics. - 2021. - № 7-1. -С. 188-192.

10. Формула Big Data: семь «V» + неординарная задача / Блог Форсайт.

https://www.fsight.ru/blog/formula-big-data-sem-v-neordinarnaja-zadacha-2/ (16.01.2022).

11. IV Всероссийская научно-практической конференциия. Приоритетные и перспективные направления научно-технического развития российской федерации, Москва, 2021, 5 С.

12. Дегтярёва В.В., Гусейнова Н.Р.. Возможности применения глобальных технологий Big Data в автоматизированных системах управления // Приоритетные и перспективные направления научно-технического развития российской федерации (Москва, 11-12 марта 2021 года) - Москва, 2021. - С. 338342.

References

1. United Nations Development Programme. Public service excellence in the 21 st century

- Singapore: Springer Singapore, 2019 - 345 P.

2. Lynch C. How do your data grow? //Nature. - 2008. - V. 455. № 7209. - P. 28-29.

3. Kornev M.S. The history of the concept of "Big Data" (Big Data): dictionaries, scientific and business periodicals // Bulletin of the Russian State University for the Humanities. Series: History. Philology. Culturology. Oriental studies. - 2018. - No. 1 (34). - P. 81-85.

4. Sviridenkova M.A., Sviridenkov K.I. Big Data Development Trends // International Journal of Information Technologies and Energy Efficiency. - 2020. - No. 1(15). - P. 23-29.

5. Serdyuk S. V., Ivashchenko I. I. Application of Big Data in modern IT technologies. // Association of Researchers "Siberian Academic Book". - 2017. - No. 1. - P. 73-74

6. XLVI International scientific and practical conference. Innovative approaches in modern science, Moscow, 2019, 5 P.

7. Klimenko A.V., Slashchev I.S., Kalaida A.V. Methods for processing large data sets in large-scale systems // Innovative approaches in modern science (Moscow, May 24, 2019). - Moscow, 2019. - P. 98-102.

8. Iskakov R.R. Big Data: Actual problems and solutions // My professional career - 2020.

- V.2 No. 12. - P. 129-133.

9. Shatalova V.V., Likhachevsky D.V., Kazak T.V. Big data: how Big Data technologies change our lives. // Big data and advanced analytics. - 2021. - No. 7-1. - P. 188-192.

10. Big Data formula: seven "V" + extraordinary task / Foresight Blog. https://www.fsight.ru/blog/formula-big-data-sem-v-neordinarnaja-zadacha-2/ (01.16.2022).

11. IV All-Russian Scientific and Practical Conference. Priority and promising areas of scientific and technological development of the Russian Federation, Moscow, 2021, 5 P.

12. Degtyareva V.V., Huseynova N.R.. Possibilities of using global Big Data technologies in automated control systems // Priority and promising areas of scientific and technical development of the Russian Federation (Moscow, March 11-12, 2021) - Moscow, 2021. - P. 338-342.

© Менщиков А.А., Перфильев В.Э., Федосенко М.Ю., Фабзиев И.Р., 2022 Научный сетевой журнал «Столыпинский вестник» №1/2022.

Для цитирования: Менщиков А.А., Перфильев В.Э., Федосенко М.Ю., Фабзиев И.Р. Основные проблемы использования больших данных в современных информационных системах // Научный сетевой журнал «Столыпинский вестник» №1/2022.

i Надоели баннеры? Вы всегда можете отключить рекламу.