Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 3 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 3 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 3 | 2024 год
МЕТОДЫ И АЛГОРИТМЫ ХРАНЕНИЯ ФАЙЛОВ ДЛЯ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
РАЗЛИЧНЫМИ ТИПАМИ ДАННЫХ
Кенжаев Санжар Собирович,
Докторант Самаркандского государственного университета, s.kenjayev22@gmail.com
Рашидов Акбар Эргаш угли,
Доктор философии технических наук (PhD), Самаркандский государственный университет Заведующий кафедрой искусственного интеллекта и информационных систем researcher.are@gmail. com
Аннотация: Важно выбрать подходящие методы работы для типа данных. Успешное применение алгоритмов управления базами данных на основе задач, почти полностью зависит от доступности данных. И чем больше объем этих данных, тем лучше результаты работы алгоритмов. Существующие подходы в управлении данными работающие на уровне блочных, файловых и объектных указывает что имеется много нерешённых задач по работе над разнородными данными. Данная статья посвящена решению этой проблемы. Предложен метод оптимизации работы с различными типами данных на уровнях сбора, хранения, обработки и передачи данных.
Ключевые слова: блочные хранилища, файловые хранилища, SAN, NAS, оптимальное управление файлами
Введение. В современном информационном мире эффективное управление файлами в частности хранение и обработка является одним из важнейших факторов обеспечения качества получаемой информации. В процессе разработки информационных систем, особенно с использованием больших объемов данных, важно выбирать эффективные методы сбора, хранения и обработки данных, обеспечивающие целостность, доступность и безопасность этих данных [1-3]. Хранение файлов в системах управления данными требует тщательного учета таких факторов, как объем данных, шаблоны доступа, требования безопасности и масштабируемости. Используя, выбранные методы хранения и комплексно интегрируя их с системами управления данными, пользователи могут обеспечить оптимальное хранение, управление и доступ к своим файлам. Методами классификации данных можно быстро
определить, где они хранятся, чем эти данные являются и для каких операций используются. В настоящее время одним из основных параметров эффективной организации процесса работы с файловыми данными является правильный выбор типов файлов и структуры данных [4,5]. В результате увеличения объёма генерируемых данных, разнообразия типов файлов и создания различных форматов хранения файлов закономерно возникает проблема временной сложности обработки данных с физической точки зрения [6-9]. Кроме того, существует проблема растущих требований к большим наборам данных и распространения типов файлов, что приводит к неструктурированности многих современных технологий искусственного интеллекта. Во многих случаях, такие проблемы приводят к критической точке временной сложности [10]. При работе с большими объемами данных широко применяется
82
"Descendants of Al-Farghani" electronic scientific Электронный научный журнал "Потомки Аль-
journal of Fergana branch of TATU named after Фаргани" Ферганского филиала ТАТУ имени
Muhammad al-Khorazmi. ISSN 2181-4252 Мухаммада аль-Хоразми ISSN 2181-4252
Vol: 1 | Iss: 3 | 2024 year Том: 1 | Выпуск: 3 | 2024 год
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 3 | 2024-yil
использование иерархических (ИБР) и распределенных технологий для поиска решений большинства проблем неструктурированных данных [4]. Выбор использования различных технологий зависит от цели поставленной задачи, что позволяет добиться оптимального решения проблемных вопросов.
При использовании технологий хранения информации для анализа больших данных необходимо уделять внимание не только алгоритмам анализа, но и всем этапам работы с данными, включая сбор, агрегацию, анализ и визуализацию данных. На каждом этапе возникают своего рода вопросы оптимизации процесса, особенно по мере увеличения степени неоднородности.
Цель исследования - повысить доступность разнообразия, анализ и визуализации данных в системах управления базами данных посредством использования технологий гибридного хранения как часть более широкого процесса, такого как миграция или интеграция данных. Этот процесс включает в себя извлечение данных из таких источников как базы данных, файлы, а также веб-сервисы, их преобразование и загрузку в нужную целевую систему.
Для достижения поставленной цели решаются следующие задачи:
1. Изучены архитектурные особенности и способы хранения информации в файловых системах и облачных хранилищах .
2. Рассматриваются и сравниваются различные методы и технологии управления данными.
3. Вероятностные модели решения задач при работе с неструктурированными данными.
С учетом закономерностей и недостатков, выявленных на основе проанализированных исследований, определены, систематизированы и показаны преимущества гибридных технологий хранения данных в контексте повышения эффективности нереляционных баз данных. [1]
Хранение данных в файловых системах и облачных хранилищах
Существует три способа хранения данных: блочный, файловый и объектный вид. Они организуют и представляют данные по-разному, и каждый из них имеет свои возможности и ограничения. Ниже рассмотрим основные преимущества и недостатки этих методов:
1. Блочное хранилище. За счет хранения данных блочным способом достигается максимальная скорость реагирования на запросы, а также изменения части данных, кроме того, так как не используются специальные приложения, не теряется время на такие задачи, как передача данных из одного формата другому. Это связано с тем, что основной принцип хранения данных в блочной форме заключается в разделении их на блоки предопределённого одинакового размера, доступ к которым и управление ими осуществляется так же, как и на отдельных дисках. Для операционных систем это низкоуровневый тип доступа к дискам, установленным непосредственно на сервере, без использования промежуточного преобразования и смешивания данных.
Файловая система файловая система Блоки
0 1 2 3 4 5 6 7 S 9 10
S Кб
I
52 25 87 36 47 4д 40
Рисунок 1. Хранение данных в ячейках в виде блоков.
Адресация блоков:
Линейная адресация: если известен базовый адрес блока и его размер В, адрес I -го блока можно вычислить следующим образом: Адрес (/) = Базовый адрес + I х В Хэш- адресация: Ключ к использует хеш-функцию И для нахождения адреса данного блока: Адрес(к)= И(к)
Оптимизация производительности:
83
"Descendants of Al-Farghani" electronic scientific Электронный научный журнал "Потомки Аль-
journal of Fergana branch of TATU named after Фаргани" Ферганского филиала ТАТУ имени
Muhammad al-Khorazmi. ISSN 2181-4252 Мухаммада аль-Хоразми ISSN 2181-4252
Vol: 1 | Iss: 3 | 2024 year Том: 1 | Выпуск: 3 | 2024 год
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 3 | 2024-yil
Алгоритмы сортировки внутри блока:
например, слияние или быстрая сортировка. Время сортировки блока размера B равно O(B logB) .
Структуры индексов: используются для быстрого доступа к данным внутри блока, таким как B-деревья или хэш-таблицы.
Модели целостности данных: Контрольная сумма (CRC): используется для проверки целостности данных. CRC для блока данных D может быть рассчитан как CRC(D).
Хеширование: для проверки целостности или быстрого доступа к данным.
Модели сжатия и шифрования: Сжатие данных: использует алгоритмы сжатия (например, LZ77, LZ78, DEFLATE) для уменьшения размера данных в блоке.
Шифрование: Для защиты данных при помощи алгоритмов шифрования, например, AES (Advanced Encryption Standard) .
В управлении данными таким способом файлы можно изменять часто без ущерба для производительности, при этом позволяя изменять только те блоки, которые необходимо изменить, а не весь файл. Блочное хранилище характеризуется высокими значениями IOPS (операций ввода/вывода в секунду). Он обеспечивает быстрый доступ для чтения, редактирования и других операций. Если объем данных вырастет, можно добавить новые тома и расширить дисковое пространство. Хранение данных в блочной технологии может использоваться одновременно в разных средах (например, Windows и Linux), включая серверные операционные системы. Заблокированные данные можно беспрепятственно перемещать между отдельными серверами, что, в свою очередь, позволит избежать сильной зависимости от конкретной инфраструктуры. Кроме того, дисковое пространство, разделенное на блоки, может одновременно использоваться несколькими разными серверами. При необходимости для дальнейшего повышения производительности отдельные блоки можно сгруппировать и разместить на быстрых SSD-
накопителях для «горячих» данных и медленных HDD для «холодных» данных.
Технология SAN-« Storage Area Network» (Сеть хранения данных) работает как один огромный локальный диск, обеспечивающий доступ к отдельным блокам через протокол Fibre Channel или iSCSI, что является более экономичной альтернативой и может быть построено поверх существующей сетевой альтернативы. Это архитектурное решение, при котором внешние накопители (дисковые массивы, оптические приводы, ленточные библиотеки и т.д.) напрямую подключаются к серверу, где установленная операционная система видит их как локальные ресурсы.
К существующим недостаткам блочной системы хранения относятся, прежде всего, более медленные варианты работы с метаданными, что очень важно во времена увеличенного потока данных. Если возникнет необходимость их добавить или обработать дополнительные данные, то это можно сделать только на уровне приложения или базы данных. Еще одна проблема это управление. По сравнению с другими типами хранилищ, оно может потребовать от пользователей дополнительных навыков и может оказаться более сложным в настройке и управлении.
Рис. 2. Сеть хранения данных SAN.
84
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 3 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 3 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 3 | 2024 год
2. Файловые хранилища. Преимуществом технологии хранения данных файлового типа является простота использования. Сервер присваивает файлу имя и метаданные, за которыми следует фрагмент этого идентификатора файла, который содержит имя сервера, путь к каталогу (папке) и имя файла, который необходимо найти (имя сервера + путь к каталогу + имя файла). В результате работы управляющей программы она переходит на поиск своего местоположения в каталогах и подкаталогах. Хранить данные в виде стандартных файлов и папок несколько удобнее, чем разбивать данные на блоки, а при работе с большими объемами данных привычная иерархическая концепция организации хранения понятна и логически несложна.
По мере значительного роста количества папок и файлов файловое хранилище существенно ограничивает возможности быстрого поиска, поэтому в случаях, когда требуется быстрый доступ к данным, временная сложность увеличивается и файловое хранилище теряет часть своих преимуществ.
В случаях, когда данные разделены на классы, для их хранения, поиска и обработки предпочтительнее использовать файловую систему, поскольку при таком подходе каждый объект можно отправить в свою папку. Естественно, метод очень удобный и легкий. Но когда объем обрабатываемых данных измеряется петабайтами, начинают появляться новые проблемы. Один путь может занимать сотни или даже тысячи подпапок, и в этом случае не так легко обеспечить очень высокую скорость доступа к нужному файлу. Технология NAS (Network Attached Storage) управляется специальным программным обеспечением, которое позволяет контролировать доступ пользователей,
устанавливать права доступа и создавать резервную копию данных. Основными преимуществами NAS являются возможность удаленного доступа к накопителям, обмена файлами между пользователями и даже создания совместных проектов. Устройства NAS могут
работать в разных конфигурациях для разных нужд, таких как увеличение емкости хранилища, выделение сервера для мультимедиа, каталогизация доступа к контенту, резервное копирование, управление данными и синхронизация между устройствами.
Файлы могут быть фрагментированы, если длина файла превышает количество доступных последовательных блоков. В этом случае необходимо выполнить дополнительные операции по поиску деталей и компиляции их в целостный файл. Выполнение таких дополнительных ненужных задач снижает производительность всей системы и приводит к потере ресурсов. Кроме того, требуется, чтобы пространство, выделенное для файла в методе нулевой разметки, то есть длина файла, было объявлено при его создании. В случае цепного распределения (Linked Allocation) его также называют несмежным распределением, распределение выполняется поблочно. При этом блоки в файле не обязательно должны быть последовательными по номеру. Каждый блок содержит указатель на следующий блок в цепочке, в которой продолжается файл.
Рис.3 Блоки файлов, содержащие указатели
Последние блоки файлов могут быть заняты не полностью. Каждый предыдущий блок требует дополнительной информации (overhead) для управления указателем на следующий блок. Если указатель исчезнет, файл может быть разорван и недоступен.
85
ЕГ
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 3 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 3 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 3 | 2024 год
Математическая модель хранилища файлов учитывает ключевые аспекты системы хранения, такие как размер, использование, избыточность и производительность .
Расчет емкости хранилища определяется соотношением между переменными:
С=и+Е; (1)
Где С - Общая емкость хранилища ,
и - используемая ёмкость и
Е - свободная ёмкость.
Использование хранилища является отношением использованной ёмкости к общей мощности:
U
использование = — C
(2)
можно
Для оценки эффективности использовать следующие критерии:
Я и Ж - средняя скорость чтения или записи данных;
Ь - задержка , то есть время, необходимое для доступа или записи данных;
I - ГОРБ, количество операций чтения или записи в секунду.
Если файлы распределены по разным устройствам хранения, модели доступа можно смоделировать с использованием вероятностей:
Я г — вероятность обращения к файлу г.
8 - размер г - го файла
Ожидаемый размер включаемых файлов рассчитывается по следующей формуле:
=щ=1 р • ^, (3)
Рассчитывая на постоянную скорость роста данных g, использование операций хранения с течением времени можно смоделировать с помощью следующей формулы:
и(г) = и(0) + & г (4)
Указанный размер моделей хранения файлов предоставляет основу для количественной оценки и прогнозирования различных аспектов систем хранения файлов, таких как показатели использования, избыточности и
производительности к. Регулируя все эти
параметры, заявленную модель можно адаптировать к конкретным архитектурам и требованиям хранения данных.
Современные подходы успешно решают ряд проблем, связанных с управлением данными типов файлов. К таким файловым системам относятся существующие технологии, такие как сетевые, кластерные и распределенные. Из них, в частности, распределенные файловые системы, делятся на два типа: параллельные и полностью параллельные. Отметим, что на сегодняшний день большая часть данных хранится в распределенных файловых системах. Особенно при работе с «неструктурированными» типами данных, используемыми при анализе «больших данных» (Big Data). Для управления большими объемами данных предусмотрены различные типы программного обеспечения, они могут относиться к той или иной и даже к нескольким технологиям, но наряду с их эффективными аспектами существуют и различные проблемы, ожидающие решения.
3. Объектные хранилища. Методы хранения объектов работают не по методу иерархической системы и в основном содержит данные в неструктурированном виде, при этом каждому объекту присваивается собственный адрес, служащий уникальным идентификатором. Каждый объект может иметь множество метаданных, описывающих его содержимое. Например, для фотографии это размеры, местоположение, фотография. время и другая подобная информация. Процесс хранения объектов легко масштабируется до работы с петабайтами данных и стал стандартным для многих онлайн-сервисов (таких как Facebook, Dropbox). Объектное хранилище - это вариант, который ближе подходит для хранения неструктурированных данных. Его можно масштабировать непрерывно без ухудшения производительности, что возможно для ресурсоемких приложений.
Технология объектного хранения близка к файловому способу хранения, но имеются некоторые различия в основных подходах. Модели
86
ЕГ
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 3 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 3 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 3 | 2024 год
объектного хранилища также включают такие системные отличия, как том, использование, доступность, производительность и репликация. Рассмотрим элементы этой модели ниже. Определим Я как количество копий каждого объекта. Тогда эффективный объем места для хранения уникальных данных составит:
С
Эффективный объем = —
* (5)
Размеры файлов определяются практически по той же формуле, что и выше:
и(6)
Если объекты распределены по разным серверам (узлам), доступность можно моделировать вероятностью отказа этих узлов. Мы можем определить:
N - общее количество узлов;
Р / - вероятность отказа одного узла
Для системы с репликацией данных вероятность недоступности объекта (если используется репликация) можно определить как:
Рн
Р
f
недоступности
Рассмотрим пример сценария для объектного хранилища С :
Общая емкость С=100 ТБ. Удобство использования и=30 ТБ. Свободная емкость Б=70 ТБ. Репликация данных Я=3.
100ТБ ^ „„^ -= 33.33ТБ
Эффективная мощность = 3
^ = 0.3
Используется = 1°°ТБ или 30%
Возьмем скорость роста данных §=1 ТБ в
месяц:
У(Х) = 30ТБ +1- г
Представленная модель помогает рассчитать и спрогнозировать ключевые параметры хранилища данных, такие как объем, загрузка, репликация, доступность и производительность. Настраивая параметры
модели, ее можно адаптировать под конкретные требования и архитектуру хранения данных.
Одним из основных преимуществ объектного хранилища является его гибкость. В отличие от реляционных баз данных, которые имеют фиксированную схему данных, объектное хранилище позволяет добавлять и удалять свойства объекта без изменения схемы данных. Это делает такие хранилища более адаптируемыми к меняющимся потребностям.
В отличие от файловых систем, хранилища объектов не поддерживают вызовы POSIX, такие как открытие, закрытие файла, чтение, запись и поиск ввода-вывода. Вместо этого у них есть только две основные операции: PUT и GET. Объектное хранилище четко управляет данными с помощью «метаданных» - коротких информационных вкладок о целом наборе данных (таблица, текстовый документ, видео и т. д.), с помощью которых его можно легко найти в общей памяти.
Объектное хранилище особенно полезно для сайтов с большим количеством статических файлов. Вместо того, чтобы загружать веб-сервер и заставлять его предоставлять статические данные клиентам, гораздо проще делегировать эту задачу облачному хранилищу, которое изначально было рассчитано на высокие нагрузки. Использование таких технологий, как сеть доставки контента (CDN), может еще больше повысить производительность и масштабируемость. Масштабируемость, в свою очередь, это еще одно преимущество объектного хранилища. На основе распределенной архитектуре объектного хранилища можно добавлять в кластер новые узлы для увеличения его емкости. Из-за простой структуры данных и эффективной индексации объектное хранилище позволяет быстро считывать и записывать данные с высокой скоростью, что особенно важно для высоконагруженных приложений.
ЕГ
87
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 3 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 3 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 3 | 2024 год
Рис.4 Способ хранения объектов
Стоит отметить расширенные возможности технологии объектного хранения, такие как восстановление данных. Современные жесткие диски имеют высокую надежность но, несмотря на это, они всё же могут выйти из строя. Во избежание потери данных пользователей информации в объектных хранилищах можно делать реплицирование двукратно. При такой организации хранилища опасность потери информации сведена к минимуму. Вот почему хранение бэкапов, логов и архивов это еще одна задача, которую объектное хранилище может решить с лёгкостью. При объектном хранении не нужно задумываться о репликации или о том, что скоро в хранилище закончится доступное место. По крайнем мере в краткосрочной перспективе. Это также позволяет проводить регулярное обучение восстановлению в рамках плана аварийного восстановления посте сбоев (Disaster Recovery Plan, DRP).
Объектно-ориентированное хранилище можно использовать для хранения различных типов данных, таких как медиаконтент, метаданные, структурированные данные и данные Интернета вещей. Например, большие фотографии и видео можно хранить в памяти объекта, а метаданные, такие как теги, описание и автор, в свойствах объекта. Ключевой принцип производительности объектного хранилища заключается в управление метаданными. Метаданные, такие как описания объектов, свойства и индексы, хранятся в отдельной таблице, что упрощает управление ими и их обновление.
Однако, исходя из характеристик объектно-ориентированного хранилища,
производительность на определенных этапах уступает файловому или блочному хранилищу. Система должна выполнить несколько операций по «связыванию» данных с метаданными, и только потом предоставить их по запросу. Простота объектного хранилища делает его более удобным, но в то же время существуют ситуации, ограничивающие его функциональность, а именно:
1. Из-за неизменности объектов варианты использования ограничены однократной записью и многократным чтением. Объектное хранилище не используется для временного или горячего хранения, а его применение ограничивается архивированием данных.
2. Объект состоит из данных и идентификатора объекта. Любые метаданные должны находиться за пределами репозитория.
Оба этих недостатка существенны, поэтому почти каждое объектное хранилище имеет дополнительный уровень базы данных поверх уровня данных. Этот уровень базы данных (их можно назвать «шлюзом» или «прокси- сервисом») имеет более удобный интерфейс. Обычно он поддерживает сопоставление идентификатора объекта с удобными для пользователя метаданными, такими как имя объекта или разрешения.
88
ЕГ
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 3 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 3 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 3 | 2024 год
Рис.5 Схема работы простого хранилища
S3
Подходы к управлению данными. Если
сосредоточиться на подходах, используемых для управления данными файловых и объектных хранилищ, можно увидеть основные различия в организации. В таблице ниже описаны основные сравнительные характеристики.
Характер истика Блочное хранилище Файловое хранилище Объектное хранилище
Структур а Блоки фиксированы ого размера Иерархическа я (папки и подкаталоги) Плоская (идентифик аторы)
Метод доступа На уровне блоков Через пути файловой системы Через уникальные идентифика торы или URL
Уровень абстракц ии Низкий Средний Высокий
Метаданн ые Фиксированн ые Имя файла, размер, права, временные метки Произвольн ые, могут быть пользовател ьскими
Управлен ие Контроллеры хранения (SAN) Файловые системы ^ЛБ, локальные) Объектные хранилища (облачные)
Типичны е операции Чтение, запись, удаление, форматирова ние Создание, чтение, запись, удаление, перемещение Загрузка, скачивание, удаление, обновление
Примеры использо вания Операционны е системы, базы данных, ВМ Документы, изображения, аудио, видео Резервное копировани е, мультимеди а, big data
Производ ительнос ть Высокая производител ьность, низкая задержка Зависит от структуры и нагрузки Высокая доступность масштабиру емость
Таблица 1. Сравнительные параметры способов хранения
Выводы. Каждый из подходов к управлению данными - блочный, файловый или объектный - имеет свои особенности, преимущества и области применения. Выбор подхода зависит от конкретных потребностей и требований к хранению данных, таких как производительность, масштабируемость,
доступность и способ доступа к данным.
Существующие подходы эффективно решают многие проблемы управления данными на основе типов данных. При работе с неструктурированными данными часто используются популярные подходы и методы анализа, например: использование !МЬР для анализа текстов в социальных сетях, использование методов машинного обучения для классификации и интерпретации изображений и видео, индексации файлов журналов и аналитики, такой как Elasticsearch и К1Ьаиа для мониторинга и диагностики систем. Однако, если типы данных быстро становятся изменчивыми и поток данных становится разнородным как структурированным, так и неструктурированным вот здесь уже и необходимо возложить эту задачу на искусственный интеллект. То есть определить тип данных и на этой основе решить задачу использования оптимального инструмента в определенный момент работы, а также способ действия для каждого случая. Найти к каким задачам относится управление процессом хранения или обработки, т.е. включая простую загрузку как объекта или создание метаданных за счет
ЕГ
89
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 3 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 3 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 3 | 2024 год
повышения уровня хранения и разделения уровней задач на модули по мере необходимости.
Методы искусственного интеллекта могут автоматически интегрировать данные из разнородных источников, таких как базы данных, API, файлы и облачные сервисы. Создание математической модели, которая описывает автоматическую интеграцию данных из разнородных источников с использованием ИИ, включает определение множества факторов и параметров, которые необходимо учитывать.
Основными элементами, которые могут быть включены в такую модель, являются:
1. Источники данных:
S - множество источников данных (базы данных, API, файлы, облачные сервисы).
V s - объем данных, полученных от источника s £ S.
2. Методы интеграции:
I - множество методов интеграции данных (ETL, ELT, потоковая интеграция, репликация).
Ei - эффективность метода интегрирования i £ I (например, скорость интеграции, производительность).
3. Качество данных:
Qs - качество информации, полученной от источника, оцениваемое по различным критериям (например, полнота, точность,
непротиворечивость).
4. Затраты :
Ci - затраты на использование метода интеграции (например, стоимость ресурсов, затраты времени).
5. Согласованность данных :
Ts-тип данных, полученных из источника s (структурированные, полуструктурированные, неструктурированные ).
Переменные Xs,i - доля данных из источника, интегрированных методом i. Функция max ^ ^ Ei ■
■ x • F
s,i s
seS ieI
minC,
total
Математическая модель автоматической интеграции данных из различных источников с помощью искусственного интеллекта позволяет оптимизировать процесс, обеспечив
максимальную эффективность, высокое качество данных и минимальные затраты. Такую модель можно адаптировать к конкретным требованиям и ограничениям, что позволяет более эффективно управлять данными и принимать обоснованные решения.
Сравнительный статистический анализ методов хранения данных.
В глобальном масштабе доля различных методов хранения данных зависит от многих факторов, включая рост объема данных, потребности в быстром доступе, требования к надежности и безопасности, а также технологические изменения. Точная статистика может меняться каждый год, ниже приведено примерное распределение долей основных способов хранения данных в мире на 2024 год:
Методы Блочн ое Файлово е Объект ное Реляцион ные NOSQL Кещщю ваные
Доля в процентах -2025% -15-20% —3540% -10-15% -1015% -5-10%
Таблица 2 Соотношение способов хранения файлов
Краткое содержание. В заключение можно утверждать, что в настоящее время нецелесообразно работать на основе единого подхода в процессе создания программных продуктов и сервисов при работе с различными типами неструктурированных файловых данных, причиной чего является разнообразие файлов и в то
90
x
s,i
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 I Son: 3 I 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 3 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 3 | 2024 год
же время растущий объем данных. Кроме того, современные задачи требуют работы с более быстрым потоком данных, что вновь создает проблему временных ресурсов, затрачиваемых на структурирование данных.В результате исследовательской работы были изучены методы оптимального управления различными типами данных. Показано, что блочный, файловый и объектный методы хранения широко используются как оптимальный вариант работы с большими данными. Гибридные подходы могут оказать существенное влияние на процедуры обработки и хранения, связанные с различными типами файловых данных.
Литература
1. Pernul, G. Database Security / G. Pernul // In: Advances in Computers, Vol. 38. ed. by M. C. Yovits. - Academic Press. - 1994. - pp. 1 - 74.
2. Akhatov A., Renavikar A., Rashidov A. & Nazarov F. "Development of the Big Data processing architecture based on distributed computing systems" Informatika va energetika muammolari O'zbekiston jurnali, № (1) 2022, 71-79
3. Bhadani, A., Jothimani, D. (2016), Big data: Challenges, opportunities and realities, In Singh, M.K., & Kumar, D.G. (Eds.), Effective Big Data Management and Opportunities for Implementation (pp. 1-24), Pennsylvania, USA, IGI Global
4. Рашидов, А., Ахатов, А., & Назаров, Ф. (2024). Алгоритм управления потоком данных во внутреннем механизме распределения. Потомки Аль-Фаргани, 1(2), 76-82. https://al-fargoniy.uz/index.php/journal/article/view/377
5. Austrian, Geoffrey D. (1982) Herman Hollerith: Fogotten Giant of Information Processing Columbia University Press. pp. 41, 178-179
6. A. Rashidov, A. Akhatov, I. Aminov, D. Mardonov "Distribution of data flows in distributed systems using hierarchical clustering" International conference on Artificial Intelligence and Information Technologies (ICAIIT 2023), Samarkand 2023, Novamber 3-4.
7. Преймесбергер, Крис (08 сентября 2006 г.) «IBM опирается на 50-летний опыт работы с
вращающимися дисковыми хранилищами» eWeek.com Проверено 16 октября 2012 г.
8. Ch. Eaton, D. deRoos, T. Deutsch, G. Lapis, P. Zikopoulos, "Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data", The McGraw-Hill Companies, 2012.
9. Inderpal Singh "Review on Parallel and Distributed Computing" Scholars Journal of Engineering and Technology (SJET), 2013, № 1(4): 218-225
10. A. Rashidov, A. Akhatov and D. Mardonov, "The Distribution Algorithm of Data Flows Based on the BIRCH Clustering in the Internal Distribution Mechanism," 2024 International Russian Smart Industry Conference (SmartlndustryCon), Sochi, Russian Federation, 2024, pp. 923-927, doi: 10.1109/SmartIndustryCon61328.2024.10516193.
11. Rashidov, A., Akhatov, A. R., & Nazarov, F. M. (2023). Real-Time Big Data Processing Based on a Distributed Computing Mechanism in a Single Server. In C. Ananth, N. Anbazhagan, & M. Goh (Eds.), Stochastic Processes and Their Applications in Artificial Intelligence (pp. 121-138). IGI Global. https://doi.org/10.4018/978-1-6684-7679-6.ch009
12. Rashidov, A., Akhatov, A., Nazarov, F. (2023). The Same Size Distribution of Data Based on Unsupervised Clustering Algorithms. In: Hu, Z., Zhang, Q., He, M. (eds) Advances in Artificial Systems for Logistics Engineering III. ICAILE 2023. Lecture Notes on Data Engineering and Communications Technologies, vol 180. Springer, Cham. https://doi.org/10.1007/978-3-031-36115-9_40
13. Томас Андерсон, Майкл Далин, Джин Ниф, Дэвид Паттерсон, Дрю Роселли и Рэндольф Ванг. Бессерверные сетевые файловые системы. В материалах 15-го симпозиума ACM по принципам операционной системы, страницы 109-126, Copper Mountain Resort, Колорадо, декабрь 1995 г.
14. Bolikulov, F.; Nasimov, R.; Rashidov, A.; Akhmedov, F.; Cho, Y.-I. Effective Methods of Categorical Data Encoding for Artificial Intelligence Algorithms. Mathematics 2024, 12, 2553. https://doi.org/10.3390/math12162553
15. Rashidov A.E., Sayfullaev J.S. "Selecting methods of significant data from gathered datasets for research" International journal of advanced research in
91
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 j Son: 3 j 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 3 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 3 | 2024 год
education, technology and management, Vol. 3 No. 2 (2024), p. 289-296, doi: 10.5281/zenodo.10781255
16. Ruslan. L. Smeliansky "Model of Distributed Computing System Operation with Time" Programming and Computer Software, 2013, Vol. 39, No. 5, 233-241 p., doi: 10.1134/S0361768813050046
17. Eshtemirov B.Sh., Nazarov F., Yarmatov Sh.Sh. "Technologies for identifying vehicles standing at traffic lights based on video data", Central asian journal of mathematical theory and computer sciences, Volume: 03 Issue: 12 | ISSN: 2660-5309, 2022 yil, dekabr.
18. Akhatov A., Renavikar A., Rashidov A., Nazarov F. "Optimization of the number of databases in the Big Data processing" Проблемы информатики, № 1(58) 2023, DOI: 10.24412/2073-0667-2023-1-3347
19. Nazarov F, Rashidov A, Pardayev M, Sunnatova S. (2023). Clustering Method Of Distributed Technologies In Data Flow Management. Excellencia: International Multi-Disciplinary Journal of Education (2994-9521), 1(5), 222-225. https://multij ournal s .org/index.php/excellencia-imje/article/view/115
20. Akhatov A., Renavikar A., Rashidov A. "Optimization of the database structure based on Machine Learning algorithms in case of increased data flow" Proceedings of the International Conference on Artificial Intelligence, Blockchain, Computing And Security (ICABCS 2023), Gr. N01 Da, Up, India, 2425 February 2023
Ei
92