Научная статья на тему 'АНАЛИЗ СИСТЕМ ХРАНЕНИЯ ДАННЫХ'

АНАЛИЗ СИСТЕМ ХРАНЕНИЯ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
295
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ХРАНЕНИЕ ДАННЫХ / NAS / SAN / DAS / АНАЛИЗ ДАННЫХ / ХРАНИЛИЩА ДАННЫХ / СИСТЕМЫ ХРАНЕНИЯ ДАННЫХ / ХРАНИЛИЩЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Куликов А.А.

Цели. История больших данных, как термина, может быть краткой, но многие основы, на которых они построены, заложены давно. Задолго до того, как компьютеры (какими их знают сегодня) стали обычным явлением, в академических кругах была популярна идея о том, что создается постоянно расширяющийся объем знаний, пригодных для анализа. Растущая способность хранить и анализировать информацию была постепенной эволюцией, тем не менее, в конце прошлого века все ускорилось с изобретением цифрового хранилища и Интернета. Хранение данных - это процесс использования компьютерных устройств для сохранения цифровой информации. Хранение данных помогает эффективно решать многочисленные цифровые задачи. Анализ научной литературы позволил сделать вывод о том, что существует множество способов настройки связей между устройствами, получающими доступ к данным, и устройствами хранения данных. Различные соединения приводят к уникальным типам хранилища данных. Статья посвящена исследованию анализа систем хранения данных. Автор проанализировал системы (DAS - Direct Attached Storage), SAN (Storage Area Network), NAS (Network Attached Storage). Результат исследования, позволил автору обосновать актуальность и значимость темы исследования. Методы. Проведен анализ систем хранения данных, рассмотрены ключевые требования к системам хранения, проведен теоретический анализ источников литературы, дедукция, индукция, обобщение. Результаты. В итоге анализа, автор приходит к выводу, что лучший вариант - использовать SAN и NAS одновременно, а способ доступа к данным будет определен в зависимости от определенных требований. Выводы. Анализ систем хранения, показал, что DAS, NAS и SAN предлагают разные преимущества, но насколько они значимы, будет зависеть от потребностей организации и в конечном счете, лучшее решение будет зависеть от объема необходимой емкости хранилища, бюджета и требований к резервному копированию и аварийному восстановлению.Автор отмечает, что конвергенция NAS и SAN - одна из самых важных тенденций последнего времени.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF DATA STORAGE SYSTEMS

Objectives. The history of big data as a term may be brief, but many of the foundations on which they are built have been laid for a long time. Long before computers (as they are known today) became commonplace, the idea that an ever-expanding body of knowledge suitable for analysis was created was popular in academic circles. The growing ability to store and analyze information was a gradual evolution, however, at the end of the last century, everything accelerated with the invention of digital storage and the Internet. Data storage is the process of using computer devices to store digital information. Data storage helps to effectively solve numerous digital tasks. An analysis of the scientific literature has led to the conclusion that there are many ways to configure connections between devices accessing data and data storage devices. Different connections lead to unique types of data storage. The article is devoted to the analysis of data storage systems. The author analyzed the systems (DAS - Direct Attached Storage), SAN (Storage Area Network), NAS (Network Attached Storage). The result of the study allowed the author to substantiate the relevance and significance of the research topic. Methods. The analysis of data storage systems is carried out, the key requirements for storage systems are considered, the theoretical analysis of literature sources, deduction, induction, generalization is carried out. Results. As a result of the analysis, the author comes to the conclusion that the best option is to use SAN and NAS at the same time, and the method of data access will be determined depending on certain requirements. Conclusions. Analysis of storage systems has shown that DAS, NAS and SAN offer different advantages, but how significant they are will depend on the needs of the organization and ultimately, the best solution will depend on the amount of storage capacity required, budget and requirements for backup and disaster recovery.The author notes that the convergence of NAS and SAN is one of the most important trends of recent times.

Текст научной работы на тему «АНАЛИЗ СИСТЕМ ХРАНЕНИЯ ДАННЫХ»

Анализ систем хранения данных

Куликов Александр Анатольевич

к.т.н., доцент, кафедра инструментального и прикладного программного обеспечения, МИРЭА - Российский технологический университет, Департамент анализа данных и машинного обучения, Финансовый университет при Правительстве РФ, tibult41@gmail.com

Цели. История больших данных, как термина, может быть краткой, но многие основы, на которых они построены, заложены давно. Задолго до того, как компьютеры (какими их знают сегодня) стали обычным явлением, в академических кругах была популярна идея о том, что создается постоянно расширяющийся объем знаний, пригодных для анализа. Растущая способность хранить и анализировать информацию была постепенной эволюцией, тем не менее, в конце прошлого века все ускорилось с изобретением цифрового хранилища и Интернета. Хранение данных - это процесс использования компьютерных устройств для сохранения цифровой информации. Хранение данных помогает эффективно решать многочисленные цифровые задачи. Анализ научной литературы позволил сделать вывод о том, что существует множество способов настройки связей между устройствами, получающими доступ к данным, и устройствами хранения данных. Различные соединения приводят к уникальным типам хранилища данных. Статья посвящена исследованию анализа систем хранения данных. Автор проанализировал системы (DAS - Direct Attached Storage), SAN (Storage Area Network), NAS (Network Attached Storage). Результат исследования, позволил автору обосновать актуальность и значимость темы исследования. Методы. Проведен анализ систем хранения данных, рассмотрены ключевые требования к системам хранения, проведен теоретический анализ источников литературы, дедукция, индукция, обобщение.

Результаты. В итоге анализа, автор приходит к выводу, что лучший вариант - использовать SAN и NAS одновременно, а способ доступа к данным будет определен в зависимости от определенных требований.

Выводы. Анализ систем хранения, показал, что DAS, NAS и SAN предлагают разные преимущества, но насколько они значимы, будет зависеть от потребностей организации и в конечном счете, лучшее решение будет зависеть от объема необходимой емкости хранилища, бюджета и требований к резервному копированию и аварийному восстановлению.Автор отмечает, что конвергенция NAS и sAn - одна из самых важных тенденций последнего времени.

Ключевые слова: хранение данных, NAS, SAN, DAS, анализ данных, хранилища данных, системы хранения данных, хранилище.

Введение

Как известно, за последние несколько лет, высокого роста и развития достигли информационные системы, которые стремительно продолжают развиваться, а появление на свет интернета и других масштабных сетей оказало большое влияние на развитие информационных технологий. Следовательно, все это привело к тому, что начали образовываться средства и методы хранения данных.

Как очень точно указывают Е.А.Жидко, П.М.Леонов, с увеличением технических показателей компьютерной техники, непосредственно и появляется возможность хранить в оперативной памяти довольно существенное по объему количество разной информации, которое требуется для интерактивной работы [1].

Следует заметить, что с каждым годом объем бизнес-данных растет. Передовые технологии, такие как анализ данных, интернет вещей и искусственный интеллект, генерируют и используют огромные объемы данных. Это означает, что хранение данных, как никогда важно для успеха любой организации.

Хранение данных - это технология, которая надежно записывает и надлежащим образом поддерживает цифровую информацию, обеспечивая ее сохранность и возможность быстрого извлечения в любой момент. Это важный и растущий аспект бизнес-функций, который вдохновил - и продолжает вдохновлять - многочисленные технологические инновации. Аппаратное и программное обеспечение для хранения данных заметно мощнее и сложнее, чем это было всего несколько лет назад.

В сегодняшней быстро меняющейся бизнес-среде информация должна быть легко доступна для поиска и загрузки. Устройства сетевого хранилища (NAS), которые, по сути, функционируют как файловые серверы, обычно предлагают наилучший вариант для быстрого доступа и передачи данных.

Анализ систем хранения данных

Возможно, лучшая сводная история устройств хранения данных содержится на первых десятках страниц книги Гордана Хаффа и Уильяма Генри. В нем Хафф и Генри описывают, как рабочий-текстильщик 1725 года программировал ткацкие станки, используя перфокарты, вдохновленные цилиндрами автоматизированных органов. Перфокарты загружали информацию в компьютер 19-го века в рамках переписи населения США 1890 года и оставались популярными до начала эры накопителей на магнитной ленте в 1950-х годах. С этого момента размер накопителей на магнитной ленте уменьшался, пока они не превратились в кассетные ленты.

Незадолго до 1970-х годов IBM выпустила гибкие диски, которые использовались практически для всего. Дискеты инициализировали мэйнфреймы, хранили программные приложения и были единственным доступным постоянным запоминающим устройством, пока жесткие

X X

о го А с.

X

го m

о

2 О M

со

fO CS

о

CS

ci

о ш m

X

3

<

m О X X

диски не упали в цене. Жесткие диски стали компактными дисками (CD) в 1980-х годах, а твердотельные накопители (SSD) заменили вращающиеся диски твердотельными чипами и флэш-памятью. Флэш-память теперь помещается в наших карманах в виде флэш-накопителей, на которых хранятся печатные копии всего, что нам нужно или нужно.

Как отмечает И.В. Савин [2], требования к емкости хранилища определяют, какой объем хранилища необходим для хранения этих данных. Компьютерные приложения обычно перечисляют минимальные и рекомендуемые требования к емкости, необходимые для их запуска, но это лишь часть истории. Администраторы хранилища также должны учитывать, как долго должны храниться данные, применимые правила соответствия требованиям, используются ли методы сокращения объема данных, требования к аварийному восстановлению (DR) и любые другие проблемы, которые могут повлиять на емкость.

Многие организации используют иерархическую систему управления хранилищем для резервного копирования своих данных на дисковые устройства. Резервное копирование данных считается наилучшей практикой, когда данные нуждаются в защите, например, когда организации подчиняются правовым нормам. В некоторых случаях организация записывает свои резервные копии данных на магнитную ленту, используя ее в качестве третьего уровня хранилища. Однако этот подход практикуется реже, чем в прошлые годы [3].

Разделение данных на уровни в самом простом виде начинается с классификации данных как первичных или вторичных, а затем их сохранения на носителях, наиболее подходящих для этого уровня, с учетом того, как используются данные и какой тип носителя им требуется.

Значения первичного и вторичного хранилища менялись на протяжении многих лет. Первоначально первичное хранилище относилось к оперативной памяти и другим встроенным устройствам, таким как кэш L1 процессора, а вторичное хранилище относилось к твердотельным накопителям, жестким дискам, ленточным или другим энергонезависимым устройствам, которые поддерживали доступ к данным посредством операций ввода-вывода.

Первичное хранилище обычно обеспечивает более быстрый доступ. С другой стороны, вторичное хранилище может содержать гораздо больше данных и может реплицировать данные на резервные устройства хранения, обеспечивая при этом высокую доступность активных данных.

Хотя эти традиции все еще сохраняются, термины первичное и вторичное хранилище приобрели несколько разные значения. В наши дни, основное хранилище, иногда называемое основным хранилищем, обычно относится к любому типу хранилища, которое может эффективно поддерживать повседневные приложения и бизнес-процессы [7,8,9,11]. Основное хранилище обеспечивает непрерывную работу рабочих нагрузок приложений, играющих центральную роль в повседневном производстве и основных направлениях бизнеса компании. Основными носителями информации могут быть твердотельные накопители, жесткие диски, память класса хранения (SCM) или любые устройства, обеспечивающие производительность и емкость, необходимые для поддержания повседневных операций.

В отличие от этого, вторичное хранилище может включать в себя практически любой тип хранилища, который не считается основным. Вторичное хранилище

может использоваться для резервных копии, моментальных снимков, справочных данных, архивных данных, старых операционных данных или любых других типов данных, которые не являются критическими для основных бизнес-операций [10]. Вторичное хранилище обычно поддерживает резервное копирование и восстановление данных и часто включает облачное хранилище, которое иногда является частью конфигурации гибридного облака.

Цифровая трансформация бизнеса также побуждает все больше компаний использовать несколько облачных сервисов хранения данных, добавляя удаленный уровень, который расширяет вторичное хранилище.

Выбор правильной системы хранения данных может быть сложным решением, поскольку необходимо сбалансировать затраты, потребности в емкости хранилища и требования к масштабируемости. Тремя основными вариантами корпоративных систем хранения данных являются хранилища с прямым подключением (DAS), сетевые хранилища (NAS) и сети хранения данных (SANs).

Проанализируем каждую из этих систем хранения данных, рассмотрим их преимущества и недостатки.

Высокая скорость обработки ввода-вывода SAN и низкая задержка делают его хорошим вариантом для высокоскоростных транзакционных сред, таких как корпоративные базы данных и сайты электронной коммерции с высоким трафиком. Базы данных часто поддерживают критически важные рабочие нагрузки, которые обрабатывают большие объемы транзакционных данных и могут обрабатывать сотни тысяч транзакций в секунду. Для этого требуется надежное, масштабируемое хранилище, способное выполнять высокие операции ввода-вывода в секунду (IOPS) и низкие задержки.

Виртуализированные среды требуют крупномасштабных и высокопроизводительных развертываний и часто включают тысячи виртуальных машин (VM), работающих под управлением широкого спектра операционных систем и приложений. SAN могут быстро передавать несколько потоков ввода-вывода между виртуальными машинами и узлами виртуализации, что делает их более подходящими, чем NAS, для виртуализированных сред [11-14].

nAs обычно используется в организациях любого размера для централизованного хранения файлов и совместного использования. Объединение нескольких файловых серверов на одном устройстве NAS поддерживает совместную работу, экономит место и обеспечивает большую простоту и удобство управления.

NAS хорош для хранения больших объемов неструктурированных данных, таких как файлы видеонаблюдения и данные Интернета вещей. Масштабируемые NAS часто используются для операций ETL (извлечение, преобразование, загрузка), а также для обработки интеллектуальных служб обработки данных и анализа больших данных.

Стоит сказать, что в бюджете малого или среднего бизнеса может не хватить места для высокопроизводительного решения для хранения данных, такого как SAN или NAS, которое может стоить более сотни тысяч рублей. Таким образом, полагаем, что система DAS практична и экономична, однако все равно нужно много места для хранения. Поскольку dAs не подключается к сети, он больше подходит для небольших организаций, которые обмениваются данными локально, а не по раз-

ветвленной сети. DAS легко настраивается на отдельных компьютерах, требующих только устройства хранения и любых дополнительных корпусов дисков.

Вышесказанное позволяет сказать о том, что основные различия между DAS, NAS и SAN заключаются в стоимости, масштабируемости и способах совместного использования хранилища. Три системы также используют разные механизмы хранения: DAS в основном использует хранилище на жестком диске с секторами, NAS использует общие файлы, а SAN использует блочное хранилище.

В контексте исследования, рассмотрим также и преимущества систем хранения:

1. Преимущества SAN:

- улучшенная производительность: SAN обеспечивает повышенную производительность по сравнению с DAS и NAS, поскольку обработка хранилища выполняется в сети, отдельной от локальной сети (LAN). Перенос задач хранения данных в выделенную сеть SAN гарантирует, что на производительность сети SAN не повлияет перегрузка трафика в локальной сети. Это также удаляет трафик хранилища из локальной сети, чтобы освободить полосу пропускания и повысить производительность.

- большая масштабируемость: SAN может содержать тысячи устройств хранения данных SAN и хост-серверов, которые можно масштабировать в соответствии с меняющимися потребностями бизнеса. Организации могут добавлять новые хосты и устройства хранения для создания SAN, когда требуется увеличение емкости.

- улучшенная доступность: хранилище SAN доступно по нескольким путям и остается независимым от приложений, которые оно поддерживает. Сетевая структура SAN может использовать альтернативные пути для поддержания доступности хранилища в случае сбоя связи, гарантируя отсутствие единой точки отказа между хостом и устройством хранения.

2. Преимущества NAS:

- масштабируемость: NAS позволяет организациям увеличивать емкость хранилища без замены или модернизации существующих серверов или отключения сети. Объем хранилища можно легко увеличить, добавив другое устройство NAS, другой жесткий диск или жесткий диск большей емкости [14-16].

- большая доступность: NAS создает централизованную систему хранения, которая облегчает сетевым устройствам доступ к данным. Пользователи могут сотрудничать и обмениваться файлами из нескольких мест, независимо от того, используют ли они ПК или Mac или используют разные операционные системы, такие как Windows, Unix или Mac OS.

- производительность: хотя уровни производительности NAS не такие высокие, как у систем SAN, эти системы все же имеют некоторые преимущества в производительности. Поскольку NAS снимает обязанности по обслуживанию файлов с других сетевых устройств и подключается к локальной сети, он может хранить и обслуживать файлы быстрее, что способствует повышению производительности.

3. Преимущества DAS.:

- простая настройка: как внутренние, так и внешние решения DAS просты в настройке и доступе. Внутреннее хранилище с прямым подключением предустановлено на новом компьютере или сервере и может быть использовано немедленно. Подключаемое и воспроизводимое внешнее хранилище можно использовать, как только оно подключено к USB-порту.

- низкая стоимость: в отличие от NAS и SAN, DAS не требует аппаратного или программного обеспечения для запуска и управления системой хранения, что делает его очень доступным вариантом по сравнению с NAS и SAN, для запуска и управления системой хранения требуется аппаратное и программное обеспечение. Для настройки системы DAS единственные расходы связаны с дисководами и любыми необходимыми корпусами дисков.

- высокая производительность: поскольку хранилище напрямую подключено к хост-компьютеру DAS, DAS может обеспечить быстрый доступ к данным и поддерживать высокопроизводительные операции ввода-вывода. И поскольку система DAS не подключена к сети, проблемы с пропускной способностью или задержка в сети не влияют на систему DAS.

Рассмотрев преимущества необходимо также рассмотреть ряд недостатков, которые присущи к данным системам:

1. Недостатки SAN:

- затраты: затраты на настройку и обслуживание волоконной инфраструктуры для поддержки SAN могут быть значительными. Избыточное высокопроизводительное хранилище обходится дорого, и может потребоваться некоторое время, прежде чем можно увидить отдачу от инвестиций. SAN также требует постоянного обслуживания и управления, что влечет за собой дополнительные расходы. Это делает SANS более подходящими для более крупных организаций, которые могут позволить себе инвестировать первоначальные капитальные затраты [16-20].

- сложнее настроить и обслуживать: сложность SANS может потребовать специальных знаний для управления и обслуживания. В результате, вероятно, потребуется нанять обученный ИТ-персонал для поддержки SAN или передать поддержку стороннему поставщику.

2. Недостатки NAS:

- увеличение трафика локальной сети: интенсивное использование NAS может увеличить сетевой трафик и вызвать перегрузку в локальной сети, что повлияет на других пользователей. Это делает NAS непригодным для приложений, которые выполняют интенсивные операции передачи данных.

- ограничения производительности: NAS ограничен пропускной способностью корпоративной сети, а его протоколы SMB и NFS (Network File System) недостаточно быстры для поддержки высокопроизводительных приложений. По мере того, как все больше клиентов подключаются к сети и получают доступ к файловой системе NAS, производительность может снизиться до неприемлемого уровня. Это делает NAS более подходящим для небольших сетей.

- безопасность и надежность: NAS нельзя настроить на высокую доступность, что увеличивает вероятность того, что он может стать единственной точкой отказа по мере роста сети. Поскольку NAS обеспечивает резервное копирование данных только на месте, как NAS, так и бизнес-данные могут быть потеряны в случае стихийных бедствий, кибератак или человеческой ошибки.

3. Недостатки DAS:

- ограниченный доступ: хранилище с прямым подключением доступно только для приложений, запущенных на компьютере или сервере, к которому подключен DAS [2022]. Поскольку для совместного использования ресурсов хранилища не используется сетевое оборудование, хранилище недоступно для других групп пользователей в сети,

X X

о

го А

с.

X

го m

о

2 О M

со

СО CS

0

CS

ci

01

о ш m

X

3

<

m О X X

что может повлиять на производительность и совместную работу.

- ограниченная масштабируемость: масштабирование DAS может быть затруднено, поскольку возможности ограничены количеством внутренних отсеков для дисков, емкостью внешних устройств DAS и доступностью внешних портов на отдельных устройствах.

- нет централизованного управления и резервного копирования: DAS не предоставляет механизмов для централизованного управления и резервного копирования. Это не такая проблема, когда только несколько компьютеров используют DAS, но обеспечение доступности и защиты хранилища DAS может стать более дорогостоящим и сложным по мере роста корпоративной сети [7].

При рассмотрении вопроса о том, как же построить эффективную систему хранения данных, необходимо учитывать важные различия между сетью хранения данных (SAN) и сетевым хранилищем (NAS) (см. Табл. 1).

Таблица 1

Различия между сетью хранения данных (SAN) и сетевым

Клавиша Сеть хранения данных (SAN) Сетевое хранилище (NAS)

Расшифровывается как SAN означает сеть хранения данных. NAS означает сетевое хранилище.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Идентификация данных В SAN идентификация данных выполняется дисковыми блоками. В NAS идентификация данных осуществляется по именам файлов, а также по смещениям байтов.

Управляется В SAN файловой системой управляют серверы. В NAS файловая система управляется головным устройством, таким как CPU.

Стоимость SAN дороже, чем NAS. NAS дешевле, чем SAN.

Протоколы SAN использует протоколы SCSI и SATA. NAS использует протоколы файлового сервера и CIFS.

Пользователи Сети хранения данных используются в профессиональных и бизнес-условиях [23]. Домашние хозяйства и компании малого и среднего размера часто используют сетевое хранилище.

Соединения В SAN клиентам, серверам и хранилищу требуются выделенные соединения по оптоволоконному каналу, а также выделенная сеть Ethernet для трафика запросов файлов. Устройство NAS может легко подключаться к существующей сети Ethernet.

Резервное копирование и восстановление В SAN для резервного копирования и восстановления используется технология поблочного копирования [24-27]. В NAS файлы используются для резервного копирования и восстановления.

Масштабируемость Администраторы SAN могут повысить производительность и емкость хранилища SAN, добавив больше контроллеров хранения или расширив массивы хранения. Высокопроизводительный NAS может масштабироваться до петабайт с помощью кластеров или масштабируемых узлов; NAS низкого уровня не очень масштабируемы.

Заключение

Таким образом, системы хранения данных могут быть развёрнуты одним из нескольких способов. Необходимо учитывать специфику работы и предъявляемые к хранилищу требования. Анализ систем хранения, показал, что DAS, NAS и SAN предлагают разные преимущества, но насколько они значимы, будет зависеть от потребностей организации и в конечном счете, лучшее решение будет зависеть от объема необходимой емкости хранилища, бюджета и требований к резервному копированию и аварийному восстановлению.

Вышесказанное позволяет сделать объективное заключение о том, что в настоящее время, лучшим вариантом является использование SAN и nAs одновременно, а способ доступа к данным будет определен в зависимости от определенных требований. В настоящее время, многие производители ищут пути способные объединить данные технологии в одну единую сетевую инфраструктуру хранения, которая непосредственно обеспечит консолидацию данных, централизацию резервного копирования, а также упростит общее администрирование, масштабируемость и защиту данных. Конвергенция NAS и SAN - одна из самых важных тенденций последнего времени.

Литература

1. Бопп В.А., Савин И.В. Типы систем хранения данных. // Известия Тульского государственного университета. Технические науки. 2019. № 2. С. 226-230.

2. Жидко Е.А., Леонов П.М. Методология и методы системного математического моделирования информационной безопасности хозяйствующего субъекта теоретическими методами/ Научный вестник Воронежского государственного архитектурностроительного университета. Серия: Информационные технологии в строительных, социальных и экономических системах. 2015. № 2 (6). С. 15-20.

3. Запевалова А.П., Коржаков Д.А. Структура сетевого хранения на основе san/ // В сборнике: Информационные технологии в науке и производстве. Материалы VII Всероссийской молодежной научно-технической конференции. Редколлегия: А.Г. Янишевская (отв. ред.) [и др.]. 2020. С. 12-19.

4. Киричук П.А., Корепанова Н.Л. Структура систем хранения данных для предприятий крупного и среднего бизнеса. // В сборнике: Мир компьютерных технологий. Сборник статей всероссийской научно-технической конференции студентов, аспирантов и молодых ученых, Науч. редактор Е.Н. Мащенко. 2020. С. 150-154.

5. Khan N, Yaqoob I, Hashem IAT, et al. Big data: survey, technologies, opportunities, and challenges. Sci World J. 2014; 2014:712826.

6. Zheng Z, Zhu J, Lyu MR. Service-generated big data and big data-as-a-service: an overview. In: Big Data (Big Data Congress), 2013 IEEE international congress on, IEEE. 2013. pp. 403-10.

7. Inukollu VN, Arsi S, Ravuri SR. Security issues associated with big data in cloud computing. Int J Netw Secur Appl. 2014;6(3):45.

8. Chaudhuri S. What next? a half-dozen data management research goals for big data and the cloud. In: PODS, Scottsdale, AZ, USA. 2012. pp. 1-4.

9. Najafabadi MM, Villanustre F, Khoshgoftaar TM, Seliya N, Wald R, Muharemagic E. Deep learning applications and challenges in big data analytics. J Big Data. 2015;2(1):1.

10. Wu L, Yuan L, You J. Survey of large-scale data management systems for big data applications. J Comput Sci Technol. 2015;30(1):163.

11. Oussous A, Benjelloun FZ, Lahcen AA, Belfkih S. Big data technologies: a survey. J King Saud Univ Comput Inf Sci. 2017;30(4):431-48.

12. Grolinger K, Higashino WA, Tiwari A, Capretz MA. Data management in cloud environments: NoSQL and NewSQL data stores. J Cloud Comput Adv Syst Appl. 2013;2(1):22.

13. Zhang H, Chen G, Ooi BC, Tan KL, Zhang M. Inmemory big data management and processing: a survey. IEEE Trans Knowl Data Eng. 2015;27(7):1920-48.

14. Hashem IAT, Yaqoob I, Anuar NB, Mokhtar S, Gani A, Khan SU. The rise of "big data" on cloud computing: review and open research issues. Inf Syst. 2015;47:98-115.

15. Ball A. Review of data management lifecycle models. Bath: University of Bath; 2012.

16. Demchenko Y, de Laat C, Membrey P. Defining architecture components of the big data ecosystem. In: International conference on collaboration technologies and systems. 2014. pp. 104-12.

17. Organisation for Economic Co-operation and Development. Data-driven innovation: big data for growth and well-being. Paris: OECD Publishing; 2015.

18. Kaufmann M. Towards a reference model for big data management. Research report, University of Hagen. 2016. Retrieved from https://ub-deposit.fernuni-hagen.de/receive/mir_mods_00000583. Retrieved 15 July 2016.

19. Girone, M. (2011) EGI-InSPIRE Current Requirements and Outlook. Proc. 27th IEEE (MSST 2011) Symposium on Massive Storage Systems and Technologies, Denver, Colorado, USA.

20. Rector, M. (2011) Tape Library Based Data Integrity Verification, 27th IEEE (MSST2011) Symposium on Massive Storage Systems and Technologies, Denver, CO, USA.

21. Reine, D. & Kahn, M. (2010) In Search of the Long-Term Archiving Solution Tape Delivers Significant TCO Advantage over Disk, Clipper Notes Report #TCG2010054RLH. Retrieved May 22, 2013 from the World Wide Web: http://www.oraclehplto.com

22. Rosenthal, D.S.H. (2010) Bit Preservation: A Solved Problem? International Journal of Digital Curation 5(1), pp 134-148.

23. Rafique A, Van Landuyt D, Reniers V., Joosen W. Towards an adaptive middleware for efficient multi-cloud data storage. In: Proceedings of the 4th workshop on CrossCloud infrastructures & platforms, Crosscloud'17. 2017. pp. 1-6.

24. Lan K, Fong S, Song W, Vasilakos AV, Millham RC. Self-adaptive pre-processing methodology for big data stream mining in internet of things environmental sensor monitoring. Symmetry. 2017;9(10):244.

25. Zhang J, Chen J, Luo J, Song A. Efficient location-aware data placement for data-intensive applications in geo-distributed scientific data centers. Tsinghua Sci Technol. 2016;21(5):471-81.

26. Hsu CH, Slagter KD, Chung YC. Locality and loading aware virtual machine mapping techniques for optimizing communications in mapreduce applications. Future Gener Comput Syst. 2015;53:43-54.

Analysis of data storage systems

Kulikov A.A.

MIREA

JEL classification: C10, C50, C60, C61, C80, C87, C90_

Objectives. The history of big data as a term may be brief, but many of the foundations on which they are built have been laid for a long time. Long before computers (as they are known today) became commonplace, the idea that an ever-expanding body of knowledge suitable for analysis was created was popular in academic circles. The growing ability to store and analyze information was a gradual evolution, however, at the end of the last century, everything accelerated with the invention of digital storage and the Internet. Data storage is the process of using computer devices to store digital information. Data storage helps to effectively solve numerous digital tasks. An analysis of the scientific literature has led to the conclusion that there are many ways to configure connections between devices accessing data and data storage devices. Different connections lead to unique types of data storage. The article is devoted to the analysis of data storage systems. The author analyzed the systems (DAS - Direct Attached Storage), SAN (Storage Area Network), NAS (Network Attached Storage). The result of the study allowed the author to substantiate the relevance and significance of the research topic.

Methods. The analysis of data storage systems is carried out, the key requirements for storage systems are considered, the theoretical analysis of literature sources, deduction, induction, generalization is carried out.

Results. As a result of the analysis, the author comes to the conclusion that the best option is to use SAN and NAS at the same time, and the method of data access will be determined depending on certain requirements.

Conclusions. Analysis of storage systems has shown that dAs, NAS and SAN offer different advantages, but how significant they are will depend on the needs of the organization and ultimately, the best solution will depend on the amount of storage capacity required, budget and requirements for backup and disaster recovery.The author notes that the convergence of NAS and SAN is one of the most important trends of recent times.

Keywords: data storage, NAS, SAN, DAS, data analysis, data warehouses, data storage systems, storage.

References

1. Bopp V.A., Savin I.V. Types of data storage systems. // Proceedings of the

Tula State University. Technical science. 2019. No. 2. S. 226-230.

2. Zhidko E.A., Leonov P.M. Methodology and methods of system

mathematical modeling of information security of an economic entity by theoretical methods / Scientific Bulletin of the Voronezh State University of Architecture and Civil Engineering. Series: Information technologies in building, social and economic systems. 2015. No. 2 (6). pp. 15-20.

3. Zapevalova A.P., Korzhakov D.A. The structure of network storage based

on san/ // In the collection: Information technologies in science and production. Materials of the VII All-Russian Youth Scientific and Technical Conference. Editorial Board: A.G. Yanishevskaya (responsible editor) [and others]. 2020. S. 12-19.

4. Kirichuk P.A., Korepanova N.L. The structure of data storage systems for

large and medium-sized businesses. // In the collection: The World of Computer Technologies. Collection of articles of the All-Russian scientific and technical conference of students, graduate students and young scientists, Nauch. editor E.N. Mashchenko. 2020. S. 150-154.

5. Khan N, Yaqoob I, Hashem IAT, et al. Big data: survey, technologies,

opportunities, and challenges. Sci World J. 2014; 2014:712826.

6. Zheng Z, Zhu J, Lu MR. Service-generated big data and big data-as-a-

service: an overview. In: Big Data (Big Data Congress), 2013 IEEE international congress on, IEEE. 2013.pp. 403-10.

7. Inukollu VN, Arsi S, Ravuri SR. Security issues associated with big data in

cloud computing. Int J Netw Secur Appl. 2014;6(3):45.

8. Chaudhuri S. What next? a half-dozen data management research goals for big

data and the cloud. In: PODS, Scottsdale, AZ, USA. 2012.pp. 1-4.

9. Najafabadi MM, Villanustre F, Khoshgoftaar TM, Seliya N, Wald R,

Muharemagic E. Deep learning applications and challenges in big data analytics. J Big Data. 2015;2(1):1.

10. Wu L, Yuan L, You J. Survey of large-scale data management systems for big data applications. J Comput Sci Technol. 2015;30(1):163.

11. Oussous A, Benjelloun FZ, Lahcen AA, Belfkih S. Big data technologies: a survey. J King Saud Univ Comput Inf Sci. 2017;30(4):431-48.

12. Grolinger K, Higashino WA, Tiwari A, Capretz MA. Data management in cloud environments: NoSQL and NewSQL data stores. J Cloud Comput Adv Syst Appl. 2013;2(1):22.

13. Zhang H, Chen G, Ooi BC, Tan KL, Zhang M. In-memory big data management and processing: a survey. IEEE Trans Knowl Data Eng. 2015;27(7):1920-48.

14. Hashem IAT, Yaqoob I, Anuar NB, Mokhtar S, Gani A, Khan SU. The rise of "big data" on cloud computing: review and open research issues. Inf Syst. 2015;47:98-115.

15. Ball A. Review of data management lifecycle models. Bath: University of Bath; 2012.

X X

o

OD A c.

X

0D m

o

2 O

ho CO

16. Demchenko Y, de Laat C, Membrey P. Defining architecture components of the big data ecosystem. In: International conference on collaboration technologies and systems. 2014.pp. 104-12.

17. Organization for Economic Co-operation and Development. Data-driven innovation: big data for growth and well-being. Paris: OECD Publishing; 2015.

18. Kaufmann M. Towards a reference model for big data management. Research report, University of Hagen. 2016. Retrieved from https://ub-deposit.fernuni-hagen.de/receive/mir_mods_00000583. Retrieved July 15, 2016.

19. Girone, M. (2011) EGI-InSPIRE Current Requirements and Outlook. Proc.

27th IEEE (MSST 2011) Symposium on Massive Storage Systems and Technologies, Denver, Colorado, USA.

20. Rector, M. (2011) Tape Library Based Data Integrity Verification, 27th IEEE (MSST2011) Symposium on Massive Storage Systems and Technologies, Denver, CO, USA.

21. Reine, D. & Kahn, M. (2010) In Search of the Long-Term Archiving Solution Tape Delivers Significant TCO Advantage over Disk, Clipper Notes Report #TCG2010054RLH. Retrieved May 22, 2013 from the World Wide Web: http://www.oraclehplto.com

22 Rosenthal, D.S.H. (2010) Bit Preservation: A Solved Problem? International Journal of Digital Curation 5(1), pp 134-148.

23. Rafique A, Van Landuyt D, Reniers V., Joosen W. Towards an adaptive middleware for efficient multi-cloud data storage. In: Proceedings of the 4th workshop on CrossCloud infrastructures & platforms, Crosscloud'17. 2017.pp. 1-6.

24. Lan K, Fong S, Song W, Vasilakos AV, Millham RC. Self-adaptive preprocessing methodology for big data stream mining in internet of things sensor environmental monitoring. symmetry. 2017;9(10):244.

25. Zhang J, Chen J, Luo J, Song A. Efficient location-aware data placement for data-intensive applications in geo-distributed scientific data centers. Tsinghua Sci Technol. 2016;21(5):471-81.

26. Hsu CH, Slagter KD, Chung YC. Locality and loading aware virtual machine mapping techniques for optimizing communications in mapreduce applications. Future Gen Comput Syst. 2015;53:43-54.

CO CS

o

CS CO

o

HI

m

X

3

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

<

m o x

X

i Надоели баннеры? Вы всегда можете отключить рекламу.