Научная статья на тему 'Концептуальная модель функционирования системы хранения данных на основе твердотельных накопителей с технологией дедупликации'

Концептуальная модель функционирования системы хранения данных на основе твердотельных накопителей с технологией дедупликации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
162
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИСТЕМА ХРАНЕНИЯ ДАННЫХ / ТВЕРДОТЕЛЬНЫЕ НАКОПИТЕЛИ / ДЕДУПЛИКАЦИЯ / SSD-ДИСК / RAID-МАССИВ / МОДЕЛИРОВАНИЕ / ОПТИМИЗАЦИЯ / DATA STORAGE SYSTEM / SOLID-STATE DRIVES / DEDUPLICATION / SSD-DRIVE / RAID-ARRAY / MODELING / OPTIMIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пономарев В. А., Питухин Е. А.

В статье предлагается структурно-функциональная модель системы хранения данных на основе твердотельных накопителей, с применением технологии дедупликации для оптимизации использования дискового пространства. Система представлена в виде четырех основных укрупненных компонент, последовательно связанных друг с другом: сетевой сервис; система дедупликации на основе технологии VDO; система управления записью, программный RAID; массив из SSD дисков. Поток запросов проходит сквозь систему с задержкой на каждом участке, величина времени которой определяется соответствующей математической моделью. Такое структурно-функциональное представление системы позволяет применить для ее анализа методы статистического моделирования и теории массового обслуживания. Использование предлагаемой модели позволит спроектировать систему хранения данных заданного объема и сроков эксплуатации с минимальной стоимостью хранения для потребителя при заданных показателях производительности и надежности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Conceptual model of data storage system functioning based on solid-state drives with deduplication technology

The article proposes a structural-functional model of a data storage system based on solid-state drives, implementing deduplication technology to optimize the use of disk space. The concept is based on systems approach. The functioning model is presented in the form of interaction between the control subject (the system administrator) and the control object (the storage system). The system is exposed to external stream of requests from user applications over the Internet. The output parameters of the system include such performance indicators as storage capacity, storage time, storage cost, performance and reliability. The data storage system is presented in the form of four main integrated components, sequentially connected with each other: Network Service; deduplication system based on VDO technology; write management system, software RAID Control System; array of SSD drives. While the flow of requests passes through the system, the delay at each component is determined by the appropriate mathematical model. Such a structural and functional representation of the system allows applying the methods of statistical modeling and queuing theory to its analysis. The use of the proposed model will allow to design a data storage system of the given volume and service life with a minimum storage cost for a consumer with given performance and reliability indicators.

Текст научной работы на тему «Концептуальная модель функционирования системы хранения данных на основе твердотельных накопителей с технологией дедупликации»

Концептуальная модель функционирования системы хранения данных на основе твердотельных накопителей с технологией дедупликации

В.А. Пономарев, Е.А. Питухин Петрозаводский государственный университет

Аннотация: В статье предлагается структурно-функциональная модель системы хранения данных на основе твердотельных накопителей, с применением технологии дедупликации для оптимизации использования дискового пространства. Система представлена в виде четырех основных укрупненных компонент, последовательно связанных друг с другом: сетевой сервис; система дедупликации на основе технологии VDO; система управления записью, программный RAID; массив из SSD дисков. Поток запросов проходит сквозь систему с задержкой на каждом участке, величина времени которой определяется соответствующей математической моделью. Такое структурно-функциональное представление системы позволяет применить для ее анализа методы статистического моделирования и теории массового обслуживания. Использование предлагаемой модели позволит спроектировать систему хранения данных заданного объема и сроков эксплуатации с минимальной стоимостью хранения для потребителя при заданных показателях производительности и надежности.

Ключевые слова: система хранения данных, твердотельные накопители, дедупликация, SSD-диск, RAID-массив, моделирование, оптимизация

Введение

Рост спроса на услуги по хранению данных отмечается многими аналитиками в этой области [1, 2], что является закономерной тенденцией развития рынка информационных услуг [3]. По прогнозам экспертов, размер цифровой вселенной (объем всех цифровых данных, созданных, воспроизведенных и потребленных в течение года) к 2020 году составит 40000 экзабайт [4]. В частности, в IV кв. 2018 г. российский рынок внешних СХД вырос на 25,6% год к году [5]. Основными драйверами роста считаются госсектор, телеком и программы цифровой трансформации. Следует отметить, что при разработке и создании СХД используются различные аппаратные средства хранения больших объёмов данных [6].

В последнее время все большим спросом на рынке услуг по хранению данных пользуются решения на основе твердотельных накопителей, например, для корпоративных облаков [7]. Системы хранения данных на SSD

используются там, где требуется высокая производительность [8]. Из-за относительно высокой стоимости хранения информации на SSD-дисках, актуальной является задача снижения стоимости таких хранилищ без ущерба для их надежности. Рациональное решение данной проблемы возможно только с использованием научного подхода к проектированию СХД, который заключается в построении математических и имитационных моделей работы СХД с последующей оптимизацией их параметров для удовлетворения требований потенциальных пользователей системы. Необходимо разработать инструментарий, который бы позволил спроектировать систему хранения данных заданного объема и сроков эксплуатации с минимальной стоимостью хранения для потребителя при заданных показателях производительности и надежности.

Разработка структурно-функциональной модели СХД

Под СХД в настоящем исследовании будет пониматься компьютер в виде файлового сервера, который работает под управлением заданной ОС (преимущественно Linux), имеет достаточное количество оперативной памяти и процессоров, бесперебойное питание, каналы связи, системы кондиционирования и безопасности. Отличительной особенностью такого сервера является особая организация долговременной внешней памяти, которая реализована в виде специализированной системы хранения данных (СХД), отличающейся такими важными свойствами, как повышенной отказоустойчивостью, долговечностью, производительностью и объемом хранения.

При создании концептуальной модели объекта с позиции системного подхода, необходимо выделить систему из среды, задать управляющие и возмущающие воздействия внешней среды, сформировать элементы системы и связи между ними, установить субъекта управления, выделить из выходных параметров системы интегральные показатели, по которым система

оценивается во внешней среде, и, самое главное, определить цель функционирования системы.

На рис. 1 приведена структурная схема СХД, построенная по системному принципу.

Рис. 1. - Структурно-функциональная модель СХД

Основную часть схемы занимает объект управления - система хранения данных (Data Storage System). Она представлена в виде четырех основных укрупненных компонент, последовательно связанных друг с другом:

- сетевой сервис (Network Service);

- система дедупликации на основе технологии VDO (VDO Deduplication);

- система управления записью, программный RAID (RAID Control System);

- массив из SSD дисков.

Первые три компоненты относятся к программному обеспечению, четвертая представляет собой аппаратное решение, где и будут непосредственно храниться данные.

В левом верхнем углу схемы расположен субъект управления -системный администратор (Admin DSS), который конфигурирует СХД и управляет настройками программных компонент системы для обеспечения цели функционирования СХД.

Целью функционирования СХД является хранение данных Заказчика при выполнении условий (требований) договора по надежности, производительности, сроку и объему хранимых данных.

Возмущающее воздействие на систему задает приложение пользователя (User Application), которое на выходе генерирует поток запросов {?(}, i = If--,/ нагружающих СХД. Здесь и далее i - порядковый

номер запроса, i Ей общее количество запросов.

На входе в СХД запрос ijf, обрабатывается сетевым сервисом, который затрачивает на его выполнение время ¿if®. Задача сетевого сервиса, в

основном, состоит в разбиении запроса на блоки определенного размера.

После прохождения сетевого сервиса запрос в виде множества блоков поступает на вход системы дедупликации данных, основным назначением которой является обнаружение и исключение избыточности данных в СХД, например, путем замены повторных копий данных ссылками на первую копию. Данные процесс включает в себя поиск и анализ данных непосредственно в хранилище, прежде чем система принимает то или иное решение о записи. В связи с этим, процесс дедупликации описывается алгоритмическим оператором который, в итоге, позволяет оценить

время выполнения запроса системой дедупликации f1ED.

Следующим звеном в цепи прохождения запроса является программный RAID, который управляет процессом чтения/записи на дисковые накопители. Время выполнения запроса AS™ на данном участке

зависит, в основном, от уровня RAID, типа операции и прочих факторов.

Конечным пунктом маршрута для запроса является дисковый массив из SSD дисков, собранный по технологии RAID. Время физической записи на носители AtfÍSR зависит от типа операции и таких заявленных

производителем параметров диска, как среднее число запросов за единицу времени IOPS (Input/output Operations Per Second) и средняя скорость

чтения/записи MBPS (Mega Bits Per Second).

Внизу схемы приведены выходные интегральные показатели, которые характеризуют качество СХД и эффективность ее функционирования для пользователя:

- емкость хранилища, байт;

- срок хранения, часов;

- стоимость хранения, руб;

- производительность, байт/с;

- безотказность, часов;

- долговечность, часов;

Первые три показателя являются для пользователя однозначно трактуемыми.

Общая производительность системы может оцениваться такими показателями, как среднее время выполнения типового запроса на чтение/запись (Latency) а также ЮРЗ и MEF3. Для пользователя СХД

наиболее понятным и привычным показателем производительности из перечисленных может являться средняя скорость чтения/записи vrw в

мегабайтах в секунду, поскольку она ближе всех подходит на роль интегральной скоростной характеристики системы хранения данных. Указанный показатель определяется, как отношение суммарного объема выполненных запросов к суммарному времени обработки этих запросов.

Из четырех основных показателей надежности (безотказность, ремонтопригодность, долговечность и сохраняемость) два показателя -безотказности и долговечности - указываются производителями SSD дисков при изготовлении, что и обусловило выбор данных показателей для оценки СХД. Долговечность (ресурс) каждого диска зависит от такого параметра SSD, как общий ресурс записи TBW (Total Bytes Written) и от средней

интенсивности потока записи/перезаписи данных. Безотказность диска определяется таким параметром SSD, как среднее время наработки на отказ (Mean Time To Failures). Безотказность и долговечность всей СХД определяется в зависимости от количества дисков и уровня RAID. Выбор данных показателей надежности в качестве основных подтверждается и зарубежными исследованиями [9]. Кроме того, представляет интерес оценка такого комплексного показателя надежности, как коэффициент готовности (Availability Rate), который есть вероятность того, что объект окажется в работоспособном состоянии в произвольный момент времени (кроме планируемых периодов, в течение которых применение объекта по назначению не предусматривается). Этот показатель включает в себя такой показатель ремонтопригодности, как среднее время восстановления системы (Mean Time to Recovery) и определяется соотношением

Данные показатели, согласно системному подходу, отражают все составляющие эффективности [10]: результативность, оперативность и

MTTF

AR =

MTTF + MTTR'

ресурсоемкость. Результативность обеспечивается заданной надежностью, емкостью и сроком эксплуатации системы, оперативность - заданной производительностью чтения/записи, а ресурсоемкость - стоимостью хранения. Очевидно, что с позиции улучшения всех интегральных показателей системы, данные показатели являются противоречивыми.

Указанный подход является альтернативой оценки распространенного за рубежом показателя эффективности эксплуатационного оборудования (Operational Equipment Effectiveness) [11], [12], который, в общем случае, рассчитывается как произведение показателей готовности AR,

эффективности работы РЕ (Performance Efficiency) и качества QR (Quality

Rate). Из недостатков данного подхода следует отметить, что в показателе

напрямую отсутствуют потери (затраты), которые в системном подходе

оцениваются с помощью ресурсоемкости. Учет затрат позволяет построить целевую функцию задачи оптимизации, которая имеет экстремум вне границ областных ограничений проектных параметров.

Так, например, увеличение сроков хранения при тех же объемах и стоимости снижает безотказность и долговечность; увеличение емкости хранилища при той же производительности снижает безотказность, но увеличивает долговечность и стоимость; увеличение надежности, как и производительности, увеличивает стоимость при неизменных остальных параметрах. Одновременное увеличение надежности, производительности, срока и объема хранимых данных приведет к скачкообразному росту стоимости.

В итоге, данные показатели позволяют сформулировать множество возможных задач проектирования оптимальных параметров и настроек СХД, исходя из различных критериев и ограничений, устанавливаемых пользователем:

Критерий экономичности. Проектируется система с минимальной стоимостью хранения при заданных ограничениях на объемы и сроки хранения данных. При этом, если не поставить ограничение на надежность и производительность, то данные параметры будут также стремиться вниз.

Критерий надежности. Требуется создать систему с максимальной надежностью при ограничениях на объемы и сроки хранения данных. В данном случае будет искаться компромисс между параметрами стоимости и производительности.

Критерий скорости. Создается система с максимальной производительностью при заданных ограничениях на объемы и сроки хранения данных. При этом в противоречии будут находиться параметры стоимости и надежности.

Критерий превосходства. Проектируется система с максимальной производительностью и надежностью при заданных ограничениях на объемы и сроки хранения данных. Такая постановка задачи повлечет высокую стоимость реализации СХД.

Достаточное количество интегральных показателей позволяют формировать альтернативные критерии оптимальности. Часто бывает, что на практике решается задача с ограниченным бюджетом, или же элементы хранилища уже приобретены. Например, возникает задача, какие сочетания интегральных показателей СХД возможны при существующей аппаратной базе, или какие максимальные значения показателей возможно достичь за счет снижения других и насколько?

Заключение

Полученная структурно-функциональная модель системы хранения данных задает в динамике последовательность прохождения потока запросов от пользовательских приложений с момента поступления их в систему до исполнения операций записи или чтения и определяет время отклика.

Сформированная последовательность временных интервалов управляет всеми динамическими процессами в системе и позволяет вычислять показатели качества функционирования СХД в зависимости от времени.

Сформулированные критерии оптимальности позволяют количественно выразить цель функционирования СХД. Постановка и решение задач оптимизации на их основе позволит получить оптимальные значения параметров и настроек системы, что важно для ее пользователя.

В развитие структурно-функциональной модели возникает задача разработки математических моделей, позволяющих спроектировать СХД заданного объема и сроков эксплуатации с минимальной стоимостью хранения для потребителя при заданных показателях производительности и надежности.

Работа выполнена при поддержке Министерства науки и высшего образования РФ (соглашение № 14.580.21.0009, уникальный идентификатор RFMEFI58017X0009).

Литература

1. Новый сегмент рынка - склады хранения данных // CRE - Портал коммерческой недвижимости Москвы и России. URL: cre.ru/analytics/73491.

2. Большим данным стало мало места // Информационное агентство «РБК» URL: rbc.ru/newspaper/2018/11/06/5bdc45019a79472ab0ecdbc2

3. Радчук В. А. Закономерности развития рынка информационных услуг на современном этапе (обзор) // Инженерный вестник Дона, 2011, №3. URL: ivdon.ru/ru/magazine/archive/n3y2011/494.

4. Обзор рынка хранения данных: новые тенденции и тренды 2014 // RaidShop - интернет-магазин профессиональных систем хранения данных URL: raidshop.ru/faq/storage_2014_overview.html.

5. Рынок СХД в России резко пошел вверх // Интернет-издание о высоких технологиях URL: cnews.ru/news/top/2019-03-26_kvartalnye_prodazhi_ shd_v_rossii_prevysili_150.

6. Шарапов Р.В. Аппаратные средства хранения больших объёмов данных // Инженерный вестник Дона, 2012, №4 (часть 2). URL: ivdon.ru/ru/magazine/archive/ n4p2y2012/1371.

7. Переходим на SSD: как строили систему хранения данных в виртуализированной среде // "Хакер" - Безопасность, разработка, DevOps URL: xakep.ru/2016/11/02/ssd-migration.

8. Как SSD влияют на производительность систем хранения данных // Tom's Hardware Guide Russia - интернет-издание, посвящённое компьютерным технологиям URL: thg.ru/storage/ssd_performance_ storage_systems/index.html.

9. Li, Yongkun & Lee, Patrick & Lui, John C.s. (2013). Stochastic Analysis on RAID Reliability for Solid-State Drives. // 32nd International Symposium on Reliable Distributed Systems. IEEE, 2013. Pp. 71-80.

10. Системный анализ в управлении / Анфилатов В.С., Емельянов А. А., Кукушкин А. А., Под ред. Емельянова А. А. М.: Финансы и статистика, 2002. 368 с.

11. How to Calculate Overall Equipment Effectiveness: A Practical Guide // AutomationWorld - издание, в котором освещаются последние разработки в области автоматизации URL: automationworld.com/article/topics/oee/how-calculate-overall-equipment-effectiveness-practical-guide.

12. Good and Bad Ways to Calculate the OEE // AllAboutLean.com -Organize your Industry URL: allaboutlean.com/bad-oee-formula.

References

1. Novyj segment rynka - sklady hraneniya dannyh [New market segment -data warehouses]. URL: cre.ru/analytics/73491.

2. Bol'shim dannym stalo malo mesta [Big data is not enough space]. URL: rbc.ru/newspaper/2018/11/06/5bdc45019a79472ab0ecdbc2

3. Radchuk V.A. Inzenernyj vestnik Dona (Rus), 2011, №3. URL: ivdon.ru/ru/magazine/archive/n3y2011/494.

4. Obzor rynka hraneniya dannyh: novye tendencii i trendy 2014 [Data storage market overview: new trends and trends 2014]. URL: raidshop.ru/faq/storage_2014_overview.html.

5. Rynok SHD v Rossii rezko poshel vverh [The storage market in Russia went up sharply] URL: cnews.ru/news/top/2019-03-26_kvartalnye_prodazhi_ shd_v_rossii_prevysili_150.

6. Sharapov R.V. Inzenernyj vestnik Dona (Rus), 2012, №4. URL: ivdon.ru/ru/magazine/archive/ n4p2y2012/1371.

7. Perekhodim na SSD: kak stroili sistemu hraneniya dannyh v virtualizirovannoj srede [Go to the SSD: how to build a storage system in a virtualized environment] URL: xakep.ru/2016/11/02/ssd-migration.

8. Kak SSD vliyayut na proizvoditel'nost' sistem hraneniya dannyh [As SSD affect the performance of data storage systems]. URL: thg.ru/storage/ssd_performance_ storage_systems/index.html.

9. Li, Yongkun & Lee, Patrick & Lui, John C.s. (2013). Stochastic Analysis on RAID Reliability for Solid-State Drives. 32nd International Symposium on Reliable Distributed Systems. IEEE, 2013. Pp. 71-80.

10. Anfilatov V.S., Emel'yanov A.A., Kukushkin A.A. Sistemnyj analiz v upravlenii [System analysis in management]. M.: Finansy i statistika, 2002. 368p.

11. How to Calculate Overall Equipment Effectiveness: A Practical Guide. URL: automationworld.com/article/topics/oee/how-calculate-overall-equipment-effectiveness-practical-guide.

12. Good and Bad Ways to Calculate the OEE. URL: allaboutlean.com/bad-oee-formula.

i Надоели баннеры? Вы всегда можете отключить рекламу.