Научная статья на тему 'Математические модели производительности, надежности и стоимости функционирования системы хранения дедуплицированных данных на SSD-дисках'

Математические модели производительности, надежности и стоимости функционирования системы хранения дедуплицированных данных на SSD-дисках Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
291
57
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / СИСТЕМА ХРАНЕНИЯ ДАННЫХ / ПРОИЗВОДИТЕЛЬНОСТЬ / НАДЕЖНОСТЬ / ТВЕРДОТЕЛЬНЫЕ НАКОПИТЕЛИ / RAID-МАССИВ / ОПТИМИЗАЦИЯ / MATHEMATICAL MODELING / DATA STORAGE SYSTEM / PERFORMANCE / RELIABILITY / SOLID STATE DRIVES / RAID ARRAY / OPTIMIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пономарев В.А.

Статья посвящена разработке и созданию комплекса математических моделей, описывающих функционирование системы хранения данных на основе твердотельных накопителей с применением технологии дедупликации. Математическая модель пользовательского приложения генерирует нагрузку на систему в виде потока запросов со случайным размером запроса и интервалом времени между запросами. Из-за особенностей SSD-накопителей производительность системы в режимах чтения и записи моделируется раздельно. Математическая модель надежности функционирования RAID-массива основывается на системе уравнений Колмогорова-Чепмена для расчета стационарных вероятностей, описывающих переходы между состояниями в дискретной марковской цепи. Долговечность системы определяется через модель оценки выработки ресурса записи твердотельных накопителей. Итоговым результатом является математическая постановка задачи подбора параметров системы хранения данных, оптимальных с точки зрения сочетания факторов надежности, скорости и стоимости хранения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Mathematical models of performance, reliability and operating costs of a system for storing deduplicated data on SSD disks

The article is devoted to the development of a complex of mathematical models describing the functioning of a data storage system based on solid-state drives using deduplication technology. The mathematical model of the user application generates a load on the system as a stream of requests, randomly sized according to the Pareto law, and with random time interval between requests. Requests are received at the input of the storage system into the network service model, then to the VDO deduplication system model, then to the software RAID model and, finally, to the solid-state drive model for read/write operation. Due to the nature of SSDs, system performance in read and write modes is modeled separately, taking into account the different speed characteristics of RAID-5, RAID-6 and RAID-10 arrays. The mathematical model of the reliability of each RAID array is based on the Kolmogorov-Chapman system of equations for calculating stationary probabilities describing transitions between states in a discrete Markov chain. The durability of the system is determined through the model for assessing the exhaustion of the recording resource of solid-state drives. The mathematical model for estimating the storage cost includes the costs of equipment, resources and maintenance over the entire operation period of the system. The final result is a mathematical formulation of the problem of data storage system optimal design, which allows selecting the system architecture and parameters that are optimal in terms of a combination of factors reliability, speed and cost of data storage.

Текст научной работы на тему «Математические модели производительности, надежности и стоимости функционирования системы хранения дедуплицированных данных на SSD-дисках»

Математические модели производительности, надежности и стоимости функционирования системы хранения дедуплицированных данных на

88Б-дисках

В.А. Пономарев Петрозаводский государственный университет

Аннотация: Статья посвящена разработке и созданию комплекса математических моделей, описывающих функционирование системы хранения данных на основе твердотельных накопителей с применением технологии дедупликации. Математическая модель пользовательского приложения генерирует нагрузку на систему в виде потока запросов со случайным размером запроса и интервалом времени между запросами. Из-за особенностей ББО-накопителей производительность системы в режимах чтения и записи моделируется раздельно. Математическая модель надежности функционирования ЯАГО-массива основывается на системе уравнений Колмогорова-Чепмена для расчета стационарных вероятностей, описывающих переходы между состояниями в дискретной марковской цепи. Долговечность системы определяется через модель оценки выработки ресурса записи твердотельных накопителей. Итоговым результатом является математическая постановка задачи подбора параметров системы хранения данных, оптимальных с точки зрения сочетания факторов надежности, скорости и стоимости хранения.

Ключевые слова: математическое моделирование, система хранения данных, производительность, надежность, твердотельные накопители, КАГО-массив, оптимизация

Введение

В последнее время все большим спросом на рынке услуг по хранению данных пользуются решения на основе твердотельных накопителей, например, для корпоративных облаков, обеспечивающие высокую производительность [1]. Из-за относительно высокой стоимости хранения информации на ББО-дисках, возникает актуальная проблема автоматизации подбора параметров систем хранения данных (СХД) и конфигурации их компонентов, которые бы были оптимальны с точки зрения сочетания факторов надежности, скорости и стоимости хранения данных.

Проведение натурного эксперимента является достоверным способом определения производительности системы и подбора правильных параметров [2], но и самым затратным, и не позволяет оценить надежность системы.

Автор считает, что рациональное решение данной проблемы возможно только с использованием научного подхода к проектированию СХД, который заключается в построении математических и имитационных моделей работы СХД с последующей оптимизацией их параметров для удовлетворения требований потенциальных пользователей системы [3].

Согласно изложенной концепции, система представлена в виде четырех основных укрупненных компонент, последовательно связанных друг с другом: сетевой сервис; система дедупликации на основе технологии VDO; программный RAID; массив из SSD дисков. Поток запросов проходит сквозь систему с задержкой на каждом участке, величина времени которой должна определяться соответствующей математической моделью. Выходными параметрами системы являются такие показатели качества функционирования, как емкость и производительность хранилища, длительность и стоимость хранения, долговечность и безотказность [3].

С учетом изложенного, для расчета значений выходных показателей, характеризующих СХД, необходимо построить комплекс математических моделей, включающий в себя модели производительности, надежности и стоимости работы СХД, которые бы связывали входные и выходные параметры каждого компонента системы, и создать модель пользовательского приложения, которое бы задавало входное воздействие на систему.

Модель производительности основана на поэтапной оценке времени задержки прохождения запросов пользовательских приложений сквозь все связанные подсистемы: запросы поступают на вход системы хранения данных в модель сетевого сервиса, далее в модель системы дедупликации VDO, далее в модель программного RAID и, в завершение, поступают в модель твердотельного накопителя для осуществления операции чтения или записи.

Модель производительности СХД является основой для построения моделей оценки остальных интегральных показателей СХД.

1. Математическая модель производительности СХД

Модель пользовательского приложения генерирует запросы, которые создают нагрузку на систему.

Каждый запрос fo = (Ер *() в потоке характеризуется следующими

признаками: tc £ TL - время поступления запроса на вход СХД (timestamp) с

момента начала эксперимента; oz £ frTwl - тип запроса (г - чтение, w -

запись); st Е M - количество байт (размер запроса), которое необходимо

записать или прочесть.

Основные характеристики потока запросов [çj:

î = 1,...,/ - порядковый номер запроса; /Ей общее количество запросов; t^ - момент поступления запроса в СХД;

otl i>l - тип запроса; Tt = ti+1 — tb £> £0 = 0 - независимые одинаково распределенные интервалы времени между запросами; s{f i >1 -независимые одинаково распределенные размеры запросов; t0 - время начала эксперимента; t} время окончания эксперимента.

Для удобства опустим порядковый индекс у случайной величины и у случайной величины sb для чего обозначим через т типичный интервал времени между запросами, а через s - типичный размер запроса. Предположим, что г - случайная величина с экспоненциальным законом распределения F(XI = 1 — ff-4^ X > 0, a s - случайная величина с

1

однопараметрическим законом распределения Парето

г(л.) = 1 - ( -1 . .V > 1. Данное допущении основывается на результатах

исследований экспоненциального характера распределения интервалов времени между запросами [4], а также Парето распределения размера файла в интернет-трафике по ТСР-протоколу [5]. Тогда пусть поток запросов в СХД

имеет интенсивность ц = ^/м[т] ^ а РазмеР запроса характеризуется

параметром ? = М[»]/(М[у] - 1)е ^и»). Чередование типа запросов

(о1 = г - чтение или о± = иг - запись) задается из допущения о дискретном

равномерном распределении: Р(рс) = [яг], 0 £ х < 1.

Среднее время выполнения типового запроса ({< на чтение/запись

складывается из слагаемых времен обслуживания соответствующих компонент системы:

¿¿г* = ¿¿яз + + ¿£?АД> 4- ,

(1)

Время ¿Е® обработки запроса сетевым сервисом ДС^3 положим прямо

пропорционально размеру запроса, при допущении о постоянном размере блока:

= к™ з

(2)

где й® - коэффициент пропорциональности, оцениваемый по результатам

натурного эксперимента.

Система дедупликации затрачивает на поиск и анализ копий данных время следующим образом:

(3)

где - алгоритмический оператор функционирования системы

дедупликации, переводящий входные параметры модели - поток запросов

Время ¿sJLfAW обработки запроса в RAID называется время отклика (Latency) и зависит от следующих параметров, характеризующих RAID: Rl = [RAED-5t ЕАШ-бДАПМО] - уровень RAID; щ (Е {г, w} - тип запроса (г

- чтение, w - запись); и S И - число дисков в RAID (в данном случае эквивалентно числу дисков СХД); FEM- объем диска (одинаков для всех дисков массива), байт; 5 Ей - размер блока чтения/записи, байт; /г S ü, / if I - средняя IOPS чтения и средняя IOPS записи типового диска RAID соответственно.

Выбор указанных трех уровней RAID CKAED-5, КАЮ-£:КАП>10]

обуславливается хорошим сочетанием их показателей надежности, эффективности и производительности, по сравнению с другими известными уровнями RAID [6].

Из-за особенностей S SD-накопителей производительность системы в режимах чтения и записи моделируется раздельно. Средняя IOPS чтения и записи RAID-массива зависит от его уровня RI и вычисляется с учетом

значения соответствующего штрафа R'p за кратность записи это уровня [7]:

{ffr} в выходные - множество времен обслуживания {¿if и}.

(4)

где ßKßf = 5) = 4; = &) = &; ¿Wi = 10) = 2.

J

В общем случае, с учетом полученных выражений для средних ЮРБ (4), оценка среднего времени записи в КАГО-массив имеет вид

(5)

где k'RD fqd, щ, ch, lr) и fqtf, nj, eft, fr) - функциональные

зависимости, оцениваемые по результатам натурного эксперимента.

В оценку времени обработки запроса в RAID косвенно уже

включено время записи на диск ¿С™, поэтому исключаем этот фактор как

слагаемое из модели времени отклика (3)

(6)

Итоговая модель основного показателя производительности СХД -скорости передачи данных - с учетом выражений (1-6) запишется в виде

(7)

2. Математическая модель надежности СХД

Модели оценки надежности СХД основываются на вычислении таких показателей надежности, как TF - среднее время наработки на отказ MTTF

(Mean Time То Failures), КА - коэффициент готовности AR (Availability Rate);

TR - среднее время восстановления MTTR (Mean Time То Recovery), средний

ресурс ГЧ£. (Mean Life), вероятность безотказной работы fi{f) (Reliability

Function) (ГОСТ 27.002-89 Надежность в технике).

Методы и модели оценки надежности программного и аппаратного обеспечения систем хорошо известны специалистам по системам хранения данных, поскольку надежность хранилища является зачастую одним из самых основных требований, выдвигаемых пользователями СХД.

Так, например, работы [8-9] посвящены оценке надежности программного обеспечения на основе выделения функциональных блоков, и методам ее повышения, использующим временную и программную избыточность.

Оценка безотказности уровней массивов [RA[D-5t КАШ-б^КАПМО}

проводилась в работе [6] наряду с другими показателями эффективности. В качестве показателя безотказности использовалась вероятность безотказной работы (ВБР), которая связана с вероятностью отказа ?F(t) (Probability of

Failure) соотношением №(t) + = Д, t > 0.

В свою очередь, вероятность отказа PF(f) связана со средним

временем наработки на отказ MTTF соотношением

В статье [6] вероятность безотказной работы (ВБР) рассчитывается в соответствии с формулой Бернулли на основе показателя максимально допустимого числа вышедших из строя дисков, при котором массив продолжает работу.

В отличие от подхода [6] в статье [10] для RAID-массивов уровней RAID-5 и RAID-6 дается оценка такого параметра надежности, как среднее время до потери данных MTTDL (Mean Time То Data Loss).

Математическая модель надежности современных распределенных отказоустойчивых системах хранения данных представлена в работе [11], где

PF(t) = 1 - emTFt t > 0.

(8)

не были учтены особенности SSD накопителей, в частности, ограничение ресурса по записи вследствие износа.

Накопители SSD имеют увеличивающуюся скорость поступления ошибок, поскольку они изнашиваются с большим количеством операций стирания, и поэтому моделировать поступление ошибок как пуассоновский процесс с постоянной скоростью [12-13] является недостаточным.

В работе [14] предлагается «первая» аналитическая модель на основе неоднородной непрерывной модели цепи Маркова (CTMC model) для количественной оценки динамики надежности RAID-массивов на SSD, что представляет собой более верный подход к оценке отказов, чем (8). Изучается проблема изнашивания SSD накопителей от битовых ошибок, частота которых зависит от времени и увеличивается по мере износа SSD.

Перспективные базовые модели надежности массивов RAID-0, RAID-5 и RAID-6 впервые были описаны в работе [15], а в работе [16] этих же авторов были представлены модели надежности для массивов RAID-10 и RAID-01. Указанные математические модели представляют собой системы уравнений Колмогорова-Чепмена для расчета стационарных вероятностей, описывающих переходы между состояниями в дискретной марковской цепи.

Данные модели [15-16] предлагается дополнить с целью учета специфики SSD накопителей и использовать для расчета показателей надежности исследуемой СХД. Доработка моделей будет осуществляться в отношении износа, который вырабатывает ресурс и снижает вероятность безотказной работы. Будет рассматриваться модель с последовательной регенерацией информации на замененных дисках, так же, как и в работе [14].

Входными параметрами моделей надежности являются группа параметров, характеризующая RAID, и следующие показатели надежности:

:

/. - интенсивность отказов дисков в RAID-массиве (одинакова для всех

дисков); ¡х - интенсивность регенерации данных для диска в RAID-массиве; £

- интенсивность ошибок чтения диска URE в RAID-массиве; <7 -

интенсивность ошибок программного RAID; у - интенсивность полного

восстановления системы из аварийного состояния; Выходными параметрами моделей являются:

TF - среднее время наработки на отказ MTTF; КА - коэффициент

готовности AR; TR - среднее время восстановления МГТЕ.

Массив RAID-5 обладает однодисковой отказоустойчивостью и собирается из п >3 дисков. Исправное состояние системы - «О». При

внезапном отказе одного из дисков система переходит в состояние «1» -«отказавший» (Degraded); далее происходит замена и запускается процесс регенерации данных на замененном диске; далее возможен сценарий, когда, до завершения регенерации и возврата обратно в состояние «0», возможен отказ еще одного из дисков системы и переход в аварийное состояние «2». После этого требуется полное восстановление массива с переносом данных из резервной копии.

Математическая модель расчета показателей надежности для RAID-5 приведена ниже [15]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(9)

Массив RAID-6 обладает двухдисковой отказоустойчивостью и собирается из 71 > 4 дисков. При отказе одного или двух дисков система

:

сохраняет работоспособность, при отказе трех дисков или ошибке управляющего ПО система переходит в аварийное состояние. После этого требуется полное восстановление массива из резервной копии.

Математическая модель расчета показателей надежности для RAID-6 имеет вид [15] М4 = fifc + пД+ ff) + (fi + {2и- 1)Л+ С«- 1>с+ ff) X

х ((»- 2ХА-Н £} + ff) + п(п - 1)да+ £3; - [¡.^ - О!/. - ^('j!- o- - ;; * (10)

7 Мь _1

Для модели RAID-10 с числом дисков 2я максимальное число

состояний, в которых может побывать система в процессе отказов, ограничивается л. Примем допущение, что, в процессе натурных испытаний,

количество дисков для каждого уровня RAID-массива будет ограничено минимальным возможным числом. Таким образом, для RAID-5 это будет н — 3, для RAID-6 - н — 4 и для RAID-10 также 2tl — 4.

Математическая модель RAID-10 с четырьмя дисками (2п =4),

минимально может обеспечить однодисковую отказоустойчивость, а максимально - двухдисковую.

Ниже приводится математическая модель расчета показателей надежности для RAID-10, разработанная в [16].

Математическая модель записывается в виде поэтапных систем выражений для каждого из состояний RAID-10: «0» - исправное, «1», «2» -Degraded и «3» - аварийное.

Переход из состояния «0» в состояние «1»:

(11)

Переход в состояние «2» с учетом (11):

РМ = 4пД2(и- 1); V^ = А(2?г+ 1,} + ег-Н* -Н#ч = 2М2п- 1) + <7 + Л-+ £ +

WW = (ffH-A.+ s)(2ii+ff) +

(12)

D™ = (2пА+<г)(2А(и- 1) + ff + A-+ +

Переход в состояние «3» с учетом (12):

t7ö> = 2(n- 2)AU™ ; V^ =(ff + 2(Л+ 4 +

M® = (2Л(п- 2) + ff + 2(1+ + + О®;

YK&) = (ff + 2ГЯ+ + Zfdtf®;

. = (7.я(я- 2) + it +■ 2СЯ+ £j)iJö) -Ь

(13)

На основе состояния «3» (13) определяются показатели надежности массива КАГО-Ю:

(14)

Итоговая математическая модель зависимости выходных показателей надёжности от уровня КАГО-массива (9-10), (13-14) записывается в виде

(15)

Долговечность (ресурс) каждого диска зависит от такого конструктивного параметра SSD, как общий ресурс записи [байт]

(Total Bytes Written) и от средней интенсивности потока записи/перезаписи данных. В качестве основного показателя долговечности для СХД рассматривается средний ресурс [час] (Mean Life). Для СХД на основе

RAID-массива из SSD дисков средний ресурс может быть оценен через время выработки полного ресурса Тдодо [час] СХД до предельного состояния

вследствие износа.

Постепенный износ RAID-массива из SSD дисков осуществляется в процессе операций записи, что ведет к усиленному потоку отказов по мере увеличения выработки ресурса твердотельного накопителя [14].

Для учета этого автором предлагается к интенсивности внезапных отказов диска Xs прибавить интенсивность постепенных отказов вследствие

ошибок чтения/записи возникающей в результате износа SSD диска.

Данный подход согласуется с подходом [10], в котором выделяется два типа отказов дисков: первый - функциональный (явный) отказ, и второй -скрытая ошибка. Функциональный отказ обнаруживается на аппаратном уровне, а скрытые ошибки явно не проявляются. Величина функциональных отказов определяет надежность диска как устройства и выражается через показатель среднее время наработки на отказ MTTF. Фактическим

параметром, характеризующим скрытые ошибки данных, является URE

(Unrecoverable Read Errors). В итоге, для определения среднего времени до потери данных предлагается сложить обе интенсивности, отвечающие за различные типы независимых отказов.

Таким образом, в полученные выше уравнения (9-13), параметр интенсивности отказов Л представляется в виде суммы интенсивностей

каждая из которых оценивается исходя из своей природы.

Параметр А^- будет зависеть от скорости выработки ресурса как диска,

так и всей СХД в целом.

Пусть - ресурс каждого из дисков КАГО-массива, который

является специализированным конструктивным параметром твердотельного накопителя, устанавливаемым при изготовлении производителем. Данный ресурс вырабатывается в процессе износа вследствие записи/перезаписи информации в СХД. При этом данные записываются на диски системы, относящиеся к полезному или эффективному объему КАГО-массива. Эффективно используемое число дисков [6] определяется уровнем

КАГО-массива и количеством дисков п (Таблица 1).

Таблица 1. Эффективно используемое число дисков КЛГО-массива

№ Е = £;(*) | л

5 п — 3

6 71 ~ 2

10 к/2 2

Полезная емкость КАГО-массива или СХД, в этом случае, равна

■ (17)

Аналогичным образом определяется число байт, определяющее полный ресурс записи в СХД:

.

Пусть а = 0.1 - коэффициент запаса устойчивости по ресурсу записи. Тогда полный ресурс записи с учетом запаса а будет равен

= ТЗГ.'^'Л-^'). (18)

Показателем текущего использования СХД является такой показатель, как израсходованный ресурс

1

(19)

Показатель ЙС^" из (19) целесообразно использовать для контроля

выработки полного ресурса СХД из (18), наступающего вследствие износа ЗБВ-дисков в КАГО-массиве, к моменту времени Ь(.

НС? с

(20)

Показатель (19) характеризует долговечность работы СХД. Выполнение условия (20) свидетельствует о наличии остаточного ресурса записи; при приближении значения ЙС^ к ЕНЩ^ следует принять меры по

плановой замене твердотельных накопителей.

Показатель израсходованного ресурса отражает суммарный объем

данных, записанных на БББ с начала эксперимента. При делении его на время, прошедшее с начала эксперимента, получается показатель /тг^

текущей интенсивности потока записи/перезаписи данных:

(21)

Показатель средней интенсивности потока записи/перезаписи данных /■/г рассчитывается путем осреднения показателя (21) по времени:

Ми

ш

Ы

ш

(22)

¿=1

Выражения (18) и (22) позволяют получить приблизительную временную оценку выработки полного ресурса до достижения

предельного состояния из-за износа вследствие операций записи/перезаписи:

(23)

Выражение (23) дает оценку полного ресурса во временном измерении, что будет необходимо для оценки входных параметров надежности системы.

Одним из важных показателей надежности является вероятность безотказной работы в период эксплуатации й^ - вероятность того, что в

пределах заданной наработки отказ объекта не наступает (ГОСТ 27.002-89). Отсюда следует, что определение периода эксплуатации СХД ТЕ, в течение

которого ВБР не будет менее заданного значения, является важным показателем надежности.

Пользователем СХД, в процессе формулирования требований к показателям качества функционирования СХД, определяется, в том числе, критическое значение вероятности безотказной работы й^, значение меньше

которого ВБР Д^ не должна принимать на протяжении времени

функционирования ЯАГО-массива .

Значение времени функционирования оценивается, исходя из

величины критического значения ВБР и среднего времени наработки на

отказ Тр, и определяется из равенства:

В итоге, значение величины периода эксплуатации СХД

определяется, как наименьшее из (25) и (23):

(24)

(25)

1

(26)

3. Математическая модель стоимости хранения данных в СХД

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Модель оценки стоимости хранения данных является одним из необходимых пунктов для постановки задачи проектирования СХД с заданными свойствами.

На основе данной модели можно будет оценивать такое свойство, как экономичность СХД, важное для потенциального пользователя системы.

Определим слагаемые, которые будут входить в С/355 - общую

стоимость хранения данных пользователя в СХД: - стоимость ресурсов,

¿=1,...,/; - стоимость СХД, 1 = 1,...,/; С\

обслуживания СХД, I = 1,..., /;

Стоимость ресурсов рассчитывается по формуле

- стоимость

где С™т - плата за безлимитный Интернет, [руб/с]; - плата за

электроэнергию, [руб/с]; С^7^ - плата за аренду помещения, [руб/с].

Плата за электроэнергию С2^ зависит от тарифа потребления С^,

[руб/КВтч], и потребляемой мощности сервера, и отдельно дисков БББ, а также мощности установки климат-контроля :

(28)

где - потребляемая мощность сервера, [Вт]; -

потребляемая мощность одного БББ-диска, входящего в КАГО-массив, [Вт]; ]'' ' - потребляемая мощность установки климат-контроля, [Вт].

1

Стоимость СХД С™ включает в себя затраты на покупку аппаратных комплектующих 5 [руб] и программного обеспечения , [руб] с учетом затрат на регулярное обновление лицензионного ПО С, [руб/с], а

также затратами С1'", [руб] на проектирование СХД и разработку ПО: ^ = „ „ „ — , £ (29)

Стоимость обслуживания СХД оценивается выражением СГ = с**" Ь I ^ е I ^ЛЬ (30)

где САйМ - затраты на настройку и администрирование СХД, [руб/с].

вв

В итоге, общая стоимость хранения СР , [руб] данных в СХД, с учетом составляющих (27-30), описывается выражением

с^ = С**» + С£ + I Е [£&£7].

(31)

4. Метод выбора оптимальной архитектуры СХД

Рассмотрим постановку задачи оптимального проектирования параметров скоростной СХД. Зададим множество ограничений на показатели функционирования, критические значения которых имеют индекс СП :

По емкости и производительности хранилища, с учетом (17) и (7): По удельной стоимости хранения с учетом (31):

(33)

По длительности хранения с учетом (26):

(34)

По безотказности СХД, с учетом (24):

= Р(Г£ < и < ») = в"* - >

(35)

По коэффициенту готовности и долговечности, с учетом (15) и (20): КА>КЯС* < ЕК№033.

(36)

Ограничения (32)-(36) формируют множество Сав(Ую(д}) > 0, где

р £ Др- вектор проектных параметров; - множество допустимых

значений; - вектор модельных значений показателей

функционирования.

Постановка задачи оптимизации, в данном примере, сводится к поиску такого вектора оптимальных значений проектных параметров ¡лк, который бы

обеспечил максимум целевой функции

где vЛ - вектор желаемых значений показателей функционирования.

Таким образом, выражение (37) показывает пример постановки задачи оптимального проектирования СХД с максимальной производительностью, при заданных областных и функциональных ограничениях.

Разработанный комплекс математических моделей может применяться для расчета показателей производительности, надежности и стоимости функционирования СХД.

Важным результатом является математическая постановка задачи оптимального проектирования системы хранения данных, позволяющая

= (и))} I ^

(37)

Заключение

подбирать архитектуру и параметры системы, оптимальные с точки зрения сочетания факторов надежности, скорости и стоимости хранения данных.

Полученный в данном виде комплекс математических моделей дает возможность применить к нему технологии имитационного моделирования систем массового обслуживания с целью проведения вычислительного эксперимента по определению оптимальных параметров системы.

Работа выполнена при поддержке Министерства науки и высшего образования РФ (соглашение № 14.580.21.0009, уникальный идентификатор RFMEFI58017X0009).

Литература

1. Переходим на SSD: как строили систему хранения данных в виртуализированной среде // "Хакер" - Безопасность, разработка, DevOps URL: xakep.ru/2016/11/02/ssd-migration.

2. Трофимова П.В. СХД для потоковых данных: проблемы и решения // Storage News. 2011. № 2 (46). С. 23-25.

3. Пономарев В. А., Питухин Е.А. Концептуальная модель функционирования системы хранения данных на основе твердотельных накопителей с технологией дедупликации // Инженерный вестник Дона, 2019, №5. URL: ivdon.ru/ru/magazine/archive/N5y2019/5905.

4. Каретник В.О. Статистический анализ информационных сетей // Вестник ТГЭУ. 2008. №4 (48) . С. 21-30.

5. William J. Reed et al., «The Double Pareto-Lognormal Distribution - A New Parametric Model for Size Distributions», Communications in Statistics: Theory and Methods 33(8), 1733-1753, 2004 p 18 et seq.

6. Атрощенко В. А., Тымчук А.И. К вопросу выбора наилучшего уровня RAID для хранилищ данных информационной системы, обеспечивающей быструю обработку больших данных // Современные наукоёмкие технологии. 2017. № 4. С. 12-16.

7. Understanding RAID Penalty // Theithollow.com. URL: theithollow.com/2012/03/21/understanding-raid-penalty.

8. Степович-Цветкова Г.С. Оценка надежности программного обеспечения посредством применения функционального подхода //

ivdon.ru/ru/magazine/archive/n3y2015/3206.

9. Наумов А.А., Айдинян А.Р. Надежность программного обеспечения и методы ее повышения // Инженерный вестник Дона, 2018, №2. URL: ivdon.ru/ru/magazine/archive/N2y2018/4946.

10. Афонин И. Надёжность избыточных дисковых массивов // Современные технологии автоматизации. М.: №3. 2019. С. 94-103.

11. Ivanichkina, L.V., Neporada A.P. The reliability model of a distributed data storage in case of explicit and latent disk faults. Journal of Engineering and Applied Sciences. 2015, Vol.10, №20, pp. 9713-9724.

12. Muntz R. R. and Lui J. C. S. Performance Analysis of Disk Arrays under Failure. In Proc. of VLDB, Aug 1990. pp. 162-173.

13. Schulze M., Gibson G., Katz R. and Patterson D. A. How reliable is a RAID? Digest of Papers. COMPCON Spring 89. Thirty-Fourth IEEE Computer Society International Conference: Intellectual Leverage, San Francisco, CA, USA, 1989, pp.118-123.

14. Li, Yongkun & Lee, Patrick & Lui, John C.s. (2013). Stochastic Analysis on RAID Reliability for Solid-State Drives. Proceedings of the IEEE Symposium on Reliable Distributed Systems. 10.1109/SRDS.2013.16.

15. Рахман П.А., Каяшев А.И., Шарипов М.И. Модель надежности отказоустойчивых систем хранения данных // Вестник Уфимского государственного авиационного технического университета. 2015. Т. 19. № 1

Инженерный

вестник

Дона, 2015, №3. URL:

(67). С. 155-166.

16. Рахман П.А., Муравьева Е.А. Марковские модели надежности каскадных дисковых массивов RAID-01 и RAID-10 // Вестник молодого ученого УГНТУ. 2015. № 1 (1). С. 52-60.

References

1. Perekhodim na SSD: kak stroili sistemu hraneniya dannyh v virtualizirovannoj srede [Go to the SSD: how to build a storage system in a virtualized environment]. URL: xakep.ru/2016/11/02/ssd-migration.

2. Trofimova P.V. Storage News. 2011. № 2 (46). pp. 23-25.

3. Ponomarev V.A., Pitukhin E.A. Inzenernyj vestnik Dona (Rus), 2019, №5. URL: ivdon.ru/ru/magazine/archive/N5y2019/5905.

4. Karetnik V.O. Vestnik TGJeU (Rus) [Bulletin TGJeU], 2008, №4 (48). pp. 21-30.

5. William J. Reed et al., «The Double Pareto-Lognormal Distribution — A New Parametric Model for Size Distributions», Communications in Statistics: Theory and Methods 33(8), 1733-1753, 2004 p.18 et seq.

6. Atroshhenko V.A., Tymchuk A.I. Sovremennye naukojomkie tehnologii(Rus) [Modern high technologies]. 2017. № 4. pp. 12-16.

7. Understanding RAID Penalty. Theithollow.com URL: theithollow.com/2012/03/21/understanding-raid-penalty.

8. Stepovich-Tsvetkova G. S. Inzenernyj vestnik Dona (Rus), 2015, №3. URL: ivdon.ru/ru/magazine/archive/n3y2015/3206.

9. Naumov A.A., Aidinian A.R. Inzenernyj vestnik Dona (Rus), 2018, №2. URL: ivdon.ru/ru/magazine/archive/N2y2018/4946.

10. Afonin I. Sovremennye tehnologii avtomatizacii [Modern automation technology]. Moscow. №3. 2019. pp. 94-103.

11. Ivanichkina, L.V., Neporada A.P. Journal of Engineering and Applied Sciences. 2015, Vol.10, №20, pp. 9713-9724.

12. Muntz R. R. and Lui J. C. S. Performance Analysis of Disk Arrays under Failure. In Proc. of VLDB, Aug 1990. pp. 162-173.

13. Schulze M., Gibson G., Katz R. and Patterson D. A. How reliable is a RAID? Digest of Papers. COMPCON Spring 89. Thirty-Fourth IEEE Computer Society International Conference: Intellectual Leverage, San Francisco, CA, USA, 1989, pp.118-123.

14. Li, Yongkun & Lee, Patrick & Lui, John C.s. (2013). Proceedings of the IEEE Symposium on Reliable Distributed Systems. 10.1109/SRDS.2013.16.

15. Rahman P.A., Kajashev A.I., Sharipov M.I. Vestnik Ufimskogo gosudarstvennogo aviacionnogo tehnicheskogo universiteta. 2015. T. 19. № 1 (67). pp.155-166.

16. Rahman P.A., Murav'eva E.A. Vestnik molodogo uchenogo UGNTU. 2015. № 1 (1). pp. 52-60.

i Надоели баннеры? Вы всегда можете отключить рекламу.