Научная статья на тему 'Модель надежности каскадных дисковых массивов raid-01 с зеркалированием и чередованием данных'

Модель надежности каскадных дисковых массивов raid-01 с зеркалированием и чередованием данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
143
47
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИЗБЫТОЧНЫЙ ДИСКОВЫЙ МАССИВ / СРЕДНЕЕ ВРЕМЯ НАРАБОТКИ ДО ОТКАЗА / ЦЕПЬ МАРКОВА / REDUNDANT DISK ARRAY / MEAN TIME TO FAILURE / MARKOV CHAIN

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рахман П.А.

Рассматриваются марковская модель надежности каскадных дисковых массивов с зеркалированием и чередованием данных, формула для расчета среднего времени наработки до отказа дискового массива, а также пример расчета.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модель надежности каскадных дисковых массивов raid-01 с зеркалированием и чередованием данных»

Рахман П.А. ©

К.т.н., доцент кафедры автоматизированных технологических и информационных систем, Уфимский государственный нефтяной технический университет, филиал в г. Стерлитамаке

МОДЕЛЬ НАДЕЖНОСТИ КАСКАДНЫХ ДИСКОВЫХ МАССИВОВ RAID-01 С ЗЕРКАЛИРОВАНИЕМ И ЧЕРЕДОВАНИЕМ ДАННЫХ

Аннотация

Рассматриваются марковская модель надежности каскадных дисковых массивов с зеркалированием и чередованием данных, формула для расчета среднего времени наработки до отказа дискового массива, а также пример расчета.

Ключевые слова: избыточный дисковый массив, среднее время наработки до отказа, цепь Маркова.

Keywords: redundant disk array, mean time to failure, Markov chain.

Современный мир практически невозможно представить без технических систем, ставших неотъемлемой частью как повседневной жизни и профессиональной деятельности человека, так и ключевыми элементами различных предприятий и отраслей экономики.

Помимо функциональных возможностей и основных технических характеристик, которые в первую очередь интересуют конечных потребителей и производителей, таких как: производительность, мощность, емкость и т.п., не менее важными являются показатели надежности [1, 2], так как от них напрямую зависит эффективность и безопасность эксплуатации технических систем. Соответственно, разработка моделей и методов для расчета показателей надежности систем передачи, обработки и хранения данных является актуальной и критически важной задачей.

В рамках научной деятельности [3-8] автором исследовались показатели надежности современных систем передачи, обработки и хранения данных, в частности показатели надежности каскадных дисковых массивов RATD-01. В результате была выведена формула для оценки среднего время наработки до отказа каскадного дискового массива RATD-01.

Каскадный массив RATD-01 представляет собою массив RATD-1 с зеркалированием данных, объединяющий 2 массива RATD-0 с чередованием данных по n дисков в каждом (рис. 1). Массив RATD-01 строится из четного количества (2n) дисков.

© Рахман П.А., 2015 г.

Рис. 1. Структурная схема двухуровневого дискового массива RAID-01

В лучшем случае каскадный массив RATD-01 сохраняет работоспособность при отказах вплоть до n дисков в случае, если все они оказываются в рамках одного массива RATD-0. В таком случае только отказ n+l-го диска приведет к неизбежной потере данных, поскольку тогда уже второй массив RATD-0 также окажется разрушенным, поскольку сам по себе он не обладает никакой отказоустойчивостью. В худшем случае отказ даже двух дисков, оказавшихся в разных массивах RATD-0, приводит к потере данных. Соответственно, каскадный массив устойчив к отказу любого одного диска и к некоторым сочетаниям отказов большего числа дисков, но не более n дисков.

Рассмотрим теперь модель надежности отказоустойчивой системы хранения данных на базе каскадного массива RATD-01. Пусть задана система хранения данных на базе каскадного массива RATD-01, состоящего из 2n идентичных дисков.

Интенсивность отказов дисков составляет X. Диски могут отказывать независимо. Если система находится в состоянии 0 (все диски исправны), то отказ любого из 2n дисков приводит в состояние 1. В состоянии 1 возможен отказ любого из 2n - 1 дисков, причем отказ любого из n - 1 дисков, находящихся RATD-0 массиве, в котором содержится ранее отказавший диск, приводит систему в состояние 2, а отказ любого из n дисков, находящихся в другом RATD-0 массиве, приводят систему в аварийное состояние F. В состоянии 2 возможен отказ любого из 2n - 2 дисков, причем отказ любого из n - 2 дисков, находящихся RATD-0 массиве, в котором содержатся ранее отказавшие диски, приводит систему в состояние 3, а отказ любого из n дисков, находящихся в другом RATD-0 массиве, приводят систему в аварийное состояние F. И так далее, вплоть до состояния n. После отказа n дисков, находящихся в рамках одного массива RATD-0, система оказывается в состоянии n и все еще сохраняет работоспособность, но отказ любого из оставшихся n дисков (все они находятся в другом массиве RATD-0) приведет систему в аварийное состояние F.

При отказе дисков, находящихся в рамках одного массива RATD-0, массив RATD-1 после замены неисправных дисков запускает регенерацию информации путем простого копирования данных из второго массива RATD-0, причем считываются данные всех n дисков. Интенсивность регенерация информации на замененном диске составляет ^. Будем считать,

что время замены отказавшего диска несущественно по сравнению со временем регенерации информации за счет использования технологии автоматической горячей замены дисков (hot-spare).

Информация на дисках в рамках массива RATD-0 регенерируются параллельно в рамках единого процесса, и этот процесс завершается одновременно для всех дисков, поэтому будем упрощенно считать, что интенсивность регенерации данных во всем массиве RATD-0 также равна ^. В случае если во время регенерации отказывает очередной диск из

массива RATD-0, на котором идет регенерации информации, будем упрощенно считать, что процесс регенерации сбрасывается, и он начинается заново после замены неисправного диска. После успешного завершения процедуры регенерации система переходит в полностью исправное состояние 0.

Кроме того, пусть при регенерации информации в массиве RATD-0, на дисках второго массива RATD-0, с которых идет копирование информации, помимо базовой интенсивности отказов также становится существенной интенсивность ошибок чтения S диска, и эта интенсивность добавляется к базовой интенсивности отказов диска.

Кроме того, пусть в системе возможны критические виды ошибок RATD-контроллера, которые переводят систему из любого работоспособного состояния j = 0...n напрямую в аварийное состояние. Интенсивность критических ошибок контроллера составляет о.

Тогда с учетом всего вышесказанного марковская модель отказоустойчивой системы хранения данных на базе массива RATD-01 выглядит следующим образом (рис. 2):

Рис. 2. Граф состояний модели надежности дискового массива RAID-01.

Где, X - интенсивность отказов дисков, s - добавочная интенсивность ошибок в режиме чтения данных для восстановления информации на замененных дисках, р -интенсивность восстановления дисков, n - общее количество дисков, а - интенсивность ошибок контроллера дискового массива.

В результате аналитического решения марковской модели автором была выведена расчетная формула для оценки среднего времени наработки до отказа массива RAID-01 с потерей всех данных:

n—1 {

X Z

q=0 n—1 f

x Z

q=0

M = 1 + (р + а + n(X + s)) X __________1_________pjf 1 + р + а + n(X + s) V

((2 — min(1, q))n — q)X *=f { (n — q — j)X )y

D = а + n(X + s) + (р + а + n(X + s)) X

а + min(1,q)n(X + s) тт^ P + а + n(X + s)^ ((2 — min(1, q))n — q)X Ц [ +

T = M

0 D '

(n — q — j)X ))

(1)

В частности, для массива RAID-01 состоящего из общего числа 2n = 12 дисков, интенсивностью отказов дисков X = 1/120000 час-1, добавочной интенсивностью ошибок чтения данных s = 1/112 час-1, интенсивностью восстановления р = 1/9 час-1, интенсивностью критических ошибок контроллера а = 1/1200000 час-1 была получена следующая оценка средней наработки до потери данных:

T = 30060 часов.

Полученные автором теоретические результаты использовались в многолетней практике проектирования и эксплуатации систем хранения, обработки и передачи данных НИУ МЭИ (ТУ), Балаковской АЭС, ОАО «Красный Пролетарий» и ряда других предприятий.

Литература

1. Черкесов Г. Н. Надежность аппаратно-программных комплексов. - СПб.: Питер, 2005.

2. Половко А. М., Гуров С. В. Основы теории надежности. 2-е изд. - СПб.: БХВ-Петербург, 2006.

3. Рахман П.А., Каяшев А.И., Шарипов М.И. Анализ показателей надежности избыточных дисковых массивов // Вестник УГАТУ: научный журнал УГАТУ, 2013. - Т. 17 - № 2 (55) - С. 163-170.

4. Рахман П.А., Каяшев А.И., Шарипов М.И. Анализ показателей надежности локальных компьютерных сетей // Вестник УГАТУ: научный журнал УГАТУ, 2013. - Т. 17 - № 5 (58) - С. 140-149.

5. Рахман П.А., Каяшев А.И., Шарипов М.И. Анализ показателей надежности двухуровневых магистральных сетей // Вестник УГАТУ: научный журнал УГАТУ, 2014. - Т. 18 - № 2 (63) - С. 197-207.

6. Рахман П.А., Каяшев А.И., Шарипов М.И. Модель надежности отказоустойчивой пограничной маршрутизации с двумя Интернет-провайдерами // Вестник УГАТУ: научный журнал УГАТУ, 2015. - Т. 19 - № 1 (67) - С. 131-139.

7. Рахман П.А., Каяшев А.И., Шарипов М.И. Марковская цепь гибели размножения в моделях надежности технических систем // Вестник УГАТУ: научный журнал УГАТУ, 2015. - Т. 19 - № 1 (67) - С. 140-154.

8. Рахман П.А., Каяшев А.И., Шарипов М.И. Модель надежности отказоустойчивых систем хранения данных // Вестник УГАТУ: научный журнал УГАТУ, 2015. - Т. 19 - № 1 (67) - С. 155166.

i Надоели баннеры? Вы всегда можете отключить рекламу.