Научная статья на тему 'Модель надежности дисковых массивов RAID-6 с двойной избыточностью'

Модель надежности дисковых массивов RAID-6 с двойной избыточностью Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
104
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИЗБЫТОЧНЫЙ ДИСКОВЫЙ МАССИВ / СРЕДНЕЕ ВРЕМЯ НАРАБОТКИ ДО ОТКАЗА / ЦЕПЬ МАРКОВА / REDUNDANT DISK ARRAY / MEAN TIME TO FAILURE / MARKOV CHAIN

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рахман П.А.

Рассматриваются марковская модель надежности дисковых массивов с двойной избыточностью, формула для расчета среднего времени наработки до отказа дискового массива, а также пример расчета.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модель надежности дисковых массивов RAID-6 с двойной избыточностью»

Рахман П.А. ©

К.т.н., доцент кафедры автоматизированных технологических и информационных систем, Уфимский государственный нефтяной технический университет, филиал в г. Стерлитамаке

МОДЕЛЬ НАДЕЖНОСТИ ДИСКОВЫХ МАССИВОВ RAID-6 С ДВОЙНОЙ ИЗБЫТОЧНОСТЬЮ

Аннотация

Рассматриваются марковская модель надежности дисковых массивов с двойной избыточностью, формула для расчета среднего времени наработки до отказа дискового массива, а также пример расчета.

Ключевые слова: избыточный дисковый массив, среднее время наработки до отказа, цепь Маркова.

Keywords: redundant disk array, mean time to failure, Markov chain.

В последние три десятилетия наблюдается бурное развитие информационных технологий и их внедрение в самые различные сферы деятельности человека, и информация, представленная в электронном виде, стала ключевой частью жизни и работы не только организаций, но и каждого отдельного человека. Более того, сохранность и доступность информации для ее пользователей, как правило, имеет критическую важность, а потеря данных нередко может приводить к катастрофическим последствиям.

В такой ситуации анализ показателей надежности систем [1, 2], в частности дисковых массивов, имеет достаточно высокую актуальность, особенно для предприятий среднего и крупного масштабов, поскольку такой анализ также позволяет косвенно оценивать риски потери данных и принимать соответствующие управленческие решения, и при необходимости внедрять дополнительные технические средства защиты информации.

В рамках научной деятельности [3-8] автором исследовались показатели надежности современных систем передачи, обработки и хранения данных, в частности показатели надежности избыточных дисковых массивов с чередованием данных RATD-6. В результате была выведена формула для оценки среднего время наработки до отказа дискового массива RATD-6.

Массив RATD-6 состоит из n > 4 независимых дисков одинаковой емкости и сохраняет работоспособность при отказе не более двух (любых) дисков. Массив RATD-6 является компромиссом между отказоустойчивостью и избыточностью. На каждом из дисков 2 / n часть дискового пространства отводится для хранения избыточной (контрольной) информации, вычисляемой по пользовательским данным, хранящимся на других дисках. Это позволяет в случае отказа любого одного или двух дисков вычислять недостающую информацию по пользовательским данным и контрольной информации, хранящимся на оставшихся дисках.

При отказе любых трех дисков, равно как и при отказе любого третьего диска до того, как произойдет замена и полное восстановление одного из двух ранее отказавших других дисков, все пользовательские данные всего массива теряются. Полезная емкость массива составляет (n - 2) / n часть от суммарной емкости дисков.

Перейдем теперь к рассмотрению марковской модели надежности дискового массива RATD-6.

Массив RATD-6 может находиться в одном из трех состояний:

• Состояние 0 - все диски исправны, массив работоспособен и пользовательские данные доступны.

© Рахман П.А., 2015 г.

• Состояние 1 - один из дисков неисправен, ожидает замены и завершения репликация данных после замены, массив работоспособен за счет оставшихся n - 1 дисков, пользовательские данные доступны.

• Состояние 2 - два диска неисправны, ожидают замены и завершения репликация данных после замены, массив работоспособен за счет оставшихся n - 2 дисков, пользовательские данные доступны.

• Состояние 3 - массив неработоспособен и данные недоступны.

Интенсивность отказов дисков X. Диски могут отказывать независимо друг от друга. Кроме того, пусть при отказе одного или двух дисков, помимо базовой интенсивности отказов становится существенной интенсивность ошибок чтения S диска, поскольку для расчета «недостающей» информации требуются чтение данных со всех оставшихся n - 1 или n - 2 дисков.

Интенсивность регенерация информации (процедура rebuild) на замененном диске за счет избыточных данных составляет ^. Будем считать, что время замены отказавшего диска

несущественно по сравнению со временем регенерации информации за счет использования технологии автоматической горячей замены дисков (hot-spare).

Также будем считать, что после отказа и замены двух дисков информация на замененных дисках регенерируется последовательно - сначала регенерируется информация на одном диске, после завершения регенерации начинается регенерация на втором диске.

Кроме того, пусть в системе возможны критические виды ошибок контроллера дискового массива, которые переводят систему из любого работоспособного состояния напрямую в неработоспособное состояние. Интенсивность критических ошибок контроллера

О. Более того, при отказе одного или двух дисков, на контроллер ложится дополнительная нагрузка в силу необходимости расчета недостающей информации и регенерации данных на замененных дисках, и к базовой интенсивности ошибок добавляется дополнительная интенсивность 5.

Тогда с учетом всего вышесказанного модель надежности избыточного дискового массива RATD-6 выглядит следующим образом (рис. 1):

Соответственно, система дифференциальных уравнений Колмогорова-Чепмена для этой цепи выглядит следующим образом:

P0(0) = 1; P(0) = 0; P2(0) = 0; P3(0) = 0;

P0(t) + P1(t) + P2(t) + P3(t) = 1;

dp0(t)

dt

-(nX + o)P0(t) + цPi(t);

dP^ = nXP0 (t) - (ц + (n - 1)(X + e) + о + 5) P (t) + ^P2 (t);

dt 0 1 2

dP^ = (n - 1)(X + e) P (t) - (ц + (n - 2)(X + e) + о + 5)P2 (t); dt 1 2

= oP„(t) + (о + 5)P(t) + ((n - 2)(1 + e) + о+S)P2(t). dt

(1)

Где, X - интенсивность отказов дисков, e - добавочная интенсивность ошибок в режиме чтения данных для восстановления информации на замененных дисках, ц -интенсивность восстановления дисков, n - общее количество дисков, о - интенсивность ошибок контроллера дискового массива, 5 - дополнительная интенсивность ошибок контроллера при регенерации данных после замены отказавшего диска.

Учитывая, что состояние 0 является начальным, а состояние 3 - финальным неработоспособным, при которых теряются все данные, автором была выведена расчетная формула для оценки среднего времени наработки до отказа массива RATD-6 с потерей всех

данных T = | (P0 (t) + P1 (t) + P2 (t))dt:

0

ц(ц + nX + о + 5) + (ц + (2n - 1)X + (n - 1)e+ о + 5) x T = x ((n - 2)(X + e) + о + 5) + n(n - 1)X (X + e) (2)

ц(цо + (nX + о)(о + 5)) + (цо + (nX + о) x x ((n - 1)(X + e) + о + 5))(( n - 2)(X + e) + о + 5)

В частности, для массива RATD-6 состоящего из n = 6 дисков, интенсивностью отказов дисков X = 1/120000 час-1, добавочной интенсивностью ошибок чтения данных e = 1/300 час-1, интенсивностью восстановления ц = 1/24 час-1, интенсивностью критических ошибок контроллера о = 1/1200000 час-1 и дополнительная интенсивность ошибок контроллера 5 = 1/1200000 час-1 была получена следующая оценка средней наработки до потери данных:

T = 189916 часов.

Полученные автором теоретические результаты использовались в многолетней практике проектирования и эксплуатации систем хранения, обработки и передачи данных НИУ МЭИ (ТУ), Балаковской АЭС, ОАО «Красный Пролетарий» и ряда других предприятий.

Литература

1. Черкесов Г. Н. Надежность аппаратно-програм—мных комплексов. - СПб.: Питер, 2005.

2. Половко А. М., Гуров С. В. Основы теории надежности. 2-е изд. - СПб.: БХВ-Петербург, 2006.

3. Рахман П.А., Каяшев А.И., Шарипов М.И. Анализ показателей надежности избыточных дисковых массивов // Вестник УГАТУ: научный журнал УГАТУ, 2013. - Т. 17 - № 2 (55) - С. 163-170.

4. Рахман П.А., Каяшев А.И., Шарипов М.И. Анализ показателей надежности локальных компьютерных сетей // Вестник УГАТУ: научный журнал УГАТУ, 2013. - Т. 17 - № 5 (58) - С. 140-149.

5. Рахман П.А., Каяшев А.И., Шарипов М.И. Анализ показателей надежности двухуровневых магистральных сетей // Вестник УГАТУ: научный журнал УГАТУ, 2014. - Т. 18 - № 2 (63) - С. 197-207.

6. Рахман П.А., Каяшев А.И., Шарипов М.И. Модель надежности отказоустойчивой пограничной маршрутизации с двумя Интернет-провайдерами // Вестник УГАТУ: научный журнал УГАТУ, 2015. - Т. 19 - № 1 (67) - С. 131-139.

7. Рахман П.А., Каяшев А.И., Шарипов М.И. Марковская цепь гибели размножения в моделях надежности технических систем // Вестник УГАТУ: научный журнал УГАТУ, 2015. - Т. 19 - № 1 (67) - С. 140-154.

8. Рахман П.А., Каяшев А.И., Шарипов М.И. Модель надежности отказоустойчивых систем хранения данных // Вестник УГАТУ: научный журнал УГАТУ, 2015. - Т. 19 - № 1 (67) - С. 155166.

i Надоели баннеры? Вы всегда можете отключить рекламу.