УДК 004.083.72
Р.И. Насыров, старший преподаватель кафедры экономики предприятий и организаций, ФГАОУ ВО «Казанский (Приволжский) федеральный университет», Набережночелнинский институт (филиал) e-mail: [email protected]
И.Н. Насыров, доктор экономических наук, доцент, профессор кафедры экономики предприятий и организаций, ФГАОУ ВО «Казанский (Приволжский) федеральный университет», Набережночелнинский институт (филиал) e-mail: [email protected]
ПАРАМЕТРЫ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ПРОГНОЗИРОВАНИЯ НАДЕЖНОСТИ НАКОПИТЕЛЕЙ ИНФОРМАЦИИ В КРУПНЫХ DATA-ЦЕНТРАХ
В крупных data-центрах статистически можно установить среднее число ежедневно выходящих из строя накопителей информации, но спрогнозировать какие конкретно из них сломаются - нельзя. Предлагается сформулировать на базе нескольких параметров надежности математические модели, позволяющие прогнозировать отказы. Целью исследования является обоснование выбора параметров, подходящих для моделей прогнозирования надежности накопителей информации. Объектом исследования является один из крупнейших в мире data-центров компании Backblaze. Предметом исследования -надежность применяемых в нем накопителей информации на жестких дисках. Методом исследования служит анализ SMART-данных накопителей, приведенных на сайте компании. В результате получено, что наиболее подходящими для математических моделей прогнозирования надежности как магнитных на жестких дисках, так и твердотельных накопителей информации являются параметры 1, 5 и 197. Параметр 1Raw read error rate, который отображает скорость изменения измеряемых данных, предложено использовать как индикатор: если значение выше нуля, то есть опасность выхода накопителя из строя. Для параметра 5 Reallocated sectors count характерной чертой является ступенчатость изменения его значений. Наилучшей математической моделью прогнозирования в подобных случаях является линейная экстраполяция. Для параметра 197 Current pending sector count характер изменения гораздо сложнее: есть ступенчатые скачки, плоские участки, острые максимумы, резкие спады. Для прогнозирования подобных зависимостей наиболее подходящей является нейронная сеть с общей регрессией. Перспектива дальнейших исследований заключается в реализации математических моделей в виде программы многопараметрического прогнозирования надежности накопителей информации для крупных data-центров.
Ключевые слова: информация, накопитель, жесткий диск, надежность, прогнозирование, параметр.
При работе крупных data-центров каждый день несколько накопителей информации выходят из строя. Методами статистики можно заранее установить только среднее число отказавших накопителей. А для прогнозирования того, какие конкретно из них сломаются, необходимы специальные математические модели, которые предлагается сформулировать на базе одного или нескольких параметров надежности.
Целью настоящего исследования является обоснование выбора подобных параметров, подходящих для моделей прогнозирования надежности накопителей информации.
Объектом исследования является один из крупнейших в мире data-центров компании Backblaze. Предметом исследования - надежность применяемых в нем накопителей информации на жестких дисках. Способом исследования служит анализ SMART-данных накопителей, приведенных на сайте компании [6].
Ежедневная запись данных компанией велась не по всем, а сначала только по 40 в 2013-14 годах, затем начиная с 2015 года по 45 параметрам SMART с номерами 1-5, 7-13, 15, 22, 183, 184, 187-201, 220,
222-226, 240-242, 250-252, 254, 255 (в 2015 году добавили 22, 220, 222, 224, 226). Рассмотрено 92530 накопителей 93 моделей шести торговых марок HGST (Hitachi Global Storage Technologies), Hitachi (позднее HGST), Samsung, ST (Seagate), Toshiba, WDC (Western Digital) за период с 10 апреля 2013 г. по 31 декабря 2016 г. (1362 дня), из которых на конец исследуемого периода продолжали нормально работать 73586 шт. (79,53 %), были досрочно сняты с эксплуатации 13694 шт. (14,80 %), отказали 5250 шт. (5,67 %).
Для отбора подходящих для математических моделей параметров использовались следующие условия:
1) количество нормально работающих накопителей, имеющих значение параметра в диапазоне больших величин, должно быть всегда меньше (для времени эксплуатации - всегда больше), чем отказавших;
2) для больших значений параметров должна соблюдаться монотонность изменения количества накопителей в ряду: нормально работающие, снятые досрочно, отказавшие;
3) первые два условия должны выполняться как в общем, так и в частности, например, для накопителей каждой торговой марки отдельно.
Одним из главных параметров надежности накопителей информации по паспорту является MTBF (англ. Mean time between failures -среднее время между отказами, наработка на
отказ) - среднее время между возникновениями отказов [1, 5, 8]. Единица размерности - час. При рассмотрении SMART-данных получено, что параметр 9 Power-on hours (число часов, проведенных во включенном состоянии) достаточно хорошо соответствует указанным выше условиям (рисунок 1).
g 50000 « 40000
QJ
ч
g 30000 | 20000 К 10000
-г-
И норма Идосрочно Иотказ
о о о о о о о
-Н о о о о о о
-Н о о о о о
о о о о
-Н о о о
.-н О О
-Н о
Значение параметра, ед.
о о
о о
о о
о о
о о
о о
о о
о о
-Н о
Рисунок 1. Количество накопителей, имеющих значение SMART-параметра 9 Power-on hours в определенном диапазоне: нормально работающих (слева в каждой группе), снятых досрочно (посередине), отказавших (справа)
В рамках собственных исследований специалистами Backblaze было предложено использовать для прогнозирования SMART-параметры 5, 187, 188, 197, 198, а использование параметров 1 и 12 не рекомендовано [4, 7]. Выполненное нами исследование показало, что параметры 5 Reallocated sectors count (число операций переназначения секторов) и 197 Current pending sector count (число секторов, являющихся кандидатами
на замену) в наилучшей форме соответствуют предъявленным для математических моделей прогнозирования надежности условиям (рисунки 2 и 3). Необходимо обратить внимание, что здесь и далее вертикальная ось усечена, а количество накопителей с нулевыми значениями параметра приведено цифрами: нормально работающих (вверху), снятых досрочно (посередине), отказавших (снизу).
О ' СЧ С*}
ооооооооо оооооооо -НООООООО .-I о о о о о о -Н о о о о о -н о о о о
о О О о О
Значение параметра, ед. —1
Рисунок 2. Количество накопителей, имеющих значение SMART-параметра 5 Reallocated sectors count в определенном диапазоне: нормально работающих (слева в каждой группе), снятых досрочно (посередине), отказавших (справа)
Параметр 198 (рисунок 4) Offline uncorrectable sector count (число не корректируемых средствами диска секторов) в точности повторяет 197 за исключением двух старых моделей WDC WD10EADS и WDC WD10EADX емкостью 1 ТБ и тех случаев, где данные по нему отсутствуют. По этой причине его не рассматриваем.
Данные по параметру 187 (рисунок 5) Reported
uncorrectable errors (ошибки, которые не могли быть восстановлены, используя методы устранения ошибки аппаратными средствами) кроме накопителей марок Samsung и ST отсутствуют у всех остальных. Поэтому этот параметр пока не рассматривается.
Данные по параметру 188 Command timeout (количество прерванных операций в связи с HDD
нсчсоичооооооооо
"OOOOOOOO "ООООООО ^Н о о о о о о -Н о о о о о —I о о о о
-Н О О О —< О О
Значение параметра, ед. ~
Рисунок 3. Количество накопителей, имеющих значение SMART-параметра 197 Current pending sector count в определенном диапазоне: нормально работающих (слева в каждой группе), снятых досрочно (посередине), отказавших (справа)
>s
О норма
досрочно
Иотказ
ооооооооо
"OOOOOOOO "ООООООО
Т-Н о о о о о о
-н о о о о о
-Н о О О О
—I о о о
—< О О
Значение параметра, ед. —
Рисунок 4. Количество накопителей, имеющих значение SMART-параметра 198 Offline uncorrectable sector count в определенном диапазоне: нормально работающих (слева в каждой группе), снятых досрочно (посередине), отказавших (справа)
на <u И
ООООООООО ^HOOOOOOOO -HOOOOOOO —I о о о о о о —< о о о о о
-Н О О О О "ООО
- о о
Значение параметра, ед. —
Рисунок 5. Количество накопителей, имеющих значение SMART-параметра 187 Reported uncorrectable errors в определенном диапазоне: нормально работающих (слева в каждой группе), снятых досрочно (посередине), отказавших (справа)
тайм-аут) кроме накопителей марок Samsung и ST также отсутствуют у всех остальных. К тому же он не удовлетворяет поставленным условиям (рисунок 6). В связи с этим такой параметр тоже не рассматривается.
Параметр 12 Power cycle count (количество полных циклов включения-выключения диска) не соответствует поставленным условиям (рисунок 7), поэтому не рассматривается, что совпадает с рекомендациями Backblaze.
Параметр 1 Raw read error rate (частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска) не соответствует поставленным условиям (рисунок 8), однако исходя из своей природы - скорости (то есть производной), он и не должен им удовлетворять. Поэтому этот параметр может быть рассмотрен в дальнейшем, хотя и вопреки рекомендациям Backblaze.
Дополнительно был изучен параметр 196
□ норма
досрочно
Еотказ
о о о о о о о -н о о о о о о -Н о о о о о —I о о о о
—■ООО -Н О О
^н О
Значение параметра, ед.
Рисунок 6. Количество накопителей, имеющих значение SMART-параметра 188 Command timeout в определенном диапазоне: нормально работающих (слева в каждой группе), снятых досрочно (посередине), отказавших (справа)
| 25000
« 20000 QJ
н
g 15000
| 10000
K 5000
rttsmwiooooooooo
-HOOOOOOOO -HOOOOOOO
—I о о о о о о
.1 о о о о о
•-I о о о о
-н о о о
-Н О О
Значение параметра, ед.
И норма И досрочно Иотказ
Рисунок 7. Количество накопителей, имеющих значение SMART-параметра 12 Power cycle count в определенном диапазоне: нормально работающих (слева в каждой группе), снятых досрочно (посередине), отказавших (справа)
н 30000 В
1Я- 25000 1 20000 I 15000
X
10000 5000
□ норма
досрочно
Иотказ
о о о о о о о
-н о о о о о о
-Н о о о о о
—I о о о о
о О О
-Н О О О
Значение параметра, ед.
Рисунок 8. Количество накопителей, имеющих значение SMART-параметра 1 Raw read error rate в определенном диапазоне: нормально работающих (слева в каждой группе), снятых досрочно (посередине), отказавших (справа)
Reallocation event count (число успешных и неуспешных операций переназначения), который оказался информативным и полезным, однако данные по нему отсутствуют у накопителей марки ST, поэтому пока приходится его не рассматривать.
Значения параметров 250-252 являются ненулевыми только для двух старых моделей накопителей ST250LT007 и ST320LT007 емкостью 0,25 и 0,32 ТБ, соответственно, в связи с чем они не рассматриваются.
Таким образом, для математических моделей прогнозирования надежности накопителей информации в крупных data-центрах предлагается использовать SMART-параметры 1, 5, 9, 197. Их достоинством является наличие значений параметров практически всегда для всех марок накопителей, даже тогда когда данные по другим параметрам отсутствуют.
Чтобы понять характер изменения параметров обратимся к практическому примеру. На рисунке
9 приведены параметры 1, 5 и 197 в зависимости от времени эксплуатации конкретного накопителя
торговой марки Toshiba. В конце указанного периода произошел его отказ.
га
£ № СО
70 60 50 40 30 20 10
. . «■■■ J Л ■ ЦИ
«mrtvOrt^^MoooO'tM ta^NhHiOTHiooooN^
-1 Read error rate normalized
- 5 Reallocated sectors count
• 197 Current pending sector count
Время эксплуатации, час.
Рисунок 9. Зависимость значений SMART-параметров 1 (сплошная линия), 5 (пунктир) и 197 (точки) от времени эксплуатации накопителя информации с серийным номером Z262EBNAS модели Toshiba DT01ACA300
Как видно из рисунка максимумы значений параметра 1 Raw read error rate иногда совпадают с резкими изменениями других параметров, иногда не совпадают. Другими словами, он отображает скорость изменения не только этих, но и других параметров. Поэтому пока его можно использовать только как индикатор: если значение выше нуля, то есть опасность выхода накопителя из строя.
Характерной чертой параметра 5 Reallocated sectors count является ступенчатость изменения его значений. За резким скачком следует длительный (до полугода) период стабильности. Наилучшей математической моделью прогнозирования для подобных все возрастающих ступенек из прямолинейных отрезков является линейная экстраполяция:
о=т+p{ti)~pf{ti-l)-(tM -ti)
Ч~Ч-1
где P - значение параметра; t - время эксплуатации; i - номер шага.
Для параметра 197 Current pending sector count характер изменения гораздо сложнее: есть ступенчатые скачки, плоские участки, острые максимумы, резкие спады. Для прогнозирования подобных зависимостей можно попробовать использовать в качестве математической модели нейронную сеть. Наиболее подходящей в данном случае является нейронная сеть с общей регрессией [2], которая известна своей способностью обучения в результате однократного предъявления тренировочных данных.
Если другие сети во время обучения запоминают предъявляемые примеры, постепенно подстраивая свои внутренние параметры, то сети с общей регрессией запоминают примеры в буквальном
смысле. Каждому примеру - отдельный нейрон в скрытом слое сети, а затем во время применения сеть сравнивает предъявляемый пример с примерами, которые она помнит. Смотрит, на какие из них текущий пример похож и в какой степени и на основе этого сравнения выдаст ответ [3]. В простейшем случае если сеть опирается только на информацию, содержащуюся в предыстории прогнозируемых рядов, то математически ее можно описать следующей формулой:
P{ti+1) = kQ + h -P{h) +... + к-Щ) + E(ti)
где ko, kb ... ki - подбираемые коэффициенты; E - ошибка от влияния параметров, которые не учитываются в данной математической модели. Задача заключается в том, чтобы определить k0, kb ... ki. Один из достаточно легких способов - посчитать их методом наименьших квадратов.
Еще одним аргументом в обоснование применения указанных параметров является то, что точно такие же параметры практически с тем же самым смыслом имеются в твердотельных накопителях информации [9, 10]. Поэтому никакие изменения в математические модели прогнозирования надежности вносить не надо.
Таким образом, установлено, что наиболее подходящими параметрами для математических моделей прогнозирования надежности накопителей информации, как для жестких дисков, так и для твердотельных, являются 1 Raw read error rate, 5 Reallocated sectors count, 197 Current pending sector count.
Перспектива дальнейших исследований заключается в реализации математических моделей в виде программы многопараметрического прогнозирования надежности накопителей информации для крупных data-центров.
Литература
1. Накопители для решений NAS с 1-8 отсеками [Электронный ресурс] I WD Red™. - Режим доступа: http:IIwww.wdc.com/wdproducts/libraryISpecSheetIRUSI2879-800002.pdf - (дата обращения: 22.07.2017).
2. Насыров, Р.И. Адекватность отображения нейронными сетями ступенчатой нелинейности показателя надежности накопителей информации I Р.И. Насыров II VI Камские чтения : материалы Всерос. науч.-прак. конф. студентов, аспирантов и молодых ученых. 25 апреля 2014 г., Набережные Челны I В 3-х ч. Часть 1. - Набережные Челны: НЧИ КФУ, 2014. - С. 115-118. - Режим доступа: http:IIineka.ru:778IeLibrary/2014I Камские чтения VI 2014. Часть 1.pdf - (дата обращения: 22.07.2017).
3. Насыров, Р.И. Перспективы метода нейросетевого прогнозирования надежности накопителей информации в случае ступенчатой нелинейности показателя I Р.И. Насыров, С.Н. Тимергалиев II Информационные технологии. Автоматизация. Актуализация и решение проблем подготовки высококвалифицированных кадров (ИТАП-2015) : материалы Межд. науч.-прак. конф. 17 апреля 2015 г., Набережные Челны. - Набережные Челны: НЧИ КФУ, 2015. - С. 174-179. - Режим доступа: https:IIcloud. mail.ru/publicIGKea/H6bmSNE3U - (дата обращения: 22.07.2017).
4. Beach, B. Hard Drive SMART Stats [Электронный ресурс] I B. Beach. - Режим доступа: https:IIwww. backblaze.com/blog/hard-drive-smart-statsI - (дата обращения: 22.07.2017).
5. DT01ACAxxx SERIES DESKTOP HDD [Электронный ресурс] I Toshiba. Leading Innovation. - Режим доступа: http:IItoshiba.semicon-storage.com/content/dam/toshiba-ss/asia-pacificIdocsIproduct/storageIproduct-manualIcHDD-DT01ACAxxx-Product-0verview.pdf - (дата обращения: 22.07.2017).
6. Hard Drive Data and Stats [Электронный ресурс] I Backblaze. - Режим доступа: https:IIwww.backblaze. com/b2Ihard-drive-test-data.html - (дата обращения: 22.07.2017).
7. Klein, A. What SMART Stats Tell Us About Hard Drives [Электронный ресурс] I A. Klein. - Режим доступа: https:IIwww.backblaze.com/blog/what-smart-stats-indicate-hard-drive-failuresI - (дата обращения: 22.07.2017).
8. Product Manual Barracuda [Электронный ресурс] I Seagate. - Режим доступа: http:IIwww.seagate.com/ filesIstaticfilesIsupportIdocsI100636864b.pdf - (дата обращения: 22.07.2017).
9. SMART Attribute Details [Электронный ресурс] I Kingston Technology Corporation. - Режим доступа: https:IIdrive.google.com/file/dI0B2RTg5K2_LNEZWpERlBjQ3BaM00Iview - (дата обращения: 22.07.2017).
10. Technical note: Client SATA SSD SMART Attribute Reference [Электронный ресурс] I Micron Technology, Inc. - Режим доступа: https:IIdrive.google.com/fileIdI0B2RTg5K2_LNETEF5aGhIVDgtNkUI view - (дата обращения: 22.07.2017).
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта N 16-37-00002 мол а.