Научная статья на тему 'Оптимизация комплектов запасных частей и оборудования для центров обработки данных'

Оптимизация комплектов запасных частей и оборудования для центров обработки данных Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
1241
313
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Паньковский Б.Е.

В данной статье будут рассматриваться возможные варианты стратегий пополнений составными частями комплектов запасных частей и принадлежностей(ЗИП), наиболее частые поломки происходящие в центрах обработки данных (ЦОД), а также моделирование сервера для дальнейшей оптимизации комплекта ЗИП.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оптимизация комплектов запасных частей и оборудования для центров обработки данных»

Оптимизация комплектов запасных частей и оборудования для центров обработки данных

Паньковский Б.Е., НИУ Высшая школа экономики, МИЭМ bpankovsky@hse.ru

Аннотация

В данной статье будут рассматриваться возможные варианты стратегий пополнений составными частями комплектов запасных частей и принадлежностей(ЗИП), наиболее частые поломки происходящие в центрах обработки данных (ЦОД), а также моделирование сервера для дальнейшей оптимизации комплекта ЗИП.

1 Введение

Простой или выход из строя серверного оборудования компании, предприятия или госучреждения, может привести к различным последствиям (потере данных, убыткам), а в некоторых случаях к возможным жертвам, в случае отказа серверного оборудования в аэропортах или других крупных объектах стратегического значения.

Целью моего исследования является сравнение резервирования с комплектом ЗИП, как способ поддержания высокого уровня надежности серверного оборудования. Так же рассмотрение деталей, наиболее склонных к поломке, в центрах обработки данных. Моделирование сервера с целью оптимизации комплекта ЗИП, для выявления недостатков в существующих методах оптимизации.

В процессе написания статьи были проанализированы различия между резервированием и комплектом ЗИП, как способом поддержания высокого уровня надежности серверного оборудования. Были рассмотрены искомые детали в центрах обработки данных. Смоделирован сервер, и проведены расчеты по оптимизации.

В зависимости от целей оборудования необходим определенный уровень его надежности. Высокий уровень надежности оборудования достигается за счет множества критериев. Один из них резервирование (дублирование рабочих элементов), к примеру, при поломке источника бесперебойного питания

автоматически включается резервный источник.

Заметим разницу между резервированием и комплектом ЗИП.

2 Резервирование N+

Обозначение N подразумевает рабочие элементы системы (N выбрано от английского слова «need» - потребность).

То есть обозначение N+1 - это система с одним резервным элементом (как правило -самым критическим), N+2 - система с двумя резервными элементами, и так далее.

2N - означает полное дублирование, то есть какая бы система не отказала, для нее есть дублирующая система.

2N+1 - означает, система полностью продублирована, и дополнительно есть еще один резервный элемент.

И наконец 2(N+1) - это система с одним резервным элементом, при этом полностью продублированная.

То есть в этом случае резервные элементы уже установлены и стоят в режиме ожидания, на случай поломки или планового обслуживания основного оборудования.

Резервирование обеспечивает большую надежность за счет снижения необходимых действий, зачастую они уже исполняются автоматически, при каких-либо критических ситуациях.

Стоимость дублирования и поддержания в работоспособности оборудования, находящегося в режиме ожидания, намного выше чем хранение его на складе.

3 Комплект ЗИП

Комплект запасных частей, инструментов и принадлежностей, предназначенный для обеспечения эксплуатации (ремонта и технического обслуживания) изделий.

• Одиночный комплект ЗИП (ЗИП-О), который обеспечивает эксплуатацию одного изделия.

• Групповой комплект ЗИП (ЗИП-Г), который обеспечивает эксплуатацию группы изделий.

• Ремонтный комплект ЗИП (ЗИП РО)- комплект ЗИП, используемый для ремонта отказавших составных частей изделия в центре ремонта;

4 Стратегии пополнения запасов элементов

Любой комплект ЗИП состоит из запасов элементов различных типов. Эти запасы в зависимости от типа элементов и структуры системы ЗИП изменяются по-разному: различны как потоки заявок, поступающих в комплект ЗИП на элементы различных типов, так и стратегии пополнения запасов, т. е. правила восстановления запасов по мере их расходования.

На практике в системе обеспечения объектов запасными элементами используются следующие стратегии пополнения запасов.

Периодическое пополнение (а = 1). При периодическом пополнении запас элементов данного типа периодически, через заранее заданные фиксированные периоды пополнения восстанавливается до начального уровня. Периодическое пополнение является самой распространенной на практике стратегией пополнения для всех видов комплектов ЗИП. Стратегия периодического пополнения запаса элементов 1-го типа характеризуется одним числовым параметром Тц = Тп, где Тп это период пополнения запасов элементов данного типа.

Периодическое пополнение с экстренными доставками (а = 2). При использовании этой стратегии помимо планового периодического восстановления, происходит еще и внеплановое восстановление запаса до первоначального уровня в том случае, когда изделие простаивает из-за отсутствия запасного элемента соответствующего типа. Эта стратегия применяется только для восстановления запасов в одиночном комплекте ЗИП. Эта стратегия характеризуется двумя параметрами. Тц= Тп; Т,2 = Тэд, где ТЭД это среднее время доставки элементов источника пополнения.

Ремонт (восстановление) отказавших элементов. Одновременно с заявкой на запасной элемент сам неисправный элемент поступает в соответствующий ремонтный орган (РО), а затем после ремонта возвращается в тот запас, за счет которого удовлетворялась заявка. Роль РО следует понимать в широком смысле слова: это может

быть или групповой комплект ЗИП, или неисчерпаемый источник пополнения (в этом случае временем ремонта следует считать время доставки из источника пополнения). Формулы для расчета показателей достаточности запаса восстанавливаемых элементов существенно зависят от следующих видов пропускной способности соответствующего РО: неограниченное восстановление (а = 3) — одновременно может ремонтироваться сколько угодно элементов данного типа; полностью ограниченное восстановление (а = 4) — одновременно ремонтируется не более одного элемента данного типа. Обе эти стратегии пополнения характеризуются одним параметром Тп= Тр, где Тр это среднее время ремонта одного элемента данного типа. Ремонт отказавших элементов применяется для восстановления запасов в одиночном, групповом и ремонтном комплектах ЗИП.

Непрерывное пополнение (пополнение по уровню запаса). При использовании этой стратегии для запаса элементов данного типа фиксируется целое число к (0 < к < п/2 — 1, где п — начальный уровень запаса), и, когда запас элементов данного типа исчерпывается до уровня к, посылается заявка на поставку п — к элементов данного типа. Заявка удовлетворяется через случайное время Д При непрерывном пополнении очередная заявка может быть послана только после выполнения предыдущей, независимо от того, отказывали ли элементы данного типа в процессе удовлетворения заявки или нет. Показатели достаточности запасов элементов сильно зависят от гипотезы о распределении времени исполнения заявки на пополнение (Iд). Обычно на практике принимается один из двух вариантов распределения: tд — распределено по экспоненциальному закону (а = 5); tn — фиксировано (а = 6). Стратегия непрерывного пополнения применяется для восстановления запасов только в одиночных комплектах ЗИП и характеризуется двумя числовыми параметрами: Тц = Тд и Т,2 = к.

Наиболее часто возникающие поломки в серверной

Необходимо провести исследование, какое оборудование является наиболее уязвимым в системе.

Серверное помещение, кроме собственно вычислительного оборудования, содержит в себе совокупность инженерных систем -

каналы связи, электропитание, охлаждение, пожаротушение, контроль доступа и прочее. Неисправности могут возникать в любой из этих подсистем и быть причиной каскада неисправностей в других, зависимых подсистемах. Также немалую долю сбоев вызывает «человеческий фактор.

По данным компании ЛАНИТ, первенство по частоте поломок удерживают жесткие диски. Многолетняя статистика остальных неисправностей приведена в диаграмме (Рисунок 1).

I Жест*не диС.Ки ■ Блоки питапия

■ Материке кие платы I Модули памяти I Контролеры I Процессоры

Вентиляторы

■ CD. DVD приводы Другое

Рис. 1. Частота поломок элементов серверов, %

4.1 Жесткие диски

Выход из строя дисков в серверах и системах хранения данных могут приводить к частичной, либо полной потере данных, на них содержащихся. Выходом из данной ситуации могут служить отказоустойчивые технологии - RAID и другие.

Проблемы с жесткими дисками в серверах возникают с большей периодичностью, в отличие от остального оборудования, из-за желания сэкономить, используются жесткие диски для пользовательских компьютеров, не предназначенные для высоких нагрузок.

4.2 RAID контроллеры

Отказоустойчивость ЦОД обеспечивается за счет RAID контроллеров, но и они не на 100% надежны. Недостатком контроллеров являются большой объем и стоимость оборудования.

В то же время выход из строя хотя бы одного из массива жестких дисков RAID приводит к выходу из строя всего RAID контроллера. И случай, когда нет необходимого разъёма в ЗИП для подключения компонента, может привести к невозмож-

ности доступа к данным, находящимся на RAID контроллере.

В тоже время при правильном подборе комплектующих можно избежать подобного отказа системы.

4.3 Блоки питания и электропитание

Чаще всего поломки в серверной вызывает сбой основного электропитания (возникающий при отсутствии резервного электропитания или нехватки его мощности и времени автономной работы), который приводит к недоступности сервисов и, как правило, к выходу из строя аппаратных компонентов оборудования, иногда к выходу из строя систем полностью, если они не имеют дублирующих компонентов.

Подобного рода проблема успешно решается установкой резервных источников бесперебойного питания. По этой же причине в ЦОД и серверных используются две независимые линии питания. Если у компании очень высокие требования к работоспособности серверов - например, допустимое время простоя дата-центров для аэропортов 1 минута в год, - то используются более дорогие способы, чтобы гарантировать электроснабжение. В частности, это использование дизель-генераторной установки, или еще более радикальный метод -строительство территориально распределенных ЦОД.

В случае выхода из строя блоков питания, при наличии дублирования, проблем для сервисов не возникает. При отсутствии дублирования - проблемы схожие с предыдущим пунктом. Источники бесперебойного питания (ИБП) также могут выходить из строя, что необходимо учитывать.

4.4 Системы кондиционирования

Большое число отказов оборудования серверной приходится на кондиционеры. Это связано с их конструктивными особенностями, в частности, - с отсутствием внутреннего резервирования. Минимизировать возможные последствия их отключения можно избыточностью (дублированием) и строгим соблюдением правил монтажа и эксплуатации. Необходимо иметь в штате обученный персонал и склад запасных частей, либо договор с эксплуатирующей организацией, - что сократит время устранения неисправности.

4.5 Электронные компоненты

Платы расширения (адаптеры), системные платы, модули памяти, процессоры, трансиверы - они выходят из строя с примерно одинаковой частотой.

На стабильность их работы влияют разные факторы, такие как температура окружающей среды, пыль, влага и примеси в воздухе, электромагнитные поля, в том числе магнитное излучение Солнца, статическое электричество.

Кроме того, поломки этих компонентов нередко возникают из-за нарушений в технологических процессах их производства. Современные тенденции вынуждают производителей наращивать мощности, повышать технические показатели своей продукции. Это достигается, например, увеличением числа микрокомпонентов на единицу площади, увеличением плотности записи информации, увеличением скорости вращения шпинделей в накопителях информации и так далее. Обратной стороной этих процессов является повышение вероятности отказа компонента.

Исходя из приведенных данных следует заключить, что полностью отказоустойчивых систем нет: рано или поздно подводит любое, даже самое дорогостоящее оборудование. Поэтому немаловажное значение имеет еще и правильное проектирование информационных систем, с учетом их критичности для бизнеса и с применением передовых технологий по построению отказоустойчивых сервисов, а также технологий обеспечения целостности данных.

Обновление оборудования серверных идёт очень высокими темпами и современные модели допускают горячую замену практически любых элементов (включая модули памяти), что обеспечивает бесперебойную работу системы.

5 Моделирование серверного компонента

При оптимизации комплектов запасных частей и инструментов необходимо выбрать критерий оптимизации (объем, вес, стоимость и т.д.). Критерии оптимизации накладываются исходя из требований технического задания. Но на сегодняшний момент методы оптимизации позволяют выбрать только один критерий оптимизации, в то

время как ограничения могут накладываться сразу по нескольким критериям.

Таблица 1. Серверные компоненты

№ Необходи Цена

Наименование мое количеств о единиц ы (руб.)

1 Серверный шкаф напольный TLK CLASSIC II 19", 33U, металлическая дверь,Ш800хВ 1680хГ 1 000мм, серый(1^-338010-MMMM-GY) 1 47960,0 0

2 Вентиляторный блок для напольных шкафов всех серий, 6 вентиляторов, б/шнура питания серый (TLK-FAN6-GY) 1 9865,00

3 Набор регулируемых опор для напольных шкафов всех серий и стоек серий TRD, без поворотной основы, 4 шт. (TLK-LT4-NT) 1 576,00

4 Кабельный органайзер 19", 1U, металлические кольца, глубина колец 60мм черный(NMC-0K600-2) 1 1010,00

5 Кольца для вертикальной разводки кабельных жгутов, 60х50мм (TLK-0V-900) 4 280,00

6 Патч-панель NikoMax 19", 1U, кат. 5е, RJ45/8P8C, 110, 24 порта, T568A/B (NMC-RP24UD2-1U-BK) 1 4359,00

7 Источник бесперебойного питанияIppon Innova RT 10k 9000Вт 10000ВА 5U Online (790368) 1 182516, 00

8 Система хранения данных (СХД) HP MSA 1040 2-port Fibre Channel Dual Controller LFF Storage 3 575190, 00

9 Сервер HP DL360p Gen8 E5-2690 Perf EU Svr 4 683470, 00

1 HDD 6000GB SAS 12G 144 34709,0

0 7200rpm Hot Plug LFF 512e Midline 0

Таблица 2.1. Исходные данные

Таблица 3. Уровень запаса частей и общая стоимость комплекта запасных частей и инструментов

Исходя из критерия оптимизации, формируется определенный комплект запасных частей и инструментов, который в свою очередь будет удовлетворять одному кри-

терию, и одновременно может не удовлетворять второму.

Для иллюстрации различий между комплектами запасных частей и инструментов смоделируем сервер, который может использоваться в качестве резервного домен-контроллера или 1С-сервера (конфигурация сервера см. Таблица 1).

Выберем стратегию непрерывного пополнения, исходя из того, что заявка на пополнение формируется по каждой отказавшей составной части отдельно, а время доставки (ремонта) при этом отсчитывается от момента изъятия из комплекта ЗИП (отказа составной части в изделии) и поэтому может быть существенно меньшим, чем при периодическом пополнении.

На таблице 2.1 и 2.2 предоставлены исходные данные необходимые дальнейшему расчету.

В случае отсутствия комплекта запасных частей и инструментов среднее время задержки в удовлетворении заявки на запасную часть составляет 66 часов. Сокращение времени задержки приведет к скорейшему восстановлению неисправности в системе, что сократит время простоя системы и возможные убытки.

Снизим среднее время задержки до 22 часов с момента поступления заявки путем прямой оптимизации комплекта запасных частей и инструментов, используя методику, представленную в РД В 319.01.19-98 [2]. Проведем расчеты показателей надежности для заданных компонентов, используя исходные данные.

В результате оптимизаций по критериям (стоимость, вес, и объем) были получены 3 комплекта запасных частей и принадлежностей (см. Таблица 3).

Оптимизация цены приводит к увеличению веса комплекта.

Оптимизация веса приводит к увеличению объема, но дешевле в сравнении с результатом, полученным при оптимизации по объему.

Оптимизация объема приводит к увеличению цены, но увеличению веса в сравнении с результатом, полученным при оптимизации по весу.

5.1 Выводы

Оптимизация комплекта по одному критерию не может дать ответа, который удовлетворит все поставленные требования, в

№ кол-во интенсивность стоимость

СЧ ш, , замен сч Хз одной ЗЧ

Шт. с,, руб.

1 1 0,456621*е-5 47960,00

2 1 0, 1*е-5 9865,00

3 1 0, 228311 *е-5 576,00

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4 1 0, 15*е-5 1010,00

5 4 0, 1*е-7 280,00

6 1 0, 24*е-4 4359,00

7 1 0, 114155*е-4 182516,00

8 3 0, 5*е-5 575190,00

9 4 0, 5*е-4 683470,00

10 144 0, 150410*е-5 34709,00

Таблица 2.2. Исходные данные

первый начальный Вес, Объем, м

парамет уровень кг.

р Т,1 запаса пю

48 0 131 1,344

48 0 6,2 0,010241

48 0 0,194 0,00075

48 0 1,18 0,003121

48 0 0,085 0,000161

48 0 0,6 0,002163

48 0 81,5 0,06629568

48 0 26 0,1408704

48 0 19 0,013117159

48 0 1,36 0,009614029

№ стоимость вес объем

1 1 0 0

2 0 0 0

3 1 1 1

4 2 1 1

5 0 0 0

6 2 2 2

7 1 1 1

8 1 1 1

9 1 1 1

10 3 4 3

Цена 1555607 1590316 1604577

комплект

а, руб.

Вес 265,334 133,154 134,514

комплект

а, кг

Объем 0,2669363 1,6044433 0,2573223

комплект 57 27 27

а, м3

связи с чем необходимо создать многокритериальные методы оптимизации.

В процессе написания статьи были проанализированы различия между резервированием и комплектом ЗИП, как способом поддержания высокого уровня надежности серверного оборудования. Были рассмотрены искомые детали в центрах обработки данных. Смоделирован сервер, и проведены расчеты по оптимизации.

6 Заключение

Данная работа была нацелена на демонстрацию расчета дополнительных параметров для повышения надежности серверов и ЦОД. Расчеты этих показателей могут снизить вероятность неисправности и простоя системы, приводящих к убыткам, потери данных или отказа сервисов.

В процессе написания статьи были проанализированы различия между резервированием и комплектом ЗИП, как способом поддержания высокого уровня надежности серверного оборудования. Были рассмотрены искомые детали в центрах обработки данных.

Смоделирован сервер, и проведены расчеты по оптимизации.

Список литературы

Ушаков И.А. // Надёжность технических систем// 1985 г.

РД В 319.01.19-98. Радиоэлектронные системы военного назначения. Методика оценки и расчета запасов в комплектах ЗИП.

Официальный сайт HP // http: //www. hp.com

Reliable constructives // http://www.tlk-rc.ru

Яндекс маркет // https://market.yandex.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.