УДК 004.042
Приданова Екатерина Вадимовна,
студент ФГАОУ ВО "СПбПУ", Успенский Михаил Борисович, ведущий программист НИЛ АСПОД, ОНТИ, ФГАОУ ВО "СПбПУ", Ицыксон Владимир Михайлович, заведующий кафедрой КСПТ, ИКНТ, ФГАОУ ВО "СПбПУ".
МОНИТОРИНГ И АНАЛИЗ ПАРАМЕТРОВ СИСТЕМЫ
ХРАНЕНИЯ ДАННЫХ ДЛЯ ОЦЕНКИ ЕЕ СОСТОЯНИЯ
Санкт-Петербург, Санкт-Петербургский политехнический университет Петра Великого, ул. Политехническая, д. 29.
[email protected], [email protected],
Аннотация. Система хранения данных - это соединение программного обеспечения и специализированного оборудования для хранения и передачи информации больших объемов. Сбои таких систем достаточно дорого стоят для компаний, использующих их, поэтому планируется разработка аппаратно-программного комплекса для прогнозирования сбоев с целью предотвращения критических ситуаций. В данной статье описан процесс организации мониторинга типовой системы хранения данных на примере СКЦ "Политехнический". Данный процесс был разбит на пять этапов - постановка задачи; описание исходных данных; анализ журналов системы мониторинга системы хранения данных; классификация полученных сбоев, отказов и критических состояний; описание выводов по полученным результатам, описание возможности применения на других нетиповых системах хранения данных. В статье представлено описание каждого из этапов, а также представлены перспективы использования результатов в дальнейших исследованиях при разработке программного обеспечения для систем хранения данных.
Ключевые слова: система хранения данных, моделирование технической системы, мониторинг состояния технической системы, анализ данных, предсказание сбоев системы.
Ekaterina V. Pridanova,
Student of SPbSTU, Michail B. Uspenskiy, Lead Developer of SPbSTU Laboratory «Algorithms and Systems Of Streaming Data Processing»,
Vladimir M. Itsykson, Head of SPbSTU Departament "Network technologies and computer simulation"
MONITORING AND PARAMETERS ANALYSIS OF DATA STORAGE SYSTEM FOR ESTIMATING ITS CONDITION
St. Petersburg, Peter the Great St. Petersburg Polytechnic University (SPbSTU), Polytechnicheskaya str., b. 29.
[email protected], [email protected],
Abstract. A data storage system is a combination of software and specialized equipment for storing and transmitting large amounts of information. Failures of such systems are quite expensive for companies that use them, so hardware-software complex was developed for predicting failures in order to prevent critical situations. This article describes the organizing process of typical data storage system monitoring in case of supercomputer in Saint Petersburg State Polytechnical University. This process was divided into five stages - formulating the goal; description of the source data; analysis of the data storage system monitoring logs; classification of failures and critical conditions; a description of the results and the applicability of other storage systems. The article presents a description of each of the stages, and also presents prospects for the use of the results in further research in the development of software for data storage systems.
Keywords: data storage system, technical systems modeling, condition monitoring of technical systems, data analysis, system failure prediction.
Введение
Развитие техники и технологий в современном мире заставляет оперировать нас с огромным объемом данных, причем этот объем стремительно растет. Очевидно, что эти объемы данных должны собираться, храниться и обрабатываться на устройствах, которые будут достаточно надежны, то есть смогут оставаться работоспособными в любых ситуациях. Для решения данной проблемы были разработаны системы хранения данных [1].
Современные системы хранения данных являются совокупностью аппаратных и программных комплексов, которые используются для специализированной работы с данными. Сами по себе такие системы достаточно дороги, и позволить себе работу с ними могут только крупные компании [2]. Также, из дороговизны систем следует, то что стоимость определения условий, при которых система может работать достаточно высока.
Методы, которые могут быть использованы для увеличения аппаратной надежности, достаточно широко известны. Самым известным вариантом является резервирование, именно оно позволяет сделать системы хранения более отказоустойчивыми при возникновении сбоев внутренних компонентов, таких как блоки питания, диски,
процессоры. Резервирование, главным образом, используется для обеспечения возможности оперативной идентификации сбоев системы хранения данных и ее перехода к работе с резервным оборудованием, являющимся аналогом вышедшего из строя компонента. Стоит заметить, что для резервирования, например, блоков питания программной поддержки не требуется, однако для дисковых накопителей или контроллеров программное обеспечение приходится менять. В результате решение становится не универсальным.
Для экономии средств при разработке комплекса моделей и алгоритмов прогнозирования сбоев в работе систем хранения данных с целью предотвращения критических ситуаций было решено разработать системно-динамическую модель системы ввиду необходимости обеспечения ее надежности, а также дороговизны экспериментов на самой системе хранения данных [3].
В рамках выполнения ПНИЭР по соглашению о предоставлении субсидии между ФГАОУ ВО "СПбПУ" и Министерством образования и науки Российской Федерации № 14.581.21.0023 от 03 октября 2017 г., уникальный идентификатор - ЯРМЕР158117Х0023, был проведен анализ сбоев и критических ситуаций результатов мониторинга системы хранения данных в суперкомпьютерном центре «Политехнический».
Материал и методика исследований
Стоит заметить, что данный суперкомпьютер является типовой промышленной системой хранения данных, которая использует типовую систему мониторинга сбоев, отказов и критических ситуаций, анализ данных.
Анализ данных о параметрах и состояниях о параметрах системы был разделен на ряд этапов, далее будет дано краткое описание каждого из них.
1. Постановка задачи.
Задача - анализ сбоев и критических ситуаций в работе типовой системы хранения данных с учетом условий окружающей среды с целью анализа штатной системы мониторинга системы хранения данных и ее применимости для оценки возможных внештатных ситуаций.
2. Описание исходных данных.
Для последующего анализа был определен перечень данных, который значим для последующего анализа текущей ситуации:
a. описание архитектуры системы хранения данных.
b. описание файловой системы, установленной на системе хранения
данных.
c. описание штатной системы мониторинга системы хранения данных и её функций.
В данной системе хранения данных используется архитектура CLUSTERSTOR TM6000, включающая включает 6 дисковых полок (SSU) с 12 серверами. В качестве файловой системы применяется LustreFS - распределённая файловая система массового параллелизма, используемая обычно для крупномасштабных кластерных вычислений.
В СХД ClusterStor TM6000, расположенной в СКЦ СПбПУ используется модифицированная система мониторинга icinga. Одной из отличительных особенностей последней версии Icinga является наличие реализации REST API для управления системой, получением информации о состоянии устройств и сервисов или отправки информации в саму систему.
d. описание климатических условий функционирования системы хранения данных.
Для анализа климатических условий функционирования системы хранения данных был установлен ряд датчиков для сбора информации о температуре в четырех разных местах, влажности, вибрации, давлению. Система сбора и визуализации этих параметров представлена на рисунках 1, 2, на рисунке 1 - показания на текущий момент, на рисунке 2 - история наблюдений этих показателей.
Текущие значения
Температура 1 Температура? ТемператураЗ Температура*!
27.7 °С 26.9 °С 21.3 °С 22.3 °С
A iuiLiU к LA
Вибрация Давление Влажность
2 Дб 754 мм. рт. ст. 19.9%
Рис. 1. Показания датчиков мониторинга климатических условий на текущий момент
а) датчик температуры 1
Ь) датчик температуры 2
с) датчик температуры 3
ф датчик температуры 4
е) датчик атмосферного давления
1) датчик вибрации
§) датчик измерения относительной влажности
Рис. 2. История наблюдения климатических условий СХД "Политехнический"
Анализ журналов системы мониторинга системы хранения данных.
Данный этап был разделен на два подэтапа, их описание представлено ниже.
e. Предварительная обработка и преобразование журналов системы мониторинга для проведения их анализа.
Для этого были получены журналы мониторинга, сформированные в процессе функционирования системы хранения данных с момента её развертывания. Предварительная программная обработка полученных журналов позволила сформировать на их основании протоколы мониторинга (листинги мониторинга). Таким образом, строки хранились в следующем виде
[1472943600] CURRENT SERVICE STATE: stor01;RAM usage;OK;HARD;1;OK - 8.1% (2633456 kB) used.
[1472943600] CURRENT SERVICE STATE: stor01;Swap Us-age;OK;HARD;1;SWAP OK - 100% free (31999 MB out of 31999 MB).
f. Описание подходов анализа журналов системы мониторинга системы хранения данных.
Для анализа массива журналов были применены два подхода:
• Автоматический - определение лексикографического расстояния (или расстояния Левенштейна - минимального количества операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую) между отдельными строками журнала.
• Автоматизированный - построение полного массива отдельных строк, выделение из них всех «подозрительных», т.е. содержащих слова типа Error, Critical, Warning, Fail и т.д., и выделение их, и соответствующих им журналов в группы.
Для реализации вышеописанной стратегии было разработано программное обеспечение на языке Python, выполняющее данные действия.
3. Анализ результатов разбора журналов и классификация полученных сбоев, отказов и критических состояний.
Анализ осуществлялся путем получения экспертного мнения на основании визуализации информации, полученной в результате каждого из подходов, указанных выше, в виде гистограмм с частотами возникновения ошибок в зависимости от определенных событий. Пример, гистограмм для анализа представлен на рисунке 3.
О 5 10 15 М И $
Рмопршм
Рис. 3. Частота возникновения ошибки "недоступность одного из контроллеров системы", распределенная по контроллерам системы хранения данных
4. Описание выводов по полученным результатам, описание возможности применения на других нетиповых системах хранения данных.
По результатам мониторинга была сформулирована следующая классификация сбоев, отказов и критических ситуаций в системах хранения данных:
• сбои и отказы в локальной сети управления;
• сбои и отказы оборудования контроллеров хранения, серверов метаданных и дисковых шасси;
• сбои и отказы файловой системы носителей информации;
• сбои и отказы по вине внешних факторов;
• сбои, отказы и критические ситуации с системным программным
обеспечением системы хранения данных.
Заключение
По гистограммам частотности ошибок можно сделать некоторые теоретические предположения о взаимосвязи и возможной корреляции некоторых видов ошибок, а также сделать предположения о наличии ошибок в элементах, явным образом не упомянутых в сообщениях журнала системы мониторинга.
Например, ошибка "не смонтирована файловая система" в том или ином виде случается у всех контроллеров СХД, кроме одного контроллера хранения. Это может быть связано с тем, что именно этот контроллер ведущий, и именно к нему подключаются файловые системы прочих контроллеров.
Многие внештатные ситуации повторялись только в определенный год или два, из чего можно предположить, что они связаны, скорее всего, с какими-либо проблемами конфигурации или настройки системы и были в дальнейшем устранены. Тем не менее, исключать их из рассмотрения некорректно, так как, например, одна из таких ошибок указывает на теоретически повторяющуюся проблему - выход из строя системы охлаждения СХД.
В качестве перспективного направления для исследований может быть определение того, как различные климатические условия, такие как температура, влажность, вибрация и прочие параметры окружающей среды могут коррелировать со сбоями в системе хранения данных.
Список литературы
1. IDC says big data spending to hit $48.6 billion in 2019, 2018 // CIO's blog. URL: https://www.cio.com/article/3004512/big-data/idc-predicts-big-data-spending-to-reach-48-6-billion-in-2019.html (дата обращения - 02.02.2019)
2. Магия технологий. Как вдвое снизить расходы на хранение данных. [Электронный ресурс]. URL: https://finovosti.ru/news/tekhnologii/magiya-tekhnologiy-kak-vdvoe-snizit-raskhody-na-khranenie-dannykh/ (дата обращения: 02.02.2019).
3. Болсуновская М.В., Приданова Е.В., Лексашов А.В. Применение системно-динамического моделирования для оценки функционирования систем хранения данных // Системный анализ в проектировании и управлении, SAEC-2018, 2018. С. 246-250.