Научная статья на тему 'Модель надежности отказоустойчивого кластера с миграцией виртуальных машин'

Модель надежности отказоустойчивого кластера с миграцией виртуальных машин Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
664
115
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
виртуализация / надежность / отказоустойчивость / резервирование / кластеры / нестационарный коэффициент готовности / virtualization / reliability / fault tolerance / reservation / clusters / non-stationary availability coefficient.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — С М. Алексанков, В А. Богатырев, А Н. Деркач

Обеспечение высокой надежности, отказоустойчивости и непрерывности вычислительного процесса компьютерных систем поддерживается при объединении вычислительных ресурсов в кластеры и основывается на использовании технологии виртуализации в результате перемещения виртуальных ресурсов, служб или приложений между физическими серверами при поддержке непрерывности вычислительных процессов. В качестве объекта исследования рассматривается отказоустойчивый кластер, который в простейшем случае состоит из двух физических серверов (основного и резервного), связанных через коммутатор. В каждом сервере установлен локальный жесткий диск. На локальных дисках серверов развернута распределенная система хранения данных с синхронной репликацией данных с исходного сервера на резервный. На кластере запущена виртуальная машина. Система предполагает запуск теневой копии виртуальной машины на резервном сервере, что позволяет в случае отказа основного сервера продолжить вычислительный процесс на виртуальной машине резервного сервера. В качестве показателя надежности используются коэффициенты стационарной и нестационарной готовности. Предложена марковская модель надежности отказоустойчивого кластера, учитывающая издержки на миграцию виртуальных машин, а также механизмы, обеспечивающие непрерывность вычислительного процесса (сервиса) в кластере в случае отказа одного физического сервера. В результате миграции в памяти поддерживаются две копии виртуальной машины, расположенные на разных физических серверах, чтобы в случае отказа одного из них продолжить работу на другом. Построена упрощенная модель отказоустойчивого кластера, пренебрегающая издержками на миграцию виртуальных машин при восстановлении кластера и дающая верхнюю оценку надежности. Показано существенное влияние на надежность отказоустойчивого кластера (оцениваемую по нестационарному коэффициенту готовности) процесса миграции виртуальных машин. Полученные результаты могут быть использованы при обосновании выбора технологии обеспечения отказоустойчивости и непрерывности вычислительного процесса компьютерных систем кластерной архитектуры.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The model of fault-tolerant cluster reliability with virtual machine migration

Ensuring high reliability, fault tolerance and computing process continuity of computer systems is supported by clustering computing resources. It is based on the virtualization technology as a result of moving virtual resources, services, or applications between physical servers with the support of computing process continuity. The object of study is a fault-tolerant cluster, which in the simplest case consists of two physical servers (primary and backup) connected through a switch. Each server has a local hard disk. Server local disks have a distributed storage system with data synchronous replication from the source server to the backup server. The virtual machine is running on the cluster. The system involves running a shadow copy of the virtual machine on a backup server, which allows computational process implementation without interruption after the primary server fails to continue its implementation on the virtual machine backup server. Stationary and nonstationary availability coefficients are used as a reliability indicator. The paper proposes the Markov reliability model of a fault-tolerant cluster, which takes into account virtual machine migration costs, as well as mechanisms ensuring the continuity of the computing process (service) in the cluster in case of one physical server failure. After migration, two copies of virtual machines located in different physical servers are supported in memory, so that in case of failure of one of them to continue working on the second one. There is a developed simplified model of a fault-tolerant cluster that ignores the costs of virtual machine migration when restoring a cluster. It gives an upper reliability evaluation. The paper shows the notable impact of the virtual machine migration process on the failover cluster reliability (measured by a non-stationary availability coefficient). The obtained results can be used to justify the choice of fault tolerance and continuity of the computing process of computer systems of cluster architecture.

Текст научной работы на тему «Модель надежности отказоустойчивого кластера с миграцией виртуальных машин»

УДК 004.052.3 Дата подачи статьи: 26.04.18

Б01: 10.15827/0236-235Х.125.103-108 2019. Т. 32. № 1. С. 103-108

Модель надежности отказоустойчивого кластера с миграцией виртуальных, машин

С.М. Алексанков 1, к.т.н., инженер-исследователь, [email protected]

В.А. Богатырев 1, д.т.н., профессор кафедры вычислительной техники, [email protected] А.Н. Деркач 1, аспирант, chгgguevara-1928(@m■ail■ru

1 Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, г. Санкт-Петербург, 197101, Россия

Обеспечение высокой надежности, отказоустойчивости и непрерывности вычислительного процесса компьютерных систем поддерживается при объединении вычислительных ресурсов в кластеры и основывается на использовании технологии виртуализации в результате перемещения виртуальных ресурсов, служб или приложений между физическими серверами при поддержке непрерывности вычислительных процессов.

В качестве объекта исследования рассматривается отказоустойчивый кластер, который в простейшем случае состоит из двух физических серверов (основного и резервного), связанных через коммутатор. В каждом сервере установлен локальный жесткий диск. На локальных дисках серверов развернута распределенная система хранения данных с синхронной репликацией данных с исходного сервера на резервный. На кластере запущена виртуальная машина. Система предполагает запуск теневой копии виртуальной машины на резервном сервере, что позволяет в случае отказа основного сервера продолжить вычислительный процесс на виртуальной машине резервного сервера. В качестве показателя надежности используются коэффициенты стационарной и нестационарной готовности.

Предложена марковская модель надежности отказоустойчивого кластера, учитывающая издержки на миграцию виртуальных машин, а также механизмы, обеспечивающие непрерывность вычислительного процесса (сервиса) в кластере в случае отказа одного физического сервера. В результате миграции в памяти поддерживаются две копии виртуальной машины, расположенные на разных физических серверах, чтобы в случае отказа одного из них продолжить работу на другом.

Построена упрощенная модель отказоустойчивого кластера, пренебрегающая издержками на миграцию виртуальных машин при восстановлении кластера и дающая верхнюю оценку надежности. Показано существенное влияние на надежность отказоустойчивого кластера (оцениваемую по нестационарному коэффициенту готовности) процесса миграции виртуальных машин.

Полученные результаты могут быть использованы при обосновании выбора технологии обеспечения отказоустойчивости и непрерывности вычислительного процесса компьютерных систем кластерной архитектуры.

Ключевые слова: виртуализация, надежность, отказоустойчивость, резервирование, кластеры, нестационарный коэффициент готовности.

К современным системам обработки, хранения и передачи данных различного назначения, в том числе к киберфизическим и инфокоммуникационным, предъявляются высокие требования по надежности, безопасности, отказоустойчивости и низкой стоимости реализации и эксплуатации [1-3].

Требования, предъявляемые к компьютерным системам, во многом зависят от выполняемых ими прикладных задач, их критичности к задержкам и непрерывности обслуживания, особенностей эксплуатации и ее сложности [4-6].

Высокая надежность, отказоустойчивость и готовность компьютерных систем к критическому применению достигаются при консолидации ресурсов обработки и хранения данных на основе технологии кластеризации, динамического распределения запросов [7-9] и виртуализации.

В кластерной системе с виртуализацией в случае отказов или отключений физических серверов для профилактических или иных работ работоспособность обеспечивается в результате перемещения виртуальных ресурсов, служб или приложений между физическими серверами [10] при поддержке непрерывности

вычислительных процессов. Современные технологии виртуализации основываются на целенаправленной миграции виртуальных ресурсов между физическими серверами с целью адаптации кластерных систем к накоплению отказов физических серверов [8].

При миграции виртуальных машин (ВМ) в кластере может использоваться общее хранилище данных с виртуальными дисками ВМ, что ускоряет процесс миграции в результате переноса только оперативной памяти, регистров виртуальных процессоров и состояния виртуальных устройств ВМ [11-13].

В кластере без реализации общей системы хранения данных при миграции дополнительно перемещается содержимое виртуальных дисков ВМ, объем которых может быть значительным, что замедляет процесс миграции.

Процесс миграции виртуальных ресурсов может дополнительно замедляться в случае их перемещения через сеть [14-16].

В процессе динамической миграции можно выделить этапы передачи данных (регистры ВМ, оперативная память, диск(и)) на резервный сервер и активизации функционирования на нем ВМ [17, 18].

Технология виртуализации, направленная на обеспечение высокой надежности компьютерных систем, включает технологии «Высокая доступность» (High Availability Cluster) и «Отказоустойчивость» (Fault Tolerance), первая из которых поддерживает автоматический перезапуск ВМ на работоспособных узлах кластера [12], а вторая - непрерывность вычислительного процесса при его перемещении на ВМ одного из серверов кластера, сохранивших работоспособность [13].

Технология «Высокая доступность» позволяет автоматически перемещать ВМ с отказавшего сервера на работоспособный. Восстановление функционирования ВМ может происходить за несколько минут в зависимости от конфигурации и загрузки физического сервера и свойств пользовательских приложений. При этой технологии для автоматического перезапуска ВМ все их данные должны храниться на общем хранилище данных, которое может быть реализовано в виде или устройства, подключенного ко всем узлам кластера, или распределенной системы хранения данных [10]. После отказа какого-либо физического сервера в других серверах могут запускаться ВМ, используя виртуальные диски ВМ, располагающиеся на общем хранилище. При этом теряется состояние ВМ, в том числе данные в оперативной памяти, регистры виртуальных процессоров и состояния внешних устройств. Поэтому системе требуется время для инициализации ВМ и приведения ее к состоянию перед отказом. Для корректной работы данного механизма виртуализации необходимо обеспечить изоляцию физических серверов после отказа, чтобы при перезапуске исключить одновременное выполнение вычислительного процесса двумя ВМ с целью исключения неоднозначности данных в общем хранилище.

Технология «Высокая доступность» предполагает, что после отказа любого физического сервера функционирующие на нем ВМ автоматически распределяются по уцелевшим узлам и перезапускаются на них. Состояние оперативной памяти всех ВМ, находившихся на отказавшем узле, теряется.

Технология «Отказоустойчивость» обеспечивает непрерывность вычислительного процесса (сервиса) в кластере после отказа одного физического сервера при поддержке двух копий ВМ в оперативной памяти, расположенных на разных физических серверах, чтобы в случае отказа одного из них продолжить работу на другом. Для рассматриваемой организации вычислительного процесса во время функционирования ВМ на одном из серверов на другом должна поддерживаться актуальная копия оперативной памяти [10] активной ВМ. При этом образы виртуальных дисков ВМ должны храниться в выделенном или распределенном хранилище данных с синхронной репликацией данных.

К программным продуктам, поддерживающим технологию отказоустойчивости, можно отнести VMware Fault Tolerance, Kemari для Xen и KVM [17, 18].

Указанные механизмы виртуализации влияют на надежность кластерной системы, что необходимо учитывать при обосновании структуры системы, организации вычислительных процессов и дисциплин восстановления и обслуживания высоконадежных кластерных систем.

Обоснование выбора проектных решений построения высоконадежных кластерных систем должно опираться на моделирование [19-21] при оценке надежности, готовности, отказоустойчивости и производительности рассматриваемых реализаций.

Целью авторов статьи является построение моделей кластерных систем, позволяющих оценить влияние процесса виртуализации на их надежность.

Рассматриваемые модели ориентированы на обоснование выбора структуры и дисциплины обслуживания и восстановления кластера с учетом требований к реализуемым прикладным задачам и используемых механизмов виртуализации [10].

Объект исследования

Рассмотрим высоконадежный кластер, реализованный на базе технологии виртуализации, ориентированной на поддержку непрерывности сервиса (вычислительного процесса).

Отказоустойчивый кластер в простейшем случае состоит из двух физических серверов (основного и резервного) с высокоскоростными сетевыми интерфейсами (рис. 1). В каждом сервере установлен один локальный жесткий диск (HDD), подключенный по интерфейсу SATA или SAS. В обоих серверах на жесткий диск установлены гипервизор, ПО кластеризации и управления виртуализацией. На локальных жестких дисках серверов развернута распределенная система хранения данных с синхронной репликацией данных с исходного сервера на резервный [17, 18]. На кластере запущена ВМ в режиме «Отказоустойчивость».

Двухмашинный кластер Физический сервер i Физический сервер 2

Рис. 1. Структура отказоустойчивого кластера Fig. 1. Fault-tolerant cluster structure

Система предполагает запуск теневой копии ВМ на резервном сервере, что позволяет после отказа основного сервера без прерываний продолжить вычислительный процесс на ВМ резервного сервера.

Поддержка непрерывности вычислительного процесса при автоматическом восстановлении функционирования после отказов (реконфигурация) требует:

- постоянной синхронизации оперативной памяти и дисковых данных, для чего возможно использование высокоскоростных сетевых адаптеров и коммутаторов второго уровня, например, 10G Ethernet или InfiniBand;

- организации в серверах распределенной системы хранения данных, поддерживающей синхронную репликацию дисковых данных с основного на резервный сервер или отдельного сервера для организации внешней общей системы хранения данных.

Рассмотрим восстановление ресурсов системы, теряемых в результате отказов, осуществляемое сразу после отказа (предполагает мгновенное определение возникновения отказа средствами контроля, наличие комплекта ЗИП, приспособлений и персонала, готовых к проведению ремонтных работ). Для отказоустойчивых кластерных систем в качестве показателя надежности воспользуемся коэффициентами стационарной и нестационарной готовности [22, 23].

Модель надежности отказоустойчивого кластера с оперативным восстановлением

Построим марковскую модель надежности [23-25] отказоустойчивого кластера с оперативным восста-

новлением, учитывающую реализацию механизмов миграции ВМ. Диаграмма состояний и переходов отказоустойчивого кластера с оперативным восстановлением при реализации миграции ВМ приведена на рисунке 2.

На рисунке исправные состояния кластера (работоспособные состояния без отказавших узлов) обозначены вершинами, обведенными сплошной линией, работоспособные состояния с отказавшими узлами -пунктирной, неработоспособные состояния, в которых происходит автоматическое восстановление пользовательского сервиса, - двойной сплошной, неработоспособные состояния, в которых ожидается восстановление узлов ремонтником, - жирной сплошной линией. Пометка «ВМ» на вершинах графов обозначает сервер, на котором запущена в данный момент ВМ с виртуальным сервисом. Перечеркнутая двумя линиями вершина обозначает отказ узла, одной линией - состояние узла, при котором он в данный момент не функционирует и, соответственно, не отказывает. На диаграмме обозначены интенсивности отказов (Х0, ^1, Х2) и восстановлений (до, Д1, Д2) сервера, диска и коммутатора соответственно. Интенсивность восстановления (синхронизации системы распределенного хранилища), включающего занесение актуальной реплики данных на восстановленный диск, - Интенсивность восстановления ВМ после автоматического перезапуска, включающего запуск ВМ на резервном сервере и загрузку на нем приложения пользователя, - д4.

Для нахождения искомых вероятностей состояний по приведенным диаграммам состояний и переходов составляются системы алгебраических уравнений при

>0

Рис. 2. Диаграмма состояний и переходов отказоустойчивого кластера с оперативным восстановлением, отражающая механизмы виртуализации и миграции ВМ

Fig. 2. A fault-tolerant cluster state and transition diagram with online recovery that reflects the mechanisms

of virtual machine virtualization and migration

оценке стационарного коэффициента готовности или дифференциальных уравнений при оценке нестационарного коэффициента готовности [23, 26].

Систему дифференциальных уравнений в соответствии с диаграммой состояний и переходов (рис. 2) представим следующим образом:

Po(t ) = -(2X 0 + X 2 + 2^) P0(t ) + Цз PA(t ), Pi (t) = -(Xi + Xo + ц о) Pi (t) + X о P4 (t) +

+ 2X 0 Po(t ) + Ц 4 Pii(t ) + ц 0 P6(t ), P2 (t ) = -(Xi + X о + ц 2) P2 (t ) + Ц^ (t ) +

+ Цо P8(t ) + X 2 P4 (t ) + X 2 Po(t ), P3 (t) = -(Xi + Xo + цОP3 (t) + Ц^ (t) +

+ Цо Pio (t ) + Ц 4 Pi 2 (t ) + Ц 0 P5 (t) + Xi P4 (t ) + 2XiPo (t ), P4 (t) = -(Xi + X о + X 2 + Цз + Xi + X о) P4 (t) +

+ ЦоPi(t) + Ц2P2 (t) + ЦP,(t), P5 (t ) = -Цо P5 (t ) + XiPi (t ) + XiPii (t ), P<; (t) = -Цо P6 (t) + Xo Pi (t) + Xi Po (t),

P7(t ) = -^Pv(t )+XiP2(t ),

P8(t ) = -ц о P8(t ) + X о P2(t ),

P9 (t) = -ЦlP9 (t) + XiP, (t) + XiPi2 (t),

Pio (t) = -ЦоPio (t) + XоP3 (t) + XoPi2 (t),

Pii(t) = -Ц4Pii(t) +XоP4 (t),

^Pi2 (t) =-Ц4Pi2(t) + XiP4(t).

Упрощенная марковская модель надежности кластера без учета влияния на снижение готовности

кластера издержек на миграцию ВМ, соответственно, приводящая к верхней оценке надежности системы, представлена на рисунке 3.

Система дифференциальных уравнений, соответствующая диаграмме состояний и переходов, приведенной на рисунке 3, имеет вид:

' Ро(/) = -(2А. о 2 + 2^1) Ро«) +

+ Цо Р^) + Ц 2 РгС ) + 1^Рз('),

Р/(/) = -(^1 + Х о + Цо) ) +

+ 2Х о Ро^) + Цо Рз((), Р2(1) = -(А_1 + Х о + Ц 2) РгС) +

+ Х 2 Ро(0 + Ц1Рб(0 + Ц о Р?(0, Рэ(0 = -(^ +Х о + Ц1) Рэ(0 +

+ ц о Р4 (0 + ЦЛ (0 + Цо Р9 (О + 2ХЛ (О, Р4(0 = -Ц о Р4(0 + ^1«, Р5(0 = -Цо Рз(0 + Х о Р1(0, Рб(0 = -ц Рб(0 + ^1Рг(0, Р7(0 = -Цо Рт(0 + Х о Рг(0, Р8(0 = -ц Р8(0 + ^1Рэ(0,

Р,'(0 = -Цо Р,(0 + ^о Рэ(0-

Результаты расчета коэффициентов нестационарной готовности кластера по моделям, соответствующим диаграммам на рисунках 2 и 3, показаны на рисунке 4.

На рисунке 4 кривые 1 и 2 соответствуют оценке нестационарных коэффициентов готовности К\($) и К2(/) на основе диаграмм на рисунках 2 и 3. Кривая 3

н«

Рис. 3. Граф состояний и переходов кластера с оперативным восстановлением без учета издержек на миграцию ВМ

Fig. 3. State and transition graph of the operational recovery cluster without taking into account the costs

of virtual machine migration

t,440

1,000000000 0,999999999

0,999999994

0,999999993

3

2

1

K2(t)-K1(t)

K1(t)

K2(t)

Рис. 4. Нестационарные коэффициенты готовности отказоустойчивого кластера с учетом и без учета издержек на миграцию ВМ

Fig. 4. Non-stationary availability factors of a fault-tolerant cluster with and without taking into account virtual machine migration costs

на рисунке 4 соответствует разнице d = К2(У) - ^(t). Расчет выполнен при следующих интенсивностях отказов сервера, диска, коммутатора: Хо = 1,115 10-5 1/ч, h = 3,425-10-6 1/ч, X = 2,3-10-6 1/ч и интенсивностях их оперативного восстановления соответственно: цо = 0,33 1/ч, ц = 0,17 1/ч, Ц2 = 0,33 1/ч. Интенсивность синхронизации системы распределенного хранилища: = 1 1/ч, ц4 = 2 1/ч. Расчеты выполнены в системе компьютерной математики Mathcad-15.

Представленные на рисунке 4 графики позволяют сделать вывод о существенном влиянии учета миграции ВМ на надежность.

Заключение

Таким образом, предложена марковская модель надежности отказоустойчивого кластера, учитывающая издержки на миграцию ВМ. Построена упрощенная модель отказоустойчивого кластера, пренебрегающая издержками при восстановлении на миграцию ВМ. Показано существенное влияние на надежность отказоустойчивого кластера (оцениваемую по нестационарному коэффициенту готовности) учета механизмов виртуализации, в том числе миграции ВМ.

Литература

1. Kopetz H. Real-time systems: design principles for distributed embedded applications. Springer, 2011, 396 p.

2. Sorin D. Fault tolerant computer architecture. Morgan & Clay-pool, 2009, 103 p.

3. Верзун Н.А., Колбанев М.О., Татарникова Т.М. Технологическая платформа четвертой промышленной революции // Геополитика и безопасность. 2016. .№ 2. С. 73-78.

4. Абрамян Г.В. Структура и функции информационной системы мониторинга и управления рисками развития малого и сред -

него бизнеса Северо-Западного федерального округа // Аудит и финансовый анализ. 2017. № 5-6. С. 611-617.

5. Velichko E.N., Grishentsev A.Y., Korobeynikov A.G. Inverse problem of radiofrequency sounding of ionosphere. Intern. J. of Modern Physics A, IET, 2016, vol. 31, no. 2-3, art. 1641033.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Богатырев В.А., Богатырев С.В. Резервированное обслуживание в кластерах с уничтожением неактуальных запросов // Вестн. компьютер. и информ. технологий. 2017. № 1. С. 21-28.

7. Богатырев В.А., Богатырев С.В., Богатырев А.В. Надежность кластерных вычислительных систем с дублированными связями серверов и устройств хранения // Информационные технологии. 2013. № 2. С. 27-32.

8. Богатырев В.А., Богатырев А.В., Голубев И.Ю., Богатырев С.В. Оптимизация распределения запросов между кластерами отказоустойчивой вычислительной системы // Науч.-технич. вестн. СПбГУИТМО. 2013. № 3. С. 77-82.

9. Богатырев В.А., Богатырев С.В., Богатырев А.В. Оптимизация древовидной сети с резервированием коммутационных узлов и связей // Телекоммуникации. 2013. № 2. С. 42-48.

10. Алексанков С.М. Модель процесса динамической миграции с копированием данных после остановки виртуальных машин // Изв. вузов: Приборостроение. 2016. Т. 59. № 5. С. 173-178.

11. Как «быть готовым» или DR на Nutanix: асинхронная репликация. 2015 // Блог компании Nutanix. URL: https://habrahabr.ru/ company/nutanix/blog/250197/ (дата обращения: 25.04.2018).

12. Самойленко А. Требования и ограничения VMware Fault Tolerance. 2010 // портал VM Guru. URL: http://www.vmgu.ru/articles/ vmware-fault-tolerancemain (дата обращения: 25.04.2018).

13. Общее представление о конфигурациях кворума в отказоустойчивом кластере. URL: https://technet.microsofft.com/ru-ru/ library/cc731739(v=ws.11).aspx (дата обращения: 25.04.2018).

14. Татарникова Т.М. Аналитико-статистическая модель оценки живучести сетей с топологией mesh // Информационно-управляющие системы. 2017. № 1. С. 17-22.

15. Абрамян Г.В. Модели и технологии оптимизации телекоммуникаций в науке и образовании Северо-Западного региона на основе использования saas/sod облачных сервисов // ИТСиТ: сб. тр. Всерос. науч.-практич. конф. 2015. С. 27.

16. Алиев Т.И., Муравьева-Витковская Л.А. Приоритетные стратегии управления трафиком в мультисервисных компьютерных сетях // Изв. вузов: Приборостроение. 2011. Т. 54. № 6. С. 44-48.

17. Технология Kemari // xguru.ru: портал обмена знаниями по UNIX/Linux-системам, системам с открытым исходным кодом, сетям и другим родственным вещам. URL: http://xgu.ru/wiki/Kemari (дата обращения: 25.04.2018).

18. Елизаров Е. Dell Live Volume: виртуализуем дисковое пространство. URL: https://onlanta.ru/press/blogs/evgeniy-elizarov/32031/ (дата обращения: 25.04.2018).

19. Кутузов О.И., Татарникова Т.М. Инфокоммуникационные сети. Моделирование и оценка вероятностно-временных характеристик. СПб: Изд-во ГУАП, 2015. 382 с.

20. Gatchin Y.A., Zharinov I.O., Korobeynikov A.G., Zhari-nov O.O. Theoretical estimation of Grassmann's transformation resolution in avionics color coding systems. MAS, 2015, vol. 9, no. 5, pp. 197-210.

21. Жмылев С.А., Мартынчук И.Г., Киреев В.Ю., Алиев Т.И. Оценка длины периода нестационарных процессов в облачных системах // Изв. вузов: Приборостроение. 2018. Т. 61. № 8. С. 645-651.

22. Черкесов Г.Н. Надежность аппаратно-программных комплексов. СПб: Питер, 2005. 479 с.

23. Половко А.М., Гуров С.В. Основы теории надежности. СПб: БХВ-Петербург, 2006. 704 с.

24. Шубинский И.Б. Надежные отказоустойчивые информационные системы. Методы синтеза. Ульяновск: Печатный двор, 2016. 544 с.

25. Алиев Т.И. Основы моделирования дискретных систем. СПб, 2009. 363 с.

26. Шубинский И.Б. Структурная надежность информационных систем. Методы анализа. Ульяновск: Печатный двор, 2012. 296 с.

0

0

20

30

3.E-10

3.E-10

2,E-10

2,E-10

1,E-10

5,E-11

0,E+00

Software & Systems Received 26.04.18

DOI: 10.15827/0236-235X.125.103-108 2019, vol. 32, no. 1, pp. 103-108

The model of fault-tolerant cluster reliability with virtual machine migration S.M. Aleksankov 1, Ph.D. (Engineering)

V.A. Bogatyrev l, Dr.Sc. (Engineering), Professor of Computer Science Department, [email protected] A.N. Derkach 1, Postgraduate Student

1 The National Research University of Information Technologies, Mechanics and Optics, St. Petersburg, 197101, Russian Federation

Abstract. Ensuring high reliability, fault tolerance and computing process continuity of computer systems is supported by clustering computing resources. It is based on the virtualization technology as a result of moving virtual resources, services, or applications between physical servers with the support of computing process continuity.

The object of study is a fault-tolerant cluster, which in the simplest case consists of two physical servers (primary and backup) connected through a switch. Each server has a local hard disk. Server local disks have a distributed storage system with data synchronous replication from the source server to the backup server. The virtual machine is running on the cluster. The system involves running a shadow copy of the virtual machine on a backup server, which allows computational process implementation without interruption after the primary server fails to continue its implementation on the virtual machine backup server. Stationary and nonstationary availability coefficients are used as a reliability indicator.

The paper proposes the Markov reliability model of a fault-tolerant cluster, which takes into account virtual machine migration costs, as well as mechanisms ensuring the continuity of the computing process (service) in the cluster in case of one physical server failure. After migration, two copies of virtual machines located in different physical servers are supported in memory, so that in case of failure of one of them to continue working on the second one.

There is a developed simplified model of a fault-tolerant cluster that ignores the costs of virtual machine migration when restoring a cluster. It gives an upper reliability evaluation. The paper shows the notable impact of the virtual machine migration process on the failover cluster reliability (measured by a non-stationary availability coefficient).

The obtained results can be used to justify the choice of fault tolerance and continuity of the computing process of computer systems of cluster architecture.

Keywords: virtualization, reliability, fault tolerance, reservation, clusters, non-stationary availability coefficient.

References

1. Kopetz H. Real-Time Systems: Design Principles for Distributed Embedded Applications. Springer Publ., 2011, 396 p.

2. Sorin D. Fault Tolerant Computer Architecture. Morgan & Claypool Publ., 2009, 103 p.

3. Verzun N.A., Kolbanev M.O., Tatarnikova T.M. Technological platform of the fourth industrial revolution. Geopolicy and Safety. 2016, no. 2, pp. 73-78 (in Russ.).

4. Abramyan G.V. The structure and functions of an information system for monitoring and managing risks of the development of small and medium-sized businesses in the North-West Federal District. Audit and Financial Analysis. 2017, no. 5-6, pp. 611-617 (in Russ.).

5. Velichko E.N., Grishentsev A.Y., Korobeynikov A.G. Inverse problem of radiofrequency sounding of ionosphere. Intern. J. of Modern Physics A. 2016, vol. 31, no. 2-3, art. 1641033.

6. Bogatyrev V.A., Bogatyrev S.V. Redundant service clusters with the destruction of irrelevant queries. Herald of Computer and Information Technologies. 2017, no. 1, pp. 21-28 (in Russ.).

7. Bogatyrev V.A., Bogatyrev S.V., Bogatyrev A.V. Reliability clusters computing systems with the duplicated communications of servers and storage devices. Information Technologies. 2013, no. 2, pp. 27-32 (in Russ.).

8. Bogatyrev V.A., Bogatrev A.V., Golubev I.Yu., Bogatyrev S.V. Queries distribution optimization between clusters of fault-tolerant computing system. Scientific and Technical J. of Information Technologies, Mechanics and Optics. 2013, no. 3, pp. 77-82 (in Russ.).

9. Bogatyrev V.A., Bogatyrev S.V., Bogatyrev A.V. Tree network optimization with redundant switching nodes and connections. Telecommunications. 2013, no. 2, pp. 42-48 (in Russ.).

10. Aleksankov S.M. Model of live migration process with data copying after virtual machines stopping. J. of Instrument Engineering, 2016, vol. 59, no. 5, pp. 348-354.

11. How to be ready or DR on Nutanix: asynchronous replication. 2015. Nutanix Company Blog. 2015. Blog kompanii Nutanix. Available at: https://habrahabr.ru/company/nutanix/blog/250197/ (accessed April 25, 2018).

12. Samoylenko A. VMware Fault Tolerance requirements and limitations. 2010. VM Guru. Available at: http://www.vmgu.ru/articles/vmware-fault-tolerancemain (accessed April 25, 2018).

13. Overview of Quorum Configurations in a Failover Cluster. Available at: https://technet.microsoft.com/ru-ru/library/cc731739(v=ws.11).aspx (accessed April 25, 2018).

14. Tatarnikova T.M. Analytical-statistical model of mesh network survivability evaluation. Information and Control Systems. 2017, no. 1, pp. 17-22 (in Russ.).

15. Abramyan G. V. Models and technologies to optimize telecommunications in scienc e and education in the North-West region based on saas/sod cloud services. ITSiT: Proc. All-Russian Sci. andPract. Conf. 2015, p. 27 (in Russ.).

16. Aliev T.I., Muravyeva-Vitkovskaya L.A. Priority-based strategies of traffic management in multiservice computer networks. J. of Instrument Engineering. 2011, vol. 54, no. 6, pp. 44-48 (in Russ.).

17. Kemari Technology. Xguru.ru. Available at: http://xgu.ru/wiki/Kemari (accessed April 25, 2018).

18. Elizarov E. Dell Live Volume: Virtualizing Disk Space. Available at: https://onlanta.ru/press/blogs/evgeniy-elizarov/32031/ (accessed April 25, 2018).

19. Kutuzov O.I., Tatarnikova T.M. Infocommunication Networks. Modeling and Evaluation of Probability-Time Characteristics. St. Petersburg, GUAP Publ., 2015, 382 p.

20. Gatchin Y.A., Zharinov I. O., Korobeynikov A.G., Zharinov O.O. Theoretical estimation of Grassmann's transformation resolution in avionics color coding systems. MAS. 2015, vol. 9, no. 5, pp. 197-210.

21. Zhmylev S.A., Martynchuk I.G., Kireev V.Yu., Aliev T.I. Estimation of periods of nonstationaty processes in cloud systems. J. of Instrument Engineering. 2018, vol. 61, no. 8, pp. 645-651.

22. Cherkesov G.N. Reliability of Hardware and Software Systems. St. Petersburg, Piter Publ., 2005, 479 p.

23. Polovko A.M., Gurov S.V. Fundamentals of the Theory of Reliability. St. Petersburg, BHV-Peterburg Publ., 2006, 704 p.

24. Shubinsky I.B. Reliable Fault-Tolerant Information Systems. Synthesis Methods. Ulyanovsk, Pechatny dvor Publ., 2016, 544 p.

25. Aliev T.I. Fundamentals of Discrete Systems Modeling. St.-Petersburg, 2009, 363 p.

26. Shubinsky I.B. Structural Reliability of Information Systems. Methods of Analysis. Ulyanovsk, Pechatny dvor Publ., 2012, 296 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.