Научная статья на тему 'МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ДЛЯ РАСЧЕТА ПОКАЗАТЕЛЕЙ НАДЕЖНОСТИ МАСШТАБИРУЕМЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ С УЧЕТОМ ВРЕМЕНИ ПЕРЕКЛЮЧЕНИЯ'

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ДЛЯ РАСЧЕТА ПОКАЗАТЕЛЕЙ НАДЕЖНОСТИ МАСШТАБИРУЕМЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ С УЧЕТОМ ВРЕМЕНИ ПЕРЕКЛЮЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
42
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ / МАСШТАБИРУЕМОСТЬ / ОТКАЗЫ / ВРЕМЯ ПЕРЕКЛЮЧЕНИЯ / МАТЕМАТИЧЕСКАЯ МОДЕЛЬ / АНАЛИЗ / ПОКАЗАТЕЛИ НАДЕЖНОСТИ И ЖИВУЧЕСТИ / АНАЛИТИЧЕСКИЕ РЕШЕНИЯ / COMPUTER SYSTEMS / SCALABILITY / FAILURES / SWITCHING TIME / MATHEMATICAL MODEL / ANALYSIS / RELIABILITY AND ROBUSTNESS INDICES / ANALYTICAL SOLUTIONS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Павский Валерий Алексеевич, Павский Кирилл Валерьевич

Основной особенностью масштабируемых вычислительных систем является модульность. Наращивание производительности в таких системах достигается за счет увеличения однотипных элементов, элементарных машин (например, вычислительный узел). В результате отказов, производительность системы изменяется. Таким образом, масштабируемость вычислительных систем (ВС), с одной стороны, увеличивает производительность, но с другой стороны, наращивание ресурса обостряет проблему надежности и увеличивает сложность организации эффективного функционирования. Анализ надежности и потенциальных возможностей вычислительных систем по-прежнему остается актуальной задачей. Для количественного анализа функционирования масштабируемых вычислительных систем используют показатели живучести, связанные с надежностью. Например, показатели потенциальной живучести ВС учитывают то обстоятельство, что при решении задач используются все исправные элементарные машины, количество которых изменяется во времени в результате отказов и восстановлений. При анализе надежности популярными в теории вычислительных систем, являются модели, основанные на теории марковских процессов и теории массового обслуживания (ТМО). Большинство аналитических моделей ТМО не учитывают время переключения (реконфигурации) в отдельном параметре, ввиду сложности решения. Обычно ограничиваются тем, что время восстановления и переключения объединяют в один параметр. В работе, на примере одной модели ТМО, получены аналитические решения системы дифференциальных уравнений с тремя параметрами (отказ, восстановление и переключение) для расчета показателей надежности и потенциальной живучести. Тем самым предоставляется возможность пользователю самому определить, стоит ли учитывать временя переключения. Показано, что решения трехпараметрической модели сводятся к решениям двух параметрической модели, если время переключения не берется в рассмотрение.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Павский Валерий Алексеевич, Павский Кирилл Валерьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MATHEMATICAL MODEL FOR CALCULATING RELIABILITY INDICES OF SCALABLE COMPUTER SYSTEMS WITH SWITCHING TIME

The main feature of scalable computer systems is modularity. Increasing performance in such systems is achieved by increasing the same type of elements, elementary machines (EM, for example, a computing node). As a result of failures, the system performance is changed. Thus, scalability of computer systems (CS), on the one hand, increases performance, but on the other hand, computer resource growth exacerbates the problem of reliability and increases the complexity of organizing effective functioning. Analysis of reliability and potential capabilities of computing systems is still an urgent problem. For quantitative analysis of the functioning of scalable computing systems, robustness indices related to reliability are used. For example, indices of potential robustness of CS take into account the fact that all operable elementary machines are used in solving tasks, the number of which (EM) changes over time as a result of failures and recoveries. When analyzing reliability, models based on the theory of Markov processes and Queuing theory (QT) are popular in the theory of computing systems. Most QT analytical models do not consider the switching time (reconfiguration) in a separate parameter, due to the complexity of the solution. Usually, models are simplified by the fact that the recovery time and switch combined in a single parameter. Analytical solutions of a system of differential equations with three parameters (failure, recovery, and switching) for calculating reliability and potential robustness are obtained on the example of the QT model. This allows the user to determine whether the switching time should be taken into account. Also it is shown that solutions of the three-parameter model are reduced to solutions of the two-parameter model if the switching time is not taken into consideration.

Текст научной работы на тему «МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ДЛЯ РАСЧЕТА ПОКАЗАТЕЛЕЙ НАДЕЖНОСТИ МАСШТАБИРУЕМЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ С УЧЕТОМ ВРЕМЕНИ ПЕРЕКЛЮЧЕНИЯ»

УДК 004.272:[519.87:519.248] DOI 10.18522/2311-3103-2020-2-134-145

В.А. Павский, К.В. Павский

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ДЛЯ РАСЧЕТА ПОКАЗАТЕЛЕЙ НАДЕЖНОСТИ МАСШТАБИРУЕМЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ С УЧЕТОМ ВРЕМЕНИ ПЕРЕКЛЮЧЕНИЯ*

Основной особенностью масштабируемых вычислительных систем является модульность. Наращивание производительности в таких системах достигается за счет увеличения однотипных элементов, элементарных машин (например, вычислительный узел). В результате отказов, производительность системы изменяется. Таким образом, масштабируемость вычислительных систем (ВС), с одной стороны, увеличивает производительность, но с другой стороны, наращивание ресурса обостряет проблему надежности и увеличивает сложность организации эффективного функционирования. Анализ надежности и потенциальных возможностей вычислительных систем по-прежнему остается актуальной задачей. Для количественного анализа функционирования масштабируемых вычислительных систем используют показатели живучести, связанные с надежностью. Например, показатели потенциальной живучести ВС учитывают то обстоятельство, что при решении задач используются все исправные элементарные машины, количество которых изменяется во времени в результате отказов и восстановлений. При анализе надежности популярными в теории вычислительных систем, являются модели, основанные на теории марковских процессов и теории массового обслуживания (ТМО). Большинство аналитических моделей ТМО не учитывают время переключения (реконфигурации) в отдельном параметре, ввиду сложности решения. Обычно ограничиваются тем, что время восстановления и переключения объединяют в один параметр. В работе, на примере одной модели ТМО, получены аналитические решения системы дифференциальных уравнений с тремя параметрами (отказ, восстановление и переключение) для расчета показателей надежности и потенциальной живучести. Тем самым предоставляется возможность пользователю самому определить, стоит ли учитывать временя переключения. Показано, что решения трехпараметрической модели сводятся к решениям двух параметрической модели, если время переключения не берется в рассмотрение.

Вычислительные системы; масштабируемость; отказы; время переключения; математическая модель; анализ; показатели надежности и живучести; аналитические решения.

V.A. Pavsky, K.V.Pavsky

MATHEMATICAL MODEL FOR CALCULATING RELIABILITY INDICES OF SCALABLE COMPUTER SYSTEMS WITH SWITCHING TIME

The main feature of scalable computer systems is modularity. Increasing performance in such systems is achieved by increasing the same type of elements, elementary machines (EM, for example, a computing node). As a result of failures, the system performance is changed. Thus, scalability of computer systems (CS), on the one hand, increases performance, but on the other hand, computer resource growth exacerbates the problem of reliability and increases the complexity of organizing effective functioning. Analysis of reliability and potential capabilities of computing systems is still an urgent problem. For quantitative analysis of the functioning of scalable computing systems, robustness indices related to reliability are used. For example, indices of potential robustness of CS take into account the fact that all operable elementary machines are used in solving tasks, the number of which (EM) changes over time as a result offailures and recoveries. When analyzing reliability, models based on the theory of Markov processes and Queuing theory (QT) are popular in the theory of computing systems. Most QT analytical models do not consider the switching time (reconfiguration) in a separate parameter, due to the complexity of the

*

Работа выполнена при поддержке, РФФИ (грант № 20-07-00039), программы фундаментальных исследований СО РАН (ГЗ 0306-2019-0019).

solution. Usually, models are simplified by the fact that the recovery time and switch combined in a single parameter. Analytical solutions of a system of differential equations with three parameters (failure, recovery, and switching) for calculating reliability and potential robustness are obtained on the example of the QT model. This allows the user to determine whether the switching time should be taken into account. Also it is shown that solutions of the three-parameter model are reduced to solutions of the two-parameter model if the switching time is not taken into consideration.

Computer systems; scalability; failures; switching time; mathematical model; analysis; reliability and robustness indices; analytical solutions.

Введение. Масштабируемость вычислительных систем (ВС), с одной стороны, обеспечивает высокую доступность сервиса [1, 2], но с другой стороны, наращивание вычислительных ресурсов обостряет проблему надежности и увеличивает сложность организации эффективного функционирования [3, 4]. Анализ надежности и потенциальных возможностей ВС по-прежнему остается актуальной задачей.

Для количественного анализа функционирования масштабируемых вычислительных систем (ВС) используют показатели живучести, связанные с надежностью [1]. Например, показатели потенциальной живучести вычислительных систем (ВС) учитывают то обстоятельство, что при решении задач используются все исправные элементарные машины, количество которых изменяется во времени в результате отказов и восстановлений. При определении показателей живучести следует учитывать, что параллельные программы сложных задач при их реализации на живучих ВС способны задействовать суммарную производительность всех работоспособных элементарных машин (ЭМ, узлов) [1], число которых не является фиксированным.

Наиболее распространенными в теории вычислительных систем, при анализе надежности и функционировании, являются модели, основанные на теории марковских процессов [5-11] и теории массового обслуживания (ТМО) [12-17]. Большинство аналитических моделей ТМО не учитывает время переключения (реконфигурации) как отдельный параметр, ввиду сложности решения. Обычно ограничиваются тем, что время восстановления и переключения объединяют в один параметр [17]. Для расчета показателей надежности и потенциальной живучести, разработана модель системы массового обслуживания, описываемая системой дифференциальных уравнений с тремя параметрами (отказ, восстановление и переключение). Приводятся аналитические решения для расчета состояний системы, среднего числа машин в отказе и переключении. Итак, рассматриваем ВС как стохастический объект. При расчёте показателей надёжности и потенциальной живучести за основу берётся стохастическая модель функционирования ВС [1], представленная на рис. 1.

Рис. 1. Модель функционирования ВС

Основная подсистема, непосредственно занимается решением задач, состоит из исправных машин. Каждая исправная машина отказывает с интенсивностью X, после чего переходит в восстанавливающую систему. В восстанавливающей системе элементарная восстанавливается с интенсивностью ц. При наличии структурной избыточности, её исправные машины позволяют поддерживать заданную производительность системы. В системе реконфигурации происходит настройка ЭМ для работы и включение её в состав основной системы с определенной интенсивностью.

1. Математическая модель. Пусть вычислительная система состоит из N ЭМ. Интенсивность выхода из строя любой ЭМ - 1 (параметр входящего потока), а восстановления - ц (параметр исходящего потока; рассматриваем простейшие потоки). Как только машина восстановилась, она сразу же включается в систему. В рамках ТМО, описанная модель соответствует процессу рождения и гибели [13, 14], граф схема которого представлена на рис. 2, где Ск - состояние системы, т.е. имеем к заявок (в случаем ВС, можно, например, понимать число отказавших или исправных машин) на обслуживании.

Рис. 2. Граф-схема процесса рождения и гибели

Для двух параметрической модели восстановление каждой машины можно отразить граф-схемой, представленной на рис. 3, где С0 - соответствует исправному состоянию ЭМ, а С1 - состояние в отказе.

Рис. 3. Граф-схема состояний элементарной машины для двух - параметрической

модели

Пусть ) - математическое ожидание числа работающих ЭМ в момент времени 1,1 е [о, да), М(?) - математическое ожидание числа отказавших ЭМ в момент времени /. В работе [1] приводятся решения для расчета показателей потенциальной живучести в случае двух параметрической модели (в соответствии с рис. 1, 2) для переходного и стационарного режимов работы ВС. Например для восстанавливающей системы высокой производительности в стационарном режиме

R =

Иц X + Ц

M =

NX , X + ц

(1)

где Я - математическое ожидание числа рабочих ЭМ; М - математическое ожидание числа отказавших ЭМ.

Рассмотрим трехпараметрическую модель, где восстановленная после отказа ЭМ не включается сразу в систему, а происходит её настройка, т.е. переключение идет с определенной интенсивностью. Таким образом, каждая ЭМ в любой момент

времени t, t е [0,да), может находиться в одном из трех несовместных состояний С, I = 1,2,3: рабочем (С0), отказа (С) и переключения (С *).

На рис. 4 представлена граф-схема процесса восстановления ЭМ до рабочего состояния, где V- интенсивность переключения каждой ЭМ.

Рис. 4. Граф-схема состояний элементарной машины для трех-параметрической

модели

Приведем аналитические решения для распределения вероятностей в переходном режиме, являющегося базовым для расчета набора показателей эффективности (надежности и потенциальной живучести) ВС [1] в случае трехпараметриче-ской модели.

2. Показатели потенциальной живучести ВС. Пусть г (V) - вероятность того, что в момент времени t ЭМ находится в состоянии отказа,

I({) - вероятность того, что в момент времени t, ЭМ находится в состоянии

переключения,

) - вероятность того, что в момент времени t ЭМ находится в рабочем состоянии, V е [0,да).

Тогда для любой ЭМ и t е [0,да), по заданному графу состояний (рис. 3), составляем следующую систему уравнений

Мг а) = -/■ г а) + Л■ф),

м

М ^) = -Л ■М) + V ■!а), (2)

м

^) = ^ ■ г ^) + /■ г а),

м

1 = г (0 + <р(г) +1 (/).

Для решения системы (2), достаточно взять любые три уравнения. Общее решение системы (2) имеет вид

XV «2

г^) = ^- + С ■ в"1 + С2 ■в"2,

а"х2 X X

щ = X/ (х + М + «1)С1с« _ Нх + М + «2)С2 с

«2

X

X

(3)

где

«2 = -1X + M + V±^]X2 + /2 +v2 -2X1^+ XV)).

Для получения частных решений (3), рассмотрим возможные начальные ус-

ловия

1) r(0) = 0, р(0) = 1, 1 (0) = 0;

2) r(0) = 1, ср(0) = 0, 1(0) = 0;

3) r(0) = 0, р(0) = 0, 1(0) = 1.

Пусть r (t) = r(t) при начальном условии i, i = 1, 2, 3, тогда частные реше-

ния имеют вид: а) для п. 1)

ri(t) =

Xv X(v + ^) аха2 ах (аг-ах)

а

, X(v + a2) eait

а (а - а )

(t)=_v- (v+а1)(ц+ai) a

1 аа а (а - а )

| (у+а2)(Ц+а2)с a2t

li(t) =

12 Хц

---1

аа а (а - а )

а (а - а )

Хц

Хц

а (а - а )

б) для п. 2)

^ = + ц(Х + v + al)cах1 _ ц(Х + v + а2)

i a2t

аа а (а-а)

v2(f) =

„а+.

а2(а2 -а 1) ЦV ^

аа а (а - а ) а (а - а )

= ц ц(а1 +Х) е а + ц(а2 + Х) ^t

в) для п. 3)

r3(t) =

аа а (а - а ) а (а - а ) Xv Xv Xv

-еа + -

а

аа а (а-а) а (а-а)

™ ГЛ - v(ц + a1) v(M + а2) а

) = , ,е + , ,е , аа а (а - а ) а (а - а )

l3(t)=

цX v(X + ц + a1) а vX + ц + а^

--I--е--

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

аа а (а - а ) а (а - а )

а

(4)

(5)

(6)

Рассмотри случай, когда переключение осуществляется мгновенно, т.е. v . Тогда

lim at=-1 lim Ц + / + v - )= [x - x] =

v^x 2 v^x

_ 1 (X + ц + v)2 - ^X2 + ц2 + v2 - 2(Xц + цv+ Xv 2 1 , ..... , / 12 , ,, 2 , ,, 2

= - — lim

X + ц + v + ~2(X/2+~^v+Xv)

4^ц + цv+ Xv)/v

(X + ц)/v +1 + yj (XX + ц2)^2 +1 - 2^ц + цv+ Xv)/v

1 4(X + ц)

2 1 +1

= -(X + ц) •

а t

2

Коэффициенты у функции eat, ¡ = 1,2, вычисляются аналогично. Например, вычислим r(t) = r(t, X, ¡л, да). Имеем

r(t) = lim

Xv

X(v + ai) Ott X(v + «2) ealt

xv + x¡+¡v a(a2—a) a2(a—a)

или

r (t) =

X y

-+ lim

X + ¡

X(v + a)ea —X(v + a)ea2t "

X¡ + Xv + ¡iv — ax Разделив числитель и знаменатель на v и переходя к пределу, получим

X X

r(t) =

Аналогично

X + ¡ X + л

X

• e

—(X+¡)t .

p(t) = + -e-^ Л + ц Л + ц

Для стационарного режима имеем а) с учетом переключения

Xv

r = lim r (t) =-,

t^™ Х/л+Xv + u-v

uv

p =lim p(t) = -—--,

Х/л + Xv + uv

l = lim l(t) =-XUU-,

t^™ Х/л+Xv + u-v

б) без учета переключения (v ^ да):

X

r =

<Р =

л

X + / X + /

При расчете показателей надежности по формулам (3) корни аь а2 характеристического уравнения для системы (2) существуют, если

X2 + л2 + v2 > 2(X¡ + Xv + ¡v) .

(7)

Общее решение системы (2) для случая, когда (7) не выполняется, имеет вид

r(t) = + еа'(С1 ■ cos pt + C2 ■ i sin pt), ахаг

uv а( (и + а)С, +p^ C2 ,(u + a)C1 C, . n <p(t) = —— + ea\—-——-——cos pt +1—-——-—- sin pt

l (t) = 1 — r(t) — y(t)

где aa = X¡ + Xv + ¡v, a = —(X + ¡ + v) / 2;

P = —T¡\ X2 + л2 +v2 — 2(X¡ + ¡v + Xv)\ /2. Теперь перейдем к показателям потенциальной живучести ВС.

a,a

12

Пусть Z (t ) - математическое ожидание числа переключаемых ЭМ в момент времени t.

Для случая, если в начальный момент времени t = 0 в ВС все ЭМ исправны, имеем r (0) = 0, р(0) = 1, 1(0) = 0 и следовательно

R(t) = Np(t) = N{-V - (^iX^i)+ (У + аХм + а2)), аха2 ах (а2—а ) а2 (а2—а )

»г/ч »г/ Xv À(v + aA т, Л(у + а9) M (t ) = Nr(t) = N (-----e а + —--г— еа ),

аа а (а—а ) а (а—а )

Z (t) = Nl(t) = N ---X-еа11 +-X-еа* ),

аа а (а—а ) а (а2—а ) R(t) + M (t) + Z (t ) = N.

На рис. 5 представлена зависимость количества отказавших ЭМ M (t ) и машин в переключении Z (t) от времени.

Рис. 5. Зависимость среднего числа отказавших и машин в переключении от времени: N = 20000 Л = 0,001 1/ч., / = 1 1/ч., у = 10 1/ч.

Для стационарного режима имеем:

К =_^ , М =__, 2 Ш" • (8)

Л/+/У+ЛУ Л/ + /У+ЛУ Л/+/У+ЛУ

Видно, что если пренебречь временем переключения, то решения (8) трансформируются в решения (1) двухпараметрической системы.

3. Вероятности состояний для трехпараметрической системы. Требуется найти р 1 (у) - вероятность того, что в момент времени число к ЭМ находятся в

состоянии отказа и I ЭМ в состоянии переключения при условии, что в начальный момент времени, t = 0, в состоянии отказа находилось / ЭМ и в состоянии переключения у ЭМ, к,I,г,] е Е^ = {0,1,...,N1, к +1 < N, г + 7 < N . Считаем,

что все параметры пуассоновские.

Для трех параметрической системы граф схема, представленная на рис. 2, трансформируется в трехпараметрическую граф схему СМО , фрагмент которой представлен на рис. 5.

Рис. 6. Фрагмент граф-схемы при N=3

В соответствие рис. 6, составляем систему дифференциальных уравнений [13-15] с неизвестными функциями Р 1 (^). Состоянию СМО - Си соответствует

вероятность Р ().

Рк,0 (0 = -[(N - кX + к/]Рко0 (О + X(N - к + \)Рк_,0 ^) + vPk,1 а), к е Е00

Рог ^) = -[^ + (N -1ЩР^ (О + /Ри-1 ^) + v(l + а),

м

м м

мРкг ^) = -[^ + (N - к - гXк/]Рк, (о+X(N - к - г+1)Рк-1, (о + м

г е ЕN

м

+ (к + Х)/Рк(^ + v(l + 1)Рк ,,+1 ^), к + г < N;

Рк^-к (0 = -[(N - к V + к/]РКМ-к (^ + (к + Х)/РкМ-к-1 (^ +

+ XP„

,(0,

к + г = N;

(9)

N N-к

с условием нормировки ^ ^ Р1 (^) = 1 и начальными условиями Р (0) = 1,

к=о г=0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рк; (0) = 0, для к Ф г, г Ф ], к,г,1, j е Е° , {к + г) < N, (г + ]) < N . Если к+г >N и к,г < 0, то Рг(^ = 0, г ее°.

Для решения системы (9) используем аппарат производящих функций [18, 19]. Введем производящую функцию

N Ы-к

F(х, г, t) = Цгкх1РК1 ^),

к=0 г=0

тогда

1 дк+г Р,1 (0 = —п -Ч-^ТТР(0,0о.

(10)

к!4! дх ■дгк

Применяя к системе (9) производящую функцию F(х, г , ^, получаем следующее уравнение в частных производных

d

д

— F + (Xz2 + (¿-X) z -¿ее)—F + (Xzx + (v - X) x -v) — F = -NX(l - z) F, (11)

dt

—z

dx

где Е = Е (г, х, t). Начальные условия имеют

F(х, г,0) = х'г'.

(12)

Решение уравнения (11), при начальных условиях (12), позволяет, учитывая (10), записать решение системы (9) в виде [20-21]

к I к I

Pkj (t) = 222 21 (a, ь, c, d )rk-a-d (t )i{ (t m

N-i- j-k-l+A

(t )r2 a (t)l2l-b-c (t Mi-a-C

(t) •

a=0b=0c=0 d=0

где A = a + Ь + c + d,

I (a, Ь, c, d) =

■r3d (t )l3l-b-c (t )m J-b-d (t),

i!j!(N - i - j)

(13)

(Ы -' - ' - к + а + Ь - с)\.а\.Ь\сЫЩ - а -1 + с + d)!(' - Ь - d )\(к - а - Ь)\1 - Ь - с)! В частном случае, когда в начальный момент времени / все ЭМ работали, имеем

Pkl (t) =

Nr* (t)l1 (t)MN k-l (t), k!l!(N - k -1)!

(14)

где г ^), ^ ^), /г ^), ' = 1,2,3, удовлетворяют формулам (4)-(6).

На рис. 7 представлена зависимость вероятностей р} ^) при N = 2000 ЭМ; в

начальный момент ? = 0, в состоянии отказа находилось ' = 0 ЭМ и в состоянии переключения ' = 0 ЭМ; ц = 1 1/ч.; у = 1 0 1/ч. Стационарный режим достигается

достаточно быстро t < 7 час. При экспресс анализе функционирования ВС можно использовать простые формулы стационарного режима.

Рис. 7. Зависимость наиболее вероятного значения функций р 0 (^ от времени V.

1 -Л = 10-4 1/ч; 2 - Л = 10-3 1/ч. Для вероятностей р 1 функционирования ВС в стационарном режиме, имеем а) с учетом времени переключения

_; (15)

„ „ /ч N!Äk+lMN-kvN

Pk l = lim Pt, (t) =---

kl k,lyj k!l!(N - k -l)!(X^ + Xv +¿v)N

б) без учета времени переключения (у )

Pk = Шп Pk (t) = N In (p, (t) + (t))N-k (1 - p (t) - (t)f =

t^» k.(N - к)! t^»

у^» у^»

= lim N! f Л/ + /у ^N -Л/ + /у

t^» k!(N - к)! [Ли + Лу+иу] I Ли+Лу+иу

у^»

_ N! /N-kXN , " к!(^ N - к )!(Л + /)

то есть

Pk =

к Jl Л + /J [/

N / „\к

NY / 1 fЛ 1 , к е EN.

Таким образом, решение (15), при у, совпадает с решением, представленным в работе [1], для двухпараметрической модели.

Заключение. Основной особенностью масштабируемых вычислительных систем является модульность. Наращивание производительности в таких системах достигается за счет увеличения однотипных элементов, элементарных машин (например, вычислительный узел). В результате отказов, производительность системы изменяется. Рассматривая ВС как объект стохастический, при его анализе, можно оценить потенциальные возможности вычислительной системы.

В рамках теории массового обслуживания рассмотрена модель функционирования масштабируемых вычислительных систем при отказах с учетом времени переключения. В работе предложены аналитические решения для распределения вероятностей состояний системы и для расчета показателей потенциальной живучести в случае модели с тремя параметрами. На примере расчетов, показано как соотносится количество машин на восстановлении с количеством машин в состоянии переключения. Тем самым предоставляется возможность пользователю самому определить, стоит ли пренебречь временем переключения. Показано, что решения трехпараметрической модели сводятся к решениям двух параметрической модели, если не принимать во внимание время переключения.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Хорошевский В.Г. Архитектура вычислительных систем. - М.: МГТУ им. Баумана, 2008. - 520 с.

2. TOP500 Supercomputers Official Site. TOP500 Lists. - Режим доступа: http://www.top500.org (дата обращения 25.03.2020).

3. Gupta S., Patel T., Engelmann C., Tiwari D. Failures in large scale systems: long-term measurement, analysis, and implications // SC '17: Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, Article No. 44, Denver, Colorado - November 12-17, 2017.

4. Schroeder В., Gibson Garth. A large-scale study of failures in high-performance computing systems // Proceedings of the International Conference on Dependable Systems and Networks (DSN2006), Philadelphia, PA, USA, June 25-28, 2006. - 10 р.

5. Вишневский В.М. Теоретические основы проектирования компьютерных сетей. - М.: Техносфера, 2003. - 512 с.

6. Хорошевский В.Г. Модели анализа и организации функционирования большемасштаб-ных распределенных вычислительных систем // Электронное моделирование. - Киев, 2003. - Т. 25, № 6.

7. Blischke W.R., Murthy D.N.P. Reliability. - New York: Wiley, 2000.

8. HoylandA., RausandM. System reliability theory. - New York: Wiley, 1994.

9. Xie M., Dai Y.S., Poh K.L. Computing system reliability: models and analysis. - New York: Kluwer academic publishers, 2004.

10. Kuo W., Zuo M.J. Optimal reliability modeling: principles and applications. - New York: Wiley, 2003.

11. Чечельницкий А.А., Кучеренко О.В. Стационарные характеристики параллельно функционирующих систем обслуживания с двумерным входным потоком // Сб. научных статей. - Минск, 2009. - Вып. 2. - С. 262-268.

12. Назаров А.А., Терпугов А.Ф. Теория массового обслуживания. - Томск: Изд-во НТЛ, 2010. - 228 с.

13. Саати Т.Л. Элементы теории массового обслуживания и ее приложения. - 3-е изд..

- М.: Книжный дом «ЛИБРОКОМ», 2010. - 520 с.

14. КлейнрокЛ. Теория массового обслуживания. - М.: Машиностроение, 1979. - 432 с.

15. Боровков А.А. Вероятностные процессы в теории массового обслуживания. - М.: Наука, 1972. - 368 с.

16. Вентцель Е.С. Теория случайных процессов и ее инженерные приложения. - М.: Наука, 1991. - 384 с.

17. Mor Harchol-Balter Performance Modeling and Design of Computer Systems: Queueing Theory in Action. - Cambridge University Press, 2013.

18. Феллер В. Введение в теорию вероятностей и ее приложения: в 2-х т. - T. 1. - М.: «ЛИБРОКОМ», 2010. - 528 с.

19. Павский В.А., Павский К.В., Хорошевский В.Г. Вычисление показателей живучести распределенных вычислительных систем и осуществимости решения задач // Искусственный интеллект. - 2006. - № 4. - С. 28-34.

20. Такач Л. Комбинаторные методы в теории случайных процессов. - М.: Мир, 1971.

- 264 с.

21. РайдерГ.Дж. Комбинаторная математика. - М.: Мир, 1966. - 154 с.

REFERENCES

1. Khoroshevskiy V.G. Arkhitektura vychislitel'nykh sistem [Architecture of computing systems]. Moscow: MGTU im. Baumana, 2008, 520 p.

2. T0P500 Supercomputers Official Site. T0P500 Lists. Available at: http://www.top500.org (accessed 25 March 2020).

3. Gupta S., Patel T., Engelmann C., Tiwari D. Failures in large scale systems: long-term measurement, analysis, and implications, SC '17: Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, Article No. 44, Denver, Colorado - November 12-17, 2017.

4. Schroeder В., Gibson Garth. A large-scale study of failures in high-performance computing systems, Proceedings of the International Conference on Dependable Systems and Networks (DSN2006), Philadelphia, PA, USA, June 25-28, 2006, 10 р.

5. Vishnevskiy V.M. Teoreticheskie osnovy proektirovaniya komp'yuternykh setey [Theoretical foundations of computer network design]. Moscow: Tekhnosfera, 2003, 512 p.

6. Khoroshevskiy V.G. Modeli analiza i organizatsii funktsionirovaniya bol'shemasshtabnykh raspredelennykh vychislitel'nykh system [Models of analysis and organization of functioning of large-scale distributed computing systems], Elektronnoe modelirovanie [Electronic simulation]. Kiev, 2003, Vol. 25, No. 6.

7. Blischke W.R., Murthy D.N.P. Reliability. New York: Wiley, 2000.

8. HoylandA., RausandM. System reliability theory. New York: Wiley, 1994.

9. Xie M., Dai Y.S., Poh K.L. Computing system reliability: models and analysis. New York: Kluwer academic publishers, 2004.

10. Kuo W., Zuo M.J. Optimal reliability modeling: principles and applications. New York: Wiley, 2003.

11. Chechel'nitskiy A.A., Kucherenko O.V. Statsionarnye kharakteristiki parallel'no funktsioniruyushchikh sistem obsluzhivaniya s dvumernym vkhodnym potokom [Stationary characteristics of parallel functioning service systems with two-dimensional input flow], Sb. nauchnykh statey [Collection of scientific articles]. Minsk, 2009, Issue 2, pp. 262-268.

12. Nazarov A.A., Terpugov A.F. Teoriya massovogo obsluzhivaniya [Queueing theory]. Tomsk: Izd-vo NTL, 2010, 228 p.

13. Saati T.L. Elementy teorii massovogo obsluzhivaniya i ee prilozheniya [Elements of Queuing theory and its applications]. 3 ed. Moscow: Knizhnyy dom «LIBROKOM», 2010, 520 p.

14. Kleynrok L. Teoriya massovogo obsluzhivaniya [Theory of Queuing]. Moscow: Mashinostroenie, 1979, 432 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

15. Borovkov A.A. Veroyatnostnye protsessy v teorii massovogo obsluzhivaniya [Probabilistic processes in the theory of Queuing]. Moscow: Nauka, 1972, 368 p.

16. Venttsel' E.S. Teoriya sluchaynykh protsessov i ee inzhenernye prilozheniya [Theory of random processes and its engineering applications]. Moscow: Nauka, 1991, 384 p.

17. Mor Harchol-Balter Performance Modeling and Design of Computer Systems: Queueing Theory in Action. Cambridge University Press, 2013.

18. Feller V. Vvedenie v teoriyu veroyatnostey i ee prilozheniya [Introduction to probability theory and its applications]: in 2 vol. Vol. 1. Moscow: «LIBROKOM», 2010, 528 p.

19. Pavskiy V.A., Pavskiy K.V., Khoroshevskiy V.G. Vychislenie pokazateley zhivuchesti raspredelennykh vychislitel'nykh sistem i osushchestvimosti resheniya zadach [Calculating the survivability indicators of distributed computing systems and the feasibility of solving problems], Iskusstvennyy intellect [Artificial intelligence], 2006, No. 4, pp. 28-34.

20. Takach L. Kombinatornye metody v teorii sluchaynykh protsessov [Combinatorial methods in the theory of random processes]. Moscow: Mir, 1971, 264 p.

21. Rayder G.Dzh. Kombinatornaya matematika [Combinatorial mathematics]. Moscow: Mir, 1966, 154 p.

Статью рекомендовал к опубликованию д.т.н., профессор Г.М. Лебедев.

Павский Валерий Алексеевич - Кемеровский государственный университет; e-mail: pavva46@mail.ru; 50043, г. Кемерово, ул. Красная, 6; тел.: +73842396832; кафедра общей математики и информатики; д.т.н.; профессор.

Павский Кирилл Валерьевич - Институт физики полупроводников им. А.В. Ржанова СО РАН; e-mail: pkv@isp.nsc.ru; 630090, г. Новосибирск, пр. Ак. Лаврентьева, 13; тел.: +73833332171, 3305626; д.т.н.; доцент; зав. Лабораторией вычислительных систем; профессор кафедры вычислительных систем Сибирского государственного университета телекоммуникаций и информатики.

Pavsky Valery Alekseevich - Kemerovo State University; e-mail: pavva46@mail.ru; 6, Krasnaya Street, Kemerovo, 650043, Russia; phone: +73842396832; the department of general mathematics and informatics; dr. of eng. sc.; professor.

Pavsky Kirill Valerievich - Rzhanov Institute of Semiconductor Physics Siberian Branch of Russian Academy of Sciences; e-mail: pkv@isp.nsc.ru; 13, Ak. Lavrentiev Ave., Novosibirsk, 630090, Russia; phone: +73833332171, 3305626; dr. of eng. sc.; head of computer systems laboratory; professor of computer systems department, SibSUTIS.

i Надоели баннеры? Вы всегда можете отключить рекламу.