Научная статья на тему 'Расчет функции осуществимости решения задач на распределенных вычислительных системах при отказах и восстановлениях'

Расчет функции осуществимости решения задач на распределенных вычислительных системах при отказах и восстановлениях Текст научной статьи по специальности «Математика»

CC BY
263
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ / ОТКАЗЫ / ВОССТАНОВЛЕНИЯ / СТОХАСТИЧЕСКАЯ МОДЕЛЬ / ФУНКЦИЯ ОСУЩЕСТВИМОСТИ РЕШЕНИЯ ЗАДАЧ / DISTRIBUTED COMPUTER SYSTEMS / FAILURES / RENEWAL / STOCHASTIC MODEL / REALIZABILITY FUNCTION OF SOLVING PROBLEMS

Аннотация научной статьи по математике, автор научной работы — Павский Кирилл Валерьевич, Павский Валерий Алексеевич

Качество функционирования вычислительных систем (ВС) оценивается набором показателей производительности, надежности, живучести, осуществимости решения задачи и технико-экономической эффективности. Для оценки потенциальных возможностей ВС по достижению цели их функционирования (решения поступающих задач) используют показатели осуществимости решений задач. Данные показатели характеризуют процесс решения задач на неабсолютно надёжных ВС. Функция осуществимости это условная вероятность того, что сложная задача, представленная параллельной программой, будет решена на ВС за данное время, при условии что параллельная программа на начало решения задачи использовала все работоспособные ЭМ. Предлагается стохастическая модель функционирования вычислительных систем при решении сложных задач. Предложено выражение для расчета функции осуществимости решения трудоемких задач на распределенных вычислительных системах. Считаем, что известно ускорение решения задачи на рассматриваемом числе машин вычислительной системы в определенный момент времени. Вывод выражений для расчета показателей осуществимости решения задачи основан на допущении, что время решения задачи на вычислительной системе есть функция времени решения задачи на одной элементарной машине и эта функция имеет конечное число разрывов. Разрывы имеют вероятностный характер и соответствуют отказам и восстановлениям машин в ВС, которые требуют реконфигурации ВС (перенастройки структуры с учетом только исправных машин). Расчет по полученным выражениям произведен числено. Представлен пример расчета вероятности решения задачи за заданное время на вычислительной системе.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Павский Кирилл Валерьевич, Павский Валерий Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CALCULATION OF FUNCTION OF REALIZABILITY OF PROBLEM SOLUTION ON DISTRIBUTED COMPUTATION SYSTEMS IN CASE OF FAILURES AND RESTORATIONS

Modern distributed computer systems (CS) are of large scale and intended to solve problems of varying complexity. The number of nodes in such systems can reach hundreds of thousands of units. Experience shows that times between different types of failure in computer systems can be measured in hours. Such systems have increased requirements for reliability and robustness. Development of effective tools for analyzing the functioning of such systems becomes urgent. Quality of CS functioning is evaluated using the set of indices of: reliability, robustness, realizability of solving problems, etc. Indices of realizability of solving problems characterize the process of solving problems on not absolutely reliable computer systems. Realizability function is the conditional probability that a complex problem represented by a parallel program will be solved in a given time on a CS functioning with a given number of working elementary machines (EM) and using for solution all the working EMs. The paper proposes a stochastic model of the functioning of computer systems at solving complex problems. The formulas of function for calculating the realizability of solving tasks in distributed computer systems are proposed. The derivation of equation for calculating the efficiency indices is based on the assumption that the time of problem solution on CS is a function of time of problem solution on one elementary machine, and the function has a finite number of discontinuities. The discontinuities have the probabilistic character and correspond to the CS failures which require reconfiguration of the CS (structure readjustability with regard to working machine only). Calculation of the obtained expression is executed by using approximation calculation. The example for calculation of the probability of solving problem in a given time on a computer system is presented.

Текст научной работы на тему «Расчет функции осуществимости решения задач на распределенных вычислительных системах при отказах и восстановлениях»

34. Gorelova G.V., Mel'nik E.V. Effekt vyravnivaniya vychislitel'noy nagruzki protsessornykh ustroystv v vysokonadezhnykh raspredelennykh informatsionno-upravlyayushchikh sistemakh [The alignment effect of the processing load of the processor devices into highly distributed information-control systems], Mekhatronika, avtomatizatsiya, upravlenie [Mechatronics, Automation, Control], 2012, pp. 29-35.

Статью рекомендовал к опубликованию д.т.н., профессор С.Г. Капустян.

Мельник Эдуард Всеволодович - Южный научный центр Российской академии наук; e-mail: evm17@mail.ru; г. Ростов-на-Дону, просп. Чехова, 41; зав. отделом; д.т.н.

Иванов Донат Яковлевич - e-mail: donat.ivanov@gmail.com; м.н.с..

Клименко Анна Борисовна - Научно-исследовательский институт многопроцессорных вычислительных систем им. А.В. Каляева ЮФУ; e-mail: anna_klimenko@mail.ru; г. Таганрог г., ул. Чехова, 2; научный сотрудник; к.т.н.

Гандурин Виктор Александрович - АО «Заслон»; e-mail: v.a.gandurin@onegroup.ru; 196084, Санкт-Петербург, ул. Коли Томчака, 9; тел.: +78123279099 (доб. 4012); руководитель отделения - заместитель генерального конструктора; д.т.н.

Melnik Eduard Vsevolodovich - Southern Scientific Centre of the Russian Academy of Sciences; e-mail: evm17@mail.ru; 41, Chekhov avenue, Rostov-on-Don, Russia; head of department; dr. of eng. sc.

Ivanov Donat Yakovlevich - e-mail: donat.ivanov@gmail.com; jr. research assistant.

Klimenko Anna Borisovna - SFedU Acad. Kalyaev Scientific Research Institute of Multiprocessor Computer Systems; e-mail: anna_klimenko@mail.ru; 2, Chekhov street, taganrog, Russia; cand. of eng. sc.; research assistant.

Gandurin Victor Alexandrovich - JSC «ZASLON»; e-mail: v.a.gandurin@onegroup.ru; 9, Koli Tomchaka street, Saint-Petersburg, 196084, Russia; phone: +78123279099 (ex. 4012); dr. of eng. sc.; head of department - branch chief designer.

УДК 004.272:[519.87:519.248] DOI 10.18522/2311-3103-2016-12-8491

К.В. Павский, В.А. Павский

РАСЧЕТ ФУНКЦИИ ОСУЩЕСТВИМОСТИ РЕШЕНИЯ ЗАДАЧ НА РАСПРЕДЕЛЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ ПРИ ОТКАЗАХ И ВОССТАНОВЛЕНИЯХ*

Качество функционирования вычислительных систем (ВС) оценивается набором показателей производительности, надежности, живучести, осуществимости решения задачи и технико-экономической эффективности. Для оценки потенциальных возможностей ВС по достижению цели их функционирования (решения поступающих задач) используют показатели осуществимости решений задач. Данные показатели характеризуют процесс решения задач на неабсолютно надёжных ВС. Функция осуществимости - это условная вероятность того, что сложная задача, представленная параллельной программой, будет решена на ВС за данное время, при условии что параллельная программа на начало решения задачи использовала все работоспособные ЭМ. Предлагается стохастическая модель функционирования вычислительных систем при решении сложных задач. Предложено выражение для расчета функции осуществимости решения трудоемких задач на распределенных вычислительных системах. Считаем, что известно ускорение решения задачи на рассматриваемом числе машин вычислительной системы в определенный момент времени.

* Работа выполнена при поддержке РФФИ (грант № 16-07-00712). 84

Вывод выражений для расчета показателей осуществимости решения задачи основан на допущении, что время решения задачи на вычислительной системе есть функция времени решения задачи на одной элементарной машине и эта функция имеет конечное число разрывов. Разрывы имеют вероятностный характер и соответствуют отказам и восстановлениям машин в ВС, которые требуют реконфигурации ВС (перенастройки структуры с учетом только исправных машин). Расчет по полученным выражениям произведен числено. Представлен пример расчета вероятности решения задачи за заданное время на вычислительной системе.

Распределенные вычислительные системы; отказы; восстановления; стохастическая модель; функция осуществимости решения задач.

K.V. Pavsky, V.A. Pavsky

CALCULATION OF FUNCTION OF REALIZABILITY OF PROBLEM

SOLUTION ON DISTRIBUTED COMPUTATION SYSTEMS IN CASE OF FAILURES AND RESTORATIONS

Modern distributed computer systems (CS) are of large scale and intended to solve problems of varying complexity. The number of nodes in such systems can reach hundreds of thousands of units. Experience shows that times between different types of failure in computer systems can be measured in hours. Such systems have increased requirements for reliability and robustness. Development of effective tools for analyzing the functioning of such systems becomes urgent. Quality of CS functioning is evaluated using the set of indices of: reliability, robustness, realizability of solving problems, etc. Indices of realizability of solving problems characterize the process of solving problems on not absolutely reliable computer systems. Realizability function is the conditional probability that a complex problem represented by a parallel program will be solved in a given time on a CS functioning with a given number of working elementary machines (EM) and using for solution all the working EMs. The paper proposes a stochastic model of the functioning of computer systems at solving complex problems. The formulas of function for calculating the realizability of solving tasks in distributed computer systems are proposed. The derivation of equation for calculating the efficiency indices is based on the assumption that the time of problem solution on CS is a function of time of problem solution on one elementary machine, and the function has a finite number of discontinuities. The discontinuities have the probabilistic character and correspond to the CS failures which require reconfiguration of the CS (structure readjustability with regard to working machine only). Calculation of the obtained expression is executed by using approximation calculation. The example for calculation of the probability of solving problem in a given time on a computer system is presented.

Distributed computer systems; failures; renewal; stochastic model; realizability function of solving problems.

1. Введение. Современные распределенные вычислительные системы (ВС) относятся к высокопроизводительным вычислительным средствам. Количество узлов в таких системах измеряется от нескольких десятков до сотен тысяч [1, 2]. Увеличение числа вычислительных машин в системе провоцирует резкое увеличение числа отказов [3]. Практика показывает, что в большемасштабных вычислительных системах время между различными видами отказов может измеряться часами [4]. Поэтому актуальным становится как организация отказоустойчивого функционирования, так и анализ функционирования ВС при решении задач [5-14].

Качество функционирования ВС оценивается при помощи набора показателей производительности, надежности, живучести, осуществимости решения задачи и технико-экономической эффективности [15]. Для оценки потенциальных возможностей ВС по достижению цели их функционирования (решения поступающих задач) используют показатели осуществимости решений задач. Показатели характеризуют процесс решения задач на неабсолютно надёжных ВС.

Функция осуществимости - это условная вероятность того, что сложная задача, представленная параллельной программой, будет решена за данное время на ВС, начавшей функционировать с заданным числом исправных элементарных машин (ЭМ) и использующей для решения все работоспособные ЭМ [16].

В работе получено выражение и предложен расчет функции осуществимости решения сложных задач на распределенных ВС, приведены примеры.

2. Модель. Объектом исследования являются распределенные ВС, состоящие из N неабсолютно надежных однородных ЭМ.

Пусть задача решается на одной абсолютно надежной ЭМ за время Т. Сопоставим началу решения задачи время t = 0, тогда время / е (0, Т] будет определять часть решенной задачи. Считаем, что часть задачи, решенная за время / + А/, складывается из частей решаемых в промежутке (0, /] и в промежутке

(/, / + А/]. Обозначим через О^ - часть задачи, находящейся в решении

на одной ЭМ в промежутке времени (/, / + А/]. Тогда время решения части

О^д ц задачи на ВС будем рассматривать, как функцию от времени решения на

одной ЭМ. Рассматриваем ВС, где возникают отказы исправных машин и восстановление неисправных ЭМ. Отказ или восстановление ЭМ инициируют выполнение процедуры реконфигурации ВС. Пусть Т - время реконфигурации.

Пусть f (/) - время решения части О(о /] на ВС из N(/(/)) исправных

ЭМ в момент времени f (/) , при условии, что N(0) = I, I е {1,..^}. Считаем,

что задача представлена адаптирующейся параллельной программой и ее решение возможно, если в системе имеется хотя бы одна исправная ЭМ. Требуется вывести расчетное выражение для среднего значения времени f (/) решения задачи при

заданных значениях интенсивностей отказов 1, восстановлений ц и времени реконфигурации Тш.

Пусть к(/) - коэффициент ускорения решения части задачи _а/ /] на

исправных машинах ВС.

Если допустить, что за время А/ не происходит отказов или восстановлений и часть задачи решается на исправных ЭМ за время

т = f + А) _ f (/), то к) = А//т, т> 0.

Таким образом, время решения задачи на ВС есть функция времени решения задачи на одной элементарной машине и эта функция имеет конечное число разрывов. Разрывы имеют вероятностный характер и соответствуют отказам и восстановлениям машин, которые требуют реконфигурации ВС (перенастройки структуры с учетом только исправных машин).

Для расчета времени решения задачи на ВС с отказами ЭМ и последующем их восстановлением имеем выражение

f (/ + А) = f (/) + к _1 (/)А + р(к _1 (/ )А )ТШ,

где р(/) - вероятность возникновения отказа или восстановления ЭМ в ВС за время / .

Пусть р(Т, ^, п) вероятность решения сложной задачи (представленной параллельной программой) за время Т на распределенной ВС состоящей из П исправных ЭМ при общим числе машин - N ts - время решения задачи на одной ЭМ.

Введем обозначения:

П

(гк ,гк+г ]

это та часть задачи, которая решается на одной машине за вре-

((к, гк+г ] , к е Е0 = {0,1,...,£}, г е Е0 к = {0,1,...,, - к};

за

Р(Т, г к, , п) вероятность решения части г ] сложной задачи

время Т на распределенной ВС состоящей из П исправных ЭМ при их общем числе - N;

/ ( (к ) - время решения на ВС части задачи;

А/(гк ) = f(tk+1) - f(tk ) - время решения части П(гк ,гш ]; р^ (п, г, т) - вероятность возникновения отказа в ВС состоящей из П исправных ЭМ за время ( , при условии, что этот отказ наступит после времени Т ;

Ргяг (п, (, т) - вероятность восстановления ЭМ за время (, при условии, что это восстановление наступит после времени Т ;

Тип - время реконфигурации системы на исправное число машин.

При выводе формул необходимо определить процесс по которому идут восстановления и отказы машин [17, 18]. Пусть отказы и восстановление ЭМ происходят в соответствие размеченному графу (см. рис. 1) [19, 20].

Рис. 1. Размеченный граф состояний, описывающий марковский процесс; Х^. ((), ¡ик+1 (г) - параметры процесса, соответствующие интенсивностям отказов и восстановлениям машин в системе; к = 0, 1, 2, ...,N

Заметим, что при к = 0

Р(Т, г5, п) = Р(Т, гк, г5, П) . (1)

Итак, используя (1) для расчета искомой вероятности Р(Т, г , п) предлагается следующее выражение:

'(1 - рм, (П, А/ (гк), / (1к )))(1 - р„, (П, А/ (гк), / (гк))) Р(Т-А/ (гк), гк+1, г,, п) +

+ рд, (п, А/(гк), /(гк ))Р(Т - А/(гк) - Т1и„, гк+1, г,, п -1) + + Рг, (п, А/(гк), /(гк ))Р(Т - А/(гк) - ТШп, гк+и г,, п+1),

1 < П < N;

(1 - рК, (П, А/(гк), /(гк )))Р(Т - А/(гк), гк+1, г,, п) + (2)

+ рд,(п, А/(гк),/(гк))Р(Т-А/(гк)-Т1и„,гк+1,г,,п-1),

Р(Т, гк, г,, п) и

П = N;

(1 - ры (п, А/(гк), /(гк )))Р(Т - А/(гк), гк+1, г,, п) +

+ р„(п, А/(гк),/(гк))Р(Т-А/(гк)-Т1и„,гк+1,г,,П+1),

1, к = ^ & Т > 0; 0, Т < 0.

п = 1;

мя

3. Пример расчета функции осуществимости решения сложных задач.

В рассматриваемом примере, отказы и восстановления элементарных машин в распределенной вычислительной системе происходят согласно экспоненциальному закону для процесса, представленного на рис. 1.

0,2 -

0 Н—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I £

10 10.1 10.2 10.3

Рис. 2. Вероятность решения сложной задачи на ВС за время t Т = 1000 ч; N = 100; г = 100; / = 0; К(г) = г, ТШп = 0.02 ч:

1 - 1 = 10_4 1/ч; 2 - 1 = 5 • 10_4 1/ч; 3 - 1 = 10_3 1/ч.

р

0,2

О .........................

10 10.1 10.2 10.3

Рис. 3. Вероятность решения сложной задачи на ВС за время t Т1 = 1000 ч; N = 100; г = 100; / = 1 ^; т = 1; К(г) = г, ТШп = 0.02 ч:

1 - 1 = 10_4 1/ч; 2 - 1 = 5 • 10_4 1/ч; 3 - 1 = 10_3 1/ч.

Формулы (1) и (2) для расчета функции осуществимости решения сложных задач на распределенных ВС были реализованы на языке программирования С. На рис. 2 представлен расчет функции осуществимости решения задач для случая, когда отказавшие машины не восстанавливаются, и на рис. 3 - с учетом восстановления. На рисунках видно, что, в данном случае, при относительно малом времени реконфигурации в системах с восстановлением отказавших машин вероятность решения задачи выше в сравнении с системами без восстановлений.

Заключение. В работе предложена модель для расчета показателей осуществимости решения задач на распределенных вычислительных системах в режиме решения одной сложной задачи.

Получено выражение для расчета функции осуществимости решения параллельной задачи на распределенных ВС, которое учитывает: коэффициент ускорения решаемой задачи на ВС, реконфигурацию, отказы и восстановления машин. Представлены примеры расчета вероятности решения задачи как функции времени.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. TOP500 Supercomputers Official Site. TOP500 Lists. - URL: http://www.top500.org.

2. Dongarra J.J., A.J. van der Steen. High-performance computing systems: Status and outlook, Acta Numerica. 2012. - P. 1-96.

3. Nikolic S. High Performance Computing Directions: The Drive to ExaScale Computing // Труды Международной научной конференции "Параллельные вычислительные технологии (ПаВТ'2012). - Новосибирск, 2012. - URL: http://pavt.susu.ru/2012/talks/Nikolic.pdf.

4. Schroeder B. and Gibson G.A. Understanding Failures in Petascale Computers // Journal of Physics: Conference Series. - Jul. 2007. - Vol. 78, No. 1. - P. 012 022+. Available: http://dx.doi.org/10.1088/ 1742-6596/78/1/012022.

5. Christopher Weaver, Joel Emer, Shubhendu S. Mukherjee, and Steven K. Reinhardt. Techniques to reduce the soft error rate of a high-performance microprocessor // In Proceedings of the 31st Annual International Symposium on Computer Architecture, ISCA '04. - Washington, DC, USA, 2004. I. - P. 264.

6. Vilas Sridharan, Nathan DeBardeleben, Sean Blanchard, Kurt B. Ferreira, Jon Stearley, John Shalf, and Sudhanva Gurumurthi. Memory errors in modern systems: The good, the bad, and the ugly // In Proceedings of the Twentieth International Conference on Architectural Support for Programming Languages and Operating Systems. - 2015. - P. 297-310.

7. Jin H., Chen Y., Zhu H., and Sun X.H. Optimizing hpc fault-tolerant environment: An analytical approach // In 2010 39th International Conference on Parallel Processing. - Sept. 2010.

- P. 525-534.

8. Di S., Bouguerra M.S., Bautista-Gomez L., and Cappello F. Optimization of multilevel checkpoint model for large scale hpc applications // In Parallel and Distributed Processing Symposium, 2014 IEEE 28th International. - May 2014. - P. 1181-1190.

9. Корнеев В.В., Семенов Д.В., Телегин П.Н., Шабанов Б.М. Отказоустойчивое децентрализованное управление ресурсами грид // Известия вузов. Электроника. - 2015. - № 1.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- С. 83-89.

10. Каляев И.А., Коробкин В.В., Мельник Э.В., Малахов И.В. Отказоустойчивый управляющий вычислительный комплекс машины перегрузочной атомного реактора типа ВВЭР // Мехатроника, автоматизация, управление. - 2003. - № 3. - С. 143-146.

11. Мельник Э.В., Горелова Г.В. Имитационное моделирование вариантов резервирования в распределенных информационно-управляющих системах с децентрализованной организацией// Известия ЮФУ. Технические науки. - 2013. - № 3 (140). - С. 184-193.

12. Каляев И.А., Мельник Э.В. Децентрализованные системы компьютерного управления: монография. - Ростов-на-Дону: Изд-во ЮНЦ РАН, 2011. - 196 с.

13. Капустян С.Г., Мельник Э.В. Технология организации отказоустойчивого функционирования распределенных информационно-управляющих систем сложных технических объектов // Вестник компьютерных и информационных технологий. - 2010. - № 4. - С. 33-41.

14. Balaji P., Buntinas D., Goodell D. [et al.]. MPI on a Million Processors // Proceedings of the 16th European PVM/MPI Users' Group Meeting on Recent Advances in Parallel Virtual Machine and Message Passing Interface. - Berlin, Heidelberg: SpringerVerlag, 2009. - P. 20-30.

15. Хорошевский В.Г. Инженерный анализ функционирования вычислительных машин и систем. - М.: Радио и связь, 1987. - 256 с.

16. Хорошевский В.Г. Архитектура вычислительных систем. - М.: МГТУ им. Баумана, 2008.

- 520 с.

17. Павский В.А., Павский К.В. Математическое моделирование функционирования распределенных вычислительных систем с отказами и полным восстановлением // Вестник компьютерных и информационных технологий. - 2015. - № 11. - С. 41 -44.

18. Pavskii V.A., Pavskii K.V. Stochastic simulation and analysis of the operation of computing systems with structural redundancy // Optoelectronics, instrumentation and data processing, Allerton Press, Inc., 2014. - Vol. 50, No 4. - P. 363-369.

19. Саати Т.Л. Элементы теории массового обслуживания и ее приложения. - М.: URSS, 2010. - 520 с.

20. КлейнрокЛ. Теория массового обслуживания. - М.: Машиностроение, 1979. - 432 с.

REFERENCES

1. T0P500 Supercomputers Official Site. T0P500 Lists. Available at: http://www.top500.org.

2. Dongarra J.J., A.J. van der Steen. High-performance computing systems: Status and outlook, Acta Numerica. 2012, pp. 1-96.

3. Nikolic S. High Performance Computing Directions: The Drive to ExaScale Computing, Trudy Mezhdunarodnoy nauchnoy konferentsii "Parallel'nye vychislitel'nye tekhnologii (PaVT'2012) [Proceedings of the International scientific conference "Parallel computational technologies (PCT' '2012)]. Novosibirsk, 2012. Available at: http://pavt.susu.ru/2012/talks/Nikolic.pdf.

4. Schroeder B. and Gibson G.A. Understanding Failures in Petascale Computers // Journal of Physics: Conference Series. - Jul. 2007. - Vol. 78, No. 1. - P. 012 022+. Available: http://dx.doi.org/10.1088/ 1742-6596/78/1/012022.

5. Christopher Weaver, Joel Emer, Shubhendu S. Mukherjee, and Steven K. Reinhardt. Techniques to reduce the soft error rate of a high-performance microprocessor // In Proceedings of the 31st Annual International Symposium on Computer Architecture, ISCA '04. - Washington, DC, USA, 2004. I. - P. 264.

6. Vilas Sridharan, Nathan DeBardeleben, Sean Blanchard, Kurt B. Ferreira, Jon Stearley, John Shalf, and Sudhanva Gurumurthi. Memory errors in modern systems: The good, the bad, and the ugly // In Proceedings of the Twentieth International Conference on Architectural Support for Programming Languages and Operating Systems. - 2015. - P. 297-310.

7. Jin H., Chen Y., Zhu H., and Sun X.H. Optimizing hpc fault-tolerant environment: An analytical approach // In 2010 39th International Conference on Parallel Processing. - Sept. 2010. - P. 525-534.

8. Di S., Bouguerra M.S., Bautista-Gomez L., and Cappello F. Optimization of multilevel checkpoint model for large scale hpc applications // In Parallel and Distributed Processing Symposium, 2014 IEEE 28th International. - May 2014. - P. 1181-1190.

9. Korneev V.V., Semenov D.V., Telegin P.N., Shabanov B.M. Otkazoustoychivoe detsentralizovannoe upravlenie resursami grid [Failover decentral-centralized resource management grid], Izvestiya vuzov. Elektronika [Proceedings of Higher Educational Institutions. Electronics], 2015, No. 1, pp. 83-89.

10. Kalyaev I.A., Korobkin V.V., Mel'nik E.V., Malakhov I.V.Otkazoustoychivyy upravlyayushchiy vychislitel'nyy kompleks mashiny peregruzochnoy atomnogo reaktora tipa VVER [Fault-tolerant computer control system refueling machine of nuclear reactor VVER], Mekhatronika, avtomatizatsiya, upravlenie [Mechatronics, Automation, Control], 2003, No. 3, pp. 143-146.

11. Mel'nik E.V., Gorelova G.V. Imitatsionnoe modelirovanie variantov rezervirovaniya v raspredelennykh informatsionno-upravlyayushchikh sistemakh s detsentralizovannoy organizatsiey [Simulation modelind back-up options in distributed information-control system with a decentralized organization], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2013, No. 3 (140), pp. 184-193.

12. Kalyaev I.A., Mel'nik E.V.Detsentralizovannye sistemy komp'yuternogo upravleniya: monografiya [Decentralized computer control: monograph]. Rostov-on-Don: Izd-vo YuNTs RAN, 2011, 196 p.

13. Kapustyan S.G., Mel'nik E.V. Tekhnologiya organizatsii otkazoustoychivogo funktsionirovaniya raspredelennykh informatsionno-upravlyayushchikh sistem slozhnykh tekhnicheskikh ob"ektov [The technology of fault tolerant operation of a distributed information-control systems of complex technical objects], Vestnik komp'yuternykh i informatsionnykh tekhnologiy [Herald of computer and information technologies], 2010, No. 4, pp. 33-41.

14. Balaji P., Buntinas D., Goodell D. [et al.]. MPI on a Million Processors, Proceedings of the 16th European PVM/MPI Users' Group Meeting on Recent Advances in Parallel Virtual Machine and Message Passing Interface. Berlin, Heidelberg: SpringerVerlag, 2009, pp. 20-30.

15. Khoroshevskiy V.G. Inzhenernyy analiz funktsionirovaniya vychislitel'nykh mashin i system [Engineering analysis of the functioning of computing machines and systems]. Moscow: Radio i svyaz', 1987, 256 p.

16. Khoroshevskiy V.G. Arkhitektura vychislitel'nykh system [Architecture of computing systems]. Moscow: MGTU im. Baumana, 2008, 520 p.

17. Pavskiy V.A., Pavskiy K.V. Matematicheskoe modelirovanie funktsionirovaniya raspre-delennykh vychislitel'nykh sistem s otkazami i polnym vosstanovleniem [Mathematical modeling of the functioning of distributed computing systems with failure and full restoration], Vestnik komp'yuternykh i informatsionnykh tekhnologiy [Herald of computer and information technologies], 2015, No. 11, pp. 41-44.

18. Pavskii V.A., Pavskii K.V. Stochastic simulation and analysis of the operation of computing systems with structural redundancy, Optoelectronics, instrumentation and data processing, Allerton Press, Inc., 2014, Vol. 50, No 4, pp. 363-369.

19. Saati T.L. Elementy teorii massovogo obsluzhivaniya i ee prilozheniya [Elements of queueing theory and its applications]. Moscow: URSS, 2010, 520 p.

20. Kleynrok L. Teoriya massovogo obsluzhivaniya [The theory of mass service]. Moscow: Mashinostroenie, 1979, 432 p.

Статью рекомендовал к опубликованию д.т.н. Э.В. Мельник.

Павский Кирилл Валерьевич - Федеральное государственное бюджетное учреждение науки Институт физики полупроводников им. А.В. Ржанова СО РАН; e-mail: pkv@isp.nsc.ru; 630090, г. Новосибирск, пр. Лаврентьева, 13; тел.: 83833332171, 3305626; лаборатория ВС; зав. лабораторией; д.т.н.; доцент.

Павский Валерий Алексеевич - Кемеровский технологический институт пищевой промышленности; e-mail: pavva46@mail.ru; 650056, г. Кемерово, б-р Строителей, 47; тел.: 83842734200; кафедра высшей математики; зав. кафедрой; д.т.н.; профессор.

Pavsky Kirill Valerievich - A.V. Rzhanov institute of semiconductor physics of Siberian branch of the RAS; e-mail: pkv@isp.nsc.ru; 630090, Novosibirsk, Ak. Lavrentieva av., 13; phones: +73833332171, 3305626; chief of laboratory; dr. of eng. sc.

Pavsky Valery Alexeevich - Kemerovo Institute of Technology of the Food-processing Industry; e-mail: pavva46@mail.ru; 650056, Kemerovo, Stroiteley bulvar, 47; phone: +73842734200; the department of high mathematics; head of department; dr. of eng. sc.; professor.

i Надоели баннеры? Вы всегда можете отключить рекламу.