Научная статья на тему 'ИМИТАЦИОННЫЕ МОДЕЛИ КЛАСТЕРОВ И ГРИД-СИСТЕМ'

ИМИТАЦИОННЫЕ МОДЕЛИ КЛАСТЕРОВ И ГРИД-СИСТЕМ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
53
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГРИД-СИСТЕМЫ / БРОКЕР ЗАДАНИЙ / ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ / ДЕТЕРМИНИРОВАННАЯ ИМИТАЦИОННАЯ МОДЕЛЬ / РАСПРЕДЕЛЕНИЕ ЗАДАНИЙ / ЭВРИСТИКИ РАСПРЕДЕЛЕНИЯ ЗАДАНИЙ / СИСТЕМЫ МАССОВОГО ОБСЛУЖИВАНИЯ (СМО) / ВЫЧИСЛИТЕЛЬНЫЙ КЛАСТЕР

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гаевой Сергей Владимирович, Фоменков Сергей Алексеевич, Лукьянов Виктор Сергеевич

В данной статье описывается управление стратегиями (эвристиками) распределения заданий в Грид-системе. Грид-система в рамках данной работы принимается состоящей из кластеров. Каждая кластерная система представлена в виде системы массового обслуживания (СМО), которая выполняет поступающие задания. Очередь полагается неограниченной из-за требования выполнить все задания. Стратегии позволяют балансировать нагрузку между кластерами Грид-системы. Рассматриваются детерминированная и стохастическая имитационные модели кластера и Грид-системы. Обе модели основаны на реальных записях параллельных нагрузок (представленных в виде SWF-логов), которые свободно доступны в Parallel Workloads Archive. В рамках данной статьи каждая нагрузка считается состоящей из трех значений. Каждая из них содержит время прихода задания, ширину и длину задания. Ширина - это количество вычислительных машин, которые необходимы для выполнения задания. Длина - это время выполнения задания на некоторой платформе. Площадь (сложность) является произведением длины и ширины. Предложены модели стохастической аппроксимации нагрузок с использованием распределений случайной величины. Дается список из десяти эвристик. Эти эвристики учитывают длину очереди, ее ширину, загрузку системы, использование ресурсов и т.п. Пользовательские оценки времени выполнения заданий крайне не точны по отношению к реальным временам выполнения. поэтому мы не применяем пользовательские оценки. Детерминированная и стохастическая модели как кластерной, так и Грид-системы показывают аналогичный результат, поэтому мы можем предположить, что обе модели являются правильными. Если SWF-лог содержит некоторые аномалии, то результаты могут быть различными. Это означает, что информация из лога не в полной мере описывает поведение кластера. Разработанные модели нацелены на выбор наиболее эффективной стратегии распределения заданий.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гаевой Сергей Владимирович, Фоменков Сергей Алексеевич, Лукьянов Виктор Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE SIMULATION MODELS OF CLUSTERS AND GRID-SYSTEMS

This paper describes the management of strategies (heuristics) for job distribution in Grid-system. Grid-system is assumed to consist of clusters. Each cluster system is represented as a queueing system (QS) that executes incoming jobs. An unlimited queue is assumed because of a requirement to execute all jobs. Strategies make allowance for balancing workload between clusters of Grid-system. In this paper the deterministic and stochastic simulation model for cluster and Grid-system are described. Both models are based on real parallel workloads (represented as SWF-logs). These parallel workloads are provided by Parallel Workloads Archive for free. In this paper each workload consists of triplets. Each triplet contains an income time, a job width and a job length. The width is an amount of faculty units being required to execute the job. The length is the time the job needs to be executed on some platform. The square (the difficulty) is a product of the length and the width. Some models for stochastic approximation of workloads are proposed. These models are accompanied by some distributions. A list of ten heuristics is given. These heuristics make allowance for queue length, queue width, system loading, system using etc. User runtime estimates are very inaccurate values. They are very different from real runtimes. Because of that we shouldn't use the heuristics containing such estimates. The deterministic and stochastic models show a similar result so that we can presume both model are correct. If a SWF-log contains some anomalies then the results can be different. That means an information from the log do not fully describe the cluster behavior. The developed models are aimed at selecting the most effective strategy of job distribution.

Текст научной работы на тему «ИМИТАЦИОННЫЕ МОДЕЛИ КЛАСТЕРОВ И ГРИД-СИСТЕМ»

6. Rakhteenko V. Ye. Kakoy raschetnyy servis nuzhen postavshchikam ZhKU [What kind of billing service do utility services providers need]. ZhKKh: Zhurnal rukovoditelya i glavnogo bukhgaltera [Housing and Communal Services: Magazine of Director and Cheif Accountant], 2005, no. 11, part 1, pp. 21-24.

7. Seiko D. SQL dlya professionalov. Programmirovanie [SQL for smarties. Programming], Moscow, Lori Publ., 2009. 442 p.

8. Fedosin A. S., Savkina A. V. Problemy kachestva dannykh v avtomatizirovannykh sistemakh kommercheskogo ucheta potrebleniya energoresursov [Data quality issues for energu management systems]. Prikaspiyskiy zhurnal: upravlenie i vysokie tekhnologii [Caspian Journal: Management and High Technologies], 2014, no. 2, pp. 158-164.

9. Solver Foundation. DevLabs. Available at: http://msdn.microsoft.com/en-us/devlabs/hhl45003.aspx (accessed 20 November 2014).

УДК 004.94, 519.872

ИМИТАЦИОННЫЕ МОДЕЛИ КЛАСТЕРОВ И ГРИД-СИСТЕМ1

Статья поступила в редакцию 10.12. 2014, в окончательном варианте 08.02. 2015

Гаевой Сергей Владимирович, аспирант, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. Ленина, 28, e-mail: gaevserge@mail.ru

Фоменков Сергей Алексеевич, доктор технических наук, профессор, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. Ленина, 28, e-mail: saf@vstu.ru

, доктор технических наук, профессор, Волгоградский государственный технический университет, 400005, Российская Федерация, г. Волгоград, пр. Ленина, 28

В данной статье описывается управление стратегиями (эвристиками) распределения заданий в Грид-системе. Грид-система в рамках данной работы принимается состоящей из кластеров. Каждая кластерная система представлена в виде системы массового обслуживания (СМО), которая выполняет поступающие задания. Очередь полагается неограниченной из-за требования выполнить все задания. Стратегии позволяют балансировать нагрузку между кластерами Грид-системы. Рассматриваются детерминированная и стохастическая имитационные модели кластера и Грид-системы. Обе модели основаны на реальных записях параллельных нагрузок (представленных в виде SWF-логов), которые свободно доступны в Parallel Workloads Archive. В рамках данной статьи каждая нагрузка считается состоящей из трех значений. Каждая из них содержит время прихода задания, ширину и длину задания. Ширина - это количество вычислительных машин, которые необходимы для выполнения задания. Длина - это время выполнения задания на некоторой платформе. Площадь (сложность) является произведением длины и ширины. Предложены модели стохастической аппроксимации нагрузок с использованием распределений случайной величины. Дается список из десяти эвристик. Эти эвристики учитывают длину очереди, ее ширину, загрузку системы, использование ресурсов и т.п. Пользовательские оценки времени выполнения заданий крайне не точны по отношению к реальным временам выполнения. Поэтому мы не применяем пользовательские оценки. Детерминированная и стохастическая модели как кластерной, так и Грид-системы показывают аналогичный результат, поэтому мы можем предположить, что обе модели являются правильными. Если SWF-лог содержит некоторые аномалии, то результаты могут быть различными. Это означает, что информация из лога не в полной мере описывает поведение кластера. Разработанные модели нацелены на выбор наиболее эффективной стратегии распределения заданий.

Лукьянов Виктор Сергеевич

1 Работа выполнена при финансовой поддержке со стороны Минобрнауки России в рамках проектной части (проект № 2.1917.2014К 2014).

ПРИКАСПИЙСКИЙ ЖУРНАЛ: управление и высокие технологии № 1 (29) 2015 МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, ЧИСЛЕННЫЕ МЕТОДЫ И КОМПЛЕКСЫ ПРОГРАММ

Ключевые слова: грид-системы, брокер заданий, имитационное моделирование, детерминированная имитационная модель, распределение заданий, эвристики распределения заданий, системы массового обслуживания (СМО), вычислительный кластер, parallel workloads

THE SIMULATION MODELS OF CLUSTERS AND GRID-SYSTEMS

Gaevoy Sergey V, post-graduate student, Volgograd State Technical University, 28 Lenin Av., Volgograd, 400005, Russian Federation, e-mail: gaevserge@mail.ru

Fomenkov Sergey A., D.Sc. (Engineering), Professor, Volgograd State Technical University, 28.Lenin Av., Volgograd, 400005, Russian Federation, e-mail: saf@vstu.ru

Lukyanov Viktor S.|, D.Sc. (Engineering), Professor, Volgograd State Technical University, 28 Lenin Av., Volgograd, 400005, Russian Federation

This paper describes the management of strategies (heuristics) for job distribution in Grid-system. Grid-system is assumed to consist of clusters. Each cluster system is represented as a queueing system (QS) that executes incoming jobs. An unlimited queue is assumed because of a requirement to execute all jobs. Strategies make allowance for balancing workload between clusters of Grid-system. In this paper the deterministic and stochastic simulation model for cluster and Grid-system are described. Both models are based on real parallel workloads (represented as SWF-logs). These parallel workloads are provided by Parallel Workloads Archive for free. In this paper each workload consists of triplets. Each triplet contains an income time, a job width and a job length. The width is an amount of faculty units being required to execute the job. The length is the time the job needs to be executed on some platform. The square (the difficulty) is a product of the length and the width. Some models for stochastic approximation of workloads are proposed. These models are accompanied by some distributions. A list of ten heuristics is given. These heuristics make allowance for queue length, queue width, system loading, system using etc. User runtime estimates are very inaccurate values. They are very different from real runtimes. Because of that we shouldn't use the heuristics containing such estimates. The deterministic and stochastic models show a similar result so that we can presume both model are correct. If a SWF-log contains some anomalies then the results can be different. That means an information from the log do not fully describe the cluster behavior. The developed models are aimed at selecting the most effective strategy of job distribution.

Keywords: Grid-systems, resource broker, simulation modeling, simulation, deterministic simulation model, job distribution, heuristics of a job distribution, queueing systems (QS), computing cluster, parallel workloads

Введение. Продуктивность использования современных средств вычислительной техники определяется не только улучшением качественных и количественных характеристик таких средств, но также планированием и реализацией совместного использования их мощностей в рамках некоторых комплексов, которые могут носить и виртуальный характер. Такой подход может рассматриваться как альтернативный (и более гибкий) по отношению к использованию суперкомпьютеров.

Целью данной работы является разработка методов повышения эффективности функционирования вычислительных кластерных и Грид-систем за счет управления распределением потока заданий (эффективность оценивается средним временем ожидания результата).

Общая характеристика проблематики работы. В данной статье представлены средства моделирования распределения заданий в Грид-системах: детерминированные и стохастические. Система Грид [29] состоит из узлов, именуемых кластерами [17]. Каждый кластер, в свою очередь, построен из вычислительных машин (каналов обслуживания). Производительность эталонной машины обозначим за единицу. Все остальные производительности можно будет пересчитать (оценить) относительно нее. Характеристиками задания являются

время прихода, ширина (число требуемых для исполнения машин кластера) и длина (время выполнения задания на эталонных машинах) [9]. Площадь представляет собой произведение длины задания на его на ширину. Шириной (площадью) очереди назовем сумму ширин (площадей), входящих в нее заданий. Длиной очереди назовем число заданий в ней. В качестве инструмента исследования нами используется дискретно-событийное имитационное моделирование. В своих предыдущих работах мы уже рассматривали различные аспекты моделирования распределенных вычислительных систем и балансировки нагрузки: 1) детерминированные дискретно-событийные модели кластерных [3, 7] и Грид-систем [7, 10]; 2) способы определения параметров систем [3, 7]; 3) стратегии распределения заданий [6, 7, Ю|: 4) модели аппроксимации нагрузки вычислительных систем [4, 5]; 5) законы распределения для аппроксимации 11, 2]; 6) стохастические модели кластеров [5] и Грид-систем [6]. В качестве источника реальных данных о работе вычислительных систем мы используем архив [25]. В настоящей работе проводится обобщение указанных результатов. По результатам работ авторами был составлен и внедрен в учебный процесс Волгоградского государственного технического университета курс моделирования Грид-систем [8] - в рамках преподавания дисциплины «Вычислительные системы и сетевые технологии» на кафедре «Электронные вычислительные машины и системы».

Характеристика методов моделирования.

А. Детерминированное моделирование кластеров

Детерминированная дискретно-событийная модель представляет собой многоканальную систему массового обслуживания (СМО), в которой задание может занимать несколько каналов обслуживания (рис. 1).

На исполнение

\\

Входя щие задания

Очередь

Рис. 1. Схема функционирования модели кластера

ПРИКАСПИИСКИИ ЖУРНАЛ: управление и высокие технологии № 1 (29) 2015 МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, ЧИСЛЕННЫЕ МЕТОДЫ И КОМПЛЕКСЫ ПРОГРАММ

В данной работе используется дисциплина очереди «Первый подходящий». В качестве входных данных для моделирования используются логи работы реальных кластеров. Моделирование останавливается при завершении обслуживания всех заданий (рис. 2).

Моделирование исхода

Г

Все задания обслужены?

+ О

Голова кучи Н

< времени прихода след, задания?.......

Определяем кластер для исполнения след, задания

Задание--, можно поставить на исполн е ние?

1

Извлечь

К

обслуженное задание системы

Извлечь задания из очереди на исполнение с занесением времени завершения в кучу Н

в соответствии с дисциплиной очереди

Поставить в очередь

Поставить на исполнение с занесением времени завершения в кучу H

Т

Расчет статистики исхода

Рис. 2. Алгоритм моделирования

Более подробное описание модели дано в статьях C.B. Гаевой и других исследователей [3, 7]. Детерминированная модель позволяет ретроспективно рассмотреть обслуживание заданий в вычислительной системе. Возможно изменение параметров системы для изучения выполнения тех же заданий в иных условиях. Таким образом, мы получаем возможность ретроспективно рассматривать выполнение заданий при различных стратегиях их распределения между вычислительными центрами. Используемые логи представлены в таблице 1, а результаты моделирования - на рисунках 3-4. Самым важным является параметр «Среднее время ожидания результата»: именно он показывает, сколько времени проходит от подачи задания пользователем до получения результата.

Таблица 1

Используемые логи кластеров_

Обозначение Jlor из [25] Число вычисл. машин

NASA iPSC NAS A-iPSC-1993-3.1-ein. swf 128

LANL СМ5 LANL-CM5-1994-4.l-cln.swf 1024

SDSC Par95 SDSC-Par-1995-3.l-cln.swf 400

SDSC Par96 SDSC-Par-1996-3.l-cln.swf 400

СТС SP2 * 96 CTC-SP2-1996-3.1-ein. swf 338

HPC2N HPC2N-2002-2.l-cln.swf 240

LPC EGEE LPC-EGEE-2004-l.2-cln.swf 140

LP С EGEE

HPC2N

СТС SP2 -96

SDSC РагЭб

SDSC Par95

LANL CMS

NASA ¡PSC

0,001

100

■ Детерминированная модель Стохастическая модель Рис. 3. Средняя длина очереди при моделировании кластеров

1000

■ Детерминированная модель Стохастическая модель

Рис. 4. Среднее время ожидания результата (мин) при моделировании работы кластеров Отчасти предложенные схемы моделирования реализуют сторонние пакеты, например, Опс18пп [11, 13] и Опс.!Мс [24]. Поэтому пакет ОпсШпп был использован при валидации

170

ПРИКАСПИЙСКИЙ ЖУРНАЛ: управление и высокие технологии № 1 (29) 2015 МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, ЧИСЛЕННЫЕ МЕТОДЫ И КОМПЛЕКСЫ ПРОГРАММ

разработанной модели. Результаты валидации даны в таблице 2. К сожалению, возможности моделирования Опс181т ограничены несколькими сотнями заданий. Видно, что полученные результаты практически совпадают. Это говорит о правильности разработанной модели.

Таблица 2

Валидация детерминированной модели кластера Сп(181т

Параметр GridSim Наша модель

Время прихода последнего задания, сек 254828 254828

Время завершения выполнения всех заданий, сек 7465006 7464980

Средняя длина/ширина очереди 0,339306 0,339592

Среднее число исполняемых задач/ Среднее число занятых каналов 30,5052 30,5052

Среднее число заданий в системе 30,8445 30,8448

Средняя площадь очереди 56509 56566

Среднее время ожидания, сек 2473,55 2475,63

Среднее время исполнения, сек 222384 222383

Средне время в системе, сек 224858 224859

В. Стратегии распределения заданий.

Большинство стратегий балансировки (эвристик) используют эмпирические оценки стоимости исполнения. Выбирается кластер с наименьшей стоимостью (при совпадении стоимостей - ранее стоящий в файле конфигурации). Узлы без достаточного числа машин для исполнения получают бесконечную оценку стоимостей.

Ниже приводятся рассмотренные авторами возможные стратегии.

1. Rotate [6, 7, 10]. Список кластеров просматривается циклически, начиная со следующего за тем, который получил последнее задание. Кластер, не обладающий достаточным числом машин для выполнения задания, пропускается.

2. FreeExec [6, 7, 10] - Z = W/(N + W) .

f \

3. QueueWidth [9] - Z

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

w

зад

I

w

eadj

/W.

4. QueueLen [9] - Z = (l + Q)/W.

f \

5. QueueDif [9] - Z =

^ зад

L

задj

i J

!W.

6. QueueProd [6, 7, 10] - Z

1. MaxProd [6, 7, 10] - Z = (jY-P\l .

8. EqualLoading [6, 7, 10] - Z =

' saoj '

9. EqualQueueLen [6, 7, 10] - Z = Q.

10. EqualQueueWidth [6, 7, 10] - Z = w.MOj .

j

«Self» - отсутствие стратегии: каждый кластер исполняет свои задания без обмена с другими кластерами.

Обозначения: W - количество машин кластера, N - количество свободных машин кластера, w3ad - ширина задания, для которого определяется кластер, w3adJ - ширина /-го

задания в очереди кластера, Q - длина очереди кластера, сзад - площадь задания, для которого выбирается исполнитель, сзад- - площадь /-го задания в очереди, Р - производительность узла, Z - стоимость исполнения.

С. Детерминированная модель Грид-системы.

Для детерминированного моделирования используются данные из логов [25]. Но применение логов «как есть» нерационально: поток заданий обладает определенной цикличностью в течение рабочей недели, и логи имеют разную длину. Из-за цикличности кластеры будут испытывать пики нагрузки синхронно, что необходимо учесть при моделировании. Эта процедура подробно описана в статьях C.B. Гаевой и других исследователей [7, 10].

Логи из таблицы 1 будут продлены до времени завершения самого длинного из них (в данном случае это HPC2N). Времена выполнения заданий из логов принимаются за их длины, а производительности узлов задаются таблицей 3 (смысл ее третьего столбца будет разъяснен позднее). На рисунках 5-7 представлены характеристики детерминированной модели.

Таблица 3

Характеристики вычислительных машин

Кластер Производительность Модель

NASA iPSC 0,7 М/$Мл/128

LANL СМ5 0,8 $НГ/$НГл/1024

SDSC Par 9 5 0,9 ~М/$Мл/400

SDSC Par96 1,0 ~М/$Мл/400

CTC SP2 "96 1,1 ~Г/$ГЛ/338

HPC2N 1,2 $Г/$Гл/240

LPC EGEE 1,3 М/М/140

ПРИКАСПИЙСКИЙ ЖУРНАЛ: управление и высокие технологии N° 1 (29) 2015 МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, ЧИСЛЕННЫЕ МЕТОДЫ И КОМПЛЕКСЫ ПРОГРАММ

MaxProd EqualQueueVVidth EqualQueueLen EqualLoading QueueProd QueueDif QueueWidth QueueLen FreeEmc Rotate Self

0 1 2 3 4 5 6 7 8 Э 10 11 12

■ Детерминированная модель i Стохастическая модель

Время прихода последнего задания

Рис. 5. Время обслуживания последнего задания (лет) при моделировании Грид-системы

MaxProd Equal QueueWidth EqualQueueLen EqualLoading QueueProd QueueDif QueueWidth QueueLen FreeExec Rotate Self

1 10 100 1000 10000

ef--

_

■ Детерминированная модель Стохастическая модель Рис. 6. Среднее время ожидания результата расчета при моделировании Грид-системы

MaxProd EqualQueueWidth EqualQueueLen EqualLoading QueueProd QueueDif QueueWidth QueueLen FreeExec Rotate Self

10000

100000

10 100 1000 ■ Детерминированная модель Стохастическая модель Рис. 7. Средняя длина очереди при моделировании Грид-системы

В данном случае была также проведена валидация с использованием средства Спё8пт1. Фрагмент результат представлен в таблице 4. Очевидно, что оба пакета дают близкие данные, что позволяет нам говорить о правильности выполненных разработок.

Таблица 4

Параметр Rotate Rotate (GridSim) QueueLen QueueLen (GridSim) MaxProd MaxProd (GridSim)

Длина лога, сек 254828 254828 254828 254828 254828 254828

Время завершения выполнения, сек 6802300 6802313 7582330 7574266 7898550 7898555

Средняя длина/ширина очереди 16,4545 16,455 3,60098 3,67948 20,6698 20,6694

Среднее число занятых каналов 19.0929 19,093 24,9143 25,70609 28,8307 28,8307

Среднее число заданий в системе 35,5475 35,548 28,5153 29,3856 49,5005 49,5001

Средняя площадь очереди 4064600 1577127 794077 791591 4786730 4786644

Среднее время ожидания, сек 109306 109308 26663,9 27216,2 159435 159432

Среднее время исполнения, сек 126832 126833 184481 190141 222383 222383

Средне время в системе, сек 236137 236141 211145 217358 381818 381816

/). Модели аппроксимации нагрузки вычислительного системы и используемые законы распределения случайных велнчнн.

Аппроксимацию законов распределения можно выполнять методом моментов (ММ) и методом наибольшего правдоподобия (МНП). В процессе работы мы рассмотрели семь законов распределения [1, 2], но в данной статье потребовались только три: 1) М - экспоненциальный [19, 21] (оценки ММ и МНП совпадают); 2) Г - гамма-распределение [21, 23] (оценка ММ); 3) ///'(2) - гипер-гамма-распределение [26] с двумя ветками (оценка МНП).

ПРИКАСПИЙСКИЙ ЖУРНАЛ: управление и высокие технологии № 1 (29) 2015 МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, ЧИСЛЕННЫЕ МЕТОДЫ И КОМПЛЕКСЫ ПРОГРАММ

Всего нами было предложено пять моделей аппроксимации нагрузки вычислительной системы [4, 5], но в рамках данной работы потребовались только три из них. Для обозначения моделей воспользуемся собственной модификацией обозначений Кендалла [16].

1. Ширину и длину задания в общем случая нельзя рассматривать как независимые величины. Ширина может принимать конечное число значений: вероятности различных ширин можно определить в виде массива значений. Для каждой ширины нам потребуется использовать свои параметры закона распределения для длин. Приход заданий представляется стационарным рекуррентным потоком Пальма. Например, МУ5/7128 означает, что задания приходят простейшим потоком, и при каждой ширине длина задания определяется гамма-законом распределения с определенными параметрами. Кластер состоит из 128 вычислительных машин. Принципы данной модели основаны на [21].

2. Для каждой ширины задания воссоздадим свой собственный пальмовский поток входных заявок и будем полагать эти потоки независимыми. Пример обозначения 5/775/128. Данная модель базируется на [13, 27].

3. Поток входных заявок первой модели рассматривается как нестационарный (интенсивность остается постоянной в течение получаса). В данной модели аппроксимируется не время между приходами заданий, а интеграл интенсивности прихода по этому промежутку. Пример обозначения таких моделей ~ M/5/Z128 и ~ Г/5//128 . Эта модель базируется на [15, 19].

Различные модели оказываются хороши в различных ситуациях, но конкретные рекомендации по использованию какой-то из них до проведения испытаний не было найдено. Анализ литературы, в которой обсуждались вопросы аппроксимации, не выявил также наличие каких-либо критериев. Поэтому в данной работе для каждого кластера используется наиболее подходящая модель. То есть такая стохастическая модель, которая дает наиболее близкие результаты к детерминированной.

Е. Стохастические модели кластеров.

Переход от детерминированной модели к стохастической осуществляется следующим образом: для каждого кластера подбирается подходящая модель стохастической нагрузки; генерируется определенное количество вариантов нагрузки; для каждого варианта производится детерминированное моделирование; затем результаты сводятся воедино в соответствии с Центральной предельной теоремой (ЦПТ) [15, 21].

В таблице 2 представлены модели, которые были признаны наиболее подходящими (дали самые близкие данные по отношению к результатам детерминированного моделирования) для кластеров. Результаты исследований стохастического случая представлены на рисунках 3 и 4, рассмотренных ранее, для сравнения с детерминированной моделью. Очевидны отличия от детерминированного случая: кластеры NASA iPSC и LPC EGEE ведут себя иначе. Данный факт может быть объяснен аномалиями, содержащимися в этих логах. У NASA iPSC времена появления заданий являются временами их постановки на исполнение. Поэтому незначительная очередь, появившаяся в детерминированной модели, есть результат погрешности измерения показателей. У LPC EGE в логе отсутствуют задания на протяжении довольно длительного промежутка времени, что не позволяет рассматривать аппроксимируемый режим как установившийся.

В данном случае была также произведена валидация разработанных средств на аналитических решениях и оценках очередей G/M/1 [22], M/G/1 [28], G/G/n [28, 31] и М/М/п. Фрагменты представлены в таблице 5. À - интенсивность входящих заявок, /и - интенсив-

ность обслуживания, р = X/ /и - нагруженность системы, со\>} - коэффициент вариации входного потока, соуи - коэффициент вариации времени обслуживания.

Таблица 5

Валидация аналитическими моделями (фрагменты)_

р covA covр Модель Средняя длина очереди Среднее время пребывания задания в системе, ¡л 1.

Разработка Эталон Разработка Эталон

0,75 1 1 м/м/ш 0,00314476 0,00339964 0,999761 1,00004

0,9375 1 1 м/м/ш 5,36205 5,47428 1,04495 1,04562

0,96875 1 1 м/м/ш 19,4308 19,4473 1,15716 1,15683

0,3 1 1 M/МП 0,12880 0,12857 1,42880 1,42857

0,5 1 1 M/МП 0,50130 0,50000 2,00296 2,00000

0,7 1 1 M/МП 1,63036 1,63333 3,33038 3,33333

0,9 0 0 Г/Г/1 0 ~ 0 1 ~ 1

0,9 0 0,5 Г/Г /1 0,832048 ~ 1,0125 1,92462 -2,125

0,9 0 1 Г/М /1 3,76839 3,76079 5,18752 5,17866

0,9 0 2 Г/Г /1 15,8492 ~ 16,2 18,6107 ~ 19

0,9 0,5 1 Г/М /1 4,83890 4,84474 6,37657 6,38305

0,9 1 0 M/Г /1 4,06235 4,05 5,51221 5,5

0,9 1 0,5 M/Г /1 5,05254 5,0625 6,61323 6,625

0,9 1 1 MIMII 8,04713 8,10000 9,94385 10,00000

0,9 1 2 M/Г /1 20,3454 20,25 23,6038 23,5

0,9 2 1 Г/М /1 21,29620 21,13100 24,64590 24,47889

На основе анализа таблицы 5 можно выявить соответствие аналитического решения нашей модели, что позволяет говорить о правильности последней.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

F. Стохастическая модель Грид-системы.

На рисунках 5-7 представлены результаты стохастического моделирования Грид-системы на базе ранее заявленных моделей кластеров. Случаи детерминированной и стохастической моделей мало отличаются друг от друга, что позволяет говорит об адекватности обеих. Очевидно, что аномалии логов кластеров NASA iPSC и LPC EGEE слабо сказываются на результате моделирования Грид-системы: результаты для детерминированного и стохастического случая различаются незначительно.

ПРИКАСПИЙСКИЙ ЖУРНАЛ: управление и высокие технологии № 1 (29) 2015 МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, ЧИСЛЕННЫЕ МЕТОДЫ И КОМПЛЕКСЫ ПРОГРАММ

На основе результатов проведенного моделирования можно сделать следующие выводы.

1. Стратегии Rotate и MaxProd не дают удовлетворительных результатов (процессы даже не будет стационарными). Стратегия MaxProd пытается заменить всю систему ее самым производительным звеном.

2. Стратегия FreeExec создана, чтобы работать в условиях отсутствия очереди. Поэтому ее результат чрезвычайно неудовлетворителен.

3. Самые хорошие результаты дают эвристики QueueWidth, EqualQueueLen и QueueLen.

Таким образом, наилучшие результаты получаются на основе наиболее легко вычисляемого критерия, что позволяет не учитывать пользовательские оценки длин задания, являющиеся крайне неточными [30].

Заключение. В настоящей работе были представлены и изучены детерминированные и стохастические модели кластеров и Грид-систем. Преимуществом стохастических моделей является то, что они позволяют рассмотреть гораздо больше вариантов функционирования вычислительных систем и нивелировать некоторые случайные совпадения, но в них при аппроксимации нагрузок вычислительных систем возможно искажение результатов. Отдельные проблемы представляют различные аномалии лога. Решающим фактором принятия (выбора) или неприятия моделей может служить только практика их использования.

Таким образом, были предложены средства для определения рациональной стратегии распределения заданий в Грид-системе. Эти средства позволяют для конкретной системы на основе задокументированной нагрузки выбрать рациональную стратегию распределения. Данные решения базируются на предположении, что поток заданий не изменится. Признаком изменения потока является несоответствие данных, полученных моделированием, и реальных данных.

Список литературы

1. Гаевой С. В. Аппроксимация времени выполнения заданий на примере вычислительного кластера LPC EGEE 2004 / С. В. Гаевой, Ф. А. X. Аль-Хадша, С. А. Фоменков // Известия Волгоградского государственного технического университета. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах" : межвузовский сборник научных статей. - 2014. -№ 12 (139), вып. 21 - С. 135-141.

2. Гаевой С. В. Аппроксимация стохастических параметров вычислительного кластера на примере LANL СМ5 / С. В. Гаевой, Ф. А. X. Аль-Хадша // Perspektywiczne opracowania sa nauka i technikami - 2013 : mater. IX miedzynarod. nauk.-prakt. konf. (7-15 listopada 2013 г.). - Przemysl, 2013. -Vol. 33. Matematyka. - C. 67-70.

3. Гаевой С. В. Детерминированная имитационная модель кластеров грид-системы, обслуживающих задания / С. В. Гаевой, Ф. А. X. Аль-Хадша, В. С. Лукьянов // Вестник компьютерных и информационных технологий. - 2014. - № 6. - С. 39-43.

4. Гаевой С. В. Модели аппроксимации нагрузки кластера на примере LANL СМ5 для стохастического имитационного моделирования / С. В. Гаевой, С. А. Фоменков // Известия Волгоградского государственного технического университета. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах" : межвузовский сборник научных статей. -2014. - № 25 (152), вып. 22 - С. 151-159.

5. Гаевой С. В. Моделирование работы вычислительного кластера на примере LANL СМ5 / С. В. Гаевой, Ф. А. X. Аль-Хадша // SCI-ARTICLE.RU : электронный периодический научный журнал. - Ноябрь 2013. - № 3. - С. 304-313. - Режим доступа: http://sci-article.ru/stat.php?i=modelirovanie_ rabotY_vYchislitelnogo_klastera_na_primere_LANL_CM5, свободный. - Заглавие с экрана. - Яз. рус.

6. Гаевой С. В. Эвристики распределения заявок в Грид-системах (Grid) / С. В. Гаевой, Ф. А. X. Аль-Хадша, В. С. Лукьянов // Perspektywiczne opracowania sa nauka i technikami - 2013 : mater. IX miedzynarod. nauk.-prakt. konf. (7-15 listopada 2013 г.). - Przemysl, 2013. - Vol. 33. Matematyka. - C. 63-66.

7. Детерминированная имитационная модель кластеров грид-системы для сравнения эффективности использования эвристик распределения заданий / С. В. Гаевой, Ф. А. X. Аль-Хадша, С. А. Фо-

менков, В. С. Лукьянов // Прикаспийский журнал: управление и высокие технологии. - 2014. - № 2. -С. 148-157.

8. Имитационное моделирование грид-систем : монография / В. С. Лукьянов, А. Е. Андреев, Д. Н. Жариков, А. А. Островский, С. В. Гаевой. - Волгоград : Волгоградский государственный технический университет, 2012. - 215 с.

9. Проблемы моделирования GRID-систем и их реализация / О. И. Самоваров и другие // Портал «Информационно-коммуникационные технологии в образовании». - 2010. - Режим доступа: http:// www.ict.edu.ru/vconf/files/9451.pdf, свободный. - Заглавие с экрана. - Яз. рус.

10. Сравнение эвристик распределения заданий в Грид-системе путем детерминированного имитационного моделирования / С. В. Гаевой, Ф. А. X. Аль-Хадша, С. А. Фоменков, В. С. Лукьянов // Известия Волгоградского государственного технического университета. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах" : межвузовский сборник научных статей. - 2014. - № 25 (152), вып. 22 - С. 159-164.

11. A toolkit for modelling and simulating Data Grids: An extension to GridSim / A. Sulistio, et al. -2014. - Available at: http://www.gridbus.org/reports/datagrid_fgcs.pdf.

12. An Evaluation of Parallel Job Scheduling for ASCI Blue-Pacific / H. Franke, et al. // Supercom-puting. - 13-18 November 1999.

13. Buyya R. GridSim: a toolkit for the modeling and simulation of distributed resource management and scheduling for Grid computing / R. Buyya, M. Murshed. - 2014. - Available at: http://www. buyya. com/papers/gridsim.pdf.

14. Calzarossa M. A Characterization of the Variation in Time of Workload Arrival Patterns / M. Cal-zarossa, G. Serazzi // IEEE Transactions on Computers. - February 1985. - Vol. C-34, issue 2. - Pp. 156-162.

15. Central Limit Theorem // Wolfram MathWorld. - 2014. - Available at: http://mathworld.wolf-ram. com/ CentralLimitTheorem. html.

16. Classification of Queuing Model using Kendal Notation // Kardi Teknomo. - 2014. - Available at: http://people. revoledu.com/kardi/tutorial/Queuing/Kendall-Notation.html.

17. Clúster de balanceo de carga y alta disponibilidad para servicios web y mail / M. M. Sinisterra, et al. // Revista Informador Técnico. - 2012. - No. 76. - Available at: http://informadortecnico.senaastin. com/index. php/inf_tec/article/download/57/3 3.

18. Downey А. В. A Parallel Workload Model and Its Implications for Processor Allocation / A. B. Downey // Proceedings of the 6th International Symposium on High Performance Distributed Computing. - August 1997.

19. Exponential Distribution // Wolfram MathWorld. - 2014. - Available at: http://mathworld.wolf-ram.com/ExponentialDistribution.html.

20. Feitelson D. G. Packing schemes for gang scheduling / D. G. Feitelson // Job Scheduling Strategies for Parallel Processing : Lecture Notes Computer Science / ed. by D. G. Feitelson, L. Rudolph. -Springer-Verlag, 1996. - vol. 1162. - Pp. 89-110.

21. Formulario de distribuciones de probabilidad // Jorge Galbiati Riesco. - 2014. - Available at: http://www.jorgegalbiati.cl/nuevo_06/Formulas.pdf.

22. 5 G/M/l queue // Technische Universiteit Eindhoven. - 2014. - Available at: http://www.win.tue.nl/ ~iadan/blockq/h5.pdf.

23. Gamma Distribution // Wolfram MathWorld. - 2014. - Available at: http://mathworld.wolf-ram. com/ GammaDistribution.html.

24. GridMe: Grid modeling environment // Google code. - 2014. - Available at: https://code.google. com/p/gridme/.

25. Logs of Real Parallel Workloads from Production Systems // The Rachel and Selim Benin School of Computer Science and Engineering. - 2014. - Available at: http://www.cs.huji.ac.il/labs/paral-lel/workload/logs.html.

26. Lublin U. The Workload on Parallel Supercomputers: Modeling the Characteristics of Rigid Jobs / U. Lublin, D. G Feitelson // Journal of Parallel and Distributed Computing. - November 2003. - No. 63 (11). -Pp. 1105-1122.

27. Modeling of Workload in MPPs / J. Jann, et al. // Job Scheduling Strategies for Parallel Processing : Lecture Notes Computer Science / ed. by D. G Feitelson, L. Rudolph. - Springer-Verlag, 1997. - Vol. 1291. -Pp. 95-116.

28. Non-Parametric Models of a Service System; GI/GI/1, GI/GI/n: Exact & Approximate Analysis

ПРИКАСПИЙСКИЙ ЖУРНАЛ: управление и высокие технологии № 1 (29) 2015 МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, ЧИСЛЕННЫЕ МЕТОДЫ И КОМПЛЕКСЫ ПРОГРАММ

// The William Davidson Faculty of Industrial Engineering and Management. - 2014. - Available at: http:// ie.technion.ac.il/serveng/Lectures/Lecture_GGQ's_FULL_Marked.pdf.

29. SHARCNET. - 2014. - Available at: https://www.sharcnet.ca/my/front/.

30. Tsafrir D. Modeling User Runtime Estimates / D. Tsafrir, Y. Etsion, D. G. Feitelson // 11th Workshop on Job Scheduling Strategies for Parallel Processing (JSSPP). - June 2005. - Pp. 1-35.

31. Whitt W. Approximations for the GI/G/m queue / W. Whitt // Columbia University. - 2014. -Available at: http://www.columbia.edu/~ww2040/ApproxGIGml993.pdf.

References

1. Gaevoy S. V., AL-Khadsha F. A. Kh., Fomenkov S. A. Approksimatsiya vremeni vypolneniya zadaniy na primere vichislitelnogo klastera LPC EGEE 2004 [Approximation of Job Execution Time Discovering Computing Cluster LPC EGEE 2004]. Izvestiya Volgogradskogo gosudarstvennogo tekhnicheskogo universiteta. Seriya «Aktualnye problemy upravleniya, vychislitelnoy tekhniki i informatiki v tekhnicheskikh sistemakh» [Proceedings of the Volgograd State Technical University. A series of "Actual problems of management, computer science and informatics in technical systems"], 2014, no. 12, issue 21, pp. 135-141.

2. Gaevoy S. V., AL-Khadsha F. A. Kh. Approksimatsiya stokhasticheskikh parametrov vycheslitel-nogo klastera na primere LANL CM5 [An approximation of stochastic parameters of computing cluster based on LANL CM5], Perspektywiczne opracowania sa nauka i technikami - 2013 : mater. IX miedzy-narod. nauk-prakt. konf. (7-15 listopada 2013), Przemysl, 2013, vol. 33. Mathematics, pp. 67-70 .

3. Gaevoy S. V., AL-Khadsha F. A. Kh., Lukyanov V. S. Determinirovannaya imitatsyonnaya model' klasterov grid-sistemy, obsluzhivayushchey zadaniya [Deterministic Simulation Model of Clusters of a Grid-system Executing Jobs]. Vestnik kompyuternykh i informatsionnykh tekhnologiy [Bulletin of Computer and Information Technologies], 2014, no. 6, pp. 39-43.

4. Gaevoy S. V., Fomenkov S. A. Modeli approksimatsii nagruzki klastera na primere LANL CM5 dly stokhasticheskogo imitatsionnogo modelirovaniya [The Approximations for a Workload of Cluster Systems for Stochastic Simulation], Izvestiya Volgogradskogo gosudarstvennogo tekhnicheskogo universiteta. Seriya «Aktualnye problemy upravleniya, vychislitelnoy tekhniki i informatiki v tekhnicheskikh sistemakh» [Proceedings of the Volgograd State Technical University. A series of "Actual problems of management, computer science and informatics in technical systems"], 2014, no. 25 (152), issue 22, pp. 151-159.

5. Gaevoy S. V., AL-Khadsha F. A. Kh. Modelirovanie raboty vychislitelnogo klastera na primere LANL CM5 [A Modeling of a Computing Cluster based on an Example of LANL CM5], SCI-ARTICLE.R U : electronnyy periodicheskiy nauchnyy zhurnal [SCI-ARTICLE.RU : Electronic Periodoc Scientific Magazine], 2013, no. 3, pp. 304-313. Available at: http://sci-article.ru/stat.php?i=modelirovanie_rabotY_vYchislitelnogo_ klastera_na_primere_L ANLCM5.

6. Gaevoy S. V., AL-Khadsha F. A. Kh., Lukyanov V. S. Evristiki raspredeleniya zayavok v Grid-systemakh (Grid) [The Heuristics for job distribution in Gird-systems (Grid)]. Perspektywiczne opracowania sa nauka i technikami - 2013 : mater. IXmiedzynarod. nauk-prakt. konf. (7-15 listopada 2013), Przemysl, 2013, vol. 33. Mathematics, pp. 63-66.

7. Gaevoy S. V., AL-Khadsha F. A. Kh., Fomenkov S. A. Lukyanov V. S. Determinirovannaya imitatsyonnaya model klasterov grid-sistemy dlya sravnenia effektivnosti ispolzovaniya evristik raspere-deleniya zadaniy [Deterministic Simulation Model of Clusters of a Grid-system for Comparison of Heuristics for Task Distribution], Prikaspiyskiy zhurnal: upravlenie i vysikie tekhnologii [Caspian Journal : Management and High Technologies], 2014, no. 2, pp. 148-157.

8. Lukyanov V. S., Andreev A. Ye., Zharikov D. N., Ostrovskiy A. A., Gaevoy S. V. Imitatsionnoe modelirovanie grid-sistem [Simulation of Grid-systems], Volgograd, Volgograd State Technical University Publ. House, 2012. 215 p.

9. Samovarov O. I., et al. Problemy modelirovaniya GRID-sistem i ikh realizatsiya [Problems of simulation of Grid-systems and their implementation]. Portal «Informatsionno-kommunikatsionnye tekhnologii v obrazovanii» [Portal "Information and Communication Technologies in Education"]. Available at: http://www. ict.edu.ru/vconf/files/9451.pdf.

10 Gaevoy S. V., Fomenkov S. A., AL-Khadsha F. A. Kh., Lukyanov V. S. Sravnenie evristik rasperedeleniya zadaniy v Grid-sisteme putem determinirivannogo imitatsionnogo modelirovaniya [Comparison of Heuristics for Task Distribution in Grid-system by Deterministic Simulation], Izvestiya Volgo-

gradskogo gosudarstvennogo tekhnicheskogo universiteta. Seriya «Aktualnye problemy upravleniya, vychis-litelnoy tekhniki i informatiki v tekhnicheskikh sistemákh» [Proceedings of the Volgograd State Technical University. A series of "Actual problems of management, computer science and informatics in technical systems"], 2014, no. 25 (152), issue 22, pp. 159-164.

11. Sulistio A., et al. A toolkit for modelling and simulating Data Grids: An extension to GridSim, 2014. Available at: http://www.gridbus.org/reports/datagrid_fgcs.pdf.

12. Franke H., et al. An Evaluation of Parallel Job Scheduling for ASCI Blue-Pacific. Supercomput-ing, 13-18 November 1999.

13. Buyya R., Murshed M. GridSim: a toolkit for the modeling and simulation of distributed resource management and scheduling for Grid computing, 2014. Available at: http://www.buyya.com/pa-pers/gridsim.pdf.

14. Calzarossa M., Serazzi G. A Characterization of the Variation in Time of Workload Arrival Patterns. IEEE Transactions on Computers, February 1985, vol. C-34, issue 2, pp. 156-162.

15. Central Limit Theorem. Wolfram MathWorld, 2014. Available at: http://mathworld.wolfram.com/ CentralLimitTheorem. html.

16. Classification of Queuing Model using Kendal Notation. Kardi Teknomo, 2014. Available at: http://people. revoledu.com/kardi/tutorial/Queuing/Kendall-Notation.html.

17. Sinisterra M. M., et al. Clúster de balanceo de carga y alta disponibilidad para servicios web y mail. Revista Informador Técnico, 2012, no. 76. Available at: http://informadortecnico.senaastin.com/index. php/inf_tec/article/download/57/3 3.

18. Downey A. B. A Parallel Workload Model and Its Implications for Processor Allocation. Proceedings of the 6th International Symposium on High Performance Distributed Computing, August 1997.

19. Exponential Distribution. Wolfram MathWorld, 2014. Available at: http://mathworld.wolfram. com/ExponentialDistribution.html.

20. Feitelson D. G Packing schemes for gang scheduling. Job Scheduling Strategies for Parallel Processing : Lecture Notes Computer Science, Springer-Verlag, 1996, vol. 1162, pp. 89-110.

21. Formulario de distribuciones de probabilidad. Jorge Galbiati Riesco, 2014. Available at: http:// www.jorgegalbiati.cl/nuevo_06/Formulas.pdf.

22. 5 G/M/l queue. Technische Universiteit Eindhoven, 2014. Available at: http://www.win.tue.nl/ ~iadan/blockq/h5.pdf.

23. Gamma Distribution. Wolfram MathWorld, 2014. Available at: http://mathworld.wolfram.com/ GammaDistribution.html.

24. GridMe: Grid modeling environment. Google code, 2014. Available at: https://code.google.com/ p/gridme/.

25. Logs of Real Parallel Workloads from Production Systems. The Rachel and Selim Benin School of Computer Science and Engineering, 2014. Available at: http://www.cs.huji.ac.il/labs/parallel/workload/ logs. html.

26. Lublin U., Feitelson D. G The Workload on Parallel Supercomputers: Modeling the Characteristics of Rigid Jobs. Journal of Parallel and Distributed Computing, November 2003. no. 63 (11), pp. 1105-1122.

27. Jann J., et al. Modeling of Workload in MPPs. Job Scheduling Strategies for Parallel Processing : Lecture Notes Computer Science, Springer-Verlag, 1997, vol. 1291, pp. 95-116.

28. Non-Parametric Models of a Service System; GI/GI/1, GI/GI/n: Exact & Approximate Analysis. The William Davidson Faculty of Industrial Engineering and Management, 2014. Available at: http://ie.tech-nion.ac.il/serveng/Lectures/Lecture_GGQ's_FULL_Marked.pdf.

29. SHARCNET, 2014. Available at: https://www.sharcnet.ca/my/front/.

30. Tsafrir D., Etsion Y., Feitelson D. G. Modeling User Runtime Estimates. 11th Workshop on Job Scheduling Strategies for Parallel Processing (JSSPP), June 2005, pp. 1-35.

31. Whitt W. Approximations for the GI/G/m queue. Columbia University, 2014. Available at: http:// www.columbia.edu/~ww2040/ApproxGIGml993.pdf.

i Надоели баннеры? Вы всегда можете отключить рекламу.