Научная статья на тему 'Разработка математической модели рабочей нагрузки вычислительной системы'

Разработка математической модели рабочей нагрузки вычислительной системы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
208
28
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Борзенков Дмитрий Петрович

В статье описана разработка математической модели рабочей нагрузки вычислительной системы. Приводится описание всех входных и выходных параметров для модели, отобраны значимые параметры; модель рабочей нагрузки ВС представлена в виде полученного математического соотношения. Произведена проверка модели на адекватность. Указано назначение и использование разработанной модели рабочей нагрузки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка математической модели рабочей нагрузки вычислительной системы»

УДК 001.891.573:004.414.23

Д. П. БОРЗЕНКОВ

Омский государственный технический университет

РАЗРАБОТКА

МАТЕМАТИЧЕСКОЙ МОДЕЛИ РАБОЧЕЙ НАГРУЗКИ ВЫЧИСЛИТЕЛЬНОЙ СИСТЕМЫ

В статье описана разработка математической модели рабочей нагрузки вычислительной системы. Приводится описание всех входных и выходных параметров для модели, отобраны значимые параметры; модель рабочей нагрузки ВС представлена в виде полученного математического соотношения. Произведена проверка модели на адекватность. Указано назначение и использование разработанной модели рабочей нагрузки.

Целью этого исследования является разработка математической модели рабочей нагрузки вычислительной системы (ВС), которую создают пользователи и прикладные приложения. Модель рабочей нагрузки создана на основе результатов предварительного исследования автора реально функционирующей ВС. Анализ литературы показал, что на сегодня отсутствуют надежные статистические данные по рабочей нагрузке пользователей, используемых ими прикладных систем и различного внешнего оборудования ВС.

Широкое появление информационно-вычислительных систем и быстрый рост их возможностей, осознанная сегодня принципиальная ограниченность повышения эффективности вычислительных систем только за счет совершенствования дорогостоящей элементной базы стимулировали исследования в области производительности и надежности вычислительных систем (ВС)[1].

Несмотря на большую потребность в таких исследованиях при проведении проектирования и реорганизации существующих информационно-вычислительных систем и сетей, их развитие и практическое освоение идет очень медленно, в основном эмпирически, путем проб и ошибок, через построение локальных, корпоративных, городских сетей и т.п., с использованием дорогостоящих информационно-вычислительных систем. Реализация таких проектов -процесс длительный и дорогостоящий. Он включает в себя разработку и создание не только экономического обоснования проекта, но и использование весьма сложного программного обеспечения.

Эти исследования крайне полезны, поскольку позволяют существенно снизить сложность, громоздкость и использование дорогостоящего оборудования^], при этом существенно повысить производительность и надежность этих систем. Такие исследования являются наиболее эффективными за счет использования аппарата математического, имитационного и динамического моделирования информационно-вычислительных систем. Исследования, предложенные Ч.Хоаром [3], Р.Милнером [4], Г.Дегано [5] иУ.Монтанари, М.Найвта, Капитоновой Ю.В. иЛсти-чевскогоА.А. [6], Миренкова H.H. [7] не охватывают все особенности функционирования исследуемого класса ВС.

Эффективность функционирования ВС существенно зависит от степени согласованности конфигурации и режима эксплуатации системы с нагрузкой, создаваемой прикладными задачами, операционной системой и пользователями [8]. Поэтому для решения задач системной и технической эксплуатации и при проектировании систем необходимо располагать сведениями о потребностях пользовательских задач в ресурсах системы [9].

Традиционно для моделирования пользовательских запросов использовали цепи Маркова и теорию графов. Практика показала [10,11], что применение этих математических средств сопряжено с рядом серьезных трудностей и имеет существенные недостатки, основной из которых - неточность, усреднен-ность описания поведения пользовательских запросов. Кроме этого, на сегодня отсутствуют средства, которые бы позволили по характеристике пользователя предсказать хотя бы статистические характеристики порождаемого им потока запросов к ресурсам вычислительной системы. Несмотря на низкую эффективность и ненадежность применяемых методов, тем не менее их используют при проектировании и создании вычислительных сетей и систем.

Оценка нагрузки на основе измерительных данных — это используемый в нашей работе способ анализа рабочей нагрузки для рассматриваемого класса ВС. При этом мы проводили измерения процесса функционирования ЭВМ пользователей и исследуемой ВС в течение представительного промежутка времени, который составил 12 месяцев. Полученные данные обрабатывались применительно к выбранной модели нагрузки, в результате чего были оценены параметры нагрузки, воспроизводимые моделью.

Ниже, на рис. 1, представлена динамика рабочей нагрузки исследуемой ВС, измеренная с помощью разработанной автором программы «Наблюдатель», за период наблюдения.

В общем виде задачу разработки математической модели рабочей нагрузки можно представить так: пусть в существующей системе обработки информации имеются N пользователей ВС. Каждый пользователь создает нагрузку на систему, которую обозначим через \УГ Общая рабочая нагрузка на ВС измеряется либо во временных характеристиках, либо в объемных и составляет

+ * и)

1=1

где 4 - дополнительная нагрузка, создаваемая внешними устройствами ВС. Задача разработки модели рабочей нагрузки состоит в определении объемной характеристики \№вс. Для этого автором было проведено предварительное исследование реально эксплуатируемой ВС.

Статистический анализ собранных данных показал, что основную нагрузку на ВС создают запросы пользователей. Рабочая нагрузка на ВС, создаваемая пользователями, характеризуется следующими группами параметров;

— управляющими воздействиями пользователей (входными) дгу Ц= 1, 2,..., к);

Входные в

— выходными параметрами уг (г= 1,2,..., V)',

— возмущающими воздействиями га, (I = 1,2,..., р).

Управляющие (входные) параметры представляют собой независимые переменные, которые можно изменить в целях управления выходными параметрами рабочей нагрузки. К выходным параметрам уг относится совокупность измеряемых параметров, характеризующих пользовательскую нагрузку на ВС.

Возмущающие воздействия в общем случае не поддаются контролю и проявляют себя как случайные величины или функции времени. Наличие возмущающих воздействий приводит к тому, что зависимость выходных параметров рабочей нагрузки от входных становится неоднозначной.

Входные параметры, которые оказывают влияние на рабочую нагрузку и могут быть измерены, называ-

Таблица 1

метры модели

6 S

г>

I

Группа, наименование Наименование параметра

ЭР-! Сеансы пользователей ВС SP-1-1 Количество сеансов пользователей

БР-2 Вычислительные процессы, используемые пользователем ВС SP-2-1 время начала использования процесса; SP-2-2 время окончания процесса; SP-2-3 общее время работы процесса; SP-2-4 название процесса (идентификатор).

ЗР-З Активность пользователя ВС SP-3-1 время начала работы пользователя; SP-3-2 время окончания работы; SP-3-3 общее время работы пользователя; SP-3-4 учет количества нажатий левой клавиши мыши; SP-3-5y4er количества нажатий средней (Scroll) клавиши мыши; SP-3-6 учет количества нажатий правой клавиши мыши (контекстные вызовы); SP-3-7 использование клавиатуры (общее количество нажатых клавиш).

БР-4 Активность пользователя в вычислительном процессе SP-4-1 идентификатор процесса; SP-4-2 время начала работы вычислительного процесса ВС; SP-4-3 время окончания работы процесса; SP-4-5 общее количество нажатий клавиатуры в вычислительном процессе; SP-4-6 общее количество нажатий клавишмыши; SP-4-7 активность вычислительного процесса.

БР-б Использование Сети SP-5-I время начала работы с Сетью; SP-5-2 время окончания работы; SP-5-3 общее время работы; SP-5-4 идентификатор ресурса.

БР-6 Использование сетевых устройств ВС SP-6-1 время начала работы с сетевым устройством ВС; SP-6-2 время окончания работы; SP-6-3 общее время работы; SP-6-4 идентификатор устройства; SP-6-5 идентификатор вычислительного процесса; SP-6-6 объем задания.

Таблица 2 Выходные параметры модели

Параметр Наименование

БУБ-! Принято ВС байт/сек

Отправлено ВС байт/сек

БУБ-З Всего ВС байт/сек

5УБ-4 Принято ВС пакетов/сек

5У5-5 Отправлено ВС пакетов/сек

ются факторами. Каждый фактор имеет область определения, которая должна быть установлена до проведения эксперимента. Область определения может быть непрерывной или дискретной, причем при непрерывной области осуществляется ее искусственная дискретизация.

Возможности разработанного программного продукта «Наблюдатель» позволяет измерить основные информационно-управляющие параметры пользователя ВС, которые представлены в нескольких группах параметров (см. табл. 1). В табл. 2 представлены выходные параметры модели.

Из предварительных исследований статистических данных был выделен основной выходной параметр модели БУБ-^ который и составляет рабочую нагрузку пользователей и прикладных приложений на ВС.

Для построения математической модели рабочей нагрузки методами статистического анализа выберем параметры, влияющие на величину рабочей нагрузки на ВС. Для этого из накопленной базы данных была получена выборка из 300 элементов по каждому параметру. Для характеристики линейной зависимости между величинами были рассчитаны коэффициенты корреляции.

Для того чтобы можно было с уверенностью применять полученные оценки коэффициентов корреляции, определим насколько эти оценки значимы. Показано [12], что математическое ожидание Е и дисперсия ст2 величины Я равны:

Е(Ю«г, а2(Я)^(1-р2)2/п

(2)

верительный интервал, зависящий от значений Л и п. Необходимо проверить гипотезу Н0: р=р0, гдерп — значение из матрицы корреляции. Если р0 попадает в полученный интервал, гипотеза Н0 принимается с уровнем значимости а. В противном случае — отклоняется. Критерий значимости использует аппроксимацию, предложенную Фишером. Статистика

7 1 г + 2 1-й

(3)

распределена по нормальному закону с математическим ожиданием

1 1—р

идисперсиеи

огг*(п-ЗГ1.

(4)

(5)

где п — число выборки.

При построении критериев значимости для ¿»воспользуемся доверительными зонами. Для данного объема выборки получим 100(1-а)% -процентный до-

С помощью этого преобразования гипотеза Н0: р=р0, где рд проверяется следующим образом. Берем из матрицы корреляции величину Л, являющуюся оценкой для г, после чего вычисляем Т. Если р=р„, статистика имеет распределение, близкое к нормальному, с математическим ожиданием 0 и дисперсией 1. Критерий значимости применяется как обычно: статистика сравнивается с критическим уровнем нормированного нормального распределения для заданного а.

Результаты расчетов для позиций, коэффициенты корреляции которых с зависимой величиной БУ5-4 больше 0,3 и лежат в 95-процентных доверительных границах, представлены в табл. 3.

В табл. 3 выявлены все параметры, которые определенным образом зависимы с рабочей нагрузкой исследуемой ВС при 5-процентном уровне значимости из всего числа переменных, остальные параметры не влияют на рабочую нагрузку ВС для этого уровня значимости и из рассмотрения исключаются. Для отобранных параметров математической модели был проведен анализ выборок с целью определения статистических оценок и области допустимых значений.

Для создания математической модели рабочей нагрузки ВС на основе предварительных наблюдений мы использовали регрессионный анализ [ 13,14]. Эта модель представляет собой определенное математическое соотношение между параметрами пользовательской работы с ВС и обуславливающими их величинами х,,...,хк. В соответствии с регрессионным методом был подобран наилучший набор переменных в регрессии, Все расчеты производились с использова-

Таблица3

Отобранные параметры для математической модели

Параметр Л Ъ ой Ми1 (Е) Мах (Е) Мт (р) Мах (р)

5Р-1 0,67 0,810 0,030 0,808 0,927 0,668 0,729

БР-3-4 0,89 1,421 0,030 1,039 1,158 0,777 0,820

БР-3-5 -0,43 -0,549 0,030 -0,609 -0,490 -0,543 -0,454

БР-З-? 0,94 -0,310 0,030 -0,369 -0,250 -0,353 -0,245

БР-4-1 0,9 1,4722 0,030 1,039 1,158 0,777 0,820

! ,4 37 « 53 tt 79 92 W5 116 131 144 157 1TO 163 180 2W 223 334 348 381

Ni ПвПОДСНИЯ

Рис. 2. Графини реально измеренного параметра SVS-4 и рассчитанного с помощью разработанной модели.

2.ЭЛ1 7.142В П ЯЛ 1000' 21.429 28,19 30.952 3S.714 40.470 45.238 Э0 54.702 69524 04.280 09.04В 73.81 78.571 83.333 88.095 03857 87.619

Порсактиль выборяи

Рис. 3. Гистограмма остатков с наложенной плотностью нормального распределения по модели.

нием интегрированной системы анализа статистических данных Microsoft Excel 2003. Уровень значимости для критерия включения и критерия исключения «=0,05. На основе коэффициентов корреляции, полученных ранее (см. табл. 3), между откликом SVS-4 и входными параметрами была построена регрессионная модель рабочей нагрузки ВС:

SVS-4 = -10,994 + 0,049-SPl + 0.741-SP-3-4 -

-0.008-SP-3-5 +0.919.SP-3-7 + 0,461-SP-4-l (6)

После подбора переменных в регрессионной модели необходимо выяснить, насколько хорошо полученные уравнения описывают имеющиеся данные. Единого общего правила для решения этой задачи нет. Правильность подобранной модели можно оценить численными характеристиками. Полученное уравнение имеет большое значение коэффициента детерминированности R2=0,93, который показывает, что построенная регрессия высоко значима и объясняет более 90% разброса значений SVS-4 около средних. Более обоснованное решение можно принять, сравнив имеющиеся значения со значениями, полученными с помощью подобранной регрессионной функции (см. рис. 2).

Разности между наблюдаемыми и предсказанными значениями называют остатками. Анализ остатков позволяет получить представление, насколько хорошо подобрана модель и насколько правильно выбран метод оценки коэффициентов. Согласно об-

щим предположениям регрессионного анализа, остатки должны вести себя как независимые (в действительности, почти независимые) одинаково распределенные величины. Для проверки нормальности распределения остатков чаще всего используется график нормального распределения, который представлен на рис. 3.

Также получены графики зависимостей остатков от прогнозируемых значений по модели рабочей нагрузки. Полученные оценки зависимостей позволяют сделать выводов адекватности построенной математической модели.

Разработка вышеописанной математической модели позволяет обеспечить имитационную модель ВС качественной рабочей нагрузкой, необходимой для исследования эффективности функционирования ВС. У автора имеются акты внедрения научных результатов в нескольких корпорациях г. Омска.

Библиографический список

1. Шаповаленко С. Динамическое моделирование и анализ корпоративных вычислительных систем. Сетевой журнал, №6, 2001.

2. Дубинин В.Н.,Зинкин С.А. Система имитационного моделирования функционально децентрализованных вычислительных систем/ ГосФАП, М„ Инв. № 50870001130,-161 с.//Алгоритмы и программы: Инф.бюл.-М.: ВНТИЦентр, 1988. - №2. - С.10.

3. Ноаге C.A.R. Communicating sequential process.Prentis-Hall.1985.

4. Milner R. A calculus of communication system. 1980.LNCS.92.

5. DeganoG., Montanary U. Distributed system, partial ordering of events, and events structures // Control flow and Dataflow: concepts of distrebuted programming. Springer-Verlng, 1986. - P.7-106.

6. Летичевский A.A., Капитонова Ю.В. Математическая теория проектирования вычислительных систем. М„ 1988.

7. МиренковН.Н. Параллельное программирование для многомодульных вычислительных систем.М., 1989.

8. Ларионов A.M., Майоров С. А., Новиков Г.И. Вычислительные комплексы, системы и сети: Учебникдля вузов.-Л.:Энерг-атомиздат, 1987. - 288 с.

9. Феррари Д. Оценка производительности вычислительных систем: Пер. с англ. А.И. Горлина, Ю.Б. КотоваиЛ.В.Ухова/ Под ред. В.В.Мартынюка, — М.: Мир, 1981. - 576 с.

10. Experimental computer perfomance evaluation, North-Holland, 1981.

11. Дубинин В.Н.,Зинкин С. А Система имитационного моделирования функционально децентрализованных вычислительных систем/ГосФАП,М.,Инв.№ 50870001130 - 161 с.//Алгоритмы и программы: Инф.бюл.-М.: ВНТИЦентр, 1988. - №2. - С 10

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

12. Розанов Ю. А. Теория вероятностей, случайные процессы и математическая статистика. - М.: Наука, 1992.

13. Дронов C.B. Многомерный статистический анализ: Учебное пособие. Барнаул:Иэд-воАлт.гос.ун-та, 2003. — 213с.

14. Вучков И. Прикладной линейный регрессионный анализ / ВучковИ.,БояджиеваЛ.,СолаковЕ. — М.: Финансы и статистика. 1987. - 239 с.

БОРЗЕНКОВ Дмитрий Петрович, старший преподаватель кафедры «Автоматизированные системы обработки информации йуправления».

УДК 504.064 л. в. ШЕСТОПАЛОВ

НИИ природопользования экологии Севера

ИСПОЛЬЗОВАНИЕ ЭМПИРИЧЕСКИХ МОДЕЛЕЙ ДЛЯ ВЫЯВЛЕНИЯ ЗАКОНОМЕРНОСТЕЙ РАСПРЕДЕЛЕНИЯ ДАННЫХ НА ПРИМЕРЕ ИССЛЕДОВАНИЯ КОНЦЕНТРАЦИИ ВЫБРОСОВ

В кратком сообщении показан способ подготовки данных для комплексного исследования с учетом требований программных продуктов, которые применяются для анализа. Показан начальный этап построения эмпирической модели.

Введение

Целью построения эмпирических моделей является выявление общих закономерностей в распределении данных. При проведении комплексного анализа данных эмпирические модели используются для уточнения результатов исследования, выявления дополнительных особенностей в распределении данных. Результаты, полученные при помощи эмпирических моделей, часто являются основанием для более детального исследования ситуации.

Подготовка данных

Анализ концентрации выбросов в атмосфере является одним из основных этапов в комплексной оценке экологической ситуации в городе.

На основании данных о концентрации за несколько лет можно построить математическую модель, объясняющую возникающие за это время закономерности. Так как концентрация вредных выбросов в городе подвержена сезонным колебаниям, то для

решения подобных задач используются сезонные модели.

Для анализа была взята выборка по загрязнению атмосферного воздуха с января 1991 по май 2004 года. Измерения проводились в разных контрольных точках и разное время. Обычно осуществлялось три замера в день: утром, днем и вечером. Они характеризуются небольшим количеством пропусков, временным постоянством: три измерения в сутки в 7.00,13.00 и 19.00 часов.

Анализ данных проводился с помощью профессионального математического пакета SPSS. Необходимым шагом для как можно более точной обработки данных является их подготовка. Требования SPSS предполагают наличие непрерывного интервала данных. Кроме того, SPSS не предполагает обрабо тку данных за период "год-месяц" с интервалом в 365 дней, что исключает возможность сезонной обработки данных. Для проведения анализа данных в качестве периода был взят месячный цикл с периодичностью 52 недели в году с разбивкой на дни внутри этого цикла. Для повышения точности прогноза упорядоченной по

i Надоели баннеры? Вы всегда можете отключить рекламу.