с1сн: 10.36724/2409-5419-2021-13-4-66-75
ТЕОРЕТИЧЕСКАЯ ОЦЕНКА ИСПОЛЬЗОВАНИЯ МАТЕМАТИЧЕСКИХ МЕТОДОВ ПРОГНОЗИРОВАНИЯ ЗАГРУЗКИ ВИРТУАЛЬНОЙ ИНФРАСТРУКТУРЫ
ШЕМЯКИН Сергей Николаевич1
ПЕСТОВ
Игорь Евгеньевич2 ИЛЬИН
Максим Владимирович3
РУДЧЕНКО Никита Андреевич3
Сведения об авторах:
1к.т.н., доцент кафедры защищённых систем связи, Санкт-Петербургского Государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, г. Санкт-Петербург, Россия, [email protected]
2старший преподаватель кафедры защищённых систем связи, Санкт-Петербургский Государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, г Санкт-Петербург, Россия, [email protected]
3студент Санкт-Петербургского Государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, г. Санкт-Петербург, Россия, [email protected]
4студент Санкт-Петербургского Государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, г. Санкт-Петербург, Россия, [email protected]
АННОТАЦИЯ
Введение: В наши дни виртуализация используется повсеместно, а особенно необходима для создания сетевой и серверной инфраструктуры предприятия. Без проведения математического прогнозирования невозможно точно предугадать поведение инфраструктуры через какой-то период времен. Цель исследования: Оценить точность трех различных моделей прогнозирования: ARIMA, SARIMA, ARIMAX, на краткосрочный, среднесрочный и долгосрочный периоды. Методы: Для оценки использовался классический сравнительный анализ, в качестве критериев использовались средняя абсолютная ошибка, а так же точность прогнозорования. Результаты: Рассмотрено описание математических моделей Авторегрессионного интегрированного скользящего среднего, а так же расширенная модель Авторегрессионного интегрированного скользящего среднего и сезонной модели Авторегрессионного интегрированного скользящего среднего. На основании математического описания было произведено изучение методов прогнозирования и их сравнение. Затем методы математического прогнозирования были реализованы программно, построены графики, проведено сравнение и был выявлен лучший их них для прогнозирования поведения сетевой инфраструктуры. Проведенные тесты показали, что модель Авторегрессионного интегрированного скользящего среднего прогнозирует поведение сетевой инфраструктуры на неделю, расширенная модель Авторегрессионного интегрированного скользящего среднего прогнозирует поведение сетевой инфраструктуры на месяц, а сезонная модель Авторегрессионного интегрированного скользящего среднего прогнозирует поведение сетевой инфраструктуры на год. Практическая значимость: Полученные результаты по итогам моделирования математического прогнозирования Бокса-Дженкинса имеют широкое практическое применение для мониторинга загрузки элементов виртуальной инфраструктуры, с целью предотвращения сбоев в работе системы и отслеживания аномалий. Обсуждение: Использования данных моделей Авторегриссионного интегрированного скользящего среднего и его модификаций позволит существенно повысить точность определения аномалий, что повышает эффективность использования ресурсов и безопасность инфраструктуры.
КЛЮЧЕВЫЕ СЛОВА: arima, arimax, sarima, прогнозиование, временные ряды.
Для цитирования: Шемякин С. Н., Пестов И. Е., Ильин М. В., Рудченко Н. А. Теоретическая оценка использования математических методов прогнозирования загрузки виртуальной инфраструктуры // Наукоемкие технологии в космических исследованиях Земли. 2021. Т. 13. № 4. С. 66-75.СЫ: 10.36724/2409-5419-2021-13-4-66-75
Vol. 13. No. 4-2021, H&ES RESEARCH
INFORMATICS, COMPUTER ENGINEERING AND CONTROL
Ведение
Временные ряды (Time series) предоставляют возможность прогнозирования будущих значений. На основании значений, полученных ранее, временные ряды используются для прогнозирования в любых сферах, таких как: поведение вычислительных сетей [1], прогнозирование экономических процессов, прогнозирование атак [2], планирование пропускных способностей и т.д.
В данной статье описывается сравнение методов прогнозирования, основанных на построении временных рядов на примере ARIMA (Autoregressive integrated moving average, интегрированная модель авторегрессии скользящего среднего), ARIMAX (Autoregressive integrated moving average extended, расширенная интегрированная модель авторегрессии скользящего среднего) и SARIMA (seasonal ARIMA, сезонная ARIMA) для долгосрочного прогнозирования поведения сетевой инфраструктуры [3].
Модель ARIMA
Модель авторегрессионного интегрированного скользящего среднего относится к одному из наиболее часто используемых методологических подходов для однофакторно-го прогнозирования временных рядов. ARIMA позволяет подойти к вопросу прогнозирования и анализу временных рядов очень гибко и получить точные данные [4].
Модель ARIMA позволяет анализировать одномерные стохастические временные ряды. Для этого анализируемый временной ряд должен быть стационарным, т.е. среднее значение, дисперсия и ковариация ряда должны быть постоянными во времени.
Модель ARIMA (с сезонными терминами) может быть записана следующим образом:
yt = <Piyt-i + ФгУ1-г + •" + ФрУь-р + Ф^-х + $>2Уь-25 + ■■■ + %yt-ps + at- 61at_1 - 02at_2-----dqat_q -
®lat-s - 02«t-2s-----®Qat-Qsn (1)
Используя оператор backshift (lag), можно переписать (1):
cPp(B)<t>p(Bs)zt = eq(B)QQ(Bs)at (2)
где
zt = (l-B)d(l-Bs)D\n(yt) (3)
фр(В)- несезонный оператор авторегресси онного процесса AR(p);
- несезонный оператор скользящего среднего
MA(q);
0p(Bs) - сезонный оператор авторегрессионного процесса AR(P);
&Q(BS) - сезонный оператор скользящего среднего MA(Q);
at - белый шум;
S - порядок сезонности (Bsyt=yt-s);
d, D - несезонный и сезонный порядок дифференцирования (интегрирование).
Затем, используя более экономную нотацию, мы можем переписать следующим образом (4):
ARIMA (p, d, q) (P, D, Q)s, (4)
где:
p, P - число параметров авторегрессии;
q, Q - количество параметров скользящей средней.
Подход бокса-Дженкинса является итерационным трех-этапным подходом моделирования: идентификация, оценка и диагностическая проверка и прогнозирование.
На этапе идентификации исследователь визуально исследует временной график функции автокорреляции ряда (ACF) и частичной функции автокорреляции (PACF). Построение графиков каждого наблюдения ряда против времени t содержит полезную информацию, касающуюся выбросов, пропущенных значений и структурных разрывов в данных. Анализируемый временной ряд должен быть стационарным. После того, как стационарность была достигнута (логарифм и/или различия), следующим шагом является определение параметров модели, т. е. AR и Ma порядков, исследующих ACF и PACF.
На этапе оценки оценивается каждая из предварительных моделей и рассматриваются различные коэффициенты. Сравнение оценочных моделей производится с использованием информационного критерия Акайке, а для получения экономной модели выбирается байесовский критерий Шварца и модель с наименьшим критерием. Основными подходами к подбору моделей бокса-Дженкинса являются нелинейная оценка наименьших квадратов и максимального правдоподобия.
На этапе диагностической проверки проверяется правильность подгонки модели. Остатки должны соответствовать допущениям белого шума, т. е. проверяется автокорреляция, гомоскедастичность и нормальность. Если эти предположения не выполняются, то необходимо подогнать более подходящую модель [5]. Здесь нужно быть осторожным, чтобы не переборщить.
Основной функцией моделей ARIMA является прогнозирование. Их способность к прогнозированию может быть рассмотрена при сравнении с фактическими временными рядами.
ARIMAX-модель передаточной функции
Предположим, что два временных ряда обозначены Yt и Xt, оба являются стационарными. Модель передаточной функции (TFM) можно записать следующим образом (5):
Yt=C+v(B)Xt+Nt (5)
где:
Yt - выходной ряд (зависимая переменная);
Xt - входной ряд (независимая переменная);
С - постоянный член;
Nt - стохастическое возмущение, т. е. Шумовой ряд системы, который не зависит от входного ряда.
N(B) Xt является передаточной функцией (или функцией импульсного отклика), которая позволяет X влиять на Y через распределенное отставание.
B является оператором обратного переключения, поэтому мы можем написать (6):
v(B)Xt = (v0 + VlB+v2B2 + ^)Xt (6)
Когда предполагается, что X t и N t следуют модели ARMA, уравнение (15) называется моделью ARMAX. Эта модель ARMAX сильно отличается от модели ARMA, пото-
му что мы работаем с двумя разными сериями Х; и У- -выходной ряд у. связан с входным рядом Х4.
Коэффициенты ^ называются весами импульсного отклика, которые могут быть положительными или отрицательными. Чем больше абсолютное значение любого веса тем больше отклик на изменение Х^. Выходные ряды могут не реагировать сразу на изменение входных рядов, поэтому некоторые начальные значения V могут быть равно нулю. Число весов V, равных нулю, называется мертвым временем и обозначается как Ь .
Теоретически передаточная функция у(В)Х4 имеет бесконечное число коэффициентов. Тогда мы можем записать передаточную функцию как рациональную модель многочленов с распределенным лагом конечного порядка как отношение многочленов низкого порядка в Б (7):
v J 1 sr(B) 1
(7)
Где Юь(В)=ю0+ю1В+...+юьВь;5г(В)=1-51В-...-5гВг; Ъ - число слагаемых плюс одна включенная независимая переменная; г - это число членов включенной зависимой переменной, а Ь - уже упоминавшееся мертвое время.
Ряд N можно записать в виде модели авторегрессионной интегрированной скользящей средней следующим образом (8):
N. =
9(B)e(Bs)
Û 0(B)®(BS)(1-B)d(l-BS)D 4
(8)
где а4 является нулевым средним и нормально распределенным белым шумом.
Затем, заменив (7) с максимальным запаздыванием, обозначенным через К (модель распределенного запаздывания свободной формы) и (9) в (5), мы получим модель передаточной функции в ее полной формуле (9):
+
Yt = C + v0Xt + v1Xt_1 + v2Xt_2 +
0(B)0(Bs)
• + vkXt_k +
0(B)®(Bs)(l-B)d(l-Bs)
(9)
представления у(В). Мы можем определить порядки (Ь, г, Ъ), визуально сравнивая оцененную функцию импульсного отклика с некоторыми общими теоретическими функциями. Если модель линейной передаточной функции адекватна, то мы можем вычислить прогнозы. Существует несколько диагностических проверок, чтобы решить, является ли модель адекватной на основе невязок, которые должны быть независимыми, а также входных рядов, например, проверка взаимной корреляции и / или проверка автокорреляции [6].
Хорошей практикой является построение модели АШМА как для выходных, так и для входных рядов, прежде чем пытаться построить модель передаточной функции [7].
Модель 8АММА
Сезонность во временном ряду - регулярный шаблон изменений, который повторяется в течение 8 периодов времени, где 8 определяет количество периодов времени, пока шаблон не повторяется снова.
В сезонной модели АШМА прогнозируются сезонные термины АШ и МА использование значений данных и ошибок время от времени с лагами, кратными 8 (диапазон сезонности).
Можно преобразовать нестационарные ряды в стационарные, принимая регулярные разности, то есть разность от одного периода по отношению к следующему.
Также можно устранить сезонность с помощью сезонных различий.
Объединяя оба результата, заключаем, что, можно можем преобразовать нестационарный ряд с сезонностью в стационарный, используя преобразование (10):
œt = V?Vdzt
(10)
Построение ТТМ аналогично итеративному процессу, как и построение одномерной модели АШМА Бокса-Дженкинса, то есть идентификация, оценка и диагностика. После проверки отсутствия обратной связи от более ранних значений выходных данных до текущих значений входных данных, мы можем начать с метода идентификации линейного переноса (ЬТТ), чтобы выяснить порядки (Ь, г, Ъ) передаточной функции рациональной формы (Панкрац). Сначала мы указываем модель распределенного лага в произвольной форме, в которой К выбирается в соответствии с мнением аналитика, а затем указываем низкий порядок для ряда возмущений N Нелинейный метод наименьших квадратов может быть использован для оценки параметров. После оценки модели мы должны проверить оцененные ряды помех для стационарности с помощью функции автокорреляции выборки и функции частичной автокорреляции выборки. Если ряд возмущений не является стационарным, то необходимо соответствующим образом различать вход и выход. Если возмущение является стационарным, то мы переходим к этапу 2, где мы можем использовать предварительно оцененные весовые коэффициенты импульсной характеристики, чтобы выбрать порядки (Ь, г, Ъ) одной / нескольких предварительных передаточных функций рациональной формы для
где D - количество сезонных различий (если есть сезонность, у нас почти всегда есть D = 1, если нет сезонности D = 0), a d - количество регулярных разностей (d < 3).
При наличии сезонной зависимости можно обобщить модель ARMA для стационарных рядов, включающую как регулярную зависимость, которая связана с интервалами измерения ряда, так и сезонную зависимость, связанную с наблюдениями, разделенными s периодами.
Простой подход, который хорошо работает на практике, состоит в том, чтобы моделировать регулярную и сезонную зависимость отдельно, а затем построить модель, включающую оба параметра мультипликативно. Таким образом, получается мультипликативная сезонная модель ARIMA, которая имеет вид (11):
0p(Bs)cpp(B)V°Vdzt = eq(B)QQ(Bs)at
(11)
0pBsP) - сезонный AR
где
• ФР(В5) = (1-Ф1В5-оператор порядка Р
• фр = (1 - ф1В — ■■■фрВр) - оператор АШ порядка р
• ^=(1 — В5)° представляет сезонные различия и Ча = (1— В)арегулярные различия
• ®(}(В>;) = ( 1-01Вх-----ва^^) - сезонный
скользящий средний оператор порядка О
• вч(Ю = (1 — в1В —----вцВя)-регулярный скользящий средний оператор порядка q
• а{ - белый шум
Vol. 13. No. 4-2021, H&ES RESEARCH
INFORMATICS, COMPUTER ENGINEERING AND CONTROL
Сравнительный анализ эффективности прогнозирования моделей ARIMA, ARIMAX и SARIMA
В предыдущей главе были рассмотрены следующие математические модели прогнозирования: ARIMA, ARIMAX и SARIMA, а также было выполнено их сравнение. В результате данного сравнения был сделан вывод о том, что для прогнозирования на краткосрочный период времени такой, как неделя, наиболее подходящей моделью прогнозирования является ARIMA, для месячного прогноза наиболее предпочтительной моделью будет ARIMAX, а для прогноза на более долгие промежутки времени - SARIMA[8].
Для выполнения целей данной выпускной квалификационной работы был произведен мониторинг загрузки центрального процессора сервера тестового Интернет-ресурса.
Для реализации задач, поставленных в данной работе, необходимо выполнить сравнение математических моделей на описанных выше промежутках времени анализа данных, а именно: неделя, месяц и год, а также оценить точность прогнозирования, каждой из моделей[9;10].
Метод оценки точности
Пусть ошибка есть разность: ,
где - фактические значения ряда данных загруз-
ки процессора, а - значения, прогнозируемые мате-
матической моделью.
Тогда формулу для оценки ошибки прогнозирования временных рядов для N отчетов можно записать в следующем виде (12):
- - (12)
где MAPE (Mean Absolute Percentage Error) - средняя абсолютная ошибка в процентах.
Использование средней абсолютной ошибки в качестве функции потерь для регрессионного анализа осуществимо как с практической, так и с теоретической точки зрения, на основании того, что можно доказать существование оптимальной модели и согласованность минимизации эмпирического риска. Данная величина оценивает насколько велики отклонения в сравнении со значением ряда и с ошибками в соседних рядах.
Несмотря на эффективность данного метода существует возможность затруднения расчета значения средней абсолютной ошибки для ряда небольших знаменателей. Может возникнуть проблема сингулярности вида «единица, деленная на ноль» и / или создание критических изменений абсолютной ошибки процента, вызванных небольшим отклонением ошибки. В свою очередь недостатки данного метода проявляются при расчете ошибки для ряда данных, принимающих большие количественные значения, в таком случае средняя абсолютная ошибка не имеет верхнего предела [11]. А также принимая во внимание тот факт, что значения данных загрузки процессора находятся в интервале от 0 до 100 %, рассмотренные выше недостатки подсчета ошибки не будут влиять на правильность подсчета точности математической модели [12].
Анализ преимуществ и недостатков данного метода оценки ошибки прогнозирования математической модели позволяет прийти к выводу о целесообразности его использования в данной выпускной квалификационной работе.
Точность прогнозирования - понятие прямо противоположное ошибке прогнозирования. Если ошибка прогнозирования велика, то точность мала и наоборот, если ошибка прогнозирования мала, то точность велика. Оценка средней абсолютной ошибки прогноза есть обратная величина для точности прогнозирования.
Исходя из совокупности вышеперечисленного, формула оценки точности, выраженная в процентах, принимает следующий вид (13):
(13)
Важно отметить, что величина MAPE является количественной характеристикой ошибки, по которой можно судить и о точности прогнозирования, исходя из приведенной выше простой формулы. Таким образом, оценка величины ошибки подразумевает под собой оценку точности прогнозирования.
Опираясь на данный метод оценки точности прогнозирования необходимо понимать, что формула не учитывает сторонние факторы, влияющие на производительность процессора, такие как: многоядерность, температура процессора, тактовая частота процессора, скорость доступа к внешней памяти, скорость выполнения и набор инструкций, работа стороннего программного обеспечения т. д., вследствие того, что разработка метода оценки погрешности прогнозирования математических моделей не входит в задачи данной выпускной квалификационной работы[13].
Прогнозирование трафика на неделю
Для получения экспериментальных данных использовался пакет прикладных программ для решения задач технических вычислений MATLAB и интерактивный инструмент для анализа одномерных данных временных рядов Econometric Modeler App[14;15].
Econometric Modeler App подходит для визуализации и преобразования данных, выполнения тестов статистической спецификации и идентификации моделей, приведения моделей к данным и повторения этих действий, а также для метода Бокса-Дженкинса к построению моделей временных рядов [16].
График данных, на основании которых происходило обучение каждой из моделей (ARIMA, ARIMAX и SARIMA) представлен в Приложении А.
На рисунке 1 изображены графики реальных данных загрузки процессора и прогнозируемых моделью ARIMA значений на неделю вперед[17].
ARFMA Weekly Fofecssi
bincftf нолей* тчеяьзгг w«jri«<iii 1IUIVU> ■ ЮГ'
Рис. 1. Прогноз модели ARIMA на неделю
Оценка точности математических моделей прогнозирования на каждом временном интервале основывалась на вышеописанной теории о средней абсолютной ошибке и ее связи с точностью прогнозирования.
Средняя абсолютная ошибка модели АШМА на недельном интервале прогнозирования равна 3.07 %, точность прогнозирования - 96.93 %[17].
Рис. 2. Прогноз модели АШ1МАХ на неделю
На рисунке 2 изображены графики реальных данных загрузки процессора и прогнозируемых моделью АШМАХ значений на неделю вперед.
Средняя абсолютная ошибка модели АШМАХ на недельном интервале прогнозирования равна 8.56% из чего можно сделать вывод о том, что точность прогнозирования составляет 91.44%.
На рисунке 3 изображены графики реальных данных загрузки процессора и прогнозируемых моделью 8АШМА значений на неделю вперед.
ТигзОД ШАНЙВ ТТшгИЬи
Рис. 3. Прогноз модели 8АШ1МА на неделю
Средняя абсолютная ошибка модели 8АШМА на недельном интервале прогнозирования равна 7.77%, точность прогнозирования - 92.23%.
Совокупность результатов прогнозирования для интервала времени равного неделе представлены на рисунке 4. Анализируя данный Рис. можно прийти к необходимости введения понятия «выброс». Выброс - это достаточно большое отклонение прогнозируемых данных от истинных, в рамках интервала изменения истинных данных за исследуемый период.
Например, модель АШМАХ прогнозирует значение загрузки центрального процессора в воскресенье равное 76.06%, при этом разность ме^ду прогнозируемыми и истинными данными превышает интервал изменения истинных значений на 354%. Аналогично вышеописанному,
модель 8АЯ1МА во вторник принимает значение 60.49 % при истинном - 70.38 %, отклонение при этом превышает интервал на 442 %[18;19].
Рис. 4. Сравнение поведения моделей на недельном промежутке прогнозирования
Модель АШМАХ имеет 5 случаев критического отклонения от интервала изменения при среднем отклонении равном 263%, модель 8АШМА - 4 случая при среднем отклонении - 240 %, в то время как модель АШМА - 1 случай при среднем 95%.
Необходимо понимать, что данная методология обнаружения выбросов показывает свою эффективность на коротких периодах прогнозирования при несущественном изменении данных [18].
Результаты расчета средней абсолютной ошибки и точности недельного прогноза каждой математической модели приведены в таблице 1.
Таблица 1
Сравнение точности прогноза моделей на неделю
Модель АШ1МА АШ1МАХ 8АШ1МА
Средняя абсолютная ошибка, % 3.07 8.56 7.77
Точность прогнозирования,% 96.93 91.44 92.23
Анализ графика и таблицы сравнения точности прогнозирования моделей позволяет сделать следующий вывод: на промежутке прогнозирования равном неделе, наиболее подходящей математической моделью является АШМА, которая не только показывает наибольшую точность прогноза, что соответствует наименьшей средней абсолютной ошибке, но и имеет наименьшее число «выбросов».
Прогнозирование трафика на месяц
При прогнозировании на больший промежуток времени использование вышеописанного метода обнаружения выбросов не является эффективным в силу того, что интервал изменения данных увеличивается и на фоне высокой точности прогноза перестает быть наглядным показателем стабильности поведения модели [19].
В связи с вышеизложенным, оценка прогноза по количеству выбросов и среднему отклонению интервала разности между истинным и прогнозируемым значением от интервала изменения данных производится не будет.
При этом необходимо акцентировать внимание на том, что использованный в предыдущем разделе метод обнару-
Vol. 13. No. 4-2021, H&ES RESEARCH
INFORMATICS, COMPUTER ENGINEERING AND CONTROL
жения выбросов является грубой оценкой стабильности поведения модели на коротком промежутке времени и нуждается в существенной доработке, что требует применения дополнительной математической модели для выявления критических отклонений прогнозируемых данных от их истинных значений, что в сою очередь не входит в задачи данной выпускной квалификационной работы.
На рисунке 5 изображены графики реальных данных загрузки процессора и прогнозируемых моделью АШМА значений на месяц вперед.
Исходя из результатов, предсказанных моделью АШМА, можно сделать вывод о том, что при высокой точности прогнозирования на неделю вперед, точность предсказания на месяц уменьшается, несмотря на верное положение точек перегиба.
//////////////// ■■ >> " О ■•> -У с ■> '' г1 Л'
Рис. 5. Прогноз модели АШМА на месяц
Средняя абсолютная ошибка модели АШМА на месячном интервале прогнозирования равна 8.35 % из чего можно сделать вывод о том, что точность прогнозирования составляет 91.65%.
На рисунке 6 изображены графики реальных данных загрузки процессора и прогнозируемых моделью АШМАХ значений на месяц вперед.
Рис. 6. Прогноз модели АШМАХ на неделю
Проанализировав полученные результаты, представленные на графике, целесообразно сделать вывод, что наличие значительного количества «выбросов» на недельном промежутке, не оказывает существенного влияния на точность прогнозирования на интервале времени равном месяцу, количество видимых отклонений сводится к минимуму [20].
Средняя абсолютная ошибка модели АКИМАХ на месячном интервале прогнозирования равна 3.64 %, точность прогнозирования - 96.36%.
На рисунке 6 изображены графики реальных данных загрузки процессора и прогнозируемых моделью 8АШМА значений на месяц вперед.
////////////////
Рис. 7. Прогноз модели 8АШМА на месяц
Средняя абсолютная ошибка модели 8АШМА на месячном интервале прогнозирования равна 5.35 % из чего можно сделать вывод о том, что точность прогнозирования составляет 94.65%.
Совокупность результатов прогнозирования для интервала времени равного месяцу представлены на рисунке 8.
Рис. 8. Сравнение поведения моделей на месячном промежутке прогнозирования
Результаты расчета средней абсолютной ошибки и точности месячного прогноза каждой математической модели приведены в таблице 2.
Таблица 2
Сравнение точности прогноза моделей на месяц
Модель ARIMA ARIMAX SARIMA
Средняя абсолютная ошибка, % 8.35 3.64 5.35
Точность прогнозирования,% 91.65 96.36 94.65
В результате сравнения точности прогнозирования моделей АШМА, АШМАХ и 8АШМА на месяц вперед можно сделать вывод о том, что модель АШМАХ является наиболее эффективной на данном промежутке прогнозирования [20].
Прогнозирование трафика на год
На рисунке 9 изображены графики реальных данных загрузки процессора и прогнозируемых моделью АШМА значений на год вперед.
НАУКОЕМКИЕ ТЕХНОЛОГИИ В КОСМИЧЕСКИХ ИССЛЕДОВАНИЯХ ЗЕМЛИ, Т. 13. № 4-2021
ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
Проанализировав результаты годового прогноза, построенного с использованием модели АШМА и, принимая во внимание тот факт, что его точность по сравнению с месячным предсказанием повысилась на 2.02% (с 91.65% до 93.67%), необходимо отметить, что данный прогноз позволяет охарактеризовать динамику изменения данных: восходящую или нисходящую, игнорируя существенное увеличение загрузки процессора в период с мая по август: с 75 до 99%, а также ее снижение до 65% в ноябре [21;22].
Рис. 9. Прогноз модели АЫМА на год
Средняя абсолютная ошибка модели АЫМА на годовом интервале прогнозирования равна 6.33% из чего можно сделать вывод о том, что точность прогнозирования составляет 93.67%.
На рисунке 10 изображены графики реальных данных загрузки процессора и прогнозируемых моделью АШМАХ значений на год вперед.
^^^ .....
Рис. 10. Прогноз модели АЫМАХ на год
Модель АШМАХ показывает характер изменения данных и учитывает периоды их существенного изменения, тем не менее показывая снижение точности прогнозирования до 88.98%, при значении средней абсолютной ошибки равном 11.02%.
На рисунке 11 изображены графики реальных данных загрузки процессора и прогнозируемых моделью 8АШМА значений на год вперед.
Прогноз, полученный с помощью модели 8АШМА, практически повторяет график истинных данных, а именно: позволяет определить промежутки значительного изменения данных, сохраняя при этом высокую точность.
Рис. 11. Прогноз модели 8АЫМА на год
Средняя абсолютная ошибка модели 8АШМА на годовом интервале прогнозирования равна 3.72%, точность прогнозирования - 96.28%.
Совокупность результатов прогнозирования для интервала времени равного году представлены в Приложении Б.
Результаты расчета средней абсолютной ошибки и точности годового прогноза каждой математической модели приведены в таблице 3.
Таблица 3
Сравнение точности прогноза моделей на год
Из вышеописанного становится очевидным, что 8АШМА является наиболее эффективной математической моделью на годовом промежутке, обеспечивая низкий показатель средней абсолютной ошибки, что соответствует высокой точности прогноза.
Заключение
В данной работе рассмотрена актуальность использования математических методов прогнозирования загрузки ресурсов в современной виртуализированной инфраструктуре. Достаточно сложно представить информационную инфраструктуру без систем облачного хранения данных и виртуализации. Переход компаний к использованию виртуальной инфраструктуры упрощает резервное копирование данных, а также обеспечивает наибольшую эффективность управления ресурсами.
Была изучена проблема разработки метода использования математической модели, выполняющего прогнозирование загрузки ресурсов элементов виртуальной инфраструктуры, рассмотрены различия между моделью и методом прогнозирования.
Во избежание возможных последствий эксплуатации виртуальной инфраструктуры, были рассмотрены следующие математические модели прогнозирования: АШМА, АШМАХ и 8АШМА, на основании которых можно разработать систему прогнозирования загрузки элементов виртуальной инфраструктуры, позволяющую минимизировать сбои в работе системы, обусловленные нехваткой того или иного ресурса, а также отслеживать наличие аномалий в поведении сети с целью выявления атак.
Модель АЫМА АЫМАХ 8АЫМА
Средняя абсолютная ошибка, % 6.33 11.02 3.72
Точность прогнозирования, % 93.67 88.98 96.28
Vol. 13. No. 4-2021, H&ES RESEARCH
INFORMATICS, COMPUTER ENGINEERING AND CONTROL
Данная система предполагает использование пакета прикладных программ для работы с временными рядами с целью выявления математической модели способной прогнозировать распределение вычислительных ресурсов с высокой точностью на продолжительный период времени.
В рамках проведенного анализа алгоритма системы прогнозирования загрузки виртуальной инфраструктуры были получены следующие основные результаты: математическая модель ARIMA достоверно прогнозирует трафик на неделю вперед, модель ARIMAX - на месяц, а модель SARIMA -на год.
Полученные результаты имеют широкое практическое применение для мониторинга загрузки элементов виртуальной инфраструктуры, с целью предотвращения сбоев в работе системы и отслеживания аномалий, что повышает эффективность использования ресурсов и безопасность инфраструктуры.
Литература
1. Акимов Ю.А. Прогнозирование на базе ARIMA - моделей // Интеграция науки, общества, производства и промышленности. (Иркутск, 27 ноября 2019 г.) 2019. С. 5-7.
2. Палий Э.И., Хашковский В.В. Применение ARIMA-модели для построения прогноза. // Информационные технологии, системный анализ и управление (ИТСАУ-2016). 2016. С. 163-165.
3. Малыгин A.A., Моделирование показателей молочного скотоводства на основе тренд-сезонной модели и arima-процессов бокса-дженкинса // Наука о данных, Санкт-Петербург, 2020 С. 190-192.
4. Афанасьева Т.В., Сапунков A.A., Заварзин Д.В., Сибирев И.В., Морозов A.A., Сервис прогнозирования на основе комбинирования моделей нечетких временных рядов и arima // Пятнадцатая национальная конференция по искусственному интеллекту с международным участием. (Смоленск, 03-07 октября 2016 года). С. 229-236.
5. Гельфанд A.M., Лансере H.H., Ложкина A.A., Фадеев И.И. Организация концептуальной модели критической информационной инфраструктуры // Методы и технические средства обеспечения безопасности информации. 2020. № 29. С. 39-40.
6. Багомедова А.Р., Ушаков И.А., Цветков А.Ю., Разработка методов проверки соответствия серверов виртуализации требованиям безопасности согласно стандарту гост р 56938-2016 // Материалы VII Международной научно-технической и научно-методической конференции. «Актуальные проблемы инфотеле-коммуникаций в науке и образовании», (Санкт-Петербург, 28 февраля - 01 2018 года), C. 58-63
7. Сахаров Д.В., Красов A.B., Ушаков И.А., Орлов Г.А., защищенная модель программно-определяемой сети в среде виртуализации KVM. // Электросвязь. 2020. № 3. С. 26-32.
8. Гайфулина Д.А., Котенко И.В. Анализ моделей глубокого обучения для задач обнаружения сетевых аномалий интернета вещей // Информационно-управляющие системы. 2021. № 1 (110). С. 28-37.
9. Авдеева М.Л., Ушаков И.А., Филиппов A.A. Сравнительный анализ концепции облачной инфраструктуры openstack и традиционной архитектуры виртуализации // Материалы IX Международной научно-технической и научно-методической конференции (Санкт-Петербург, 01-03 ноября 2017 года), Санкт-Петеребург, 2017. С. 33-38
10. Дубровин Н.Д., Ушаков И.А., Чечулин A.A. Применение технологии больших данных в системах управления информацией и событиями безопасности // Материалы из конфереции "Актуальные проблемы инфотелекоммуникаций в науке и образовании" (Санкт-Петербург, 10-11 марта 2016 г.) Санкт-Петербург, 2016. С. 348-353.
11. Красов A.B., Левин М.В., Фостач Е.С., проблемы обеспечения безопасности облачных вычислений // Материалы X Санкт-Оетербургской межрегиональной конференции "информационная безопасность регионов россии (ибрр-2017)" (Санкт-Петербург, 01-03 ноября 2017 г.). Санкт-Петербург, 2017, С. 520-522.
12. Билятдинов КЗ., Красов A.B., Меняйло В.В., Исследование систем и анализ результатов испытаний // СПб: Астерион, 2019. 362 с.
13. Рыдзелева A.B., Ермолаев М.Б., Опыт оперативного прогнозирования цен на основе модели ARIMA // Проблемы экономики, финансов и управления производством. 2017. № 40. С. 93-95.
14. Штеренберг С.И., Москальчук А.И., Красов A.B. разработка сценариев безопасности для создания уязвимых виртуальных машин и изучения методов тестирования на проникновения // Информационные технологии и телекоммуникации. 2021. Т. 9. № 1. С. 47-58.
15. Проноза A.A., Чечулин A.A., Котенко И.В. Математические модели визуализации в siem-системах // Труды СПИИРАН. 2016. № 3 (46). С. 90-107.
16. Донсков Е.А., Ушаков И.А., Анализ защищенности виртуальных инфраструктур с использованием по vgate // Материалы VII Международной научно-технической и научно-методической конференции и «Актуальные проблемы инфотелекоммуникаций в науке и образовании», (Санкт-Петербург, 28 февраля - 01 2018 года), С. 304-310.
17. Раднаев Б.Б., Цыбиков A.C., Хабитуев Б.В. ARIMA-модель пульсового сигнала // Вестник Бурятского государственного университета. Математика, информатика. 2017. № 1. С. 78-85.
18. Коломеец М.В., Котенко И.В., Косов H.A., Агеев С.А., Иванов А.Ю., Анализ методов человеко-машинного взаимодействия в инструментах визуальной аналитики siem-систем. // Материалы 11-ой российской мультиконференции по проблемам управления «Информационные технологии в управлении» (Санкт-Петербург, 02-04 октября 2018 года) С. 559-562
19. Орлов Г.А., Красов A.B., Гельфанд A.M., Применение big data при анализе больших данных в компьютерных сетях // Наукоемкие технологии в космических исследованиях Земли. 2020. Т. 12. № 4.С. 76-84.
20. Миняев А. А., Красов А. В., Сахаров Д. В. Метод и методика оценки эффективности системы защиты распределенных информационных систем // В сборнике: 2020 12-й Международный конгресс по ультрасовременным телекоммуникациям и системам управления и Семинары (ICUMT). 2020. С. 291-295.
21. Красов A.B., Штеренберг С.И., Голузина ДР., Методика визуализации больших данных в системах защиты информации для формирования отчетов уязвимостей // Электросвязь. 2019. № 11. С. 39-47.
22. Гельфанд A.M., Косов H.A., Красов A.B., Орлов Г.А. Защита для распределенных отказов в обслуживании в облачных вычислениях // Материалы научных статей VIII Международной научно-технической и научно-методической конференции «актуальные проблемы инфотелекоммуникаций в науке и образовании» (Санкт-Петербург, 27-28 февраля 2019 года), С. 329-334.
НАУКОЕМКИЕ ТЕХНОЛОГИИ В КОСМИЧЕСКИХ ИССЛЕДОВАНИЯХ ЗЕМЛИ, Т. 13. № 4-2021
ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
THEORETICAL ASSESSMENT OF MATHEMATICAL METHODS USAGE FOR PREDICTING VIRTUAL INFRASTRUCTURE LOAD
SERGEY N. SHEMYAKIN
St. Petersburg, Russia, [email protected]
IGOR E. PESTOV
St. Petersburg, Russia, [email protected] MAXIM V. ILIN
St. Petersburg, Russia, [email protected]
NIKITA A. RUDCHENKO
St. Petersburg, Russia, [email protected]
KEYWORDS: information technology, information resource, distributed information system, blockchain, hash function.
ABSTRACT
Introdiction: Nowadays virtualization is used everywhere, and it is especially necessary for creating the network and server infrastructure of the enterprise. Without mathematical forecasting, it is impossible to accurately predict the behavior of the infrastructure over a time period. Consequently, the task was set - to create the most accurate forecast for the longest possible period. Methods: To create the forecast, an Autoregressive Integrated Moving Average model based on time series was chosen. This model has several different modifications, such as a stately model, an extended model, a seasonal model. The description of the Autoregressive Integrated Moving Averagemathematical models, as well as the extended model of the Autoregressive Integrated Moving Average and the seasonal model of the Autoregressive Integrated Moving Average, are considered. Based on the mathematical description, the forecasting methods were
studied and compared. Then the methods of mathematical forecasting were implemented in software, graphs were built, a comparison was made, and the best of them was identified to predict the behavior of the network infrastructure. The tests showed that the Autoregressive Integrated Moving Average model predicts the behavior of the network infrastructure for a week, the extended Autoregressive Integrated Moving Average model predicts the behavior of the network infrastructure for a month, and the seasonal Autoregressive Integrated Moving Average model predicts the behavior of the network infrastructure for a year. Practical significance: The results obtained based on the results of the Box-Jenkins mathematical forecasting modeling have wide practical application for monitoring a load of virtual infrastructure elements in order to prevent system failures and track anomalies, which increases the efficiency of resource use and infrastructure security.
REFERENCES
1. Akimov Yu.A., Forecasting based on ARIMA models. Integraciya nauki, obshchestva, proizvodstva ipromyshlennosti [Integration of science, society, production and industry]. 2018. P. 5-7. (in Rus)
2. Palij E.I., Hashkovskij V.V., application of ARIMA-model for forecasting. Informacionnye tekhnologii, sistemnyj analiz i upravlenie [Information technology, systems analysis and management] 2016. pp. 163-165.
3. Malygin A.A. Modeling of Dairy Cattle Breeding Indicators based on trend-seasonal model and arima-processes of box-jenkins. Nauka o dannykh [science about data], Moskow, 2020. P. 190-192. (in Rus)
4. Afanaseva T.V., Sapunkov A.A., Zavarzin D.V., Sibirev I.V., Morozov A.A. Forecasting service based on combining fuzzy time series models and ARIMA. Rossiiskaia assotsiatsiia iskusstvennogo intellekta [Russian association of artificial Intelligence], 2016. P. 229236. (in Rus)
5. Gel'fand A.M., Lansere N.N., Lozhkina A.A., Fadeev I.I. Organization of a conceptual model of critical information infrastructure. Metody i tehnicheskie sredstva obespechenija bezopasnosti informacii [Methods and technical means of ensuring information security] 2020. № 29. P. 39-40. (In Rus)
6. Bagomedova A.R., Ushakov I.A., Cvetkov A.Ju. Razrabotka metodov proverki sootvetstvija serverov virtualizacii trebovanijam bezopasnosti v sootvetstvii s GOST R 56938-2016 [Development of methods for verifying the compliance of virtualization servers with security requirements in accordance with GOST R 56938-2016.]
Aktual'nye problemy infotelekommunikacij v nauke i obrazovanii (APINO 2018). VII Mezhdunarodnaja nauchno-tehnicheskaja i nauch-no-metodicheskaja konferencija. [Actual problems of infotelecommu-nications in science and education (APINO 2018). VII International Scientific-technical and scientific-methodological Conference.] Collection of scientific articles. In 4 volumes. Edited by S. V. Bachevsky. 2018. P. 58-63. (In Rus)
7. Saharov D.V., Krasov A.V., Ushakov I.A., Orlov G.A., Secure software-defined network model in a KVM virtualization environment. Jelektrosvjaz' [Telecommunications] 2020. No 3. P. 26-32. (In Rus)
8. Gajfulina D.A., Kotenko I.V. Analysis of deep learning models for IoT network anomaly detection tasks. Informacionno-upravljajushhie sistemy [Information and control systems] 2021. No. 1 (110). P. 28-37. (In Rus)
9. Avdeeva M. L., Ushakov I. A., Filippov A. A. Sravnitel'nyj analiz koncepcii oblachnoj infrastruktury openstack i tradicionnoj arhitektury virtualizacii [Comparative analysis of the openstack cloud infrastructure concept and traditional virtualization architecture.] Aktual'nye problemy infotelekommunikacij v nauke i obrazovanii (APINO 2020). IX Mezhdunarodnaja nauchno-tehnicheskaja i nauchno-metodicheskaja konferencija [Actual problems of infotelecommunications in science and education (APINO 2020). THEIR International scientific-technical and scientific-methodological conference: collection of scientific articles. Saint-Petersburg] : Collection of scientific articles. St. Petersburg, 2020. P. 33-38.(In Rus)
Vol. 13. No. 4-2021, H&ES RESEARCH
INFORMATICS, COMPUTER ENGINEERING AND CONTROL
10. Dubrovin N.D., Ushakov I.A., Chechulin A.A. Primenenie tehnologii bol'shih dannyh v sistemah upravlenija informaciej i sobytija-mi bezopasnosti [Application of big data technology in information and security event management systems], Materialy iz konferecii "Aktual'nye problemy infotelekommunikacij v nauke i obrazovanii" [Materials from the conference " Actual problems of infotelecommuni-cations in science and education"] (In Rus)
11. Krasov A.V., Levin M.V., Fostach E.S., Problemy obespechenija bezopasnosti oblachnyh vychislenij [problems of ensuring the security of cloud computing], Materialy X Cankt-Geterburgskoj mezhregion-al'noj konferencii "informacionnaja bezopasnost' regionov Rossii [Materials of the X Zankt-Geterburg Interregional Conference" Information Security of Russian regions] Saint Petersburg Pp. 2017. P. 520-522 (In Rus)
12. Biljatdinov K.Z., Krasov A.V., Menjajlo V.V. System research and test results analysis. SPb: Asterion [Saint Petersburg: Asterion], 2019. 362 p. (In Rus)
13. Rydzeleva A.V., Ermolaev M.B., Experience in operational price forecasting based on the ARIMA model. Problemy jekonomiki, finansov i upravlenija proizvodstvom. [Problems of economics, finance and production management.] Saint Petersburg, 2019. P. 329-334. (In Rus)
14. Shterenberg S.I., Moskal'chuk A.I., Krasov A.V. Develop security scenarios for creating vulnerable VMs and exploring penetration testing techniques. Informacionnye tehnologii i telekommunikacii [Information technologies and telecommunications.] 2021. Vol. 9. No. 1. P. 47-58. (In Rus)
15. Pronoza A.A., Chechulin A.A., Kotenko I.V. Mathematical models of visualization in siem systems. Trudy SPIIRAN. [Works of SPI-IRAN.]. 2016. No3 (46), P. 90-107. (In Rus)
16. Donskov E.A., Ushakov I.A., Analiz bezopasnosti virtual'nyh infrastruktur s ispol'zovaniem programmnogo obespechenija vgate. [Analysis of the security of virtual infrastructures using vgate software.] Aktual'nye problemy infotelekommunikacij v nauke i obrazovanii (apino 2018). VII mezhdunarodnaja nauchno-tehnicheskaja i nauchno-metodicheskaja konferencija. sbornik nauchnyh statej. v 4-h tomah.
pod redakciej s.v. bachevskogo. [Actual problems of infotelecommu-nications in science and education (apino 2018). VII international scientific-technical and scientific-methodological conference. collection of scientific articles. in 4 volumes. edited by S. v. Bachevsky.] 2018. P. 304-310. (In Rus)
17. Radnaev B.B., Tsybikov A.S., Khabituev B.V.. ARIMA-model of the pulse signal. Vestnik Buriatskogo gosudarstvennogo universiteta Matematika informatika [Bulletin of the Buryat State University Mathematics Informatics] 2017. No. 1. P. 78-85. (in Rus)
18. Kolomeec M.V., Kotenko I.V., Kosov N.A., Ageev S.A., Ivanov A.Ju., Analysis of human-machine interaction methods in visual analytics tools for siem systems. Informacionnye tehnologii v upravlenii (ITU-2018). ITU-2018. Conference materials. 2018. P. 559-562. (In Rus)
19. Orlov G.A., Krasov A.V., Gel'fand A.M. Application of big data in the analysis of big data in computer networks. H&ES Research. 2020. Vol. 12. No. 4. P. 76-84. (In Rus)
20. Minjaev A. A., Krasov A. V., Saharov D. V. Method and methodology for evaluating the effectiveness of the distributed information system security system. The 12th International Congress on Ultramodern Telecommunications and Control Systems and Seminars (ICUMT). 2020. P. 291-295 (In Rus)
21. Krasov A.V., Shterenberg S.I., Goluzina D.R. A technique for visualizing big data in information security systems for generating vulnerability reports. Jelektrosvjaz'. [Telecommunications]. 2019. No. 11. P. 39-47. (In Rus)
22. Gel'fand A.M., Kosov N.A., Krasov A.V., Orlov G.A. Zashhita ot raspredelennogo otkaza v obsluzhivanii v oblachnyh vychislenijah. [Protection for distributed denial of service in cloud computing.] Aktual'nye problemy infotelekommunikacij v nauke i obrazovanii (APINO2019). Sbornik nauchnyh statej VIII Mezhdunarodnoj nauchno-tehnicheskoj i nauchno-metodicheskoj konferencii. [Actual problems of infotelecommunications in science and education (APINO 2019). collection of scientific articles of the VIII International Scientific-technical and scientific-methodological Conference] 2019. P. 329-334 (In Rus)
INFORMATION ABOUT AUTHORS:
Shemyakin S.N., Ph.D., Associate Professor of the The Bonch-Bruevich Saint Petersburg State University of Telecommunications. St. Petersburg, Russia
Pestov I.E., Senior Lecturer of the The Bonch-Bruevich Saint Petersburg State University of Telecommunications. Ilin M.V., Student of the The Bonch-Bruevich Saint Petersburg State University of Telecommunications. Rudchenko N.A., Student of the The Bonch-Bruevich Saint Petersburg State University of Telecommunications.
For citation: Pestov I.E., Shemyakin S.N., Ilin M.V., Rudchenko N.A. Theoretical assessment of mathematical methods usage for predicting virtual infrastructure load. H&ES Research. 2021. Vol. 13. No. 4. Pp. 66-75. doi: 10.36724/2409-5419-2021-13-4-66-75 (In Russian)