УДК: 004.051 EDN: KVZKKP
DOI: https://doi.org/10.47813/2782-5280-2023-2-1-0201-0209
Анализ подходов к решению задачи прогнозирования загрузки системы хранения данных
В. В. Тынченко, Т. Э. Хохрякова
Сибирский федеральный университет, Красноярск, Россия
Аннотация. Система хранения данных представляет собой комплексное программно-аппаратное решение по организации надёжного хранения информационных ресурсов, а также отказоустойчивого, высокопроизводительного доступа к данным. Автоматизация управления системой хранения данных повысит доступность данных и скорость работы системы, что позволит обеспечить стабильную производительность и непрерывность рабочих процессов. Целью статьи является обзор и выбор методов машинного обучения, наиболее подходящих для решения задачи прогнозирования загрузки системы хранения данных. Наблюдения заполнения томов системы по своей сути являются временным рядом. Следовательно, проблему прогнозирования загрузки можно интерпретировать как проблему прогнозирования временного ряда. Для дальнейшей разработки алгоритма прогнозирования рассмотрены наиболее популярные статистические и структурные модели, а именно регрессия, авторегрессия и нейронные сети, выделены достоинства и недостатки каждого подхода.
Ключевые слова: прогнозирование временных рядов, машинное обучение, регрессия, авторегрессия, искусственные нейронные сети.
Для цитирования: Тынченко, В. В., & Хохрякова, Т. Э. (2023). Анализ подходов к решению задачи прогнозирования загрузки системы хранения данных. Информатика. Экономика. Управление - Informatics. Economics. Management, 2(1), 0201-0209. https://doi.org/10.47813/2782-5280-2023-2-1-0201-0209
Analysis of approaches to solving the problem of forecasting
storage system loading
V. V. Tynchenko, T. E. Khokhryakova
Siberian Federal University, Krasnoyarsk, Russia
Abstract. The data storage system is a complex software and hardware solution for organizing reliable storage of information resources, as well as fault-tolerant, high-performance data access. Automating storage management will increase data availability and system speed to ensure consistent performance
© В. В. Тынченко, Т. Э. Хохрякова, 2023 0201
Информатика. Экономика. Управление// Informatics, Economics, Management
2023; 2(1) http://oajiem.com/
and business continuity. The purpose of the article is to review and select machine learning methods that are most suitable for solving the problem of predicting the load of a storage system. Observations of the filling of system volumes are inherently a time series. Therefore, the load forecasting problem can be interpreted as a time series forecasting problem. For further development of the forecasting algorithm, the most popular statistical and structural models, namely regression, autoregression and neural networks, are considered, the advantages and disadvantages of each approach are highlighted.
Keywords: time series forecasting, machine learning, regression, autoregression, artificial neural networks.
For citation: Tynchenko, V. V., & Khokhryakova, T. E. (2023). Analysis of approaches to solving the problem of forecasting storage system loading. Informatics. Economics. Management, 2(1), 0201-0209. https://doi.org/10.47813/2782-5280-2023-2-1-0201-0209
ВВЕДЕНИЕ
Прогнозирование временных рядов является одной из важнейших прикладных задач, решаемых интеллектуальными информационными системами с целью наиболее точно предсказать будущее поведение различных факторов на основе известных прошлых событий. Построенный прогноз позволяет выявлять закономерности и принимать эффективные решения по различным вопросам в экономических, социальных, технических и многих других сферах деятельности.
Временной ряд представляет собой последовательность значений некоторой переменной, изменяющейся во времени. От простой выборки данных временной ряд отличается тем, что наблюдаемый показатель последовательно измеряется через некоторые, зачастую равные, промежутки времени. Таким образом, при анализе учитываются не только статические характеристики данных, но и их взаимосвязь со временем [1, 2].
Важным фактором в построении качественного анализа временного ряда является выбор метода прогнозирования. Согласно классификации Дж. Бокса и Г. Дженкинса [13] существуют интуитивные и формализованные методы прогнозирования временного ряда.
Интуитивные методы не предполагают реализацию какой-либо модели и основываются на экспертных оценках, исторических аналогиях, общих образцах. Они применяются тогда, когда прогнозируемая ситуация очень сложна и не поддается математическому описанию, или очень проста и в таком описании не нуждается.
Информатика. Экономика. Управление// Informatics, Economics, Management
2023; 2(1) http://oajiem.com/
Формализованные методы ставят своей целью разработать и обучить такую математическую модель, которая сможет найти зависимость между значениями целевой переменной и исходя из этой зависимости построить прогноз временного ряда. Данный класс методов включает в себя статические модели (регрессия, авторегрессия, экспоненциальное сглаживание и др.) и структурные модели (классификационные деревья, нейронные сети и др.). Они основаны на технологиях машинного обучения, которые находят все большее применение, особенно в условиях шума или пропусков, при нестационарных и длинных последовательностях данных. С помощью обучения можно получить такие параметры модели, которые позволят построить сложные зависимости в поведении временного ряда как от предыдущих значений, так и от внешних факторов, при этом расхождение между реальными и предсказанными значениями целевого признака будет минимальным [4].
ОБЗОР МЕТОДОВ ПРОГНОЗИРОВАНИЯ
Регрессионные модели
Регрессионная модель является семейством параметрических функций, которые описывают закономерности между зависимой переменой и одной или несколькими независимыми переменными [5].
Уравнение регрессии имеет вид:
Y = X) + г,
где У - зависимая переменная, X - независимые переменные, W - параметры модели, 8 - случайная величина, характеризующая отклонение реального значения У от прогноза. Таким образом, для построения модели в основном используются измеряемые данные, а не свойства исследуемого временного ряда [1].
Различают следующие основные виды регрессионной модели [1, 3, 5]:
1. Линейная регрессия моделирует линейную зависимость между переменными. Для определения коэффициенты регрессии, как правило, используют метод наименьших квадратов. В случае простой регрессии уравнение имеет вид:
Y(t) = ч'О + м>1Х(Х) + г()
Информатика. Экономика. Управление// Informatics, Economics, Management
2G23; 2(1) http://oajiem.com/
В случае множественной регрессии, когда переменная зависит от нескольких признаков:
= ч'О + м/1Х1($ + ™2Х2(г) + ... + м>пХп0) + е^).
2. Логистическая регрессия также анализирует линейную связь, однако предназначена она для прогнозирования вероятности наступления некоторого события, а не самого значения переменой (т.е. для классификации). На практике для нахождения параметров часто используют метод максимального правдоподобия.
3. Гребневая регрессия (ридж-регрессия), лассо-регрессия, байесовская регрессия были разработаны как подходы к линейной регрессии, которые повышают точность модели в случаях сложных зависимостей. Ридж- и лассо-регрессию применяют в случае корреляции независимых переменных между собой. Байесовская регрессия предназначена для данных, содержащих шум, который распределен нормально.
Авторегрессионные модели
Регрессионная модель строит зависимость временной последовательности от ее сопутствующих признаков. Если для прогнозирования необходимо определить зависимость от предыдущих значений того же ряда, то для этого используют авторегрессионные модели [1, 3, 6, 7].
Авторегрессия АВ.(р) представляет собой модель временного ряда, в которой значение переменной в текущий момент линейно зависит от некоторого количества ее предыдущих значений и описывается следующим образом:
Х(г) = с + м>1Х1(г-1) + м>2Х2(г-2) + ... + ^рХр(г-р) + е(г),
где X - временной ряд, с - константа, р - порядок авторегрессии. Например, модель авторегрессии четвертого порядка АЯ(4) будет строить прогноз, учитывая наблюдения за четыре последних временных шага.
Модель скользящего среднего МА(д) предназначена для моделирования случайных ошибок одномерного временного ряда и записывается в виде:
Х(1) = е(1) + м>1е1(г-1) + w2е2(t-2) + ... + м>цец(1-ц),
где 8 - шумовые компоненты, q - порядок скользящего среднего, иногда добавляют константу. Таким образом, оценка прогнозируемой переменой линейно зависит от текущего и ранее наблюдаемых случайных компонентов.
Авторегрессионная модель скользящего среднего АШМА(р, д) объединяет две более простые модели. Согласно модели, временной ряд содержит две составляющие: авторегрессионную и скользящее среднее. Соответственно, прогнозируемый член временного ряда может быть выражен в виде линейной комбинации прошлых значений и случайных ошибок этого же ряда.
Использование АШМА-модели предполагает, что анализируемый ряд является стационарным, т.е. имеет постоянные среднее и дисперсию. В противном случае можно рассмотреть применение интегрированной авторегрессионной модели скользящего среднего АММА(р, ё, д). Это расширение АШМА-модели для нестационарных рядов, которые можно преобразовать в стационарные с помощью взятия разностей порядка ё от исходного ряда.
АШМА-модель может обрабатывать данные с трендом, но не поддерживает последовательности, содержащих сезонную компоненту. Для этого была разработана БАШМА-модель - расширение АММА-модели, в которую добавлены четыре сезонных элемента: сезонный порядок авторегрессии, порядок сезонных разниц, сезонный порядок скользящих средних, количество временных шагов за один сезонный период
Так как авторегрессия для прогнозирования использует только значения временного ряда, то для учета внешних факторов существует еще одно расширение АММА - модель АММАХ. При этом для корректной работы необходимо, чтобы все показатели должны соответствовать одному промежутку времени. Соответственно, сезонным вариантом данной модели является БАШМАХ.
Нейросетевые модели
Искусственные нейронные сети находят свое применение в решении самых разных задач анализа данных, в том числе и в прогнозировании временных рядов. Алгоритм прогнозирования с помощью нейросетевой модели выглядит следующим образом [8, 9]:
1. Формирование обучающей выборки. Исходный временной ряд с помощью окна фиксированной длины разбивается на обучающие примеры. Задача нейронной сети заключается в предсказании значения, следующего после окна.
Информатика. Экономика. Управление// Informatics, Economics, Management
2G23; 2(1) http://oajiem.com/
2. Выбор архитектуры модели. Определяются гиперпараметры: количество внутренних слоев и их связи, количество узлов внутренних слоев, функция активации, оптимизатор, функция потерь, метрики качества, значение коэффициента обучения, количество эпох обучения. Размер входного слоя будет равен длине окна выборки, выходной слой будет предоставлять вычисленное значение.
3. Обучение нейронной сети. Цель обучения - настроить веса модели таким образом, чтобы минимизировать функцию потерь и получить наилучшее значение метрики.
Существует множество подходов, которые позволяют улучшить результат обучения нейросетевой модели для дальнейшего осуществления прогноза. Далее приведены некоторые из них [8]:
• нормализация и стандартизация исходных данных;
• замена входных значений временного ряда на разность соседних элементов;
• использование обратных вызовов и дропаутов для предотвращения
переобучения.
Для задачи прогнозирования временных рядов применяют различные конфигурации нейронных сетей. Среди них особо выделяют рекуррентные нейронные сети, которые могут использовать свое внутреннее состояние для обработки серий событий во времени и последовательных пространственных цепочек. Таким образом рекуррентные сети учитывают и текущий вход, и предшествующие вычисления. На сегодняшний день наиболее часто встречающимся типом рекуррентных моделей является сеть с долго-краткосрочной памятью (ЬБТМ) [9]. Данная сеть способна запоминать данные на долгое время, и кроме того, ей удается обходить проблему затухания градиента во время обучения.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЯ
Рассмотрим конкретную задачу прогнозирования временного ряда.
Для эффективного управления системой хранения данных (СХД), необходимо разработать алгоритм прогнозирования ее загрузки. В процессе работы платформы в тома СХД загружаются и хаотично удаляются данные средствами клиентов. Исходные
Информатика. Экономика. Управление// Informatics, Economics, Management
2023; 2(1) http://oajiem.com/
данные представляют собой наблюдения заполнения СХД, которые содержат дату, время, процент заполнения конкретного тома на текущий момент.
Таким образом получаем одномерный временной ряд, содержащий значения заполнения тома. Обозначим, какие из рассмотренных методов будет возможным применить для решения задачи прогнозирования такого ряда.
Так как явных внешних факторов нет, то предположим, что прогнозируемый член временного ряда зависит только от прошлых значений. В данном случае подходят авторегрессионные и нейросетевые модели. Чтобы для дальнейшей разработки сузить круг возможных решений, необходимо провести анализ исходного временного ряда.
Если зависимости ряда будут иметь линейный характер, а переменные запаздывания показывать высокую корреляцию с выходной переменной, то стоит отдать предпочтение авторегрессионным моделям. Тогда необходимо проверить ряд на стационарность и сезонность, и исходя из этого использовать модели ARMA, ARIMA или SARIMA. Модели авторегрессии быстро и точно обучаются в связи с небольшим количеством параметров, но являются несовершенным решением для сложных зависимостей [10].
В случае не подтверждения гипотезы о линейности ряда нужно протестировать различные архитектуры рекуррентных нейронных сетей, выполнив предобработку исходных данных и подбор гиперпараметров модели. Нейронные сети более эффективны для прогнозирования сложных процессов, однако тщательная настройка обучения и необходимость в большом объеме данных являются серьезными недостатками [10].
ЗАКЛЮЧЕНИЕ
В данной статье были проанализированы методы машинного обучения, применение которых будет исследовано в дальнейшем при разработке алгоритма прогнозирования загрузки системы хранения данных для платформы искусственного интеллекта. Необходимо провести множество экспериментов с использованием авторегрессионных моделей ARMA, ARIMA и SARIMA, а также рекуррентных нейронных сетей, в частности LSTM-сетей, чтобы определить лучшее решение.
СПИСОК ЛИТЕРАТУРЫ
[1] Осмонканов А.М., Абдиева Л.К., Курманбекова А.К. Обзор моделей прогнозирования временных рядов. Современные проблемы механики. 2020; 1(39): 3541.
[2] Шелест А.В., Пархоменко К.А. Обзор методов и моделей прогнозирования временных рядов. Компьютерное проектирование и технология производства электронных систем: сборник тезисов 54 научной конференции. Минск. 2018.
[3] Бокс Дж., Дженкинс Г.М. Анализ временных рядов, прогноз и управление. Москва: Мир; 1974. 406.
[4] Nguyen T.Kh.T., Antoshchuk S., Nikolenko A., Tran K.T., Babilunha O. Non-stationary time series prediction using one-dimensional convolutional neural network models. Herald of Advanced Information Technology. 2020; 3(1): 362-372. https://doi.org/10.15276/hait01.2020.3
[5] Дрейпер Н., Смит Г. Прикладной регрессионный анализ В 2-х томах. Т. 1. Москва: Финансы и статистика; 1986. 366.
[6] Макарычев П.П. Прогнозирование состояния объекта на основе авторегрессионной модели. Технические науки. Информатика, вычислительная техника. 2019; 2(50): 11-20.
[7] Рунова Л.П. Модель авторегрессии и скользящего среднего (ARMA). Ростов-на-Дону: Изд-во ЮФУ; 2013. 59.
[8] Костина Л.Н., Гареева Г. А. Нейронные сети в задачах прогнозирования временных рядов. Инновационная наука. 2015; 2:(6): 70-73.
[9] Дауб И. С. Обзор методов прогнозирования временных рядов с помощью искусственных нейронных сетей. StudNet. 2020; 10.
[10] Катасева Д.В., Катасев А.С., Кирпичников А.П. Нейронечеткая модель анализа и прогнозирования временных рядов. Вестник Казанского технологического университета. 2016; 19(13): 127-131.
REFERENCES
[1] Osmonkanov A.M., Abdieva L.K., Kurmanbekova A.K. Obzor modelej prognozirovaniya vremennyh ryadov. Sovremennye problemy mekhaniki. 2020; 1(39): 35-41.
[2] SHelest A.V., Parhomenko K.A. Obzor metodov i modelej prognozirovaniya vremennyh ryadov. Komp'yuternoe proektirovanie i tekhnologiya proizvodstva elektronnyh sistem: sbornik tezisov 54 nauchnoj konferencii. Minsk. 2018.
[3] Boks Dzh., Dzhenkins G.M. Analiz vremennyh ryadov, prognoz i upravlenie. Moskva: Mir; 1974. 406.
[4] Nguyen T.Kh.T., Antoshchuk S., Nikolenko A., Tran K.T., Babilunha O. Non-stationary time series prediction using one-dimensional convolutional neural network models. Herald of Advanced Information Technology. 2020; 3(1): 362-372. https://doi.org/10.15276/hait01.2020.3
[5] Drejper N., Smit G. Prikladnoj regressionnyj analiz V 2-h tomah. T. 1. Moskva: Finansy i statistika; 1986. 366.
[6] Makarychev P.P. Prognozirovanie sostoyaniya ob"ekta na osnove avtoregressionnoj modeli. Tekhnicheskie nauki. Informatika, vychislitel'naya tekhnika. 2019; 2(50): 11-20.
[7] Runova L.P. Model' avtoregressii i skol'zyashchego srednego (ARMA). Rostov-na-Donu: Izd-vo YUFU; 2013. 59.
[8] Kostina L.N., Gareeva G.A. Nejronnye seti v zadachah prognozirovaniya vremennyh ryadov. Innovacionnaya nauka. 2015; 2:(6): 70-73.
[9] Daub I.S. Obzor metodov prognozirovaniya vremennyh ryadov s pomoshch'yu iskusstvennyh nejronnyh setej. StudNet. 2020; 10.
[10] Kataseva D.V., Katasev A.S., Kirpichnikov A.P. Nejronechetkaya model' analiza i prognozirovaniya vremennyh ryadov. Vestnik Kazanskogo tekhnologicheskogo universiteta. 2016; 19(13): 127-131.
ИНФОРМАЦИЯ ОБ АВТОРАХ / INFORMATION ABOUT THE AUTHORS
Тынченко Валерия Валериевна, кандидат технических наук, доцент, кафедра информатики, Сибирский федеральный университет, Красноярск, Россия e-mail: [email protected]
Хохрякова Татьяна Эдуардовна, студент, кафедра информатики, Сибирский федеральный университет, Красноярск, Россия
e-mail: [email protected]
Valeria Tynchenko, Candidate of Technical Sciences, Associate Professor, Department of Informatics, Siberian Federal University, Krasnoyarsk, Russia e-mail: [email protected]
Tatiana Khokhryakova, Student, Department of Informatics, Siberian Federal University, Krasnoyarsk, Russia e-mail: [email protected]
Статья поступила в редакцию 20.01.2023; одобрена после рецензирования 13.02.2023; принята
к публикации 14.02.2023.
The article was submitted 20.01.2023; approved after reviewing 13.02.2023; accepted for publication
14.02.2023.