Научная статья на тему 'ВОЗМОЖНОСТИ ПАРАЛЛЕЛИЗМА ПРИ ИДЕНТИФИКАЦИИ КВАЗИЛИНЕЙНОГО РЕКУРРЕНТНОГО УРАВНЕНИЯ'

ВОЗМОЖНОСТИ ПАРАЛЛЕЛИЗМА ПРИ ИДЕНТИФИКАЦИИ КВАЗИЛИНЕЙНОГО РЕКУРРЕНТНОГО УРАВНЕНИЯ Текст научной статьи по специальности «Математика»

CC BY
11
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
параллелизм / квазилинейное рекуррентное уравнение / прогнозирование / моделирование / авторегрессионная модель / parallelism / quasi-linear recurrent equation / forecasting / simulation / autoregressive model

Аннотация научной статьи по математике, автор научной работы — Аботалеб Мостафа Салахелдин, Макаровских Татьяна Анатольевна, Панюков Анатолий Васильевич

Анализ временных рядов и прогнозирование являются одной из широко исследуемых областей. Идентификация с помощью различных статистических методов, нейронных сетей или математических моделей уже давно используется в различных областях исследований от промышленности, до медицины, социальной сферы, аграрной среды. В статье рассматривается параллельный вариант алгоритма идентификации параметров квазилинейного рекуррентного уравнения для решения задачи регрессионного анализа с взаимозависимыми наблюдаемыми переменными, основанный на обобщенном методе наименьших модулей (GLDM). В отличие от нейронных сетей, широко используемых в настоящее время в различных системах прогнозирования, данный подход позволяет в явном виде получать качественные квазилинейные разностные уравнения, адекватно описывающие рассматриваемый процесс. Это позволяет повысить качество анализа изучаемых процессов. Существенным преимуществом модели, использующей обобщенный метод наименьших модулей, по сравнению с многочисленными нейросетевыми подходами является возможность интерпретации коэффициентов модели с точки зрения задачи исследования и использование полученного уравнения в качестве модели динамического процесса. Проведенные вычислительные эксперименты с использованием временных рядов показывают, что максимальное ускорение алгоритма происходит при использовании количества потоков, равного половине возможных потоков для данного устройства.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Аботалеб Мостафа Салахелдин, Макаровских Татьяна Анатольевна, Панюков Анатолий Васильевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

POSSIBILITIES OF PARALLELISM UNDER IDENTIFYING A QUASI-LINEAR RECURRENT EQUATION

Time series analysis and forecasting are one of the widely researched areas nowadays. Identification using various statistical methods, neural networks or mathematical models has long been used in various fields of research from industry, to medicine, the social sphere, and the agricultural researches. The article considers a parallel version of the algorithm for identifying the parameters of a quasi-linear recurrent equation for solving the task of regression analysis with interdependent observable variables, based on the generalized least modules method (GLDM). Unlike neural networks, which are widely used nowadays in various forecasting systems, this approach allows us to explicitly obtain qualitative quasi-linear difference equations that adequately describe the considered process. This makes it possible to improve the quality of the studied processes analysis. A significant advantage of the model using the generalized least deviation method, in comparison with numerous neural network approaches, is the possibility of interpreting the coefficients of the model from the point of view of the research task and using the resulting equation as a model of a dynamic process. The conducted computational experiments using time series show that the maximum acceleration of the algorithm occurs when using the number of threads equal to half of the possible threads for a given device.

Текст научной работы на тему «ВОЗМОЖНОСТИ ПАРАЛЛЕЛИЗМА ПРИ ИДЕНТИФИКАЦИИ КВАЗИЛИНЕЙНОГО РЕКУРРЕНТНОГО УРАВНЕНИЯ»

УДК 51.77 DOI: 10.14529/cmse230404

ВОЗМОЖНОСТИ ПАРАЛЛЕЛИЗМА ПРИ ИДЕНТИФИКАЦИИ КВАЗИЛИНЕЙНОГО РЕКУРРЕНТНОГО УРАВНЕНИЯ

© 2023 М.С.А. Аботалеб, Т.А. Макаровских, A.B. Панюков

Южно-Уральский государственный университет (454080 Челябинск, пр. Ленина, д. 76) E-mail: [email protected], [email protected], [email protected] Поступила в редакцию: 12.08.2022

Анализ временных рядов и прогнозирование являются одной из широко исследуемых областей. Идентификация с помощью различных статистических методов, нейронных сетей или математических моделей уже давно используется в различных областях исследований от промышленности, до медицины, социальной сферы, аграрной среды. В статье рассматривается параллельный вариант алгоритма идентификации параг метров квазилинейного рекуррентного уравнения для решения задачи регрессионного анализа с взаимозависимыми наблюдаемыми переменными, основанный на обобщенном методе наименьших модулей (GLDM). В отличие от нейронных сетей, широко используемых в настоящее время в различных системах прогнозировал ния, данный подход позволяет в явном виде получать качественные квазилинейные разностные уравнения, адекватно описывающие рассматриваемый процесс. Это позволяет повысить качество анализа изучаемых процессов. Существенным преимуществом модели, использующей обобщенный метод наименьших модулей, по сравнению с многочисленными нейросетевыми подходами является возможность интерпретации коэффициентов модели с точки зрения задачи исследования и использование полученного уравнения в качестве модели динамического процесса. Проведенные вычислительные эксперименты с использованием временных рядов показывают, что максимальное ускорение алгоритма происходит при использовании количества потоков, равного половине возможных потоков для данного устройства.

Ключевые слова: параллелизм, квазилинейное рекуррентное уравнение, прогнозирование, моделирование, авторегрессионная модель.

ОБРАЗЕЦ ЦИТИРОВАНИЯ

Аботалеб М.С.А., Макаровских Т.А., Панюков A.B. Исследование возможностей параллелизма для прогнозирования с использованием квазилинейного рекуррентного уравнения // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2023. Т. 12, № 4. С. 94-109. DOI: 10.14529/cmse230404.

Введение

Анализ временных рядов и прогнозирование в настоящее время являются одной из широко исследуемых областей. Данные подходы используются как при анализе и моделировании экономических процессов, транспортных систем [1], так и для исследования процессов, происходящих в технических системах [2], при анализе климатических процессов и прогнозировании погодных явлений [1], для прогнозирования состояния сельскохозяйственных угодий [3] и др. В 2020-2022 годах к разработке методов прогнозирования добавилось тысячи исследований о распространении заболеваемости Covid-19 по всему миру [4-6].

В настоящее время накоплен большой опыт измерения вибрационных сигналов, разработки методов вибродиагностики и прогнозирования состояния и ресурса механических систем. Одним из наиболее актуальных направлений остается повышение точности и скорости определения диагностических признаков. Это относится, прежде всего, к уникальным высо-конагруженным механическим системам, рассмотренным, например, в работе [7]. Решение

этой проблемы во многих случаях можно получить через динамические характеристики механических систем. Определению этих характеристик в значительной степени способствует правильный выбор диагностической математической модели, устанавливающей связь между пространством состояний объекта и пространством диагностических признаков. К ним относятся динамические модели, представленные в виде разностных уравнений, феноменологические, структурные, регрессионные модели и т.п. Выбор той или иной модели зависит от определяемых характеристик и характера анализируемого процесса.

Идентификация с помощью различных статистических методов, нейронных сетей или математических моделей уже давно используется в различных областях исследований. В настоящее время эти методы применяются не только в промышленности, но и при попытках прогнозирования развития пандемии Соу1ё-19. Например, в работе [8] сравнивается качество прогнозирования процесса распространения инфекции с помощью разных классических моделей, описывается разработанное программное обеспечение для всех этих методов и проводятся вычислительные эксперименты с использованием временных рядов по распространению заболеваемости Соу1с1-19 в различных регионах. Авторы приходят к выводу, что разработанную систему прогнозирования можно использовать для анализа временных рядов, описывающих и другие процессы.

Большинство прогнозов, особенно при большом количестве данных, зачастую проводится с использованием различных моделей нейронных сетей. Например, в статье [9] рассматривается нейросетевая модель, с помощью которой можно прогнозировать изменение цены ферросилиция на внутреннем рынке РФ в краткосрочной перспективе. Приведенная в статье модель отличается высокой точностью прогнозирования и может быть полезна при обосновании стратегических решений в деятельности отраслевых НИИ и металлургических предприятий. В работе [10] описаны эконометрические модели для определения качественного экономического показателя металлургической отрасли, производства, применимые для оценки статистических характеристик производства черных металлов и перспектив развития черной металлургии. Тем не менее, все подобные модели выглядят как волшебный черный ящик, позволяющий получить некий адекватный ответ для каких-то входных данных. Некоторые исследователи используют так называемое когнитивное моделирование для повышения качества прогнозирования с помощью нейронных сетей. Так, статья [11] направлена на сравнение эффективности когнитивных и математических предикторов временных рядов с точки зрения их точности. Эксперимент, проведенный авторами статьи, показывает, что когнитивные модели имеют по крайней мере эквивалентную точность по сравнению с моделями АШМА. Большинство этих подходов используются для прогнозирования некоторых экономических единиц, объема производства, некоторых параметры логистики и т. д.

Поскольку все перечисленные выше модели дают хорошую точность при краткосрочном прогнозировании, актуальна задача разработки математического подхода, позволяющего в явном виде получать качественные квазилинейные разностные уравнения (адекватно описывающие рассматриваемый процесс) в долгосрочной перспективе. Известны некоторые исследования в этой области, такие как [12], где предлагаемая модель включает очистку данных, сглаживание данных и окончательные данные после предварительной обработки, которые вводятся в регрессионную модель для прогнозирования промышленного потребления электроэнергии. Но в этой статье, как и во многих других, снова рассматриваются только известные статистические методы.

В данной работе для решения задачи регрессионного анализа с взаимозависимыми наблюдаемыми переменными рассматривается алгоритм идентификации параметров квазилинейного рекуррентного уравнения, основанный на обобщенном методе наименьших отклонений (General Least Deviation Method, GLDM). В отличие от нейронных сетей (например, [2]) этот подход позволяет в явном виде получать качественные квазилинейные разностные уравнения (адекватно описывающие рассматриваемый процесс).

В работе использован алгоритм из [13], реализованный в виде комплекса программ [14] для определения коэффициентов сц, аг, аз ..., ат € К квазилинейной авторегрессионной модели 771-го порядка

п(т)

yt=J2 aj9j({yt-kYk=i) + et, t = 1,2,..., T (1)

3=1

по актуальной информации о значениях переменных состояния {yt G в момен-

ты времени t. Здесь gj : ({yt-k}™=i) —> = 1,2, ...n(m) — заданные n(m) модельных функций; {st £ — неизвестные ошибки.

Найденные коэффициенты аг, аз ..., ат £ 1 в рассматриваемом случае используются для анализа количества кумулятивных случаев заражения Covid-19 в Челябинской области с 22 марта 2020 г. по 06 января 2022 г. (всего 655 дней распространения инфекции), прогнозирование дальнейшего развития процесса и обсуждение эффективности использования данной модели для прогнозирования событий, связанных с распространением Covid-19. В своем исследовании мы используем временной ряд, начиная с 22 марта 2020 г., поскольку до этой даты для рассматриваемого региона были нулевые значения. Тем не менее, данный подход можно масштабировать и на другие прикладные задачи.

Поскольку при работе с длинными временными рядами потребуются матрицы высокого порядка, для чего необходимы большие затраты памяти и времени, в работе исследована реализация [14] алгоритма прогнозирования, использующая параллелизм. Для исследования возможности многопоточного программирования разработанного алгоритма прогнозирования проведены вычислительные эксперименты на двух разных ПК.

Статья организована следующим образом. В разделе 1 введены основные обозначения, описана схема реализации модели, подробно расписан ход решения поставленной задачи, приведен алгоритм прогнозирования. В разделе 2 описываются особенности программной реализации представленных алгоритмов с использованием распараллеливания. В разделе 3 приводятся результаты вычислительных экспериментов для анализа ускорения алгоритма для разных наборов данных и разных вычислителей. В заключении перечислены полученные в работе результаты, отмечены направления дальнейших исследований.

1. Обозначения и описание алгоритмов

Рассматриваемый алгоритм работает следующим образом (см. рис. 1). Алгоритм GLDM [13] на входе получает временной ряд {yt £ M}^=_1_m длины T + m > (l + 3m + m2) и определяет коэффициенты а±, аг, аз ..., ат, решая задачу оптимизации

г п(пг)

Kh=i = arg mm

Ю^Т'ск

У] arctan

t=l

n(m)

aJ9j{{yt-k}f= i) - yt

o=i

(2)

Рис. 1. Схема реализации модели с использованием в функции потерь распределения Коши

7Г I

которое имеет максимальную энтропию среди распределений случайных величин, не имеющих математического ожидания и дисперсии.

Ниже приведен пример полного набора квадратичных модельных функций для разностного уравнения порядка т.

9з({Уь-к)Т= 1) = 2/г-у, 3 = 1,2,..., т

9з({Уь-к}к=1) = Уь-т • Уь—8> 1 < г < 8 < га,

3 = га + 1, га + 2, ..., гс(га) = га + = га(га + 3)/2.

Предиктор формирует индексированное 4 = 1,2,..., Т—1, Г семейство разностных уравнений га-го порядка

п(т)

Ш = £ а*зЯз > т = М + М + 2^ + 3,...,Т-1,Т,Г + 1,... (3)

3=1

для решетчатых функций со значениями 2/[£]г, которые интерпретируются как построенный в момент времени Ь прогноз для ут. Воспользуемся решением задачи Коши для разностного уравнения (3) при начальных условиях

2/М*-1 = 1Н—и уЩг-2 = У*-2> • • • > УЩг-т = »-т> 4 = 1,2,... ,Т — 1,Т (4)

и определим значения функции уЩ.

Итак, имеем множество УТ = | возможного прогнозного значения ут. Далее используем этот набор для оценки вероятностных характеристик величины ут.

1.1. Оценка по обобщенному методу наименьших отклонений

Задача (2), т.е. СЫ)М-оценка, представляет собой задачу многоэкстремальной оптимизации. СЬОМ-оценки устойчивы к наличию корреляции значений в {уъ € Ж}^=_1_т и (при соответствующих параметрах) лучше всего подходят для вероятностных распределений ошибок с более тяжелыми (чем у нормального распределения) хвостами [7]. Все вышеизложенное показывает возможность решения задачи идентификации (1) с использованием решения (2).

Используем взаимосвязь между GLDM-оцеиками и оценками взвешенным методом наименьших отклонений [15] (WLDM-оценки) для решения задач (2) более высокой размерности.

В данной статье рассмотрим алгоритм оценивания GLDM [16]. Начнем с алгоритма оценки взвешенного метода наименьших отклонений (Weighted Least Deviation Method, WLDM), используемого в алгоритме GLDM.

1.2. Оценка по взвешенному методу наименьших отклонений

Алгоритм WLDM-оценки [13] в качестве входных данных получает временной ряд {yt Е ЩТ=1-т и весовые коэффициенты {pt G и вычисляет множители

«1,0,2, аз ..., an(m) € R

путем решения задачи оптимизации

{

п(т)

aib=i = arg mm

{a^^T'eR"^»

Е

t=i

Pt

п(т)

aj9j({yt-k}™= i) - yt

j=i

(5)

Эта задача представляет собой задачу выпуклой кусочно-линейной оптимизации, а введение дополнительных переменных сводит ее к задаче линейного программирования

т t=1

mm

(oi,a2,...,a„(m))6R"

(2i,z2,...,zT)eRT

n(m)

-zt < la39j({yt-k}k=i)} ~yt<zt, t = 1,2,..., T, j=i

zt> 0, i = 1,2,..., T.

(6)

(7)

(8)

Задача (6)-(8) имеет каноническую форму п(т) + Т с переменными и 3п ограничениями-неравенствами, включая условия неотрицательности для переменных ^,.7 = 1,2,..., Т. Двойственная задаче (6) является задача

Е(щ — vt) yt —> max ,

t=i u'vm

a39j({yt-k}T= i) (Щ -vt) = 0, j = 1,2,...,n(m),

t=l

ut + vt=Pt, Ut,vt> 0, i = 1,2,..., T.

(9)

(10) (И)

Введем переменные Wt = щ — Vt, 4 = 1,2,..., Г. Условия (11) подразумевают Pt + wt

Щ = —^—, 1Н = —^—' 4 = 1,2,..., Т.

98 Вестник ЮУрГУ. Серия «Вычислительная математика и информатика»

Поэтому оптимальное значение задачи (9)—(11) равно оптимальному решению задачи

Еод •yí ->■ тах,

^9з{Ы-к}к=1) ■ ОД = 0, = 1,2,... ,п(т),

1

1,2,...,Т.

(12)

(13)

(14)

Ограничения (13) определяют (Т — п(т))-мерное линейное подпространство £ с матрицей

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5 =

91(Ы-к}Т=1) 91({У2-к}Т=г) 92({У1-к}™=1) 92({У2-к}™=1)

91{{Ут+1-к]к=1) 92({Ут+1-к}™=1)

9п(т 9п(т )({у2-к}Т=1) ... 9п(т

Ограничения (14) определяют Т-мерный брус Т. Простая структура допустимого множества задачи (12)—(14): пересечение (Т — п(т))-мерного линейного подпространства С (13) и Т-мерного бруса Т(14), — позволяют найти решение алгоритмом, использующим проекцию градиента целевой функции (12) (т.е. вектор V = {уь}Т= 1 ) на допустимой области СГ\Т, которая определяется формулой ограничения (13)-(14). Матрица оператора проектирования на С имеет вид

а проекция градиента на С, равна V/; = Бс • V. Кроме того, если внешняя нормаль на какой-либо грани бруса образует острый угол с проекцией градиента V/;, то перемещение по этой грани равно нулю.

Алгоритм DualWLDMSolver решает задачу (12)—(14), он начинает поиск оптимального решения с нуля, двигаясь по направлению V/;. Если текущая точка попадает на грань бруса Т, то соответствующая координата в направлении движения принимается равной нулю. Вычислительная сложность такого алгоритма не превышает величины 0(Т2) благодаря простой структуре допустимого множества: пересечение Т-мерного кубоида (14) и (Т — п(т))-мерного линейного подпространства (13).

Если (го*, Я*) — результат выполнения алгоритма проектирования градиента, то го* — оптимальное решение задачи (12)—(14), а оптимальное решение задачи 9—11 равно

= < = *=1,я.....т.

1.3. Решение прямой задачи

Решение прямой задачи следует из условия дополнительности для пары взаимно двойственных задач (6)-(8) и (9)—(11)

п(т)

ш= Е [аз9з({Ш-кШ 1)] V* ё ВТ, (15)

3=1

п(т)

Ш = Е 1аз9з(Ы-к}Т=1)] + Ш 6 Д* : = (16)

¿=1 п(т)

ш= Е - V* € Д* : < = -р*. (17)

3=1

Фактически решение {{о^}™!^, 2*) системы линейных алгебраических уравнений (15)— (17) представляет собой оптимальное решение двойственной задачи (12)—(14) и оптимальное решение задачи (5), что доказывает справедливость следующей теоремы.

Теорема 1. Пусть го* — оптимальное решение задачи (12)—(14), г*) — решение

системы линейных алгебраических уравнений (15)-(17), тогда ({а*}™^ — оптимальное решение задачи (5).

Вышеизложенное позволяет нам предложить алгоритм ^УЬБМ-оценки. Основной проблемой при использовании этого алгоритма является отсутствие общих формальных правил выбора весовых коэффициентов. Следовательно, такой подход требует дополнительных исследований.

Установленные в [16] результаты позволяют свести задачу определения СЬБМ-оценки к итерационной процедуре с WLDM-oцeнкaми.

1.4. Алгоритм оценки по обобщенному методу наименьших отклонений

Задача (2) оценки СЬОМ является задачей вогнутой оптимизации. СЬЮМ-оценки устойчивы к наличию корреляции значений в {5^ : 4 = 1,2, ...,Г; = 1,2,..., Л?"}, и (с соответствующими настройками) как лучший для вероятностных распределений ошибок с более тяжелыми (чем у нормального распределения) хвостами [7]. Вышеизложенное показывает возможность решения задачи идентификации (1) путем решения последовательности задач (15) с соответствующими весами. Установленные в [16] результаты позволяют свести задачу определения СЬБМ-оценки к итерационной процедуре с \УЪБМ-оценками.

Теорема 2. Последовательность {(-А^-г®)})^, построенная по алгоритму СЬБМ-оценки, сходится к глобальному минимуму (а*, г*) задачи (2).

Описание алгоритма СЬОМ-оценка показывает, что его вычислительная сложность пропорциональна вычислительной сложности алгоритма решения простых и/или двойственных задач ^А^ЫЗМ (5). Многочисленные вычислительные эксперименты показывают, что среднее число итераций алгоритма СЬОМ-оценки равно количеству коэффициентов в идентифицированном уравнении. Если эта гипотеза верна, то вычислительная сложность решения практических задач не превышает 0((п(т))3Г+п(т)-Г2). Необходимо учитывать, что поиск и нахождение уравнения авторегрессии высокого порядка имеют свои специфи-

ческие условия. Одним из таких условий, в частности, является высокая чувствительность алгоритма к ошибкам округления. Для исключения возможности ошибки в вычислениях необходимо точно выполнять основные арифметические операции над полем рациональных чисел [17] и дополнять их параллельным программным кодом.

1.5. Алгоритм прогнозирования

Предиктор формирует индексированное 4 = 1,2,..., Г—1, Т семейство разностных уравнений т-го порядка (3) для решетчатых функций у\Ь\ со значениями у\р\т и интерпретируется как построенный на момент времени í прогноз для ут. Воспользуемся решением задачи Коши для ее разностного уравнения (3) при начальных условиях (4), чтобы найти значения функции уЩ. ^

Итак, у нас есть множество Ут = |у[£]т| возможного предсказания значения ут. Далее мы используем этот набор для оценки вероятностных характеристик величины ут. Схема алгоритма приведена на рис. 2.

^ НАЧАЛО

Инициализация счетчиков: 5Т=0

Взять первые 2 значения временного ряда: РУ[01=У[5Т]; РУ[1] = У[5Т+1]

Рассчитать значение в следующей точке временного ряда: РУС!] = 50 М (аШ*С|(РУ[1:-1], РУЦ:-2 ]) ¡=1,.. .,П

Рассчитать достоверный горизонт прогнозирования:

Рассчитать разумный горизонт прогнозирования: т1пРНшт(п(РНМ), ыз...„5Т

Рассчитать ошибки

^ КОНЕЦ

5Т=5Т+1

Рис. 2. Схема алгоритма прогнозирования

НАЧАЛО J

_ _

Чтение исходных данных

_I_

Прогнозирование и оценка ошибок прогнозирования

^ КОНЕЦ

Рис. 3. Последовательность вызова функций из основной функции программы

2. Программная реализация

В рассматриваемой программе используется распараллеливание средствами ОрепМР, что предполагает модель параллельного программирования SPMD. В этом случае для всех параллельных потоков используется один и тот же код, а в программу вставляются специальные директивы. Программа имеет последовательные области, когда выполняется один процесс (поток), а при входе в параллельную область порождается определенное количество процессов, между которыми в дальнейшем распределяются части кода. Максимально возможное количество потоков в рассматриваемой программе определяется с помощью функции omp_get_max_threads() в зависимости от ресурсов компьютера, на котором запущена программа. В вычислительном эксперименте, представленном в следующем разделе, программа запускается с количеством потоков от 1 до максимально возможного значения для конкретного компьютера.

На рис. 3 приведена последовательность вызова разработанных процедур из функции void main(), используемая для запуска алгоритма. Листинги всех функций, вызываемых из mainO, приведены в [14]. В разработанной программе распараллелено выполнение всех циклов один за другим. Циклы, которые не могут быть адекватно распараллелены и остаются последовательными областями: (1) первый цикл функции решения прямой задачи WLDM; (2) базовый цикл do. . . while алгоритма оценки GLDM (вложенные циклы распараллелены). Все остальные циклы могут выполняться как параллельные участки.

Функция прогнозирования ForecastingEst () (схема алгоритма приведена на рис. 2) не может быть адекватно распараллелена, поскольку в ней осуществляется расчет рекуррентной последовательности значений. Возможности параллельных вычислений могут быть использованы только во вложенном цикле, где осуществляется вычисление значения в за-

)

о

х

о=! я

я

щ

N

се п, я

о са N и г> (Г X г о X

20.03.20 20.06.20

20.09.20 20.1220 20.03.21 Дата

20.06.21

20.09.21

20.12.21

Рис. 4. Прирост числа кумулятивных случаев Соу1с1-19 по Челябинской области

(данные с 23.03.2020 по 06.01.2022)

данной точке временного ряда. Тем не менее, такое использование не представляется разумным, поскольку число коэффициентов модели не велико. Потому единственный цикл, в котором использованы директивы ОрепМР, — это цикл, отвечающий за поиск надежного горизонта прогнозирования, который заключается в поиске минимального значения в массиве. В результате работы этой функции формируется массив РУ [] [] каждый элемент которого равен значениям решеточных функций уЩт семейства разностных уравнений т-го порядка (3). Используя этот массив, можно получить значения ошибок МВЕ (равна сумме ошибок предсказания У [±] по значениям У [±-Т— 1] и У [х-Т]) и МАЕ (равна сумме абсолютных ошибок предсказания У[з.] по значениям У [л.-Т-1] и У [л.-Т]):

^ Тц

МВЕ = Т,(Ш-Шг), МАЕ = ^ \Щ-Щп

4=3 4=3

где Тд — надежный горизонт прогнозирования, т.е.

Гл = тш{г : |уМ-уМТ|}.

3. Вычислительные эксперименты. Анализ ускорения работы алгоритма при распараллеливании процесса вычислений

При проведении экспериментов были использованы два временных ряда.

1. Временной ряд, содержащий кумулятивные данные по случаям заражения вирусом Соу1<1-19 в Челябинской области. В эксперименте рассматриваются векторы разной длины, самый длинный из которых имеет 655 значений. График процесса показан на рис. 4.

2. Один из рядов лаборатории 01коЬаЬ (https://oikolab.com), который содержит почасовые климатические данные рядом с университетом Монаш, Клейтон, Виктория, Австралия, с 01 января 2010 г. по 31 мая 2021 г. Длина ряда порядка 105 значений. Полученные средние ошибки прогноза разработанной модели для ряда (1) составляют

МВЕ = 1.615210 • Ю-1 и МАЕ = 9.852680 • Ю-1 при доверительном горизонте реализации

Таблица 1. Время вычислений для разного количества потоков

и длин векторов

N Количество нитей

1 2 3 4 5 6 7 8

Intel Core i7-4770, 8 Gb ОЗУ, 8 ядер

150 0.0970 0.0690 0.0490 0.0420 0.0320 0.0300 0.0420 0.0300

300 0.236 0.164 0.131 0.102 0.114 0.099 0.091 0.107

500 0.624 0.411 0.353 0.347 0.317 0.249 0.232 0.229

655 1.05 0.76 0.63 0.57 0.45 0.41 0.38 0.38

Intel Core Î5-2430M, 4 Gb ОЗУ, 4 ядра

150 0.642 0.461 0.449 0.421 0.424 0.421 0.419 0.417

300 2.46 1.77 1.73 1.64 1.64 1.63 1.63 1.62

500 6.67 4.85 4.72 4.49 4.51 4.49 4.46 4.50

655 11.47 8.33 8.15 7.71 8.30 7.76 7.68 7.62

Рис. 5. График ускорения работы параллельной версии программы для временных рядов

на исследуемых вычислительных ресурсах

Intel Core ¡7-4770

-♦-300 500 —А—655 Intel Core 15-2430М -К-150 300 -И-500 —1—655

о

1 2 3 4 5 6 7 8

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Количество нитей

645 дней. Этот результат лучше результатов, полученных с помощью классической статистической модели и модели нейронных сетей, поскольку наша модель позволяет получить долгосрочный прогноз (тем не менее, ARIMA, линейная модель Хольта—Уинтерса, NNAR, LSTM позволяют получать хорошие прогнозы только на 30-60 дней, т.к. это было показано в вычислительных экспериментах, описанных в [18]).

Исследуем время выполнения и ускорение при распараллеливании для векторов длиной 150, 300, 500 и 655 элементов. Эксперименты проводились на двух персональных компьютерах. Для компьютера Intel Core i7-4770, 3.4GHz, RAM 16Gb программа определила максимальное количество потоков равное 8, а для компьютера Intel Core i5-2430M, 2.4 GHz, RAM 4 Gb — 4 потока. Для нашего эксперимента зафиксируем количество потоков, равное 8 для обоих компьютеров. Время выполнения разработанной программы для разного количества N потоков показано в табл. 1. На рис. 5 приводится полученное ускорение при вычислении рассматриваемых временных рядов для прогнозирования заболеваемости Covid-19 на двух исследуемых персональных компьютерах. При рассмотрении более длинных временных рядов, например, ряда (2), получим график, приведенный на рис. 6. Эксперименты

о

о

о £

3 4 5 6

Количество нитей

Рис. 6. График ускорения работы параллельной версии программы для временных рядов разной длины на компьютере с процессором Intel Core i7-4770

Длина ряда -■-300

7 -»-юоо

5000

2 3 4 5 6 7 8 9 10 15 20 25 30 35 40 45 50 55 60 65 70 75

Количество нитей

Рис. 7. Графики ускорения вычислений при использовании вычислительного комплекса «Нейрокомпьютер ЮУрГУ» для анализа временных рядов разной длины

показывают, что в лучшем случае имеем ускорение в 3.2 раза на персонльном компьютере, позволяющем получить 8 нитей. В среднем ускорение составляет величину 2.7 раз. Проведение экспериментов на более мощных вычислителях не оправдано, поскольку для временных рядов даже размерности порядка 103-105 элементов возникают значительные накладные расходы (см. рис. 7). Еще одним из возможных применений данного алгоритма является анализ урожайности сельскохозяйственных угодий на основании снимков, полученных с помощью аэрофотосъемки. В данном случае будем за один посевной сезон иметь относительно короткие временные ряды (порядка 50—60 точек), тем не менее, количество таких рядов будет равно числу участков, обладающих определенными свойствами, описывающих отдельно взятое поле. Тогда параллелизм можно использовать не для самого алгоритма получения коэффициентов модели и построения прогнозов, а для разделения по потокам различных временных рядов. Такое распараллеливание, очевидно, будет более эффективным при использовании не только персональных компьютеров, но и более мощных вычислительных ресурсов. Данный вопрос является темой отдельного исследования.

Заключение

У модели, использующей обобщенный метод наименьших модулей (GLDM) есть одно существенное преимущество по сравнению с многочисленными нейросетевыми подходами, заключающееся в возможности интерпретировать коэффициенты модели с точки зрения задачи исследования. Поскольку для запуска разработанного алгоритма необходимо использовать матрицы высокого порядка, полезно распараллелить алгоритм с целью ускорения процесса получения результата. Проведенные вычислительные эксперименты показывают, что при простейших способах распараллеливания рассмотренных алгоритмов имеем ускорение алгоритма в три раза на современных персональных компьютерах при использовании половины из возможных потоков. Тестирование алгоритма на более мощных вычислителях показало не только отсутствие эффекта от распараллеливания для временных рядов длиной до 100000 значений, но и значительное замедление вычислений за счет накладных расходов на организацию параллельных областей в каждой из функций. Таким образом, для реализации алгоритма идентификации параметров одного квазилинейного рекуррентного соотношения нецелесообразно использовать возможности параллельных вычислений.

Дальнейшие исследования возможностей использования параллелизма для алгоритма идентификации коэффициентов модели с помощью обобщенного метода наименьших модулей будут посвящены использованию алгоритма для решения прикладных задач (прогнозирование урожайности поля), где будет присутствовать достаточно большое число коротких временных рядов, и потребуется распределение отдельных подзадач по разным вычислительным процессам.

Литература

1. Li Q., Wang J., Zhang H. A wind speed interval forecasting system based on constrained lower upper bound estimation and parallel feature selection // Knowl. Based Syst. 2021. Vol. 231. DOI: 10.1016/j .knosys. 2021.107435.

2. Khashei M., Chahkoutahi F. A comprehensive low-risk and cost parallel hybrid method for electricity load forecasting // Comput. Ind. Eng. 2021. Vol. 155. DOI: 10.1016/j . cie. 2021.107182.

3. Supuwiningsih N.N., Kadeksukerti N., Putra A., Dewanti P. Forecasting of Agricultural Production Results in South Denpasar Using Quadratic Trend Method Based GIS // International Journal of Engineering Technologies and Management Research. 2018. Vol. 5, no. 2. DOI: 10.5281/zenodo. 1186523.

4. Hamdi F., Raby H., Hakim G., et al. A Generalized Mechanistic Model for Assessing and Forecasting the Spread of the COVID-19 Pandemic // IEEE Access. 2021. Vol. 9. P. 13266-13285. DOI: 10.1109/ACCESS.2021.3051929.

5. Dash S., Chakraborty C., Giri S.K., et al. BIFM: Big-Data Driven Intelligent Forecasting Model for COVID-19 // IEEE Access. 2021. Vol. 9. P. 97505-97517. DOI: 10.1109/ACCESS. 2021.3094658.

6. Corpas-Burgos F., Martinez-Beneito M.A. An Autoregressive Disease Mapping Model for Spatio-Temporal Forecasting // Mathematics. 2021. Vol. 9, no. 4. Article 384. DOI: 10. 3390/math9040384.

7. Panyukov A.V., Tyrsin A.N. Stable Parametric Identification of Vibratory Diagnostics Objects // Journal of Vibroengineering. 2008. Vol. 10, no. 2. P. 142-146. URL: http : //elibrary.ru/item.asp?id=14876532.

8. Makarovskikh Т., Abotaleb M. Comparison Between Two Systems for Forecasting Covid-19 Infected Cases // IFIP Advances in Information and Communication Technology. 2021. Vol. 616. P. 107-114. DOI: 10.1007/978-3-030-86582-5_10.

9. Sirotin D.V. Neural network approach to forecasting the cost of ferroalloy products // Izvestiya. Ferrous Metallurgy. 2020. Vol. 63, no. 1. P. 78-83. DOI: 10.17073/0368-0797-2020-1-78-83.

10. Yakubova D.M. Econometric models of development and forecasting of black metallurgy of Uzbekistan // Asian Journal of Multidimensional Research (AJMR). 2019. Vol. 8, no. 5. P. 310-314. DOI: 10.5958/2278-4853.2019.00205.2.

11. Neto A.B.S., Ferreira T.A.E., Batista M.C.M., Firmino P.R.A. Studying the Performance of Cognitive Models in Time Series Forecasting // Revista de Informatica Teorica e Aplicada. 2020. Vol. 27, no. 1. P. 83-91. DOI: 10.22456/2175-2745.96181.

12. Panchal R., Kumar B. Forecasting industrial electric power consumption using regression based predictive model // Recent Trends in Communication and Electronics. 2021. DOI: 10.1201/9781003193838-26.

13. Panyukov A.V., Mezaal Y.A. Improving of the Identification Algorithm for a Quasilinear Recurrence Equation // Advances in Optimization and Applications. Vol. 1340 / ed. by N. Olenev, Y. Evtushenko, M. Khachay, V. Malkova. Springer, 2020. P. 15-26. DOI: 10. 1007/978-3-030-65739-0_2.

14. Makarovskikh Т., Panyukov A., Abotaleb M. Generalized least deviation method for identification of quasi-linear autoregressive model. URL: https : / / github . com / tmakarovskikh/GLDMPredictor.git (дата обращения: 27.07.2022).

15. Pan J., Wang H., Qiwei Y. Weighted Least Absolute Deviations Estimation for ARMA Models with Infinite Variance // Econometric Theory. 2007. Vol. 23, no. 3. P. 852-879.

16. Panyukov A.V., Mezaal Y.A. Stable estimation of autoregressive model parameters with exogenous variables on the basis of the generalized least absolute deviation method // IFAC-PapersOnLine. 2018. Vol. 51, no. 11. P. 1666-1669. DOI: 10.1016/j .ifacol.2018.08.217.

17. Panyukov A.V. Scalability of Algorithms for Arithmetic Operations in Radix Notation // Reliable Computing. 2015. Vol. 19. P. 417-434. URL: http://interval.louisiana.edu/ reliable-computing-j ournal/volume-19/reliable-computing-19-pp-417-434. pdf.

18. Abotaleb M.S.A., Makarovskikh T. Analysis of Neural Network and Statistical Models Used for Forecasting of a Disease Infection Cases // 2021 Int. Conf. on Information Technology and Nanotechnology (ITNT). 2021. P. 1-7. DOI: 10.1109/ITNT52450.2021.9649126.

Аботалеб Мостафа Салахелдин Абделсалам, аспирант, кафедра системного программирования, Южно-Уральский государственный университет (национальный исследовательский университет) (Челябинск, Российская Федерация)

Макаровских Татьяна Анатольевна, д.ф.-м.н., доцент, кафедра системного программирования, Южно-Уральский государственный университет (национальный исследовательский университет) (Челябинск, Российская Федерация)

Панюков Анатолий Васильевич, д.ф.-м.н., профессор, кафедра системного программирования, Южно-Уральский государственный университет (национальный исследовательский университет) (Челябинск, Российская Федерация)

DOI: 10.14529/ cmse230404

POSSIBILITIES OF PARALLELISM UNDER IDENTIFYING A QUASI-LINEAR RECURRENT EQUATION

© 2023 M.S.A. Abotaleb, T.A. Makarovskikh, A.V. Panyukov

South Ural State University (pr. Lenina 76, Chelyabinsk, 454080 Russia) E-mail: [email protected], [email protected], [email protected]

Received: 12.08.2022

Time series analysis and forecasting are one of the widely researched areas nowadays. Identification using various statistical methods, neural networks or mathematical models has long been used in various fields of research from industry, to medicine, the social sphere, and the agricultural researches. The article considers a parallel version of the algorithm for identifying the parameters of a quasi-linear recurrent equation for solving the task of regression analysis with interdependent observable variables, based on the generalized least modules method (GLDM). Unlike neural networks, which are widely used nowadays in various forecasting systems, this approach allows us to explicitly obtain qualitative quasi-linear difference equations that adequately describe the considered process. This makes it possible to improve the quality of the studied processes analysis. A significant advantage of the model using the generalized least deviation method, in comparison with numerous neural network approaches, is the possibility of interpreting the coefficients of the model from the point of view of the research task and using the resulting equation as a model of a dynamic process. The conducted computational experiments using time series show that the maximum acceleration of the algorithm occurs when using the number of threads equal to half of the possible threads for a given device.

Keywords: parallelism, quasi-linear recurrent equation, forecasting, simulation, autoregressive model.

FOR CITATION

Abotaleb M.S.A., Makarovskikh T.A., Panyukov A.V. Investigation of the Possibilities of Parallelism for Forecasting Using a Quasi-linear Recurrent Equation. Bulletin of the South Ural State University. Series: Computational Mathematics and Software Engineering. 2023. Vol. 12, no. 4. P. 94-109. (in Russian) DOI: 10.14529/cmse230404.

This paper is distributed under the terms of the Creative Commons Attribution-Non Commercial 4-0 License which permits non-commercial use, reproduction and distribution of the work without further permission provided the original work is properly cited.

References

1. Li Q., Wang J., Zhang H. A wind speed interval forecasting system based on constrained lower upper bound estimation and parallel feature selection. Knowl. Based Syst. 2021. Vol. 231. DOI: 10.1016/j .knosys.2021.107435.

2. Khashei M., Chahkoutahi F. A comprehensive low-risk and cost parallel hybrid method for electricity load forecasting. Comput. Ind. Eng. 2021. Vol. 155. DOI: 10.1016/j .cie. 2021. 107182.

3. Supuwiningsih N.N., Kadeksukerti N., Putra A., Dewanti P. Forecasting of Agricultural Production Results in South Denpasar Using Quadratic Trend Method Based GIS. International Journal of Engineering Technologies and Management Research. 2018. Vol. 5, no. 2. DOI: 10.5281/zenodo. 1186523.

4. Hamdi F., Raby H., Hakim G., et al. A Generalized Mechanistic Model for Assessing and Forecasting the Spread of the COVID-19 Pandemic. IEEE Access. 2021. Vol. 9. P. 13266-13285. DOI: 10.1109/ACCESS.2021.3051929.

5. Dash S., Chakraborty C., Giri S.K., et al. BIFM: Big-Data Driven Intelligent Forecasting Model for COVID-19. IEEE Access. 2021. Vol. 9. P. 97505-97517. DOI: 10.1109/ACCESS. 2021.3094658.

6. Corpas-Burgos F., Martinez-Beneito M.A. An Autoregressive Disease Mapping Model for Spatio-Temporal Forecasting. Mathematics. 2021. Vol. 9, no. 4. Article 384. DOI: 10.3390/ math9040384.

7. Panyukov A.V., Tyrsin A.N. Stable Parametric Identification of Vibratory Diagnostics Objects. Journal of Vibroengineering. 2008. Vol. 10, no. 2. P. 142-146. URL: https://www. extrica.com/article/10181.

8. Makarovskikh T., Abotaleb M. Comparison Between Two Systems for Forecasting Covid-19 Infected Cases. IFIP Advances in Information and Communication Technology. 2021. Vol. 616. P. 107-114. DOI: 10.1007/978-3-030-86582-5_10.

9. Sirotin D.V. Neural network approach to forecasting the cost of ferroalloy products. Izvestiya. Ferrous Metallurgy. 2020. Vol. 63, no. 1. P. 78-83. DOI: 10.17073/0368-0797-2020-1-78-83.

10. Yakubova D.M. Econometric models of development and forecasting of black metallurgy of Uzbekistan. Asian Journal of Multidimensional Research (AJMR). 2019. Vol. 8, no. 5. P. 310-314. DOI: 10.5958/2278-4853.2019.00205.2.

11. Neto A.B.S., Ferreira T.A.E., Batista M.C.M., Firmino P.R.A. Studying the Performance of Cognitive Models in Time Series Forecasting. Revista de Informatica Teorica e Aplicada. 2020. Vol. 27, no. 1. P. 83-91. DOI: 10.22456/2175-2745.96181.

12. Panchal R., Kumar B. Forecasting industrial electric power consumption using regression based predictive model. Recent Trends in Communication and Electronics. 2021. DOI: 10. 1201/9781003193838-26.

13. Panyukov A.V., Mezaal Y.A. Improving of the Identification Algorithm for a Quasilinear Recurrence Equation. Cham, 2020. DOI: 10.1007/978-3-030-65739-0_2.

14. Makarovskikh T., Panyukov A., Abotaleb M. Generalized least deviation method for identification of quasi-linear autoregressive model. URL: https://github.com/tmakarovskikh/ GLDMPredictor. git (accessed: 27.07.2022).

15. Pan J., Wang H., Qiwei Y. Weighted Least Absolute Deviations Estimation for ARMA Models with Infinite Variance. Econometric Theory. 2007. Vol. 23, no. 3. P. 852-879.

16. Panyukov A.V., Mezaal Y.A. Stable estimation of autoregressive model parameters with exogenous variables on the basis of the generalized least absolute deviation method. IFAC-PapersOnLine. 2018. Vol. 51, no. 11. P. 1666-1669. DOI: 10.1016/j .ifacol.2018.08.217.

17. Panyukov A.V. Scalability of Algorithms for Arithmetic Operations in Radix Notation. Reliable Computing. 2015. Vol. 19. P. 417-434. URL: http://interval.louisiana.edu/ reliable-computing-j ournal/volume-19/reliable-computing-19-pp-417-434.pdf.

18. Abotaleb M.S.A., Makarovskikh T. Analysis of Neural Network and Statistical Models Used for Forecasting of a Disease Infection Cases. 2021 Int. Conf. on Information Technology and Nanotechnology (ITNT). 2021. P. 1-7. DOI: 10.1109/ITNT52450.2021.9649126.

i Надоели баннеры? Вы всегда можете отключить рекламу.