Научная статья на тему 'ПРИМЕНЕНИЕ РЕГРЕССИОННОГО АНАЛИЗА В ЗАДАЧАХ ТЕОРИИ ТЕЛЕТРАФИКА'

ПРИМЕНЕНИЕ РЕГРЕССИОННОГО АНАЛИЗА В ЗАДАЧАХ ТЕОРИИ ТЕЛЕТРАФИКА Текст научной статьи по специальности «Математика»

CC BY
188
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕГРЕССИОННЫЙ АНАЛИЗ / МЕТОД НАИМЕНЬШИХ КВАДРАТОВ / СИНУСОИДАЛЬНАЯ МОДЕЛЬ / ПОЛИНОМИАЛЬНАЯ МОДЕЛЬ / ПРОГНОЗИРОВАНИЕ / ИЗМЕНЕНИЕ ДАННЫХ / ПРЕДИКТОР / ОЦЕНКА / МАШИННОЕ ОБУЧЕНИЕ / СТАТИСТИЧЕСКИЕ ДАННЫЕ / ИЗМЕРЕНИЯ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / REGRESSION ANALYSIS / LEAST SQUARES APPROACH / SINE MODEL / POLYNOMIAL MODEL / FORECASTING / DATA TREND / ESTIMATION / PREDICTOR VARIABLES / MACHINE LEARNING / STATISTICAL METRICS / OBSERVATION / MEASUREMENT / DATA MINING

Аннотация научной статьи по математике, автор научной работы — Шерстнева Алина Анатольевна

Рассматривается метод наименьших квадратов для решения задач теории систем массового обслуживания. Показана возможность прогнозирования поведения инфокоммуникационной системы и выбора оптимальной модели ее функционирования. В качестве информационной основы его применения взяты статистические данные мониторинга инфокоммуникационных систем. Целью является расчет параметров оптимальной модели тренда, характеризующей тенденцию развития случайных процессов во времени. Для получения результатов максимально приближенных к реальным значениям показателей функционирования инфокоммуникационных систем рассмотрены полиномиальная и синусоидальная модели. Предлагается использовать метод регрессионного анализа для определения значений параметров для функции по набору данных наблюдений. В теоретических исследованиях также приведено использование линейного и нелинейного метода наименьших квадратов применительно к окружности. Задача экспериментального анализа заключается в получении оценки параметров синусоидальной, полиномиальной моделей и центра окружности. Экспериментальный анализ выполнен с помощью программы математического моделирования Matlab. Сгенерирована равномерно распределенная случайная последовательность и случайная последовательность с нормальным распределением. Рассчитана последовательность с экспериментальными данными соответственно синусоидальной и полиномиальной моделей. В графическом виде показано соответствие модели для сгенерированных данных. Данные измерения подчиняются синусоидальной модели, последовательность измерений подчиняется полиномиальной модели. Расчетные параметры сведены в таблицу. Выполнена оценка порядка многочлена. Получена расчетная дисперсионная кривая полиномиальной модели. Приведены расчетные значения дисперсии полиномиальной модели. Сделана оценка данных измерений. Оценка показывает значения достаточно близкие к реальным данным. Результаты приведены на графиках. Расчетные коэффициенты достаточно близки по значениям к реальным коэффициентам полиномиальной модели. Также в графическом виде приведена примерная модель окружности данных измерений. Получены достаточно близкие значения центра окружности и радиуса.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Шерстнева Алина Анатольевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

REGRESSION ANALYSIS APPLICATION FOR TELETRAFFIC THEORY TASKS

The article aims to consider least squares approach for solving problems of queuing systems theory. The opportunity of predicting the behavior of infocommunication system is shown. Choosing the optimal model of its functioning is proposed. On base monitoring system metrics, statistical data were formed. The article proposes to make data trend forecasting, to estimate parameters of random processes over time. To obtain the results of functioning data in infocommunication systems that are as close as possible to the real values, polynomial and sine models are considered. The method of regression analysis is proposed to determine the parameter values for a model from a set of observational data. In theoretical research, the linear and nonlinear least squares methods are used in terms of a circle. The task of experimental analysis is to obtain an estimated parameter of sine, polynomial models and the center of circle. Experimental analysis was performed using the mathematical modeling program Matlab. A uniformly distributed random sequence and a random sequence with normal distribution are generated. The sequence with experimental data for polynomial and sine models, respectively, are calculated. The correspondence each model for generated data is shown in graphical form. The measurement data obeys observations. The estimated parameters are summarized in the tables. The polynomial order is estimated. The estimated dispersion curve of the polynomial model is obtained. The calculated variance values of the polynomial model are presented. Data trend forecasting for measurement data is made. The estimated values are extremally close to real data. The results are shown in graphs. Finally, an approximate model of the circumference of measurement data is presented in graphical form. After some iterations with estimated center from the arithmetic mean the new circle center is given. And quite close values for center and radius of circle are obtained.

Текст научной работы на тему «ПРИМЕНЕНИЕ РЕГРЕССИОННОГО АНАЛИЗА В ЗАДАЧАХ ТЕОРИИ ТЕЛЕТРАФИКА»

ПРИМЕНЕНИЕ РЕГРЕССИОННОГО АНАЛИЗА В ЗАДАЧАХ ТЕОРИИ ТЕЛЕТРАФИКА

DOI: 10.36724/2072-8735-2020-14-12-18-25

Manuscript received 20 July 2020; Accepted 28 September 2020

Шерстнева Алина Анатольевна,

Сибирский Государственный Университет Телекоммуникаций и Информатики, г. Новосибирск, Россия, asherstneva@sibguti.ru

Ключевые слова: регрессионный анализ, метод наименьших квадратов, синусоидальная модель, полиномиальная модель, прогнозирование, изменение данных, предиктор, оценка, машинное обучение, статистические данные, измерения,интеллектуальный анализ данных

Рассматривается метод наименьших квадратов для решения задач теории систем массового обслуживания. Показана возможность прогнозирования поведения ин-фокоммуникационной системы и выбора оптимальной модели ее функционирования. В качестве информационной основы его применения взяты статистические данные мониторинга инфокоммуникационных систем. Целью является расчет параметров оптимальной модели тренда, характеризующей тенденцию развития случайных процессов во времени. Для получения результатов максимально приближенных к реальным значениям показателей функционирования инфокомму-никационных систем рассмотрены полиномиальная и синусоидальная модели. Предлагается использовать метод регрессионного анализа для определения значений параметров для функции по набору данных наблюдений. В теоретических исследованиях также приведено использование линейного и нелинейного метода наименьших квадратов применительно к окружности. Задача экспериментального анализа заключается в получении оценки параметров синусоидальной, полиномиальной моделей и центра окружности. Экспериментальный анализ выполнен с помощью программы математического моделирования Matlab. Сгенерирована равномерно распределенная случайная последовательность и случайная последовательность с нормальным распределением. Рассчитана последовательность с экспериментальными данными соответственно синусоидальной и полиномиальной моделей. В графическом виде показано соответствие модели для сгенерированных данных. Данные измерения подчиняются синусоидальной модели, последовательность измерений подчиняется полиномиальной модели. Расчетные параметры сведены в таблицу. Выполнена оценка порядка многочлена. Получена расчетная дисперсионная кривая полиномиальной модели. Приведены расчетные значения дисперсии полиномиальной модели. Сделана оценка данных измерений. Оценка показывает значения достаточно близкие к реальным данным. Результаты приведены на графиках. Расчетные коэффициенты достаточно близки по значениям к реальным коэффициентам полиномиальной модели. Также в графическом виде приведена примерная модель окружности данных измерений. Получены достаточно близкие значения центра окружности и радиуса.

Информация об авторе:

Шерстнева Алина Анатольевна, к.т.н., Сибирский Государственный Университет Телекоммуникаций и Информатики, г. Новосибирск, Россия

Для цитирования:

Шерстнева А.А. Применение регрессионного анализа в задачах теории телетрафика // T-Comm: Телекоммуникации и транспорт. 2020. Том 14. №12. С. 18-25.

For citation:

Sherstneva A.A. (2020) Regression analysis application for teletraffic theory tasks. T-Comm, vol. 14, no.12, pр. 18-25.

(in Russian)

Введение

При проектировании и дальнейшей эксплуатации инфо-коммуникационных систем решается ряд задач, связанных с обеспечением их «жизненного цикла». Круг решаемых задач достаточно широк. Однако, прежде всего, это задачи обеспечения надежности и работоспособности.

Задачи формулируются как задачи теории телетрафика, теории систем массового обслуживания. Инфокоммуника-ционные системы/сети представляются в виде математических моделей, которые в свою очередь представлены графом состояний. Каждое состояние символизирует нахождение системы на определенном этапе обслуживания вызовов/заявок. Формируется ряд входных параметров, символизирующих переход из одного состояния системы в другое. В большинстве случаев входные параметры представляются независимыми случайными величинами с определенным видом распределения, как правило, экспоненциальным. Что, конечно, не всегда соответствует действительности. На выходе стремятся получить показатели, характеризующие определенные свойства рассматриваемой системы. Например надежность, работоспособность, безотказность, масштабируемость, ремонтопригодность и многие другие.

Существуют расчетные, экспериментальные, расчетно-экспериментальные методы определения выходных показателей. Ряд показателей можно определять по данным наблюдений за работой системы в процессе ее эксплуатации. Ряд показателей возможно определять только с помощью расчетных (теоретических) методов. Но и в том, и в другом случае для получения показателей максимально приближенных к реальным данным, в состав расчетных формул должны входить статистические данные, полученные системой мониторинга.

Современные системы мониторинга обладают способностью собирать и обрабатывать большие объемы статистических данных практически за любой период времени. Выборка данных может быть полностью определенной или не полностью определенной. С большой долей вероятности полученные вероятностно-временные характеристики работоспособности инфокоммуникационной системы будут соответствовать реальному, текущему положению. Но интерес представляет и прогнозирование этих показателей, например, при изменении условий эксплуатации, масштабировании системы/сети, сезонном увеличении пиковых нагрузок, изменении потоковой маршрутизации, периодически возникающих пограничных ситуациях, связанных с выходом из рабочей конфигурации отдельных системных/сетевых элементов. Решением задачи прогнозирования является составление математической модели функционирования инфокоммуникационной системы с учетом все вышеперечисленных факторов. При этом число исходных параметров будет значительно превышать число результирующих. Например, для оценки надежности системы рассчитывают коэффициент готовности. Но в расчетную формулу входит целый ряд исходных параметров, таких как интенсивность отказов, интенсивность поступления заявок на обслуживание, число обслуженных/потерянных заявок и многие другие. Исходные параметры являются случайными величинами, спрогнозировать которые достаточно трудно. Для этого необходимо большое число наблюдений с вводом определенных одного

или нескольких критериев. Кроме того, расчет результирующих параметров в математических моделях также зависит и от вида распределения исходных параметров. Не всегда экспоненциальное распределение исходных параметров соответствует реальной картине происходящих в инфоком-муникационных системах процессов. Таким образом, составляется статистическая модель. Любая статистическая модель должна быть подвергнута соответствующей проверке. Результатом проверки является получение количественных переменных, характеризующих, например, процесс обслуживания вызовов или производительность системы в целом или продуктивность работы сотрудников компании.

В статье предлагается использовать метод регрессионного анализа для определения значений параметров для функции по набору данных наблюдений. Рассматриваются полиномиальная и синусоидальная модели. Математическая модель процесса представляется полиномом, коэффициенты которого определяются методом наименьших квадратов. При рассмотрении синусоидальной модели можно опираться на нелинейный метод наименьших квадратов.

Для получения результатов, максимально приближенных к реальным значениям показателей инфокоммуникационных систем/сетей использование полиномиальной модели позволит повысить порядок полинома, тем самым улучшить аппроксимацию. А также приводит к линейной системе нормальных уравнений при определении коэффициентов уравнения регрессии методом наименьших квадратов.

При наличии двух или более предикторных переменных модель называется моделью множественной регрессии:

У, = ао + а1 хи + а1хи +... + аРхР ,, + ^,

где у - прогнозируемая переменная, а х1,..., хк - к переменных-предикторов.

Каждая из переменных предиктора должна иметь численное значение. Коэффициенты а1,..., ар измеряют влияние

каждого предиктора после учета влияния всех других предикторов в модели. Таким образом, коэффициенты измеряют предельные эффекты переменных предиктора. Построение модели множественной линейной регрессии может потенциально генерировать более точные прогнозы, поскольку прогнозируемая переменная будет зависеть от нескольких предикторов и от влияния каждого из них. В статье рассматривается синусоидальная и полиномиальная регрессия [1, 2].

На практике, конечно, у нас есть набор наблюдений, но мы не знаем значений коэффициентов а1,..., ар . Они должны быть оценены на основе данных. Принцип наименьших квадратов обеспечивает способ эффективного выбора коэффициентов путем минимизации суммы квадратов ошибок. Поиск наиболее подходящих оценок коэффициентов называется «подгонкой» модели к данным или «обучением» модели. Метод регрессионного анализа является видом машинного обучения, использование которого востребовано и актуально в настоящее время.

В статье при ссылке на оценочные значения используется обозначение сг1,...сг1.

Теоретические исследования

Полиномиальная модель

Критерием оценки метода наименьших квадратов является минимизация суммы квадратов отклонений (ошибок, для регрессионных моделей их часто называют остатками регрессии) между экспериментальными данными у. и

функцией /(х.) [1-5]:

п

X г2 при г = у,- - /(х,)

1=1

Каждое наблюдение у. состоит из систематической или объясняемой части модели, а0 + а1 х1, и некоторой случайной «ошибки», 2 ,. Термин «ошибкам» означает не ошибку, а отклонение от базовой модели прямой линии. В него входит все то, что может повлиять на у., кроме х1. Для создания интервалов прогнозирования, принято, что ошибки имеют

д(©) = £ Г12 = (у - И®)т (у - Я©).

Тогда:

дд(®)

д®0

дд(®)

с®„

= -2 утЯ

д® д®

= -2 утЯ

д®„ д®п

8® 8®

ЯтЯ® + ®тЯтЯ

д®

г®.

5© 5®.

Я'Я® + ®' Я'Я

д®„

Со столбцами е1 при , = 1,2,..., р единичной матрицы I. При дальнейшем упрощении получаем:

а?(0)

а©0

дд(®)

д®„

= - 2утЯе1 + е[НтЯ® + ®тЯтЯе1 ,

2е1ЯтЯ@

= -2 утЯе + етЯтЯ® + ®тЯтЯе

^ р р р

Выражение для

V в (©) = -21Ят у + 21ЯтЯ® = -2Ят у + 2ЯтЯ® = 0,

^ Ят у = Ят © © = {ЯТ )"1 Я ту

4-V-'

Я+

Сумма квадратов ошибок:

( \т (

тт ТТЛ-1ттт

нормальное распределение с постоянной дисперсиеи а . Когда используется модель линейной регрессии допускается, что каждый предиктор х не является случайно распределенной величиной. По данным наблюдений невозможно управлять значениями х, поэтому сделано предположение о виде распределения переменных [1, 2, 6-8].

Предполагая, что экспериментальные данные представляют собой полиномиальную функцию

у. = а0 + ах. + ах2 +... + а хр + г.,

о 1 I 1 I р I I

получаем выражение:

п

д(^ a1, a2,..., ар) = X Г2 = (у1 - (ао + аЛ + а1х.2 + ■■■ + архр ))2 ■ 1=1

Далее составляется матрица для определения суммы квадратов ошибок и для п > р + 1, получаем:

2 д(©) = (у - Я©У (у - Я©) =

у -Я^'Я)-1 Я'у

у - Я(^/'Я)"1 Ят у

Минимальное количество наблюдений п = р + 1 для решения системы уравнений, которая привела бы к интерполяции экспериментальных данных. Поэтому для оценки методом наименьших квадратов требуется п > р +1 наблюдений. Параметр а1, который минимизирует сумму квадратов ошибок, необходимо вычислить р + 1 раз [1, 2].

Используя векторную запись q (0):

д(©) = уту - 2утЯ® + ®тЯтЯ® ■

Для минимизации должно быть выполнено следующее необходимое условие V (©)=0

Матрица проекции, также известная как матрица влияния, отображает вектор значений отклика (зависимых переменных) к вектору прогнозируемых значений:

Р = Я(ЯтЯ) 1 Ят ■

Матрица ортогональной проекции Р1 = (I — Р) имеет ряд свойств:

- Р ■ Р = Р;

- Р = Рт ;

- Р Р1 = Р1;

- Р • Р1 = 0;

- (Р1 )т = Р1.

С учетом 1у = у :

д(©) = (1у - Ру)т( 1у - Ру);

д(©) = ((I - Ру)т)((1 - Р)у) ■

Применяя матрицу влияния и ее свойства:

д(©) = (Р1 у)тР1 у = утР1Р1 у = ут (I - Р)у ■

д(®) является скаляром, применяя правило К (АВ) = К (ВА):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

д(©) = *(ут (I - Р)у) = *((I - Р)уут ■ Математическое ожидание: Е(д(©)) = *((I - Р)Е(уут)) = (п - (р +1))^2 ■ Выражение для определения оценки дисперсии: , Е(д(<Э)) . „2 д(<Э)

<Г — -; СГ =-,

п - (р +1) п - (р + 1)

где п - количество наблюдений, и р +1 - количество параметров для оценки.

2еГ Я у

2е1Иту

¿врИ Я0

1=1

е

е

Синусоидальная модель

Экспериментальные данные для синусоидальной модели задаются выражением у. = а 8т(х1 + Ь) + 2 1 для определения параметров а и Ь таким образом, чтобы сумма квадратов отклонений между экспериментальными данными у. и

функцией f (х1) была минимальной [1, 2, 8]:

8т( х + у) = 8т( х) ео8( у) + ео8( х)8т(у); f (х1) = а 8т( х1) ео8(Ь) + а ео8( х1 )8т(Ь).

Поскольку, А = аео8(Ь) и В = а 8т(Ь):

f (х 1) = А 8т( х 1) + В ео8( х1);

п п

Ч(а, Ь) = X Г2 = X ( у, (А яп( х,) + В со8( х, )))2;

,=1 ,=1

д(а,Ь) = £ (у, - f (х, ))2 =± (у, - ахЬ )2.

,=1 ¿=1

В матричной форме система линейных уравнений с неизвестными параметрами А и В принимает вид:

г у1

г п уп

8Ш( х1) Со8( х1) ЯП(хп ) Со8(хп )

© =

В

И для синусоидальной модели получаем: а -

= л1 А2 + В2 ; Ь = аг^ап

(В >

(Г2 =-

9(<Э) _ д(©)

чаются в теории телетрафика при рассмотрении разных систем массового обслуживания.

Разница между центром окружности х0 и точкой измерения хк является радиусом окружности согласно экспериментальным данным [9, 10]:

хк =л/(хк - хо)2 + (ук - уо)2 = г + 2к '

где г - истинныи радиус окружности, а гк - погрешность каждой точки измерения. Поэтому погрешность оценки

можно записать как:

гк - г = 2,,

к

Согласно методу МНК, сумма квадрата ошибки определяется:

д(xо,Уо,г) = Т,{[(хк -хо)2 +(ук -уо)2 -г к

С требуемым минимумом: дд

V =

д

д(а, Ь) = £ (у, -А яп(х,) + В со8(х,))2 = (у - И©)т (у - И©) ■

Пользуясь методом наименьших квадратов для случая линейной регрессии из полиномиальной модели получаем:

© = ( ИтИ У1 Ит у;

" А '

=о ■

8хо

дд

^о дд

дг

Из приведенного выражения следует, что градиент приводит к нелинейной системе уравнений, которая может быть решена только численно, например, методом Ньютона.

Линейный МНК применительно к окружности

Нелинейная задача МНК подхода к окружности может быть линеаризована с помощью выражения Тейлора. Необходимо выполнить аппроксимацию центра окружности

(хо; уо) для вычисления радиуса гк [9, 1о]:

гк ^ уо) ~ гк (~о,~о) +

дгк (xо, уо)

дхп

Поскольку есть два неизвестных параметра, то необходимо два наблюдения для интерполяции - решения системы уравнений, и не менее трех для оценки МНК. Для полиномиальной модели требуется вычислить р +1 параметр, поэтому необходимо рассчитать два параметра для синусоидальной модели. Выражение для оценки дисперсии для синусоидальной модели принимает вид:

(х _~) . дгк^уо)

Хз,Уо о А

(уо -ууо)

>гк(~о,~о) + (хо -~о) + -(у~-|)(уо -Хо)

гк (xо, уо) гк (xо, уо)

Новая модель для вычисления ошибки линейна в точке

хо, уо ■

2к = г - г = Тк (~о,~о) + (хо - ~о) +

(уо -~о) -г ■

п - (р + 1) п - 2 Нелинейный МНК применительно к окружности

Нелинейный МНК применим для задач, в которых при обработке экспериментальных, статистических данных используется формула, нелинейно зависимая от определяемых результирующих параметров. Такие задачи нередко встре-

гк(хо,Хо) гк(хо,Хо)

Сумма квадратов ошибок определяется:

д( хо, уо, г) = ^(ск + акх + Ьку - г )2 = (с - И®) (с - И©) ■

к

В матричной форме:

" с1" а1 Ь 1 х

д( xо, Уо, г) = - у

Сп _ _ап Ьп 1_ г

И

у

И

с

x0 x0

~0 - y0

г

Тогда оценка МНК для параметров: © = (НТНУ1 Нтс .

Также возможно улучшить оценку, повторяя расчет с определенными параметрами таким образом, чтобы сумма ошибок с новыми параметрами уменьшалась:

©(Хс^о) ^ ^Уо ©(уо) ^ Xo,уо

Ч(~о, ~о) > Ч(хо, Уо,Г) > Ч(хо, у0, Г ) Условием для прекращения итераций станет:

<5 или q(x0, y0, Г) - q( x0, y0, r) < e.

Экспериментальный анализ

Задача экспериментального анализа заключается в получении МНК-оценки синусоидальной, полиномиальной модели и центра окружности. Первоначально в программе Matlab была сгенерирована равномерно распределенная случайная последовательность x1 на интервале [0,1] и случайная последовательность z1 с нормальным распределением, каждая длиной 100 значений.

Равномерно распределенная последовательность x = (x1,x2,x3,...,x100)r на интервале [0,1] для синусоидальной модели (Xj), полиномиальной модели (x2) и окружности (x3) определяет следующие последовательности:

x1 = x ■ 4п; X2 - X ' 5 ;

x3 = z3 cos(x • 2ж) + 4.

Нормально распределенная случайная последовательность z = (z1, z2, z3,..., z100)r представляет собой следующие уравнения:

z1 = zV005 ; z2 = z;

z3 = z • 0,05 + 6 + 4.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Далее рассчитывается последовательность

y = (y1,y2,y3,...,y100)r с экспериментальными данными соответственно синусоидальной и полиномиальной моделей: y1 = 2sin(x1 +1) + z1; y2 = -0,6 x3 + 0,9 x2 + 3x2 + z2 + 4,5 + z2; y3 = z3 sin( x • 2ж) + 2.

В Matlab последовательности x и y для каждого измерения сохраняются в матрице xy с размерностью 100*2, идентифицируемой соответствующим индексом, т. е. xy1,

xy2 и xy3.

Векторы двух столбцов каждой матрицы соответствуют наблюдениям х1 и у. конкретной модели. Данные измерения ху1 подчиняются синусоидальной модели (рис. 1а), последовательность измерений в ху2 подчиняется полиномиальной модели (рис. 16).

4 2

S О -2 -4

1 р

5 \

20 0 -20

-40

J — '.«-л

1

0

10

15

0

а)

2 4

х, б)

Рис. 1. Соответствие модели для сгенерированных данных: а) синусоидальная модель; б) полиномиальная модель

МНК-оценка моделей заключается в оценке параметров а, Ь и дисперсии отклонений измерений с2 линеаризованной модели. Для этого была написана функция ЬБЕ, которая работает с моделью.

Рассчитанные последовательности данных измерений соответствуют реальным значениям а и Ь.

Синусоидальная модель у = 28т(х +1)+г1 ^ а = 2,Ь = 1.

В таблице 1 приведены расчетные параметры модели.

Таблица 1

Расчетные параметры модели

Параметр Синусоидальная модели

a

а 2.0155

b

b 1.0084

0.0379

Программная реализация этой задачи осуществляется в МаНаЪ, результат приведен в табл. 1. МНК-оценка значений параметров модели является хорошим приближением к реальным значениям параметров.

Оценка порядка многочлена

Теперь задача состоит в оценке порядка р полиномиальной модели. Для этого необходимо рассчитать оценочную дисперсию в зависимости от порядка модели р = 1,2,...,1о . Порядок, обеспечивающий наименьшую дисперсию, будет верным.

Согласно оценке, дисперсия уменьшается до порядка 3. После этого дисперсия практически постоянна с небольшим локальным максимумом для порядка 6 и монотонно уменьшается от 6 до 1о порядка. Поэтому полиномиальный порядок 3 представляется хорошим приближением к экспериментальным данным.

Estimated centre location: ¿0=3.8326, yo=1.6445

2 4 G 8 10 Order

Рис. 2. Расчетная дисперсионная кривая полиномиальной модели с порядком p

Таблица 2

Расчетные значения дисперсии полиномиальной модели с порядком р

Порядок p ¿z2

1 43.876

2 3.083

3 0.767

4 0.769

5 0.777

6 0.785

7 0.783

8 0.777

9 0.699

10 0.67

Таблица 3

Расчетные коэффициенты полиномиальной модели с порядком р = 3

Рис. 3. Ориентировочное начальное расположение центра окружности

Далее выполняем оценку МНК, исходя из определенной центральной точки в качестве улучшенного начального значения.

МНК оценка повторяется до выполнения условия:

||~о(*),~o(k) - - 1),~о(* - 1)|| < 10-10'

где ~0(k),~0(k) обозначает k-ую МНК-оценку центральной точки.

Восстановленная окружность и точки измерения приведены на графике рис. 4.

Estimated parameters: 3.9643, уо—1.9476 г—6.01Б6

В коэффициент Расчетное значение Реальное значение Ошибка

a0 4.7091 4.5 +0.2091

ai 2.4780 3 -0.5220

а2 1.1874 0.9 +0.2874

a3 -0.6402 -0.6 -0.0402

Согласно МНК-оценке полиномиальной модели с порядком 3 расчетные коэффициенты достаточно близки по значениям к реальным коэффициентам полиномиальной модели.

МНК для определения центра окружности

Координаты местоположения центра х и у на рис. 3 можно оценить с помощью среднего арифметического:

хо = — У хк; ~о = — У ук ■ о к ^^

Данные измерений равномерно распределены по окружности, следовательно, среднее арифметическое является хорошей оценкой.

Для линейного МНК решение единственно. В нелинейном МНК решение необходимо находить с несколькими итерациями и решение будет зависеть от выбора начальной точки.

^"-"Т * \

/

/ *

j

4 V X У. X

* Х X

-4 -2 0

6 8 10 12

Рис. 4. Примерная модель окружности данных измерений

После нескольких итераций для оценки центра окружности по среднему арифметическому новый центр окружности определяется ~о = 369643, хо = 1,9476, ~ = 6,о156:

х3 = 23 со8( х • 2ж) + 4;

у3 = 23 8Ш(х • 2ж) + 2 .

Согласно сгенерированным данным измерений и графику на рис. 4, получаем достаточно близкие значения центра окружности и радиуса.

Заключение

В статье рассмотрены две модели: синусоидальная и полиномиальная. Для каждой из рассчитанных моделей приведены экспериментальные данные , у1 ): /' = 1,2,...,N и показана соответствующая реконструированная кривая ((^)): /' = 1,2,...,N .

На рисунке 3 экспериментальные данные выделены синим цветом, рассчитанные значения - красной линией. На рис. 3а показана кривая для синусоидальной модели, на рис. 36 показана кривая для полиномиальной модели.

-20

-40

Рис. 5. МНК-оценка данных измерений: а) синусоидальная модель; б) полиномиальная модель

Программная реализация этой задачи осуществлялась в МаНаЪ. Из графиков рис. 5а и 56 видно, что МНК-оценка показывает значения достаточно близкие к реальным данным.

Применяемый метод математического программирования для полиномиальной и синусоидальной моделей делает возможным исключение недостатков классического регрессионного анализа.

Рассмотрен линейный и нелинейный метод наименьших квадратов применительно к окружности. Приведен МНК для определения центра окружности. В графическом изображении дана МНК-оценка данных измерений и примерная модель окружности данных измерений [9-14]. Регрессия широко используется в машинном обучении, типичным представителем алгоритма которого является линейная регрессия.

Применение машинного обучения полезно для прогнозирования и экстраполяции данных на новый формат математической модели. Экстраполяция данных подразумевает учет опыта предыдущих условий эксплуатации инфокомму-никационных систем/сетей в новых условиях, с новыми или дополненными функциональными возможностями.

Для обучения первоначально необходимо ранжировать исходные статистические данные по их значимости в зависимости от целевой переменной. Определиться среди множества статистических данных, какие будут зависимыми, а какие независимыми переменными. Как правило, прогнозируемой является зависимая переменная. Здесь и пригодиться практический опыт. Целевая переменная будет конечным результатом проводимых исследований. Далее выясняются аналитические зависимости между вероятностно-временными характеристиками и количественными показателями (целевой переменной). Таким образом, получается, что строится новая модель, в которую вводятся новые исходные статистические данные и вычисляется неизвестная прогнозируемая целевая переменная.

Для прогнозирования значимых характеристик инфо-коммуникационных систем/сетей часто используют нейронные сети, как вид машинного обучения. Но в этом случае необходим большой объем исходных данных. И если с числом статистических данных, как правило, не возникает проблем, то разработка математической модели вызывает определенные затруднения. Для получения конкретного пригодного для практического использования результата, при составлении модели вводится ряд допущений, которые в итоге могут искажать реальную картину функционирования инфо-коммуникационных систем/сетей.

Применение регрессионного анализа в задачах теории телетрафика особенно интересно. Часто встречающиеся задачи являются задачами оптимизации. И здесь применение метода наименьших квадратов более, чем уместно, поскольку по своей сути этот метод направлен на определении параметров модели тренда, которая описывает тенденции развития во времени случайного явления/процесса. Таким образом, появляется возможность прогнозирования поведения инфокоммуникационной системы и выбора оптимальной модели ее функционирования.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Литература

1. R. Hyndman, G. Athanasopoulos. (2016). Forecasting: Principles and Practice. 2td ed. Melbourne, Australia. 291p. (in English)

2. H. Wickham. (216). Elegant graphics for data analysis. 2td ed. Springer. 213p. (in English)

3. G. Athanasopoulos, R.J. Hyndman, N. Kourentzes, F. Petropoulos. (2017). Forecasting with temporal hierarchies. European Journal of Operational Research, 262(1), pp.60-74. (in English)

4. C. Bergmeir, R.J. Hyndman, J.M. Benítez. (2016). Bagging exponential smoothing methods using STL decomposition and Box-Cox transformation. International Journal of Forecasting, 32(2), pp.303-312. (in English)

5. C. Bergmeir, R.J. Hyndman, B. Koo. (2018). A note on the validity of cross-validation for evaluating autoregressive time series prediction. Computational Statistics and Data Analysis, 120, pp.70-83. (in English)

6. S.N. Lahiri. (2003). Resampling methods for dependent data. New York, USA: Springer Science & Business Media. 374p. (in English)

7. J.K. Ord, R. Fildes, N. Kourentzes. (2017). Principles of business forecasting. 2td ed. Wessex Press Publishing Co. (in English)

8. S.L. Wickramasuriya, G. Athanasopoulos. (2019). Optimal forecast reconciliation for hierarchical and grouped time series through trace minimization. J American Statistical Association, 114(526), pp. 804-819. (in English)

9. F.E. Harrell. (2015). Regression modeling strategies: With applications to linear models, logistic and ordinal regression, and survival analysis. 2nd ed. New York, USA: Springer. 568p. (in English)

10. K. Madsen, H.B. Nielsen, O. Tingleff. (2004). Methods for Non-linear Least Squares Problem Cobenhavn, Technical University of Denmark, 2004. 30p.

11. Alfred DeMaris. (2004). Regression with Social Data, Modeling Continuous and Limited Response Variables 2004, John Wiley & Sons, Inc; 558p.

12. G.G. Vining, S. Kowalski. (2010). Statistical Methods for Engineers Duxbury Press, 2010. 648p.

13. M.H. Kutner, C.J. Nachtsheim, J. Neter, W. Li. (2004). Applied Linear Statistical Models McGraw-Hill, 2004.1424 p.

14. M.H. DeGroot, M.J. Schervish. (2011). Probability and Statistics Addison Wesley, 4th Edition. 2011. 911p.

m

REGRESSION ANALYSIS APPLICATION FOR TELETRAFFIC THEORY TASKS

Alina A. Sherstneva, SibSUTIS, Novosibirsk, Russia, asherstneva@sibguti.ru

Abstract

The article aims to consider least squares approach for solving problems of queuing systems theory. The opportunity of predicting the behavior of infocommunication system is shown. Choosing the optimal model of its functioning is proposed. On base monitoring system metrics, statistical data were formed. The article proposes to make data trend forecasting, to estimate parameters of random processes over time. To obtain the results of functioning data in infocommunication systems that are as close as possible to the real values, polynomial and sine models are considered. The method of regression analysis is proposed to determine the parameter values for a model from a set of observational data. In theoretical research, the linear and nonlinear least squares methods are used in terms of a circle. The task of experimental analysis is to obtain an estimated parameter of sine, polynomial models and the center of circle. Experimental analysis was performed using the mathematical modeling program Matlab. A uniformly distributed random sequence and a random sequence with normal distribution are generated. The sequence with experimental data for polynomial and sine models, respectively, are calculated. The correspondence each model for generated data is shown in graphical form. The measurement data obeys observations. The estimated parameters are summarized in the tables. The polynomial order is estimated. The estimated dispersion curve of the polynomial model is obtained. The calculated variance values of the polynomial model are presented. Data trend forecasting for measurement data is made. The estimated values are extremally close to real data. The results are shown in graphs. Finally, an approximate model of the circumference of measurement data is presented in graphical form. After some iterations with estimated center from the arithmetic mean the new circle center is given. And quite close values for center and radius of circle are obtained.

Keywords: regression analysis, least squares approach, sine model, polynomial model, forecasting, data trend, estimation, predictor variables, machine learning, statistical metrics, observation; measurement, data mining.

1. R. Hyndman, G. Athanasopoulos. (2016). Forecasting: Principles and Practice. 2td ed. Melbourne, Australia. 291p. (in English)

2. H. Wickham. (216). Elegant graphics for data analysis. 2td ed. Springer. 213p. (in English)

3. G. Athanasopoulos, R.J. Hyndman, N. Kourentzes, F. Petropoulos. (2017). Forecasting with temporal hierarchies. European Journal of Operational Research, 262(1), pp.60-74. (in English)

4. C. Bergmeir, R.J. Hyndman, J.M. Benetez. (2016). Bagging exponential smoothing methods using STL decomposition and Box-Cox transformation. International Journal of Forecasting, 32(2), pp.303-312. (in English)

5. C. Bergmeir, R.J. Hyndman, B. Koo. (2018). A note on the validity of cross-validation for evaluating autoregressive time series prediction. Computational Statistics and Data Analysis, 120, pp.70-83. (in English)

6. S.N. Lahiri. (2003). Resampling methods for dependent data. New York, USA: Springer Science & Business Media. 374p. (in English)

7. J.K. Ord, R. Fildes, N. Kourentzes. (2017). Principles of business forecasting. 2td ed. Wessex Press Publishing Co. (in English)

8. S.L. Wickramasuriya, G. Athanasopoulos. (2019). Optimal forecast reconciliation for hierarchical and grouped time series through trace minimization. J American Statistical Association, 114(526), pp. 804-819. (in English)

9. F.E. Harrell. (2015). Regression modeling strategies: With applications to linear models, logistic and ordinal regression, and survival analysis. 2nd ed. New York, USA: Springer. 568p. (in English)

10. K. Madsen, H.B. Nielsen, O. Tingleff. (2004). Methods for Non-linear Least Squares Problem Cobenhavn, Technical University of Denmark, 2004. 30p.

11. Alfred DeMaris. (2004). Regression with Social Data, Modeling Continuous and Limited Response Variables 2004, John Wiley & Sons, Inc; 558p.

12. G.G. Vining, S. Kowalski. (2010). Statistical Methods for Engineers Duxbury Press, 2010. 648 p.

13. M.H. Kutner, C.J. Nachtsheim, J. Neter, W. Li. (2004). Applied Linear Statistical Models McGraw-Hill. 1424 p.

14. M.H. DeGroot, M.J. Schervish. (2011). Probability and Statistics Addison Wesley, 4th Edition. 911 p.

Information about author:

Alina A. Sherstneva, Candidate of Tech. Sciences, associated professor, Siberian State University of Telecommunications and Information Sciences, Department of Electrical Communication, Novosibirsk, Russia

References

i Надоели баннеры? Вы всегда можете отключить рекламу.