Научная статья на тему 'Робастные методы построения и улучшения многомерной линейной и нелинейной регрессий'

Робастные методы построения и улучшения многомерной линейной и нелинейной регрессий Текст научной статьи по специальности «Математика»

CC BY
531
82
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИКА / ОЦЕНКИ / РЕГРЕССИЯ / РОБАСТНОСТЬ

Аннотация научной статьи по математике, автор научной работы — Шестопал Оксана Викторовна, Черноиван Дмитрий Николаевич, Середина Полина Борисовна

Рассматривается актуальная задача построения устойчивой регрессионной модели по данным независимой выборки. В принятом для вычислительной математики виде описан метод построения робастной множественной регрессии. В значительной степени этот подход отличается от функций Хубера, основанных на оценке медианы абсолютного отклонения. Используется один из зарекомендовавших себя робастных методов статистики на основе оценочной функции Тейла-Сена, который обычно применяют для построения одномерной линейной регрессии. Рассмотрен наиболее зарекомендовавший себя медианный метод на основе итерационного метода Гаусса-Зейделя для построения робастной многомерной линейной регрессии. Проблемой является расходимость метода Зейделя, если у системы нет диагонального преобладания. Для преодоления этой проблемы авторами предлагается метод решения на основе метода релаксации. Рассмотрен пример, иллюстрирующий высокие вычислительные качества исследуемого метода при построении робастной линейной регрессии в пространстве по данным статистических выборок из 10 и 100 точек, равномерно распределенных в единичном квадрате. Описано обобщение метода Тейла-Сена на случай нелинейной регрессии, в том числе наиболее употребительная полиномиальная регрессия. Метод сформулирован в виде итерационной схемы для случая робастной квадратической регрессии. Отмечено плохая сходимость итерационного метода в случае применения для отыскания коэффициентов регрессии медианного метода на основе процедуры Гаусса-Зейделя с выделением диагональных элементов по аналогии с задачей построения линейной регрессии. Система нелинейных уравнений приведена к виду, удобному для итераций. Медианная оценка использует оценочную функцию Тейла-Сена в модифицированном виде. Рассмотрен пример построения робастной нелинейной регрессии по данным статистической выборки из 10-100 точек, равномерно распределенных на интервале (0,1). Выборочные значения функции получались суммированием точных значений с равномерно распределенным шумом с заданной амплитудой. Примерно в одном из 10 случаев моделировался выброс. Результаты вычислений продемонстрировали высокую скорость сходимости и значительное преимущество предложенного метода по сравнению с методом наименьших квадратов. Описан новый робастный аналог метода коррелированной выборки. Рассмотрена технология метода коррелированных процессов применительно к задачам статистического моделирования с приближённо заданными или случайными параметрами. Рассмотрено робастное оценивание в методе коррелированной выборки. Исследованы несколько подходов: применение медианных оценок вместо выборочных средних, М-оценки, сглаживание или очистка исходных данных от выбросов и других посторонних составляющих, усеченное среднее. Установлено, что проблемы использования медианного метода и М-оценок могут быть связаны с несимметричностью или многомодальностью распределений случайных величин. Наиболее устойчивые результаты были получены на основе применения метода усеченного среднего (Truncated mean). Для его вычисления усредняются данные вариационного ряда выборки после удаления с обеих сторон определенной доли объектов (она находится в пределах от 5 до 25% и определяется соответственно числу выбросов в выборке). Описан усовершенствованный подход основанный на преобразовании выборки с выбросами в вариационный ряд и отсечении хвостов выборки с последующей интерполяцией. Показано, что метод коррелированной выборки в проведенных статистических экспериментах позволил достичь выигрыша в точности в среднем в 10-20 раз. Предложенный авторами статьи робастный вариант позволяет применять метод коррелированной выборки и в случае большого числа выбросов или искаженных выборочных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Robust methods of building and improving multidimensional linear and nonlinear regressions

The article deals with the actual problem of constructing a stable regression model based on independent sampling data. The method of constructing robust multiple regression is described in the form accepted for computational mathematics. To a large extent, this approach differs from Huber functions based on the median estimate of the absolute deviation. The article uses one of the proven robust methods of statistics based on the estimated teyl-Sen function, which is usually used to construct a one-dimensional linear regression. The most proven median method based on the Gauss-Seidel iterative method for constructing robust multidimensional linear regression is considered. The problem is the divergence of the Seidel method if the system has no diagonal predominance. To overcome this problem, the authors propose a method of solution based on the relaxation method. An example illustrating the high computational qualities of the method under study in constructing a robust linear regression in space from statistical samples of 10 and 100 points uniformly distributed in a unit square is considered. A generalization of the Teil-Sen method to the case of nonlinear regression, including the most common polynomial regression, is described. The method is formulated as an iterative scheme for the case of robust quadratic regression. The poor convergence of the iterative method in the case of using the median method for finding regression coefficients based on the Gauss-Seidel procedure with the allocation of diagonal elements by analogy with the problem of constructing a linear regression is noted. The system of nonlinear equations is given to the form convenient for iterations. The median rating uses the estimated function Teyla-Sen in a modified form. An example of constructing a robust nonlinear regression from a statistical sample of 10-100 points uniformly distributed over the interval (0.1) is considered. The sample values of the function were obtained by summing the exact values with uniformly distributed noise with a given amplitude. Emissions were modelled in about one in 10 cases. The results of the calculations showed a high rate of convergence and a significant advantage of the proposed method compared to the least squares method. A new robust analogue of the correlated sampling method is described. The technology of the method of correlated processes in relation to the problems of statistical modeling with approximately given or random parameters is considered. Robust estimation in the method of correlated sampling is considered. Several approaches have been studied: application of median estimates instead of sample averages, M-estimates, smoothing or clearing of input data from emissions and other extraneous components, truncated mean. It is found that the problems of using the median method and M-estimates can be associated with asymmetry or multimodality of distributions of random variables. The most stable results were obtained on the basis of the truncated mean method (Truncated mean). For its calculation, the data of the variation series of the sample are averaged after the removal of a certain proportion of objects from both sides (it is in the range from 5 to 25% and is determined according to the number of emissions in the sample). An improved approach based on the transformation of the sample with emissions into the variational series and cutting off the sample tails with subsequent interpolation is described. It is shown that the method of correlated sampling in the statistical experiments allowed to achieve a gain in accuracy on average 10-20 times. The robust variant proposed by the authors of the article allows to apply the method of correlated sampling in the case of a large number of outliers or distorted sample data.

Текст научной работы на тему «Робастные методы построения и улучшения многомерной линейной и нелинейной регрессий»

РОБАСТНЫЕ МЕТОДЫ ПОСТРОЕНИЯ И УЛУЧШЕНИЯ МНОГОМЕРНОЙ ЛИНЕЙНОЙ И НЕЛИНЕЙНОЙ РЕГРЕССИЙ

Шестопал Оксана Викторовна,

Южно-Российского государственного политехнического университета имени М.В.Платова, г. Новочеркасск, Россия, [email protected]

Черноиван Дмитрий Николаевич,

Южно-Российский государственный политехнический университет (НПИ), г. Новочеркасск, Россия, [email protected]

Середина Полина Борисовна,

Южно-Российский государственный политехнический университет (НПИ), г. Новочеркасск, Россия, [email protected]

Рассматривается актуальная задача построения устойчивой регрессионной модели по данным независимой выборки. В принятом для вычислительной математики виде описан метод построения робастной множественной регрессии. В значительной степени этот подход отличается от функций Хубера, основанных на оценке медианы абсолютного отклонения. Используется один из зарекомендовавших себя робастных методов статистики на основе оценочной функции Тейла-Сена, который обычно применяют для построения одномерной линейной регрессии. Рассмотрен наиболее зарекомендовавший себя медианный метод на основе итерационного метода Гаусса-Зейделя для построения робастной многомерной линейной регрессии. Проблемой является расходимость метода Зейделя, если у системы нет диагонального преобладания. Для преодоления этой проблемы авторами предлагается метод решения на основе метода релаксации. Рассмотрен пример, иллюстрирующий высокие вычислительные качества исследуемого метода при построении робастной линейной регрессии в пространстве по данным статистических выборок из 10 и 100 точек, равномерно распределенных в единичном квадрате. Описано обобщение метода Тейла-Сена на случай нелинейной регрессии, в том числе наиболее употребительная полиномиальная регрессия. Метод сформулирован в виде итерационной схемы для случая робастной квадратической регрессии. Отмечено плохая сходимость итерационного метода в случае применения для отыскания коэффициентов регрессии медианного метода на основе процедуры Гаусса-Зейделя с выделением диагональных элементов по аналогии с задачей построения линейной регрессии. Система нелинейных уравнений приведена к виду, удобному для итераций. Медианная оценка использует оценочную функцию Тейла-Сена в модифицированном виде. Рассмотрен пример построения робастной нелинейной регрессии по данным статистической выборки из 10-100 точек, равномерно распределенных на интервале (0,1). Выборочные значения функции получались суммированием точных значений с равномерно распределенным шумом с заданной амплитудой. Примерно в одном из 10 случаев моделировался выброс. Результаты вычислений продемонстрировали высокую скорость сходимости и значительное преимущество предложенного метода по сравнению с методом наименьших квадратов.

Описан новый робастный аналог метода коррелированной выборки. Рассмотрена технология метода коррелированных процессов применительно к задачам статистического моделирования с приближённо заданными или случайными параметрами. Рассмотрено робастное оценивание в методе коррелированной выборки. Исследованы несколько подходов: применение медианных оценок вместо выборочных средних, М-оценки, сглаживание или очистка исходных данных от выбросов и других посторонних составляющих, усеченное среднее. Установлено, что проблемы использования медианного метода и М-оценок могут быть связаны с несимметричностью или многомодальностью распределений случайных величин. Наиболее устойчивые результаты были получены на основе применения метода усеченного среднего (Truncated mean). Для его вычисления усредняются данные вариационного ряда выборки после удаления с обеих сторон определенной доли объектов (она находится в пределах от 5 до 25% и определяется соответственно числу выбросов в выборке). Описан усовершенствованный подход основанный на преобразовании выборки с выбросами в вариационный ряд и отсечении хвостов выборки с последующей интерполяцией. Показано, что метод коррелированной выборки в проведенных статистических экспериментах позволил достичь выигрыша в точности в среднем в 10-20 раз. Предложенный авторами статьи робастный вариант позволяет применять метод коррелированной выборки и в случае большого числа выбросов или искаженных выборочных данных.

Информация об авторах:

Шестопал Оксана Викторовна, аспирант кафедры прикладной математики Южно-Российского государственного политехнического университета имени М.В.Платова, г. Новочеркасск, Россия

Черноиван Дмитрий Николаевич, магистр, Южно-Российский государственный политехнический университет (НПИ), г. Новочеркасск, Россия Середина Полина Борисовна, акалавр, Южно-Российский государственный политехнический университет (НПИ), г. Новочеркасск, Россия

Для цитирования:

Шестопал О.В., Черноиван Д.Н., Середина П.Б. Робастные методы построения и улучшения многомерной линейной и нелинейной регрессий // T-Comm: Телекоммуникации и транспорт. 2019. Том 13. №2. С. 46-51.

For citation:

Shestopal O.V., Chernoivan D.N., Seredina P.B. (2019). Robust methods of building and improving multidimensional linear and nonlinear regressions. T-Comm, vol. 13, no.2, pр. 46-51. (in Russian)

T-Comm Том 13. #2-2019

DOI 10.24411/2072-8735-2018-10235

Ключевые слова: статистика, оценки, регрессия, робастность

Рассматривается актуальная задача построения устойчивой регрессионной модели по данным независимой выборки объемом п: Х^Х2,...,ХП. Неизвестную нам связь между выходной величиной У и факторами Х> (г=1,,,,,«) обозначим в виде у = /{Х„Хг.....Х„).

1. Робастная множественная регрессия

Об1зор методов построения робастной регрессии можно найти в [1-4]. В значительной степени эти подходы используют функции Хубера, основанные на оценке медианы абсолютного отклонения [1-4]. Одним из зарекомендовавших себя робастных методов статистики является метод Тейла-Сена. Как правило, его применяют для построения одномерной линейной регрессии. В литературе сообщается о нескольких вариантах его обобщения па случай многомерной линейной регрессии. Наиболее зарекомендовал себя медианный метод на основе метода Гауе с а-Зейделя. Сформулируем его в следующем виде. Предположим, что требуется построить робастную многомерную линейную регрессию в К"\ у=щ + й|Х,+...+ а,гх„. Для отыскания ее коэффициентов применим медианный метод на основе процедуры Гаусса-Зейделя с выделением диагональных элементов:

Me{[>¡-yj -аГ\хи-*ч) ••"

an('XxRj-x„j)]/ (xu-xbj)}, h=l,...,n; í.+i i .. ■ ■ ■ ■ w

где Ме - статистическая оценка медианы по парам точек выборки у=1,...,й (г не равно/);номер итерации по методу Зейделя.

Начальное приближение может быть выбрано разнообразными способами, например, нулевым. Записанная система уравнений относительно коэффициентов а0, а\,..., а„ является, вообще говоря, нелинейной, так как медиана не всегда обладает линейным свойством. Часто можно решать данную систему методом простой итерации или более эффективным методом Зейделя для нелинейной системы уравнений. Если у системы нет диагонального преобладания, то метод Зейделя может расходиться. Для преодоления этой проблемы авторами предлагается метод решения на основе метода релаксации:

вк

= (1 -г,)Ме{[у(-я-аГ"(*и-*и)-... -

С1)/

<*к-l'* ''(**-],í—Xk-lj) ~ Ок*\ \Xk*\.~Xk*\.j) -...-

. W/

a„ (x„j-x(xu-xkJ)} + rkak, А=1,...,н;

(j+l l .. , иM1

- Mt(_v,--ü] x\j-...-an х,ц).

гк - коэффициент релаксации. Для нижней релаксации

О <г*<1.

Пример 1. Построить робастную линейную регрессию в /?"*: у=с+ + 02X2 по данным статистических выборок из 10 и 100 точек, равномерно распределенных в единичном квадрате. Точное решение - уравнение плоскости у = 1 + + 10*:. Выборочные значения функции у,- получались суммированием точных значений с равномерно распределенным шумом с амплитудой 0.25. Примерно в одном из 10 случаев моделировался выброс, равный I. Результаты вычислений:

Сходимость достигалась менее чем за 10 итераций. Коэффициенты регрессии вычислялись с точностью от 20% до 7% (рис. 1).

Начальное приближение аО = 0.50 а1 = 0 50 а2 = 0 50 Результаты итерационных вычислений Номер ктерации 10 аО = 1.19 а1 = 1.00 а2 = 9.54 Начальное приближение аО = 0.50 а1 = 0.50 а2 = 0.50 Результаты итерационных вычислений Номер итерации 10 аО = 1.03 а1 = 1.07 а2 = 9.94

Рис. 1. Сходимость метода ДЛЯ выборок объемом 10 и 100 значений соответственно

2. Обобщение метода Тейла-Сена на случай нелинейной регрессии

Наиболее употребительной является полиномиальная регрессия [1]. Сформулируем метод в следующем виде. Предположим, что требуется построить робастную квадра-тическую регрессию: у=ао + а\х + йьх". Если применить для отыскания ее коэффициентов медианный метод на основе процедуры Гаусса-Зейделя с выделением диагональных элементов по аналогии с линейной регрессией, то очень часто имеет место расходимость итерационного процесса. Система уравнений и соотношения метода Зейделя при этом имеют вид:

я, = Ме[у,-» - йь(л-;2- Xj-)~\! (х,- хД], а2 = Ме[у,-у} - а ¡{х-л;,)]/ (х;2- Xj )], а0 = Ме(у/ - а - a2x¡2); (1)

Mt\y¡-yj - a2(s\xr-xf)y (X¡-Xj)], a2(*l)= Mt\y¡ -yj - añx,-xj)]/ (xr~ x/)], ао^М^-аП-аП2),

где Me - статистическая оценка медианы по парам точек выборки: i,j— I,...,« (/ пе равно у); s - номер итерации по методу Зейделя. Для сходимости часто требуется задание очень точного начального приближения. Требуемое количество итераций часто является непомерным. Авторами предложена эффективная вычислительная процедура решения системы медианных уравнений. Перепишем первое уравнение системы в виде:

a i = Ме[(у, -y¡)/(Xj-Xj) - a2(xj + х,)].

Учтем, что корреляция двух слагаемых под знаком медианы относительно мала. Уравнение запишем в виде:

а, = Ме[(у,-yj)/(xi-Xj)] - a2Ms[x¡ + Xj] + г,

где невязка

г = Me[(Vi —yj)/(x¡-xj) - a2(x¡+ x_,)J - Me[(y; -yj^fy-Xj) + + a2(x/ + r,-)] (2)

часто, если не как правило, принимает относительно малые значения. Выразим второй коэффициент через первый:

сь = {Ме[(у,-у;У(х1-х$ - ax + r }! Ме[х,-+ х}\, (3)

и далее подставим это выражение в общее уравнение регрессии

y=a¡, + íí|X + съх1 у=щ + й]Х + х2{Ме[(у, - yj)Hx¡-х,)] - a¡ + г }/ Ме[х, + ху],

откуда

,Vi(x) = у(х)-х2{Ме[(у, -у])!{х,-х;)] + г}/ Ме[х, + х ,], ^¡(х) =0(i+ oi(x-x /Ме[х,-+х,]) = <7о + ÍÍ|X|,

откуда находим медианную оценку:

(4)

T-Comm Vol.13. #2-2019

У

Сисгсма (I Н4) решается методом "Фидели и следующем порядке: построение вариационного ряда, вычисление Мф-, + .т выборочных значений Далее - вычисление Ме|(у,—- т и в цикле итерационного метода Зейделя находите^ поправка г. значения Х| „ г,,, с оо I вс тс I ве н но (4) значение щ, согласно \ I} значение Со, и значении иъ I! соответствии с (3).

Пример 2. Построить робастную нелинейную регрессию: у - Ни * + а^г по данным статистической выборки нз 10-100 точек, равномерно распределенных на интервале (0,|}г Точное решение уравнение параболы у 1 I + + лг. Выборочные значения функции .1 получались суммированием точных значений с равномерно распределенным шумом с амплитудой 0,5. Примерно йодном из 10 случаев моделировался Выброс, равный 5.

Результаты вычислений:

СХОДИМОСТЬ достигалась асето за 1-2 КТСрЕИШИ, Коэффн-циенты регрессии вычислялись с точностью от 2Ш% до 7% (рис, 2).

С к 0 МГС2 МГС2 МТС2 МТС2 МТС2

5 и.50 к_| * 0 50 к 2 - С 50 V» - 0 4? VI 11 0= 0.&7 к 1 = 1.22 к 2- 1 М г = к~0 ■ 0.97 ¡Г 1 = 1 21 к~2 - 1.05 г = к~0 - О 97 к= 1 20 к 2« 1 05 г = кГЬй 0 97 к 1 ~ 1 20 к 2 = 1 05 г~ к 0= 0 97 к 1 = 1 20 к 2= 1 05 г =

ММС кО = 1 74 к! = -0 4Э05182082&6Ш к2 =

001 0 00 000 0 00 0 00 2 5&

Рис. 2. Вычисление коэффициент» нелинейной регрссеин

Па рисунке МТС2 обозначает нелинейный варнаш метода Тсйда-Сена, - метод наименьших квадратов,

выборуа нз 100 точек, выбросы через 10 точек н равны 5, Выполнено пять итераций, Точность МТС2 много выше, чем \l\tv. 11а рисунке 3 точки н черная ЛИНИЯ 1то ныборочные значения и точное решение« сипни линия - робастный 11е. I иней и ми вариант метола Тейла-Ссна (высокая точность), красная линия - метод наименьших квадратов (гочносм. невысока«).

I

1 о

03 0.6

04 0.2

О 02 04 00 09 10

1*1(0. 3, Крядане нелинейна!) регрессии

Л. РобаствыЙ метод коррелированной ныПорки

Для сокращения времени на получение статистических оценок вероятностных характеристик с заданной точностью предлолййо много методов; метол расслоенной выборки, метод существенной выборки, метод коррелированной выборки, метод выборки с «оценкой но отношению», метод

случайных квадратурных формул, метод выделения главной части {5-7}. И основном повышение эффективности н этик методах достигается ¡а счет понижения диспсрснн ешнетн-ческой оценки, и методе расслоенной выборки повышение точности оценки достигается ¡а счё| выбора нянбо.тъшет числа случайных величин из гех областей пространства значений случайных величии, где результаты моделирования имеют наибольший р&брос. I [рн реализации расслоенной выборки пространство значении случайных величин разбивается ил несколько непарно непересекающихся подмножеств (слоев) и из каждого слоя берется простая случайная выборка фиксированной) объема. Использование специального вн.та функции для вычисления вероятностной характеристики ц[>-чволнет гарантировать несмещенность ее оценки, а объемы выборок в слоях определяются так, чтобы обеспечить дисперсию оценки, меньшую, чем [три простой случайной Выбор КС.

Меюд существенной амборкн По идее блиюк к метилу расслоенной цыборки, НО здесь выбор ТОЧСК раулнруетея Не задвинем числа гочек в областях, а специальной функцией плотное I и вероятностей.

Одним из универсальных подходов к уменьшению дисперсии оценок является метод случайных квадратурных формул, представляющим собой обобщение обычною метода Мон ге-Карло.

выборка с «оценкой но отношению» гак же, как и корреляционная выборка, требует для своей реализации функцию, хорошо аппроксимирующую оператор исходной модели с известными значениями вероятностных характеристик.

Эффективность ряда вариантов метода расслоенной выборки также существенно зависит от «близости» упрощенной и исходной модели исследуемого процесса

Таким образом, 1схколотя наиболее употребительных методов ускорения статистического моделирования предполагает построение некоторой упрошен ной модели, аппроксимирующей оператор решаемой задачи. Естественно, данное обстоятельство требует учета множества особенностей, с которыми приходится иметь дело при решении задач нз конкретных предметных об лас гей.

Рассмотрим технологию метода коррелированных процессов применительно к задачам статистического моделирования с приближённо заданными или случайными параметрами.

3.1. Описание метода кедре, шроншшой выборки

Обозначим через Л искомый ч-мерный вектор вероятностных характеристик исходной системы, а через р т-мерный вектор вероятностных характеристик упрощённой системы (Например, с уменьшенным числом факторов): р=Л/[£), где Л/1-..] - математическое ожидание величины, входящей и скобки; /Г ¡1 .V- л- н ш-мернмй векторы, КОМПОВСЯ-ты которых представляют собой некоторые функции от значений процессов соответственно и исходной и упрощенной системах.

I [рсдположим, что е Исходной и упрощенной системами Проведено и одинаковых условиях N независимых между собой натурных иди компьютерных статисшчсских экспериментов. Статистические значения к* и р* векторов >, и ц, найденные по этим N экспериментам, будут

N I V

/1

N

fie нарушая общности, будем считать, что эксперименты с одинаковыми внешними воздействиями на исходную и упрощенную системы имеют одинаковый номер, т.е. значения Rj и S/ получены при одних и тех же воздействиях.

Предполагается, что точное значение вектора ц вероятностных характеристик упрощенной системы может быть найдено аналитически или каким-либо подходящим приближенным методом, но с высокой точностью (например, при помощи однофакторной модели исходной системы).

Метод коррелированной выборки основан на оптимальной оценке À® вектора л, по значениям векторов X, р и р., для чего отыскивается оценка вероятностных характеристик исходной системы по статистическим значениям вероятностных характеристик исходной и упрощенной системы. Таким образом, при статистическом моделировании используются результаты аналитического упрощенного исследования. Искомая оценка имеет вид [5]

xiQ=x- K^K-^'-v), (6)

где

здесь /_ю и X,' - г'-е компоненты векторов Ха и X' соответственно; R,j- /-я компонента вектора Rj.

Разность равна статистической ошибке в определении вектора р, которую удается найти благодаря знанию точного или практически точного значения р этого вектора.

Величина ц* —ц| представляет собой значение

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ошибки, пересчитанное для величины X* с учетом корреляционной связи А./ и р*. Для получения оценки Хю это пересчитанное значение ошибки вычитается из статистического значения Xвеличины X,. В результате оценка Х,-п получается более точной, чем статистическое значение X, .

Оценка каждой из компонент вектора X может быть произведена независимо от оценки других компонент.

Для практического использования формулы (6) необходимо знать корреляционные матрицу-строку KRiS и матрицу Къ-

Так как упрощенная система может исследоваться аналитическим или во многих случаях экономичным приближенным методом (по крайней мере для определения вектора р), то в принципе возможно экономичное вычисление аналитическим или приближенным методом и с высокой точностью значения корреляционной матрицы Однако в некоторых случаях определение Ks$ может оказаться затруднительным. При этом вместо Kss можно найти ее статистическое значение К ss, вычисленное по тем же N экспериментам, по которым были найдены X и р*, т.е. по формуле

Исходная система не поддается аналитическому исследованию, поэтому вместо корреляционной матрицы-строки Кms можно найти только ее статистическое значение К RiS

1 n / т согласно формуле K*RjS = —У Ry ('S - -р) .

Если число испытаний N относительно невелико, то предпочтительней несмещенные оценки:

Важной проблемой является построение приближенной модели. Как правило, это достигается посредством линеаризации или уменьшения детальности, числа факторов и т.п. исходной модели. Существенным преимуществом метода является следующее обстоятельство. Даже если приближенная модель весьма неточна, точность статистического метола будет не хуже, чем при применении обычного статистического метода обработки. Для повышения точности расчета необходимо, чтобы существовала корреляция между оцениваемыми параметрами исходной и приближенной модели, В качестве основного недостатка метода в [6] отмечается существование систематической ошибки при статистической оценке параметров.

3.2. Робастное оценивание и методе коррелированной

выборки

Для построения робастпого аналога рассматриваемого метода можно использовать один из существующих подходов: применение медианных оценок вместо выборочных средних, М-оценки, сглаживание или очистка исходных данных от выбросов и других посторонних составляющих, усеченное среднее.

В диссертационном исследовании проводились исследования в основном всех перечисленных подходов. Установлено, что проблемы использования медианного метода и М-оценок могут быть связаны с несимметричностью или многом одаль ноет ыо распределений случайных величин. Наиболее устойчивые результаты были получены на основе применения метода усеченного среднего (Truncated mean). Для его вычисления усредняются данные вариационного ряда выборки после удаления с обеих сторон определенной доли объектов (она находится в пределах от 5 до 25% и определяется соответственно числу выбросов в выборке).

Усовершенствованный подход заключался в следующем. Выборка с выбросами преобразовывалась в вариационный ряд. В результате значения с выбросами оказывались в начале и в конце вариационного ряда. В соответствии с долей выбросов рассматриваемые хвосты вариационного ряда усекались. Далее отброшенные выборочные значения заменялись па значения, полученные в результате простого интерполирования по ближайшим регулярным значениям вариационного ряда. Получившаяся выборка обрабатывалась в соответствии с методом коррелированной выборки. Эффект имел место благодаря практической изолированности точек с выбросами от регулярной части выборки.

3.3. Сравнение эффективности метода выделения

главной части и метода коррелированной выборки при

вычислении интегралов

Предположим, что требуется вычислить интеграл J= ¡4>(u)du.

п

Известны функция *Fj(m) = ^(w) и значение интеграла

а

Пусть 4 - некоторая случайная величина (скалярная или векторная). равномерно распределенная в области интегрирования Г>, объем которой без ограничения общности положим равным единице. 11 этом случае

Кх-тъКв'фШЯъЩ.

Оценка значения интеграла в методе коррелированной выборки осуществляется по формулам (5) - (6). В случае обычного метода Мойке-Карло У~л°. При использовании широкоупотребительного метода выделения главной части (называемого также методом управляемой переменной |7|) значение интеграла оценивается по формуле У-?.*- (р.* -р).

В качестве численного примера рассмотрим случай, когда

0=|[0,1], = + оГ ,Ч'| (») = ». Результаты вычислении представлены в табл. I (при е - 0,5) и табл. 2 (при е = 0,1).

Таблица I

N 5,% St gí

50 0,65 80 20

200 0,3 80 30

800 0,16 ! 00 20

N 5,% Si

50 0,16 200 25

200 0,08 300 30

800 0,04 300 25

Таблица 2

Truncated mean with

1000 <jw = 100 рэп =

1 Kss=0 09 № 1.02

Kss= 0.0В №100

Kss=0 06 №0 99

Kss= 0 08 № 0 95

Kss= Q.0B kO- M

Kss=0.08 №=tffl

Kï8= G os

Ksi=OOB №0%

Kss= 0 08 k0= С M

Kss=0 09 k0= 1 05

Ks s- n os № 0 99

Kss=0CB k0= 1 00 Kss= 0.09 № 1.04

Kss= 0 08 №0 99

Kss= 0 OS №100

Kss=0 08 №101

Kss=0G8 №100

Kss- 0 08 №0 98

Kss= 0.08 №0 97

Ksí=0 09 №103

Kss= 0 08 №0 98

Kss= 0 09 ltO= 1 M

Kss= 0.08 №0 98

«55= 0 09 №103

Kss=008 №099

i:!rpo .Тог

0 10 Л = 0.83 J1 Krs= 018 И= Ш Krs= 0 16 1t1= 0 99 Krs= 0 18 tí» 1 06 Krs= 0 15 1(1= 0 83 Krs= 0.18 1(1= 0.95 Kre= 0 16 k1= 0 97 Kr?= 0 17 1(1=101 Kis= 0 17 1(1= 1 02 Krs= 0.15 1(1=0 93 K(5= 0 16 k1= 0 94

Kn>=0 16 ki=o.%

Krs=0i6 ki=0 95 Krs= 0 17 k1= 1 03 Krs= 0.17 И= 1.14 Kis— 0.16 kl- 0.9B Krs=017 k1= 101 Kre=0 18 k1= 105 Krs= 0 15 1(1=0 93 Kis=0 17 k1=1.02 Kis=017 kl- 101 Kr5= 0 16 k1= 0 96 Krs= 0 10 k1= 107 Krs= 0 16 k1= 0.96 Kre= 0 16 k1= 1 10 Krs= 0 16 k1= 0 95

= 050 »=0.55 »= 0.50 v= 0 51 »=0 49 »=0 50 »= 0 49 »-0.50 »=0 51 »= 0 50 v= 0.48 v— 0.50 v= 0.49 v=0 50 v= 0.51 v— 0.50 v= 0 50 v= 0 51 v= 0 49 v= 0 51 v= 0.50 v= 0 50 v= 0 51 v= 0.50 v— 0 51 v= G 49

Mt(y)= 0 83 Mt(y)= 0 80 Mt(y>= 0 «4 Mt(y)= 0 79 Mt(y)= 0 ,B0 Mt(y)= 0 31 Mt(y)= 0 81 Mt(y>= 0 83 Mt(y)= 0 81 M1(y}= 0 77 МВД= 0 80 Ml(y}= 0 79 l№ 0 81 M1[y}= 0.80 Щур 0.82 W(y)= 0 02 МВД- 0 83 Ml(y}= 0 81 MI (y 1= 0 64 Mt{y}= 0 79 Mi (y }= 0 62 Mt(y)= 0 83 Mi(yj= o.ao

M1(y)= 0 85 M1(y}= 0 60

Lü= 0.62 № 0 60 L0= 0.81 LO= 0 81 LO= 0 81 № 0 82 № 0.61 1.0=0 81 L0= 0 82 L0= 0.80 10= 0 61 10= 0 80 Ll= M SI L0= 0 78 № 0 63 №0 62 L0= 0 81 L0= 0 83 L0= 0.8! L0= 0 79 10= 0 8¿ L0= 0 B2 L0= 0 81 № 0 82 L0= 0 62

<u¡5= 0 82 <lü>- 0 B1 <L0>= 0 61 <L0>= 0 B1 <u>= o Bi <L0ï=0 B1 <L0>=0 81 <L0" o 01 <UJJ= O BI <LOs= 081 <L0>= 0 81 <L0>= 0.61 <L0>= 0 81 <LO?= 0.81 <LO>- O BI <10>= 0 81 íL0>= 0 81 <L0>= 0 81 <LO>= 0.81 <L0>= 0.61 <L0>= 0 61 <10>= 0 81 <LO>= 0.81 <LO>= 0 81 <L0>=0 81

Рис, 4. Результаты вычислений для робастного метода коррелированной выборки

Обозначения в таблице данных на рис. 4: (М - количество отсекаемых членов вариационного ряда е его начала или с конца; ^ — точное значение интеграла (М И у) - статистическое значение без уточнения, ¿ц- значение с уточнением по методу коррелированной выборки, <Ь <)-> — усреднение по числу повторных вариантов выборок /=1 ..25), Уд - точное Значение интеграла с упрощенной подынтегральной функцией, V - статистическое значение для К„ - дисперсия, К- коварнация, ко, А' - их относительные значения (нормированные 1!а единицу относительно точных теоретических значений, при абсолютно точном вычислении должны равняться единице — только для данных рис. 4).

тьтаты вычислений для другого вида функции 1,Чу(л')=мп(г[а\'), и = 1.. 10) Truncated mMnwTlh interpolation 100 dN = 10 pad = 0 10 Jf = 0 97 Л = 0 64 Kss=010 k0= 1 14 Кгз= 0.08 k1= 0 51 Ksi=0 10 №119 Kra=0 03 k1= 0 20 Ks!=010 kO= 1 17 Kra=002 k1= 0 09 Kss=0 10 №121 Krs=0 06 k1= 0 36

J =

Кэв— 0 10 k0= 1 17 Krs= 0 10 k1= 0 57 Kss=0l1 k0= 1 33 Krs= 0 07 k1= 0 40

<99= 0 00 №110 Kî5= 0 10 kO= 1 15 Kus0.11 № 1 35 Kss= 0.09 k0= 1 03 Kss= 0 OS № 1 07 Kfis= 0.11 №131

Кгв= 0.05 k1= 0.30 кгз=ооа ki= о 4B Kra= 0.07 4ç 1 — 0 40 Kis= 0 10 к1=0Й Kre= 0 08 k1=0 46 Kis= 0.06 k1= 0 34

Kss=010 №120 Kis= 007 k1= 042 Kss= 0 06 №0 96 Kig= 0 12 1(1=0 69

Kss= 0 0B k0= 1 00

Kss= 0.08 №101

Kss= 0.09 №103

Kss- 0 09 № 1 05

Kss= 0.11 №132

Krs= 0.07 k1=0 39

Ki5= 0 03 k1= 0.18

Kre=010 *1= 0 60

Kis= 0 04 k1= 0 25

Kis= 0 07 k1= 0 43

Kss=0 10 №114 Kr&= 0 03 k1=0t7

Kss= 0 09 №112 Ki9= 0 11 k1= 0 68

Kss= 0 09 №105 Krs= 0 04 k1=0 26

Kss= 0 09 №113 Kre= 0.05 k1= 0 33

Kss= 0.09 №103 Kss- 0 09 №111

Kre=011 k1=066 Ki9= 0.11 k1-069

»=0 64 v=0 60 v= 0.59 v=0 61 »=067 »=0 62 v=0 63 v=0 63 v-0.61 »=0 65 v= 0 64 »= 0 64 »=0 63 v= 0 69 »=0 65 »=0 62 »=068 »=0 60 »=0 60 »=060 »=068 »= 0,61 »=0 62 »=0 66 »=0 67

Ml(y)i= 0 97 M1(yH 0 99 Mtfy>= 1 01 Ml(y)= 0 97 Ml(y}= 1 07

M!(y)= 1 00

Ml(y)= 0.97 Ml(yp 0 88 Ml(y)= 0.99 Mt(y|= 0 99 Mt(y)= 0 97 Mt(y)= 1 05 Mt(y)= 1 02 Ml(y)= 1 04 Mt(y(= 1 07 Mt(y)= 1.00 Mt(y)= 1 09 Mt(yH 0.B7 Mt(y)= 0 90 Mt(y)= 0 M Mt(yj= 1 02 Mt(y)= 0 95 Mtíy И 1 01 Mt(y}= 1 01 Mt(y}= 1 01

10= 0 97 L0= 1 00 LO- 1 02 L0= 0 99 № 10» L0= 1 01 №0 98 №0 89 L0= 1 01 LO= 0 99 № 0 97 LO= 1 05 LO= 1 02 LO= 0 96 LO= 1 OS L0= 1 01 LO= 1 04 LO= 0 89 L0= 0 92 LO= 0 95 LO= 0 97 № 0 98 LO= 1 02 L0= 0 95 L0= 0.97

-10=-= <L0>= <L0>= ÍL0>= <L0>= <L0î= <L0>= <L0ï= <L0>=

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

iL0a= <L0> " <L0ï= <L0»= <L0>-<L0'=

<L0s= <L0>= <L0>-

<L0>= <L0'=

0 97

0 99

1 00 1 00 100 1 01 1 00 0 99 0 99 099 099 0 99

0 99 099

1 00 1 00 1 00 099 099 099 099 099 099 099 098

В таблицах обозначено: 8 - относительная погрешность метода коррелированной выборки, и g2 - выигрыш в точности по сравнению с методами Монте-Карло и выделения главной час ти соответственно.

При е = 0.0! выигрыш в точности метода коррелированных процессов по сравнению с методом Монте-Карло равен уже около 2500, при е — 0,001 - около 20 ООО.

Отмеченные закономерности сохраняются и для других более сложных вариантов подынтегральных функций,

3.4. Результаты моделирования на основе робастного метода коррелированной выборки

Рис. 5. Результаты вычислений для робастного метода коррелированной выборки при lK(.v)=s¡n(ju')

Выражаем благодарность профессору Некрасову С.А. за помощь в проведена и исследований по теме статьи.

Выводы

Метод коррелированной выборки в проведенных статистических экспериментах позволил достичь нышрыша в точности в среднем в 10-20 раз. Необходимо принимать во внимание, что из-за случайного фактора подобный выигрыш не гарантируется, примерно в каждом десятом статистическом эксперименте имел место проигрыш в точности. Предложенный авторами статьи робастный вариант позволяет применять метод коррелированной выборки и в случае большого числа выбросов или искаженных выборочных данных.

Литература

1. Хампель Ф.i Ропчетти Э., Рауссеу П.. Шшимь H Робасгностъ в статистике. 11 од ход на основе функций влияния = Robust statistics: the approach based on influence functions. M.: Мир. 1984.

2. Шестопал О.В. Робастные методы получении адекватных статистических моделей И Известия высших учебных заведений. Северо-Кавказский регион. Технические науки. - ЮФУ I Ростов-на-Дону) ISSN: 0321-2653; DOI: 10.17213/0321-2653-2018-1.2018. Хы 1(197). С, IK-23,

3. Robert G. Staudlc: Robust estimation and testing. Wiley, New York 1990. ISIÏN 0-471-85547-2

4. Хьюбср II. Робнстность в статис тке. M.: Мир. 1У84.

5. Пугачев В Н. Комбинированные методы определения вероятностных характерней! к. М.: Сов. радио, 1973. 256 с.

6. Вастьев Д.В., Сабинин О.Ю. Ускоренное статистическое моделирование систем управления. Д.: Энергоатомизаат. Ленишр. отд-ние, 1987. 136 с.

7. Лнхшат И.О.. Емельянов В.Ю.. Ша[нж С.Н. Возможности сокращения трудоемкости статистического моделирования корреляционно- экстремальных систем I/ Информационно-управляющие системы. Вып. 3. 2004. С. 13-20.

ROBUST METHODS OF BUILDING AND IMPROVING MULTIDIMENSIONAL LINEAR AND NONLINEAR REGRESSIONS

Oksana V. Shestopal, State Technical University (Novocherkassk Polytechnic Institute), Novocherkassk, Russia, [email protected] Dmitry N. Chernoivan, South Russian state Polytechnic University (NPI), Novocherkassk, Russia, [email protected] Polina B. Seredina, South-Russian state Polytechnic University (NPI), Novocherkassk, Russia, [email protected]

Abstract

The article deals with the actual problem of constructing a stable regression model based on independent sampling data. The method of constructing robust multiple regression is described in the form accepted for computational mathematics. To a large extent, this approach differs from Huber functions based on the median estimate of the absolute deviation. The article uses one of the proven robust methods of statistics based on the estimated teyl-Sen function, which is usually used to construct a one-dimensional linear regression. The most proven median method based on the Gauss-Seidel iterative method for constructing robust multidimensional linear regression is considered. The problem is the divergence of the Seidel method if the system has no diagonal predominance. To overcome this problem, the authors propose a method of solution based on the relaxation method. An example illustrating the high computational qualities of the method under study in constructing a robust linear regression in space from statistical samples of 10 and 100 points uniformly distributed in a unit square is considered. A generalization of the Teil-Sen method to the case of nonlinear regression, including the most common polynomial regression, is described. The method is formulated as an iterative scheme for the case of robust quadratic regression. The poor convergence of the iterative method in the case of using the median method for finding regression coefficients based on the Gauss-Seidel procedure with the allocation of diagonal elements by analogy with the problem of constructing a linear regression is noted. The system of nonlinear equations is given to the form convenient for iterations. The median rating uses the estimated function Teyla-Sen in a modified form. An example of constructing a robust nonlinear regression from a statistical sample of 10-100 points uniformly distributed over the interval (0.1) is considered. The sample values of the function were obtained by summing the exact values with uniformly distributed noise with a given amplitude. Emissions were modelled in about one in 10 cases. The results of the calculations showed a high rate of convergence and a significant advantage of the proposed method compared to the least squares method.

A new robust analogue of the correlated sampling method is described. The technology of the method of correlated processes in relation to the problems of statistical modeling with approximately given or random parameters is considered. Robust estimation in the method of correlated sampling is considered. Several approaches have been studied: application of median estimates instead of sample averages, M-estimates, smoothing or clearing of input data from emissions and other extraneous components, truncated mean. It is found that the problems of using the median method and M-estimates can be associated with asymmetry or multimodality of distributions of random variables. The most stable results were obtained on the basis of the truncated mean method (Truncated mean). For its calculation, the data of the variation series of the sample are averaged after the removal of a certain proportion of objects from both sides (it is in the range from 5 to 25% and is determined according to the number of emissions in the sample). An improved approach based on the transformation of the sample with emissions into the variational series and cutting off the sample tails with subsequent interpolation is described. It is shown that the method of correlated sampling in the statistical experiments allowed to achieve a gain in accuracy on average 10-20 times. The robust variant proposed by the authors of the article allows to apply the method of correlated sampling in the case of a large number of outliers or distorted sample data.

Keywords: statistics, robust estimators, regression. References

1. Hampel F., Ronchetti E., Rousseau P., Shtael V. (1989). Robustness in statistics. Influence function-based approach = Robust statistics: the approach based on influence functions. Moscow: Mir.

2. Shestopal O.V. (2018). Robust methods of obtaining adequate statistical models. Proceedings of higher educational institutions. North Caucasus region. Technical science. SFU (Rostov-on-don) ISSN: 0321-2653; DOI: 10.17213/0321-2653-2018-1. No. 1 (197), pp. 18-23.

3. Robert G. (1990). Staudte: Robust estimation and testing. Wiley, New York. ISBN 0-471-85547-2

4. Huber P. (1984). Robustness in statistics. Moscow: Mir.

5. Pugachev V.N. (1973). Combined methods of determination of probability characteristics. Moscow: Sov. radio. 256 p.

6. Vasiliev V.V., Sabinin O.Yu. (1987). Accelerated statistical modeling of control systems. Leningrad: Energoatomizdat. Leningr. otd-nie. 136 p.

7. Liholet N. About., Emelyanov V.Yu., Sharov S.N. (2009). The possibility of reducing the complexity of statistical simulation correlation-extreme systems. Information management systems. Vol. 3, pp. 13-20.

Information about authors:

Oksana V. Shestopal, graduate student of the Department of Applied Mathematics of the South-Russian State Technical University (Novocherkassk Polytechnic Institute), Novocherkassk, Russia

Dmitry N. Chernoivan, master, South-Russian state Polytechnic University (Novocherkassk Polytechnic Institute), Novocherkassk, Russia Polina B. Seredina, bachelor's degree, South-Russian state Polytechnic University (Novocherkassk Polytechnic Institute)

Ш

T-Comm Vol.13. #2-2019

i Надоели баннеры? Вы всегда можете отключить рекламу.