Научная статья на тему 'ОЦЕНИВАНИЕ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ С ИСПОЛЬЗОВАНИЕМ МОМЕНТОВ, ВОССТАНОВЛЕННЫХ НА ОСНОВЕ ХАРАКТЕРИСТИЧЕСКОЙ ФУНКЦИИ'

ОЦЕНИВАНИЕ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ С ИСПОЛЬЗОВАНИЕМ МОМЕНТОВ, ВОССТАНОВЛЕННЫХ НА ОСНОВЕ ХАРАКТЕРИСТИЧЕСКОЙ ФУНКЦИИ Текст научной статьи по специальности «Математика»

CC BY
32
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
УРАВНЕНИЕ РЕГРЕССИИ / ОЦЕНИВАНИЕ ПАРАМЕТРОВ / ВЫБРОСЫ / МОМЕНТЫ СЛУЧАЙНОЙ ВЕЛИЧИНЫ / ХАРАКТЕРИСТИЧЕСКАЯ ФУНКЦИЯ / УНИВЕРСАЛЬНЫЕ РАСПРЕДЕЛЕНИЯ / МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ / КРИВЫЕ ПИРСОНА

Аннотация научной статьи по математике, автор научной работы — Тимофеев Владимир Семенович

В данной статье рассмотрена задача адаптивного оценивания параметров регрессионных моделей, решение которой проводится на основе техники максимально правдоподобного оценивания, а также одного из универсальных семейств распределений, а именно кривых Пирсона. Использование универсальных семейств распределений позволяет осуществлять восстановление регрессионных зависимостей, достаточно гибко подстраиваясь как к хорошо известным теоретическим распределениям, так и к очень широкому множеству практически реализуемых распределений. Для повышения устойчивости оценивания неизвестных параметров регрессионных моделей по отношению к грубым ошибкам наблюдения предложено осуществлять идентификацию кривых Пирсона на основе оценок моментов, вычисленных через эмпирическую характеристическую функцию. Представлена вычислительная схема нового алгоритма адаптивного оценивания неизвестных параметров регрессионных моделей. С помощью технологии статистического моделирования проведен ряд вычислительных экспериментов, направленных на исследование точности оценивания неизвестных параметров регрессионных моделей при различных условиях засорения исходных данных, а также разных объемах выборки. Показано, что при малом уровне засорения исходных данных грубыми ошибками наблюдений точность оценивания неизвестных параметров регрессионных моделей предложенным алгоритмом существенно повышается по сравнению с разработанным ранее алгоритмом, основанным на классических оценках моментов. С повышением объема выборки преимущество становилось более ощутимым. Кроме того, проведено сравнение точности оценивания неизвестных параметров регрессионных моделей представленным алгоритмом с одним из методов устойчивого оценивания, в качестве которого взят знаковый метод. По результатам всех проведенных исследований сделан ряд достаточно интересных выводов и даны рекомендации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Тимофеев Владимир Семенович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ESTIMATION OF REGRESSION MODEL PARAMETERS USING MOMENTS BASED ON THE CHARACTERISTIC FUNCTION

The problem of adaptive estimation of the parameters of regression models is addressed in the paper. The solution of this problem is based on maximum likelihood estimation techniques and a universal distribution family, namely Pearson's curves. The use of universal distribution families allows building a relationship by flexible adjustment to both well-known theoretical distributions and to a very wide set of practically realizable distributions. To increase the estimation robustness of unknown parameters of regression models with respect to outliers it is proposed to carry Pearson's curves identification based on the estimates of the moments calculated by the empirical characteristic function. The computational scheme of a new algorithm of adaptive estimation of unknown parameters of regression models is presented. Using statistical modeling techniques, a number of computational experiments were designed to study the estimation accuracy of unknown parameters of regression models under different conditions of output variable contamination and different sample sizes. It is shown that at a low level of data contamination by outliers, the estimation accuracy of unknown parameters of regression models by using the proposed algorithm significantly increases compared to a previously developed algorithm based on classical moment estimates. With increasing the sample size the advantage becomes more tangible. Also, a comparison of the estimation accuracy of unknown parameters of regression models achieved by the proposed algorithm with one of the robust estimation methods, namely the sign method, is made. Based on the results of all the conducted studies a number of interesting conclusions are made and some recommendations are given.

Текст научной работы на тему «ОЦЕНИВАНИЕ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ С ИСПОЛЬЗОВАНИЕМ МОМЕНТОВ, ВОССТАНОВЛЕННЫХ НА ОСНОВЕ ХАРАКТЕРИСТИЧЕСКОЙ ФУНКЦИИ»

ISSN 1814-1196 Научный вестник НГТУ том 57, № 4, 2014, с. 69-78

http://journals. nstu. ru/vestnik Science Bulletin of the NSTU Vol. 57, No. 4, 2014, pp. 69-78

ОБРАБОТКА ИНФОРМАЦИИ INFORMATION PROCESSING

УДК 519.213:519.23

Оценивание параметров регрессионных моделей

с использованием моментов, восстановленных

*

на основе характеристической функции

ТИМОФЕЕВ В.С.

630073, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет, доктор технических наук, доцент. E-mail: v.timofeev@corp.nstu.ru

В данной статье рассмотрена задача адаптивного оценивания параметров регрессионных моделей, решение которой проводится на основе техники максимально правдоподобного оценивания, а также одного из универсальных семейств распределений, а именно кривых Пирсона. Использование универсальных семейств распределений позволяет осуществлять восстановление регрессионных зависимостей, достаточно гибко подстраиваясь как к хорошо известным теоретическим распределениям, так и к очень широкому множеству практически реализуемых распределений. Для повышения устойчивости оценивания неизвестных параметров регрессионных моделей по отношению к грубым ошибкам наблюдения предложено осуществлять идентификацию кривых Пирсона на основе оценок моментов, вычисленных через эмпирическую характеристическую функцию. Представлена вычислительная схема нового алгоритма адаптивного оценивания неизвестных параметров регрессионных моделей. С помощью технологии статистического моделирования проведен ряд вычислительных экспериментов, направленных на исследование точности оценивания неизвестных параметров регрессионных моделей при различных условиях засорения исходных данных, а также разных объемах выборки. Показано, что при малом уровне засорения исходных данных грубыми ошибками наблюдений точность оценивания неизвестных параметров регрессионных моделей предложенным алгоритмом существенно повышается по сравнению с разработанным ранее алгоритмом, основанным на классических оценках моментов. С повышением объема выборки преимущество становилось более ощутимым. Кроме того, проведено сравнение точности оценивания неизвестных параметров регрессионных моделей представленным алгоритмом с одним из методов устойчивого оценивания, в качестве которого взят знаковый метод. По результатам всех проведенных исследований сделан ряд достаточно интересных выводов и даны рекомендации.

Ключевые слова: уравнение регрессии, оценивание параметров, выбросы, моменты случайной величины, характеристическая функция, универсальные распределения, метод максимального правдоподобия, кривые Пирсона

DOI: 10.17212/1814-1196-2014-4-69-78

ВВЕДЕНИЕ

Опыт решения реальных задач, связанных с построением регрессионных моделей, показывает, что применение классических методов крайне редко позволяет получить статистически корректные выводы и результаты. Основная причина заключается в качестве исходных данных, которые, как правило, не соответствуют теоретическим (идеальным) предположениям, лежащим в основе классических методов [4]. В частности, распределение случайной ошибки в большинстве случаев нельзя считать нормальным. Кроме того, исходные данные могут содержать некоторое количество аномальных значений (выбросов). Формально наличие малого числа выбросов не противоречит упомянутым теоретическим предположениям, но имеет решающее влияние на качество получаемых результатов, оценок и выводов.

* Статья получена 5 августа 2014 г.

Работа выполнена при финансовой поддержке Министерства образования и науки РФ по государственному заданию № 2014/138, проект № 1689.

В связи с этим актуальной является задача создания универсальных алгоритмов построения регрессионных зависимостей, обеспечивающих получение корректных результатов для широкого спектра практически реализуемых ситуаций. На взгляд автора, перспективным является подход, основанный на использовании универсальных распределений, а именно кривых Пирсона, обобщенного лямбда-распределения, устойчивых распределений [3, 11, 13]. В составе этих семейств представлены многие хорошо известные законы распределения, такие как бета-распределение, гамма-распределение, распределение Стьюдента, нормальное распределение и др., что гарантирует автоматический переход к классическим результатам при появлении такой ситуации. Это позволило разработать ряд алгоритмов адаптивного оценивания параметров регрессионных моделей, обеспечивающих получение корректных результатов для большого числа практически реализуемых ситуаций, включая ситуации, характеризующиеся большой или бесконечной дисперсией случайной ошибки.

Однако переход к универсальным семействам распределения системно решает только одну из рассмотренных проблем - проблему отклонения фактически реализуемого распределения от нормального. Оценивание параметров регрессионных моделей предложенными методами в условиях засорения исходных данных единичными выбросами оказывается второстепенной задачей, которая в ряде случаев решается не очень хорошо. В связи с этим автором ставится задача повышения устойчивости оценок, полученных адаптивными методами. В настоящей работе представлено решение данной задачи на примере оценок, основанных на использовании кривых Пирсона. В дальнейшем задача может быть решена и для других универсальных семейств распределений, построение которых основывается на моментах.

1. ПОСТАНОВКА ЗАДАЧИ И ОСНОВНЫЕ ПРЕДПОЛОЖЕНИЯ Рассмотрим регрессионное уравнение вида

у = X 9 + е,

(1)

где X =

/1(. х11)

/ р(х1р)

- матрица значений регрессионных функций, имеющая

_/1( хш) "' / р (хщ)_

т

полный столбцовый ранг, т. е. ^(X) = р, 6 = (6 1,...,6 р) - вектор неизвестных параметров, подлежащих оцениванию; р - количество неизвестных параметров; N - количество проведенных экспериментов; / (х) - известные действительные функции вещественного аргумент

та х; Ху - заданные значения входных факторов в N наблюдениях; у = (у 1,..., у N) - вектор

т

значений отклика; е = (е 1,...,е N) - вектор ошибок наблюдений.

Будем предполагать, что ошибки еi наблюдений являются независимыми одинаково распределенными случайными величинами с унимодальной функцией плотности х), для которых верно, что

Е [ег) = 0, D [ег) =ст2.

Также будем предполагать, что существуют третий (Ц3) и четвертый (ц 4) центральные моменты данных случайных величин. Задача состоит в том, чтобы по имеющимся исходным данным (значениям отклика и всех входных факторов) как можно точнее оценить вектор неизвестных параметров уравнения регрессии (1).

2. КРИВЫЕ ПИРСОНА И ОЦЕНКИ МОМЕНТОВ

Введенное К. Пирсоном еще на рубеже XX века семейство кривых, по всей видимости, следует считать первым универсальным семейством распределений [8]. Оно состоит из 12 основных типов распределений , полностью определяется первыми четырьмя моментами, а функция плотности у (х) является решением следующего дифференциального уравнения:

d х) (х - а)у( х)

2 '

dx Ь0 + Ь^х + Ь2 х

где а, Ьо, ¿1, ¿2 - неизвестные параметры, значения которых определяются на основе первых четырех начальных моментов (т^, т2, т3, т4) изучаемой случайной величины.

В настоящее время данное семейство не очень популярно у исследователей. Одна из причин этого обстоятельства состоит в необходимости использования выборочных моментов высоких порядков (до 4-го порядка включительно). Действительно, вычисление по классическим соотношениям сопряжено с накоплением вычислительных погрешностей. Тем не менее применение кривых Пирсона при построении алгоритма адаптивного оценивания параметров регрессионных моделей [11] позволило автору получить достаточно хорошие результаты [12]. При этом более высокая точность достигалась с использованием несмещенных оценок моментов [7]. Дальнейшее развитие этой идеи позволило автору перейти к построению устойчивых оценок моментов. В качестве инструмента для решения этой задачи выбрана характеристическая функция.

Хорошо известно [6, 10], что характеристическая функция ф(/) некоторой случайной величины £ с плотностью х) определяется следующим образом:

да

ф( Г) = Е[ейх ]={ е,1х у( х) dx , (2)

—ТО

где t е Я , I = V—г - так называемая мнимая единица. Поскольку

= 1, V t е Я ,

то характеристическая функция существует для любой действительной случайной величины. Данная функция содержит всю информацию о распределении случайной величины и обладает целым рядом важных свойств [6, 10]. Непосредственно из определения характеристической функции (2) следует, что

ф(0) = 1, |ф(ф 1, ф(-/)=ф(/) .

На основе имеющейся реализации х^...,хN случайной величины £ можно определить выборочную оценку характеристической функции [14]:

1 ■ 1 Л

ф(t) = — У е11Х] = — У (cos(tXj) +1 sin(/xy■)) . (3)

N N

у ег1х1 = 1

NJ=1 NJ=1

Отметим, что в соответствии с законом больших чисел [1] оценка (3) состоятельна.

* Интересно, что на самом деле типов тринадцать, но последний, тринадцатый, тип - это нормальное распределение, которому К. Пирсон не придавал особого практического значения.

Переход от характеристической функции к функции плотности осуществляется посредством преобразования Фурье [9]:

да

у( x} ) = — J Ф( t) e ~'tXjdt, j = 1,..., N . (4)

Искомая непараметрическая оценка у(x) получается после замены ф(t) в (4) на ее эмпирический аналог (3) и замены интеграла (4) конечной суммой.

Отметим также, что характеристическая функция ф^ (t) случайной величины ^, полученной в результате линейного преобразования ^ = а0 + a-£ ( a0, ai - константы), связана с характеристической функцией ф(t) случайной величины £ :

Фл(t)= eita0ф(a-t) .

Имеет место разложение характеристической функции в ряд по моментам. Если для случайной величины £ существуют начальные моменты mr до v -го порядка включительно, то

они выражаются через ф( t) :

mr = i-rф(r)(0), r = 1,..., v , (5)

где ф(г) (t) - производная характеристической функции порядка г. Тогда имеет место разложение Маклорена [7, 10]:

v ■r

ф(t) = 1+ Х — tr + ^v , (6)

r=1 r !

где Rv - остаточный член. При необходимости можно записать разложение, аналогичное (4), но по центральным моментам [6, 10].

Использование соотношения (5) требует знания производных характеристической функции. При решении реальных задач вычислить характеристическую функцию по (2), как правило, не представляется возможным из-за отсутствия информации о виде распределения рассматриваемых случайных величин. Поэтому было осуществлено численное дифференцирование выборочной характеристической функции. Поскольку (3) есть комплекснозначная функция действительного аргумента, то ее можно записать в виде

ф (() = и (() + ^ (() .

Следовательно, согласно [7] ее производная равна

ф'(/)= и'(/) + ^'(¿). (7)

Далее были использованы стандартные формулы численного дифференцирования [7] отдельно для действительной и мнимой частей характеристической функции. Значение шага

п

дискретизации h выбрано равным —. Приведем выражения для первых четырех производ-

32

ных действительной части, вычисленных при нулевом значении аргумента:

и'(0)= — (и(И)-и(-И)), (8)

2h

и "(0) = -1(и (к) - 2и (0) + и (-к)), (9)

h2

/3) (0) = (и (2к) - 2и (к) + 2и (-к) - и (-2к)), (10)

2к3

и(4) (0) = -4(и (2к) - 4и (к) + 6и (0) - 4и (-к) + и(-2к)). (11)

к4

Производные мнимой части вычислялись аналогичным образом.

Автором проведен ряд вычислительных экспериментов, направленных на исследование точности восстановления моментов в различных условиях засорения. Некоторые из полученных результатов можно найти в [15]. В целом результаты подтвердили возможность проведения устойчивого оценивания моментов случайных величин с помощью характеристической функции. Это позволило использовать данную идею при оценивании неизвестных параметров регрессионных моделей.

3. АЛГОРИТМ ОЦЕНИВАНИЯ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ

Как и ранее [11, 12], при решении задачи оценивания параметров регрессионного уравнения (1) на основе универсальных семейств распределений (в данном случае кривых Пирсона) будет использован метод максимального правдоподобия. Применение в алгоритме устойчивых оценок моментов, основанных на характеристической функции, предположительно повысит устойчивость оценок параметров регрессионных моделей к наличию в исходных данных некоторой доли выбросов. В силу предположений о независимости случайных ошибок и истинности структуры рассматриваемого регрессионного уравнения (1) значения остатков

е{ = у{ - х{ 6 (х1 - ¡-я строка матрицы X из (1)) также будут статистически независимыми случайными величинами с плотностью распределения , 6). Тогда для оценивания параметров уравнения (1) можно воспользоваться методом максимального правдоподобия [4]. Учитывая тот факт, что остатки наблюдаемы, т. е. их значения определяются на основе имеющихся исходных данных, запишем логарифмическую функцию правдоподобия

( N ^ N

I (еь..., eN, 6) = 1п |П^( е, 6)^ =11П (у( е, 6)). (12)

Модифицированный итерационный алгоритм оценивания неизвестных параметров уравнения регрессии состоит в следующем.

Шаг 1. Определение начального приближения (k := 0) вектора неизвестных параметров уравнения (1), в качестве которого можно использовать оценку метода наименьших квадратов, что по сравнению с произвольным начальным приближением позволит сократить число итераций и время вычислений.

Шаг 2. Вычисление остатков регрессионного уравнения.

Шаг 3. Вычисление выборочной характеристической функции (3) и на ее основе оценок моментов (5) с использованием соотношений (7)-(11).

Шаг 4. Определение типа кривой Пирсона и осуществление идентификации распределения выбранного типа по соотношениям из [11].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Шаг 5. Вычисление значения логарифмической функции правдоподобия (12).

Шаг 6. Поиск очередного значения оценки неизвестных параметров 6k+1:

^k+1 = а^ тах I(е1,е2,...,eN,6^ .

Шаг 7. Если

\£+1 А k

<е, то происходит завершение процесса, в противном случае

k := k +1 и переход на шаг 2 (е - заданная погрешность вычисления).

4. РЕЗУЛЬТАТЫ ВЫЧИСЛИТЕЛЬНЫХ ЭКСПЕРИМЕНТОВ

Для исследования предложенного алгоритма оценивания вектора неизвестных параметров 6 уравнения (1) автором проводились многочисленные вычислительные эксперименты. Приведем лишь некоторые из полученных результатов. В качестве исследуемой зависимости рассмотрим следующее уравнение регрессии:

у = 60 +61х + 62 X2 +е, (13)

где количество регрессоров р = 3; значения входных факторов х ^ выбирались из отрезка [-1,1]; истинные значения неизвестных параметров: 6о = 50 , 61 = 25 , 62 = 10 . Случайные ошибки е г моделировались независимыми и одинаково распределенными с функцией распределения вида

F(х) = (1 -X)F 1 (х,ст 1) + XF2 (х,т2,ст 2), (14)

где F г (х, тг, ст г) - функция нормального распределения с математическим ожиданием, равным тг, и дисперсией ст2 ; I = 1,2, X е[0,1] - параметр смеси. Во всех проведенных вычислительных экспериментах т1 = т2 = 0.

Такое представление позволяет моделировать ошибку с различной степенью отклонения от нормального распределения, в том числе появление отдельных, довольно грубых засоряющих наблюдений - «выбросов». Параметр X определяет соответствующие доли наблюдений с

дисперсиями ст2 и ст22 в выборке. Очевидно, что при X = 0 и X = 1 ошибка будет иметь нормальное распределение. В проведенных вычислительных экспериментах полагалось, что ст22 > ст21. Однако при моделировании задавались не сами значения дисперсий ст2 и ст22, а им соответствующие значения уровня шума. Уровень шума введен в [5] и определяется как отношение шум/сигнал в %:

р=-100, с

1 " _

где ст - дисперсия ошибки; с =-У (у ° - у ) - интенсивность сигнала (не зашумленных

п -11=1

измерений у0).

В качестве показателей точности оценивания параметров использовались L 1 нормы отклонений оценок неизвестных параметров от истинных значений

т

6?ст -(

1 Т

Тг=1

6?ст -(

и = - У

т г=1

где Т - число проведенных вычислительных экспериментов.

Для различных комбинаций X и р проводилось по 500 вычислительных экспериментов. Каждый такой эксперимент заключался в моделировании выборки исходных данных в соответствии с моделью (13) и в последующем оценивании параметров этой модели разработанным

алгоритмом, основанным на использовании кривых Пирсона с классическими оценками моментов [11], а также методом наименьших квадратов (МНК) [4]. Кроме того, вычислялись оценки знаковым методом [2], который относится к методам устойчивого оценивания. В качестве итоговых показателей точности оценивания использовались усредненные по 500 проведенным вычислительным экспериментам значения показателей ^ и ^ .

Рассмотрим результаты исследования точности оценивания неизвестных параметров уравнения (13) при разной степени отклонения распределения случайной ошибки от нормального распределения. Для этого изменению подвергался параметр смеси X. При малых значениях X в выборке будет появляться небольшое число выбросов, а при значениях X, близких к 0.5, можно говорить об изменении формы распределения. Было зафиксировано р 1 = 5%, р 2 = 50%, а доля выбросов X изменялась от 0 до 0.5 с шагом 0.02. Результаты оценивания представлены на рис. 1 и 2, причем на рис 1. показано изменение показателя ^ для объема выборки 200 элементов, а на рис. 2 - изменение показателя ^ для объема выборки 500 элементов.

с- о- о- о- о- о- <у о-

Рис. 1. Изменение показателя в зависимости от X (N = 200 )

о- й-' О" й-' о-' й-" й-" О' О"' О--

Рис. 2. Изменение показателя в зависимости от X (N = 500 )

Из рисунков видно, что при малых значениях X, т. е. при наличии в выборке небольшого числа выбросов, алгоритм адаптивного оценивания, основанный на классических оценках моментов, показывает не очень высокую точность, несколько уступая даже МНК. По мере увеличения в исходных данных доли грубых ошибок наблюдения начинает меняться форма фактически реализованного распределения случайной ошибки и алгоритм адаптивного оценивания, основанный на классических оценках моментов, начинает подстраиваться, что сразу приводит к увеличению точности оценивания по сравнению с МНК. Новый алгоритм, основанный на кривых Пирсона и устойчивых оценках моментов, при малых значениях X имеет очень хорошую точность оценивания, явно превосходящую МНК. Интересно, что и знаковый метод также немного уступает новому алгоритму. На больших засорениях ситуация меняется. При объеме выборки 200 элементов начиная с X = 0.42 наблюдается резкое падение точности оценивания параметров регрессионного уравнения новым методом. Дело в том, что устойчивые оценки моментов, как и любые устойчивые методы, сокращают влияние грубых ошибок наблюдения, что в случае с изменением формы распределения приводит к потере некоторой доли полезной информации. Однако уже при объеме выборки 500 элементов падение точности становится не столь резким (рис. 2). Видимо, общий объем информации здесь уже достаточен для уверенной идентификации распределения, и отмеченные потери становятся не столь заметными. Это обстоятельство позволяет рекомендовать представленный в данной работе алгоритм к использованию на выборках с небольшим уровнем засорения выбросами, т. е. в качестве устойчивого метода оценивания. Его преимущество будет состоять не только в хорошей точности оценивания, но и в свойствах оценок, поскольку он основан на методе максимального правдоподобия.

ЗАКЛЮЧЕНИЕ

В работе рассмотрена задача адаптивного оценивания параметров регрессионных зависимостей. Ее решение осуществляется на основе метода максимального правдоподобия с использованием универсальных семейств распределений, а именно кривых Пирсона. Для обеспечения более высокой устойчивости к наличию в исходных данных выбросов предложено использовать устойчивые оценки моментов, вычисление которых проведено на основе характеристической функции. Проведенные посредством вычислительных экспериментов исследования позволяют сделать вывод о возможности применения адаптивных методов к задаче устойчивого оценивания параметров регрессионных моделей. Это обстоятельство дает возможность рассматривать задачи устойчивого и адаптивного оценивания как единую группу задач, решение которых можно проводить с единых позиций.

СПИСОК ЛИТЕРАТУРЫ

1. Гнеденко Б.В. Курс теории вероятностей. - М.: Едиториал УРСС, 2001. - 320 с.

2. Денисов В.И., Тимофеев В.С. Знаковый метод: преимущества, проблемы, алгоритмы // Научный вестник НГТУ. - 2001. - № 1 (10). - С. 21-35.

3. Денисов В.И., Тимофеев В.С. Устойчивые распределения и оценивание параметров регрессионных зависимостей // Известия Томского политехнического университета. - 2011. - Т. 318, № 2. - С. 10-15.

4. Дрейпер Н.Р., Смит Г. Прикладной регрессионный анализ: пер. с англ. - М.: Статистика, 1973. - 392 с.

5. ИвахненкоА.Г., СтепашкоВ.С. Помехоустойчивость моделирования. - Киев: Наукова думка, 1985. - 216 с.

6. КендаллМ.Дж., Стьюарт А. Теория распределений: пер. с англ. - М.: Наука, 1966. - 587 с.

7. Корн Г.А., Корн Т.М. Справочник по математике для научных работников и инженеров: пер. со 2 амер. пере-раб. изд. - М.: Наука, 1984. - 832 с.

8. Митропольский А.К. Техника статистических вычислений. - 2-е изд., перераб. и доп. - М.: Наука, 1971. -

576 с.

9. Оппенгейм А.В., Шафер Р.В. Цифровая обработка сигналов: пер. с англ. - М.: Связь, 1979. - 416 с.

10. Пугачев В.С. Теория вероятностей и математическая статистика. - М.: Наука, 1979. - 496 с.

11. Тимофеев В.С. Оценивание параметров регрессионных зависимостей с использованием кривых Пирсона. Ч. 1 // Научный вестник НГТУ. - 2009. - № 4 (37). - С. 57-66.

12. Тимофеев В.С. Оценивание параметров регрессионных зависимостей с использованием кривых Пирсона. Ч. 2 // Научный вестник НГТУ. - 2010. - № 1 (38). - С. 57-62.

13. Тимофеев В.С., Хайленко Е.А. Адаптивное оценивание параметров регрессионных моделей с использованием обобщенного лямбда-распределения // Доклады Академии наук высшей школы Российской Федерации. - 2010. -№ 2 (15). - С. 25-36.

14. Feuerverger A., Mureika R.A. The empirical characteristic function and its applications // The Annals of Statistics. -1977. - Vol. 5, N 1. - P. 88-97.

15. Timofeev V.S. Characteristic function in estimation of probability distribution moments [Electronic resource] // International Journal of Mathematical, Computational, Physical and Quantum Engineering. - 2014. - Vol. 8, N 8. - P. 10651067. - URL: http://waset.org/Publication/characteristic-function-in-estimation-of-probability-distribution-moments-/9999015 (accessed: 01.08.2014).

Тимофеев Владимир Семенович, доктор технических наук, профессор кафедры программных систем и баз данных Новосибирского государственного технического университета. Основное направление научных исследований - разработка и исследование устойчивых методов и алгоритмов анализа многофакторных объектов, в том числе с использованием непараметрической статистики. Имеет более 80 публикаций, в том числе один учебник. E-mail: v.timofeev@corp.nstu.ru

Estimation of regression model parameters using moments based on the characteristic function

V.S. TIMOFEEV

Novosibirsk State Technical University, 20 K. Marks Prospekt, Novosibirsk, 630073, Russian Federation, D.Sc. (Eng.) associate professor. E-mail: v.timofeev@corp.nstu.ru

The problem of adaptive estimation of the parameters of regression models is addressed in the paper. The solution of this problem is based on maximum likelihood estimation techniques and a universal distribution family, namely Pearson's curves. The use of universal distribution families allows building a relationship by flexible adjustment to both well-known theoretical distributions and to a very wide set of practically realizable distributions. To increase the estimation robustness of unknown parameters of regression models with respect to outliers it is proposed to carry Pearson's curves identification based on the estimates of the moments calculated by the empirical characteristic function. The computational scheme of a new algorithm of adaptive estimation of unknown parameters of regression models is presented. Using statistical modeling techniques, a number of computational experiments were designed to study the estimation accuracy of unknown parameters of regression models under different conditions of output variable contamination and different sample sizes. It is shown that at a low level of data contamination by outliers, the estimation accuracy of unknown parameters of regression models by using the proposed algorithm significantly increases compared to a previously developed algorithm based on classical moment estimates. With increasing the sample size the advantage becomes more tangible. Also, a comparison of the estimation accuracy of unknown parameters of regression models achieved by the proposed algorithm with one of the robust estimation methods, namely the sign method, is made. Based on the results of all the conducted studies a number of interesting conclusions are made and some recommendations are given.

Keywords: regression equation, parameter estimation, outlier, moments of random variable, characteristic function, universal distributions, maximum likelihood method, Pearson's curves

REFERENCES

1. Gnedenko B.V. Kurs teorii veroyatnostei [Course of the theory of probability]. Moscow, Editorial URSS Publ., 2001.

320 p.

2. Denisov V.I., Timofeev V.S. Znakovyi metod: preimushchestva, problemy, algoritmy [Sign methods: advantages, problems, algorithms]. Nauchnyi vestnikNGTU — Science Bulletin of Novosibirsk State Technical University, 2001, no. 1 (10), pp. 21-35.

3. Denisov V.I., Timofeev V.S. Ustoichivye raspredeleniya i otsenivanie parametrov regressionnykh zavisimostei [Stable distributions and parameter estimation of a regression]. Izvestiya Tomskogo politekhnicheskogo universiteta — Bulletin of the Tomsk Polytechnic University, 2011, vol. 318, no. 2, pp. 10-15.

4. Draper N.R., Smith H. Applied regression analysis. New York, John Wiley&Sons, 1966. 407 p. (Russ. ed.: Dreiper N.R., Smit G. Prikladnoi regressionnyi analiz. Moscow, Statistika Publ., 1973. 392 p.).

* Received 5 August 2014.

This research has been supported by the Ministry of Education and Science of the Russian Federation as part of the state task № 2014/138 (project № 1689).

5. Ivakhnenko A.G., Stepashko V.S. Pomekhoustoichivost' modelirovaniya [Noise immunity modeling]. Kiev, Naukova dumka Publ., 1985. 216 p.

6. Kendall M.G., Stuart A. The advanced theory of statistics. Vol. 1. Distribution theory. London, Ch. Griffin & Company, 1960. 590 p. (Russ. ed.: Kendall M.Dzh., St'yuart A. Teoriya raspredelenii. Moscow, Nauka Publ., 1966. 587 p.).

7. Korn G.A., Korn T.M. Mathematical handbook for scientists and engineers: definitions, theorems and formulas for reference and review. 2 nd enl. and rev. ed. New York, McGraw-Hill, 1968. xix, 1130 p. (Russ. ed.: Korn G.A., Korn T.M. Spravochnikpo matematike dlya nauchnykh rabotnikov i inzhenerov. Moscow, Nauka Publ., 1984. 832 p.).

8. Mitropol'skii A.K. Tekhnika statisticheskikh vychislenii [The technique of statistical calculations]. 2nd ed., rev. and add. Moscow, Nauka Publ., 1971. 576 p.

9. Oppenheim A.V., Schafer R.W. Digital Signal Processing. New Jersey, Prentice Hall, 1975, 420 p. (Russ. ed.: Op-pengeim A.V., Shafer R.V. Tsifrovaya obrabotka signalov. Moscow, Svyaz', 1979. 416 p.).

10. Pugachev V.S. Teoriya veroyatnostei i matematicheskaya statistika [Probability theory and mathematical statistics]. Moscow, Nauka Publ., 1979. 496 p.

11. Timofeev V.S. Otsenivanie parametrov regressionnykh zavisimostei s ispol'zovaniem krivykh Pirsona. Ch. 1 [The Pirson's curves in parameter estimation problem for regression model. Pt. 1]. Nauchnyi vestnik NGTU — Science Bulletin of Novosibirsk State Technical University, 2009, no. 4 (37), pp. 57-66.

12. Timofeev V.S. Otsenivanie parametrov regressionnykh zavisimostei s ispol'zovaniem krivykh pirsona. Ch. 2 [The Pirson's curves in parameter estimation problem for regression model. Pt. 2]. Nauchnyi vestnik NGTU — Science Bulletin of Novosibirsk State Technical University, 2010, no. 1 (38), pp. 57-62.

13. Timofeev V.S., Khailenko E.A. Adaptivnoe otsenivanie parametrov regressionnykh modelei s ispol'zovaniem obob-shchennogo lyambda-raspredeleniya [Adaptive estimation of regression models parameters using generalized lambda-distribution]. Doklady Akademii nauk vysshei shkoly Rossiiskoi Federatsii — Proceedings of the Russian higher school Academy of sciences, 2010, no. 2 (15), pp. 25-36.

14. Feuerverger A., Mureika R.A. The empirical characteristic function and its applications. The Annals of Statistics, 1977, vol. 5, no. 1, pp. 88-97.

15. Timofeev V.S. Characteristic function in estimation of probability distribution moments. International Journal of Mathematical, Computational, Physical and Quantum Engineering, 2014, vol. 8, no. 8, pp. 1065-1067. Available at: http://waset.org/Publication/characteristic-function-in-estimation-of-probability-distribution-moments-/9999015 (accessed 01.08.2014).

ISSN 1814-1196, http://journals.nstu.ru/vestnik Science Bulletin of the NSTU Vol. 57, No. 4, 2014, pp. 69-78

i Надоели баннеры? Вы всегда можете отключить рекламу.