Научная статья на тему 'ОЦЕНИВАНИЕ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ МЕТОДОМ УСЕЧЕННОГО МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ'

ОЦЕНИВАНИЕ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ МЕТОДОМ УСЕЧЕННОГО МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ Текст научной статьи по специальности «Математика»

CC BY
83
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕГРЕССИОННАЯ МОДЕЛЬ / МЕТОД УСЕЧЕННОГО МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ / МЕТОД УСЕЧЕННЫХ НАИМЕНЬШИХ КВАДРАТОВ / МЕТОД МОНТЕ-КАРЛО / СМЕСЬ РАСПРЕДЕЛЕНИЙ / ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ

Аннотация научной статьи по математике, автор научной работы — Фаддеенков Андрей Владимирович, Хайленко Екатерина Аленксеевна

В работе представлен новый метод оценивания параметров регрессионных уравнений - метод усеченного максимального правдоподобия. Данный метод основан на объединении подходов максимального правдоподобия и метода усеченных наименьших квадратов. Сформулирована задача построения линейной модели регрессионного анализа. Для этой задачи подробно описан алгоритм метода усеченного максимального правдоподобия, на простом примере продемонстрированы основные принципы, послужившие основой алгоритма. Обоснована задача анализа устойчивости оценок регрессионных моделей. Анализ работоспособности предлагаемого авторами алгоритма проведен с использованием методов вычислительных экспериментов. При проведении вычислительных экспериментов моделирование случайных ошибок проводилось методами Монте-Карло. Распределение случайных ошибок моделировалось как смесь двух распределений. В роли базового распределения случайных ошибок рассматривалось нормальное распределение. Оценивание параметров регрессионной модели проводилось с использованием метода наименьших квадратов, метода усеченных наименьших квадратов и метода усеченного максимального правдоподобия. В качестве меры точности использовалась относительная погрешность оценивания параметров регрессионной модели. Были рассмотрены различные варианты засорения: несмещенное засорение с нулевым средним, симметричное и асимметричное засорения. Доля выбросов варьировалась от 2,5 до 20 %. Для каждого из вариантов засорения исходных данных проводилась серия из 100 экспериментов, результаты которых усреднялись. Результаты вычислительных экспериментов показали, что метод усеченного максимального правдоподобия обладает хорошей устойчивостью к различного рода засорениям исходных данных. В большинстве случаев он практически не уступает методу усеченных наименьших квадратов, а в ряде случаев значительно превосходит его по точности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Фаддеенков Андрей Владимирович, Хайленко Екатерина Аленксеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ESTIMATION OF REGRESSION MODEL PARAMETERS BY THE TRIMMED MAXIMUM LIKELIHOOD METHOD

The new method of estimating the parameters of regression equations named a trimmed maximum likelihood method is proposed in this paper. This method is based on combining the maximum likelihood method and the trimmed least squares method. The problem of constructing a linear model of regression analysis is formulated. To do this an algorithm of the trimmed maximum likelihood method is described in detail and the main principles which form the basis of the algorithm are demonstrated on a simple example. The task of robustness analysis of regression model parameter estimates is substantiated. The analysis of the proposed algorithm efficiency is made using computing experiment methods. Simulation of random errors in computing experiments was conducted by Monte-Carlo methods. The distribution of random errors was modeled as a mixture of two distributions. Normal distribution was considered as the base distribution of random errors. The estimation of regression model parameters was conducted using least squares, trimmed least squares and trimmed maximum likelihood methods. A relative error of regression model parameter estimation was used as a precision measure. Such types of contamination, as unbiased with a zero mean, symmetric and asymmetric contaminations were considered. The ratio of outliers varied from 2.5 to 20 percent. A series of 100 experiments whose results were averaged was carried out for each type of original data contaminations. The results of computational experiments have shown that the trimmed maximum likelihood method has good robustness to various types of contaminations of original data. In most cases, it is almost as good as the trimmed least squares method, and in some cases significantly exceeds it in accuracy.

Текст научной работы на тему «ОЦЕНИВАНИЕ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ МЕТОДОМ УСЕЧЕННОГО МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ»

ISSN 1814-1196 Научный вестник НГТУ том 65, № 4, 2016, с. 135-145

http://journals.nstu.ru/vestnik Science Bulletin of the NSTU Vol. 65, No. 4, 2016, pp. 135-145

СОВРЕМЕННЫЕ ИНФОРМАЦИОННЫЕ MODERN INFORMATION

ТЕХНОЛОГИИ TECHNOLOGIES

УДК 519.237.5

Оценивание параметров регрессионных моделей методом усеченного максимального правдоподобия

А.В. ФАДДЕЕНКОВ1, Е.А. ХАЙЛЕНКО2

1 630073, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет, кандидат технических наук, доцент. Е-таИ: /а^ deenkov@corp.nstu.ru

630073, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет, кандидат технических наук. Е-таИ: ха)1епко@ corp.nstu.ru

В работе представлен новый метод оценивания параметров регрессионных уравнений -метод усеченного максимального правдоподобия. Данный метод основан на объединении подходов максимального правдоподобия и метода усеченных наименьших квадратов. Сформулирована задача построения линейной модели регрессионного анализа. Для этой задачи подробно описан алгоритм метода усеченного максимального правдоподобия, на простом примере продемонстрированы основные принципы, послужившие основой алгоритма. Обоснована задача анализа устойчивости оценок регрессионных моделей. Анализ работоспособности предлагаемого авторами алгоритма проведен с использованием методов вычислительных экспериментов. При проведении вычислительных экспериментов моделирование случайных ошибок проводилось методами Монте-Карло. Распределение случайных ошибок моделировалось как смесь двух распределений. В роли базового распределения случайных ошибок рассматривалось нормальное распределение. Оценивание параметров регрессионной модели проводилось с использованием метода наименьших квадратов, метода усеченных наименьших квадратов и метода усеченного максимального правдоподобия. В качестве меры точности использовалась относительная погрешность оценивания параметров регрессионной модели. Были рассмотрены различные варианты засорения: несмещенное засорение с нулевым средним, симметричное и асимметричное засорения. Доля выбросов варьировалась от 2,5 до 20 %. Для каждого из вариантов засорения исходных данных проводилась серия из 100 экспериментов, результаты которых усреднялись. Результаты вычислительных экспериментов показали, что метод усеченного максимального правдоподобия обладает хорошей устойчивостью к различного рода засорениям исходных данных. В большинстве случаев он практически не уступает методу усеченных наименьших квадратов, а в ряде случаев значительно превосходит его по точности.

Ключевые слова: регрессионная модель, устойчивость оценок, метод усеченного максимального правдоподобия, метод усеченных наименьших квадратов, метод Монте-Карло, выбросы, смесь распределений, вычислительный эксперимент

БО1: 10.17212/1814-1196-2016-4-135-145

Статья получена 01 июля 2016 г.

ВВЕДЕНИЕ

Регрессионный анализ является одним из самых распространенных методов статистического анализа данных. При этом практическое применение этого инструмента не требует каких-либо уникальных знаний прикладной статистики и доступно широкому кругу исследователей. В подавляющем большинстве статистических пакетов в том или ином объеме реализованы алгоритмы регрессионного анализа [1-4]. Однако не следует забывать, что качество регрессионных моделей существенно зависит от методов, используемых при оценивании параметров. В последние десятилетия большое внимание уделяется проблеме устойчивости оценок регрессионного анализа [5-14]. В случаях нарушений основных предположений регрессионного анализа или наличия выбросов в исходных данных используются методы оценивания параметров, такие как метод наименьших модулей, знаковый метод, метод усеченных наименьших квадратов (ЬТ8-метод), метод наименьших медиан (ЬМ8-метод) [15-17].

В данной работе представлен новый, разработанный авторами метод оценивания параметров регрессионных уравнений - метод усеченного максимального правдоподобия (МТЬ-метод), основанный на объединении подходов максимального правдоподобия и ЬТ8-метода.

ПОСТАНОВКА ЗАДАЧИ

Рассмотрим регрессионное уравнение вида

у=х е+в,

(1)

М*11)

/т (х 1т )

где X = : •. : - матрица регрессоров, имеющая полный

_ У1( х и1) ■" /т (х пт ) _

столбцовый ранг, т. е. rg(X) = т ; т - количество регрессоров; п - количество испытаний; /(х) = (/1(х),...,/т (х))Т - вектор известных действительных функций; Ху - заданные значения входных факторов в п наблюдениях;

Т т

у = (у 1,...,у п) - вектор отклика; е = (е 1,...,ет) - вектор неизвестных паТ

раметров, подлежащих оцениванию; в = (в 1,...,в п) - вектор ошибок

наблюдений, имеющих одинаковое распределение. Имеют место следующие предположения [15]:

Е(в) = 0; Б(в{) = аг-2, а/ <<х>, 1 = 1,...,п .

(2)

Задача состоит в том, чтобы по имеющимся исходным данным (значениям отклика и входных факторов) как можно точнее оценить вектор неизвестных параметров уравнения регрессии (1).

АЛГОРИМ МЕТОДА УСЕЧЕННОГО МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ

Как известно, на практике фактическое распределение случайных ошибок может существенно отличаться от нормального закона. Рассмотрим случай, когда распределение случайной величины 8 представлено в виде смеси двух нормальных распределений:

^(х) = (1 - V)^ (х, 0, Ст12 ) + vF2 (х, ц, а2 ) , (3)

где х, 0, а^ - функция нормального распределения с математическим ожиданием 0 и дисперсией а1 ; ^2 (х, ц, а2) - функция нормального распределения с математическим ожиданием ц и дисперсией а2; V е [0,1].

На рис. 1, а представлена гистограмма, построенная по выборке из

2

500 случайных величин, соответствующих распределению (3) при а1 = 0.01,

ц = 0.5, а2 = 0.005, V = 0.1. На представленном примере хорошо видно, что распределение является двумодальным и обладает ярко выраженной асимметрией.

Основная идея МТЬ-метода состоит в том, чтобы исключить из исходного набора данных те наблюдения, которые вызывают отклонение распределения от базового нормального. Необходимо сформировать некоторое подмножество исходных данных исходя из информативности каждого наблюдения. Поскольку наблюдения являются независимыми, функция правдоподобия имеет вид

п

т=п Е (8/), /=1

где е (8/) - функция плотности нормального распределения. Тогда логарифм функции правдоподобия

1ПЬ(8) = ¿¿(8/) = £ 1П Е(8/). (4)

/=1 /=1

Суть алгоритма формирования подмножества состоит в следующем: выбирается размер подмножества к, для всех наблюдений вычисляется вклад в функцию правдоподобия ¿(8/). Наблюдения сортируются по убыванию величины ¿(8/), и в подмножество вносятся первые к наблюдений.

Для данного примера возьмем к = 0.9п = 450. На рис. 1, б изображена гистограмма распределения на подмножестве. Как видно, распределение стало унимодальным и симметричным.

Рис. 1. Гистограмма распределения

Предложенный подход лег в основу метода усеченного максимального правдоподобия для устойчивого оценивания параметров регрессионных зависимостей, алгоритм которого состоит в следующем.

1. Из множества всех индексов наблюдений {1,...,п} случайным образом формируется подмножество индексов Н1, содержащее к элементов,

п+ т +1 1 ,

-2-,п , т. е. шт(Н1) = к .

2. Вычисляется МНК-оценка вектора параметров регрессионных зависимостей 91.

3. Устанавливается счетчик к = 0 , выполняется С-шаг до сходимости.

4. Вычисляются остатки г = у -9к~\/(хц)-9к~1/(х^) -...-9т-1 /(х1т), 1 = 1,..., п, и проводится идентификация распределения остатков.

5. Вычисляется вклад каждого наблюдения в функцию правдоподобия

Ц (г ) = 1п g (Г ^ 1 = п .

6. Вклады каждого наблюдения в функцию правдоподобия Ц (г ) сортируются:

Цл(1)(гЛ(1)) - Цж(2)(гЖ(2)) - ... - Ц%(п)(,%(п)) ,

где %(г) - номер наблюдения в исходной выборке; 1 - номер наблюдения в вариационном ряду.

7. Во множество Нк записываются номера первых к наблюдений, соответствующих максимальным вкладам в функцию правдоподобия:

Нк ={(1), л(2),..., л(к)}.

б

а

8. Вычисляется МНК-оценка 9к вектора параметров регрессионной модели по наблюдениям, соответствующим номерам из подмножества Нк .

9. Вычисляется Q = ^ Ь (г).

/=1

Шаги 4-9 повторяются до тех пор, пока не будет достигнута требуемая

точность вычислений 5, т. е.

дк - дк-1

<5.

РЕЗУЛЬТАТЫ ВЫЧИСЛИТЕЛЬНЫХ ЭКСПЕРИМЕНТОВ

Исследование работоспособности предложенного метода проводилось с использованием вычислительных экспериментов. Для тестирования была использована модель

У / =0 1 +0 2 х1/ +0 3 хЦ- +8 /, / = 1,..., п, (5)

где количество регрессоров т = 3, количество наблюдений п = 1000, значе-

Т

ния входных факторов х^ выбирались из отрезка [0, 1], 9ист = (1, 1.5, 2) . Случайные ошибки 8/, / = 1,...,п, моделировались независимыми и одинаково распределенными с функцией распределения вида (3), параметры которого варьировались.

Для каждой комбинации параметров распределения (3) (доли выбросов V, смещения ц и величины дисперсии а2) проводилась серия из 100 вычислительных экспериментов. В каждом эксперименте моделировались исходные данные и проводилось оценивание параметров регрессионной модели с использованием метода усеченного максимального правдоподобия (МТЬ), быстрого метода усеченных наименьших квадратов (БЛ8Т-ЬТ8) [17] и классического метода наименьших квадратов (МНК). Во всех экспериментах размер оценочного подмножества выбирался равным к = (1 - V)п .

В качестве итогового показателя точности оценивания было взято усредненное по 100 экспериментам соотношение

т (ег -0/ )2 ^ = 1——-Г-. (6)

,=1 (ис^

2

)

В первой серии экспериментов рассматривался случай, когда распределение ошибок наблюдений является симметричным, функция распределения (3) имеет вид ^ (х) = (1 -V) N (0, 0.01) + vN (0, 0.005).

В табл. 1 представлены результаты оценивания параметров регрессионной зависимости (5), по которой можно отметить, что наиболее точные результаты показывает МНК, поскольку выбросы являются несмещенными и обладают меньшей, чем основная масса наблюдений, дисперсией и, следовательно, более точными. Методы БЛ8Т-ЬТ8 и МТЬ проигрывают в данном случае в точности, потому что оценивание проводится не по всем наблюдениям, а только по некоторым.

Таблица 1

Точность оценивания параметров регрессионной модели при симметричном

засорении

Метод Доля выбросов, V

0.025 0.05 0.10 0.15 0.20

МНК 1,342Е-03 1,511Е-03 1,323Е-03 1,386Е-03 1,297Е-03

РЛ8Т-ЬТ8 1,805Е-03 2,059Е-03 2,660Е-03 3,097Е-03 2,754Е-03

МТЬ 1,754Е-03 2,063Е-03 2,627Е-03 2,980Е-03 2,715Е-03

Далее рассмотрим два случая: когда засорение имеет нормальное распределение со смещением ц = 0.5 , т. е. выбросы произошли только справа, и когда смещение ц = +0.5, выбросы присутствуют с обеих сторон от итогово-

22 го распределения, дисперсия а2 = 0.005, а1 = 0.01.

Таблица 2

Точность оценивания в зависимости от доли выбросов при а? = 0.01, а? = 0.005 , ц = ±0.5

Метод Доля выбросов, V

0.025 0.05 0.10 0.15 0.20

МНК 1,230Е-03 1,996Е-03 1,628Е-03 2,206Е-03 2,491Е-03

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

РЛ8Т-ЬТ8 2,323Е-03 3,506Е-03 7,176Е-03 1,214Е-02 1,556Е-02

МТЬ 1,270Е-03 1,969Е-03 1,564Е-03 2,334Е-03 2,355Е-03

Таблица 3

Точность оценивания в зависимости от доли выбросов при а? = 0.01, а? = 0.005 , ц = ±0.5

Метод Доля выбросов, V

0.025 0.05 0.10 0.15 0.20

МНК 2,559Е-03 3,239Е-03 7,946Е-03 1,366Е-02 1,929Е-02

РЛ8Т-ЬТ8 1,791Е-03 1,621Е-03 1,840Е-03 2,197Е-03 2,587Е-03

МТЬ 1,815Е-03 1,566Е-03 1,697Е-03 1,959Е-03 3,248Е-03

Как видно из табл. 2 и 3, БЛ8Т-ЬТ8 и МТЬ показали близкие результаты и существенно выигрывают в точности по сравнению с МНК-оценками, что объясняется отклонением от нормального закона итогового распределения ошибок наблюдений и, следовательно, невыполнением необходимых для корректного использования МНК предположений, накладываемых на случайную ошибку.

Далее рассмотрим результаты исследований при фиксированной доле

2 2

выбросов V и дисперсиях С1 = 0.01 и С2 = 0.005. Будем изменять значения математического ожидания засорений от 0 до 1. На рис. 2, а и б представлены результаты вычислительных экспериментов для v = 0.1 и v = 0.15 соответственно. Можно отметить, при увеличении математического ожидания метод МЬТ начинает давать более точные результаты оценивания, чем метод БЛ8Т-ЬТ8, что связано со способом формирования оценочных подмножеств. Также видно, что при малом смещении засоряющего распределения МНК дает более точные результаты оценивания.

—МНК —»-РАЗТЧТЗ -Й-МТ1.

а - для v= 0.1 б - для v= 0.15

Рис. 2. Точность оценивания в зависимости от математического ожидания ц при ст? = 0.01, ст2 = 0.005 .

Рассмотрим случай, когда грубые ошибки наблюдений имеют смещение и достаточно высокое значение дисперсии по сравнению с основной массой наблюдений, ц = 0.3, т. е. выбросы произошли только справа, дисперсия

22

Ст2 = 1, Ст1 = 0.01. В табл. 4 приведены результаты этого исследования.

Таблица 4

Точность оценивания параметров регрессионной модели у

2

при симметричном засорении, СТ2 = 1, ц = 0.3

Метод Доля выбросов, V

0.05 0.1 0.15

МНК 8,055Е-03 1,546Е-02 2,317Е-02

БЛ8Т-ЬТ8 1,301Е-03 1,598Е-03 1,868Е-03

МТЬ 1,304Е-03 1,613Е-03 1,872Е-03

По результатам, приведенным табл. 2, можно отметить, что методы МТЬ и БЛ8Т-ЬТ8 показали устойчивые результаты к появлению в выборке такого рода засорений, МНК показал неустойчивые результаты оценивания в данном случае.

ЗАКЛЮЧЕНИЕ

В данной работе предложен новый алгоритм усеченного максимального правдоподобия. С помощью вычислительных экспериментов показана работоспособность предложенного алгоритма, проведено сравнение точности нахождения оценок параметров регрессионных зависимостей с использованием МНК, алгоритмов метода LTS (FAST-LTS) и MTL.

Результаты вычислительных экспериментов показали, что при унимодальном распределении случайных ошибок и несмещенном засорении с меньшей по сравнению с основной массой наблюдений дисперсией МНК показал более точные результаты оценивания, однако при высоком значении дисперсии засоряющего распределения алгоритмы FAST-LTS и MTL показали более точные результаты.

При не унимодальном распределении случайной ошибки, где выбросы являются смещенными, но обладают меньшей по сравнению с основной массой наблюдений дисперсией, алгоритмы FAST-LTS и MTL показали более устойчивые результаты, чем МНК. Кроме того, стоит отметить, что при высоком значении смещения в распределении выбросов (для исследуемого примера 0.6) наиболее точные результаты показал алгоритм MTL.

СПИСОК ЛИТЕРАТУРЫ

1. Тюрин Ю.Н., МакаровА.А. Статистический анализ данных на компьютере. - М.: Ин-фра-М, 1998. - 528 с.

2. НаследовА.Д. IBM SPSS Statistics 20 и AMOS: профессиональный статистический анализ данных. - СПб.: Питер, 2013. - 416 с.

3. Халафян А.А. Промышленная статистика: контроль качества, анализ процессов, планирование экспериментов в пакете STATISTICA: учебное пособие. - М.: Либроком, 2013. -384 с.

4. DalgaardP. Introductory statistics with R. - 2nd ed. - New York: Springer Science Business Media, 2008. - 363 p.

5.ХьюберП. Робастность в статистике. - М.: Мир, 1984. - 303 с.

6. Тимофеев В.С., Хайленко Е.А. Адаптивное оценивание параметров регрессионных зависимостей при неоднородности случайных ошибок // Доклады Академии наук высшей школы Российской Федерации. - 2014. - № 4 (25). - С. 115-123.

7. ТимофеевВ.С. Адаптивное восстановление регрессионных зависимостей на основе полупараметрической оценки плотности случайной компоненты // Научный вестник НГТУ. -2013. - № 4. - С. 24-30.

8. Тимофеев В.С., Хайленко Е.А. Адаптивное оценивание параметров регрессионных моделей с использованием обобщенного лямбда-распределения // Доклады академии наук высшей школы Российской Федерации. - 2010. - № 2 (15). - С. 25-36.

9. Dovgal S.Yu., Lisitsin D.V. Robust estimation of count response regression models // Applied Methods of Statistical Analysis. Simulations and Statistical Inference, AMSA-2011, Novosibirsk, 2022 September 2011: proceedings of the international workshop. - Novosibirsk: NSTU Publ., 2011. -P. 318-321.

10. ЛисицинД.В., Гаврилов К.В. Об устойчивом оценивании параметров моделей при асимметричном засорении данных // Научный вестник НГТУ. - 2008. - № 1 (30). - С. 33-40.

11. Денисов В.И., Лисицин Д.В. О свойствах оценок параметров регрессионной модели с эллиптическим распределением и мультипликативной ковариационной структурой ошибок // Сибирский журнал индустриальной математики. - 2003. - № 2. - С. 37-45.

12. Денисов В.И., Лисицин Д.В. Методы построения многофакторных моделей по неоднородным, негауссовским, зависимым наблюдениям: монография. - Новосибирск: Изд-во НГТУ, 2008. - 360 с.

13. Устойчивое оценивание нелинейных структурных зависимостей / В.И. Денисов, А.Ю. Тимофеева, Е.А. Хайленко, О.И. Бузмакова // Сибирский журнал индустриальной математики. - 2013. - № 4. - С. 47-60.

14. Денисов В.И., Тимофеев В.С. Устойчивые распределения и оценивание параметров регрессионных зависимостей // Известия Томского политехнического университета. - 2011. -Т. 318, № 2. - С. 10-15.

15. МудровВ.И, КушкоВ.Л. Метод наименьших модулей. - М.: Знание, 1971. - 61 с.

16. Rousseeuw P.J. Least median of squares regression // Journal of the American Statistical Association. - 1984. - N 79. - P. 871-880.

17. Rousseeuw P.J,. Driessen K. van. Computing LTS regression for large data sets. Mimeo / University of Antwerpen, Department of Mathematics and Computer Science. - Antwerpen, Belgium, 1999. - 21 p.

Фаддеенков Андрей Владимирович, кандидат технических наук, доцент кафедры теоретической и прикладной информатики Новосибирского государственного технического университета. Основное направление научных исследований - разработка и исследование методов и алгоритмов анализа многофакторных объектов со структурированной ошибкой. Имеет более 40 публикаций. E-mail: faddeenkov@corp.nstu.ru

Хайленко Екатерина Аленксеевна, кандидат технических наук, доцент кафедры теоретической и прикладной информатики Новосибирского государственного технического университета. Основное направление научных исследований - разработка и исследование методов и алгоритмов оценивания и планирования эксперимента при различных условиях вычислительных экспериментов. Имеет более 20 публикаций. E-mail: xajlen-ko@corp.nstu.ru

Estimation of regression model parameters by the trimmed maximum likelihood method

A.V. FADDEENKOV1, E.A. KHAIENKO2

1 Novosibirsk State Technical University, 20 K. Marx Prospekt, Novosibirsk, 630073, Russian Federation, PhD (Eng.), associate professor. Е-mail: faddeenkov@corp.nstu.ru

Novosibirsk State Technical University, 20 K. Marx Prospekt, Novosibirsk, 630073, Russian Federation, PhD (Eng.), associate professor. Е-mail: xajlenko@corp.nstu.ru

The new method of estimating the parameters of regression equations named a trimmed maximum likelihood method is proposed in this paper. This method is based on combining the maximum likelihood method and the trimmed least squares method. The problem of constructing a linear model of regression analysis is formulated. To do this an algorithm of the trimmed maximum likelihood method is described in detail and the main principles which form the basis of the algorithm are demonstrated on a simple example. The task of robustness analysis of regression model parameter estimates is substantiated. The analysis of the proposed algorithm efficiency is made using computing experiment methods. Simulation of random errors in computing experiments was conducted by Monte-Carlo methods. The distribution of random errors was modeled as a mixture of two distributions. Normal distribution was considered as the base distribution of random errors. The estimation of regression model parameters was conducted using least squares, trimmed least squares and trimmed maximum likelihood methods. A relative error of regression model parameter estimation was used as a precision measure. Such types of contamination, as unbiased with a zero mean, symmetric and asymmetric contaminations were considered. The ratio of outliers varied from 2.5 to 20 percent. A series of 100 experiments whose results were averaged was carried out for each type of original data contami-

*

Received 01 July 2016.

nations. The results of computational experiments have shown that the trimmed maximum likelihood method has good robustness to various types of contaminations of original data. In most cases, it is almost as good as the trimmed least squares method, and in some cases significantly exceeds it in accuracy.

Keywords: regression model, estimate robustness, trimmed maximum likelihood method, trimmed least squares method, Monte-Carlo method, outliers, mixture of distributions, computing experiment

DOI: 10.17212/1814-1196-2016-4-135-145 REFERENCES

1. Tyurin Yu.N, Makarov A.A. Statisticheskii analiz dannykh na komp'yutere [Statistical analysis of the data on the computer]. Moscow, Infra-M Publ., 1998. 528 p.

2. Nasledov A.D. IBM SPSS Statistics 20 i AMOS: professional'nyi statisticheskii analiz dannykh [IBM SPSS Statistics 20 and AMOS: professional statistical analysis]. St. Petersburg, Piter Publ., 2013. 416 p.

3. Khalafyan A.A. Promyshlennaya statistika: kontrol' kachestva, analiz protsessov, plani-rovanie eksperimentov v pakete STATISTICA [Industrial statistics. Quality control, process analysis, design of experiments in the package STATISTICA]. Moscow, Librokom Publ., 2013. 384 p.

4. Dalgaard P. Introductory statistics with R. 2nd ed. New York, Springer Science Business Media, 2008. 363 p.

5. Huber P.J. Robust statistics. New York, Wiley, 1981 (Russ. ed.: Kh'yuber P. Robastnost' v statistike. Moscow, Mir Publ., 1984. 303 p.).

6. Timofeev V.S, Khailenko E.A. Adaptivnoe otsenivanie parametrov regressionnykh zavisi-mostei pri neodnorodnosti sluchainykh oshibok [Adaptive estimation of regression model parameters with error destrebution inhomogeneity]. Doklady Akademii nauk vysshei shkoly Rossiiskoi Federat-sii - Proceedings of the Russian higher school Academy of sciences, 2014, no. 4 (25), pp. 115-123.

7. Timofeev V.S. Adaptivnoe vosstanovlenie regressionnykh zavisimostei na osnove polupar-ametricheskoi otsenki plotnosti sluchainoi komponenty [Adaptive construction of regression models based on semiparametric estimation of disturbance density function]. Nauchnyi vestnik Novosibir-skogo gosudarstvennogo tekhnicheskogo universiteta - Science bulletin of the Novosibirsk state technical university, 2013, no. 4, pp. 24-30.

8. Timofeev V.S., Khailenko E.A. Adaptivnoe otsenivanie parametrov regressionnykh modelei s ispol'zovaniem obobshchennogo lyambda-raspredeleniya [Adaptive estimation of regression models parameters using generalized lambda-distribution]. Doklady Akademii nauk vysshei shkoly Rossiiskoi Federatsii - Proceedings of the Russian higher school Academy of sciences, 2010, no. 2 (15), pp. 25-36.

9. Dovgal S.Yu., Lisitsin D.V. Robust estimation of count response regression models. Applied Methods of Statistical Analysis. Simulations and Statistical Inference, AMSA-2011: proceedings of the international workshop, Novosibirsk, 20-22 September 2011, pp. 318-321.

10. Lisitsin D.V., Gavrilov K.V. Ob ustoichivom otsenivanii parametrov modelei pri asimmet-richnom zasorenii dannykh [On stable estimation of models parameters in presence of asymmetric data contamination]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universite-ta - Science bulletin of the Novosibirsk state technical university, 2008, no. 1 (30), pp. 33-40.

11. Denisov V.I., Lisitsin D.V. O svoistvakh otsenok parametrov regressionnoi modeli s ellip-ticheskim raspredeleniem i mul'tiplikativnoi kovariatsionnoi strukturoi oshibok [About properties of the regression model parameter estimates with elliptic distribution and a multiplicative covariance structure of errors]. Sibirskii zhurnal industrial'noi matematiki - Journal of Applied and Industrial Mathematics, 2003, no. 2, pp. 37-45. (In Russian)

12. Denisov V.I., Lisitsin D.V. Metody postroeniya mnogofaktornykh modelei po neodnorod-nym, negaussovskim, zavisimym nablyudeniyam [Construction methods of multivariate models for heterogeneous, non-Gaussian, dependent observations]. Novosibirsk, NSTU Publ., 2008. 360 p.

13. Denisov V.I., Timofeeva A.Yu., Khailenko E.A., Buzmakova O.I. Ustoichivoe otsenivanie nelineinykh strukturnykh zavisimostei [Sustainable estimation of nonlinear structural dependencies]. Sibirskii zhurnal industrial'noi matematiki - Journal of Applied and Industrial Mathematics, 2013, no. 4, pp. 47-60. (In Russian)

14. Denisov V.I., Timofeev V.S. Ustoichivye raspredeleniya i otsenivanie parametrov regres-sionnykh zavisimostei [Stable distributions and estimation of regression parameters]. Izvestiya Tomskogo politekhnicheskogo universiteta - Bulletin of the Tomsk Polytechnic University, 2011, no. 2, pp. 10-15.

15. Mudrov V.I, Kushko V.L. Metod naimen'shikh modulei [The method of least modules]. Moscow, Znanie Publ., 1971. 61 p.

16. Rousseeuw P.J. Least median of squares regression. Journal of the American Statistical Association, 1984, no. 79, pp. 871-880.

17. Rousseeuw P.J., Driessen K. van. Computing LTS regression for large data sets. Mimeo. Antwerpen, Belgium, University of Antwerpen, Department of Mathematics and Computer Science, 1999. 21 p.

ISSN 1814-1196, http://journals.nstu.ru/vestnik Science Bulletin of the NSTU Vol. 64, No 3, 2016, pp. 135-145

i Надоели баннеры? Вы всегда можете отключить рекламу.