Научная статья на тему 'Сравнение статистической и нестатистической оценок параметров эмпирической зависимости'

Сравнение статистической и нестатистической оценок параметров эмпирической зависимости Текст научной статьи по специальности «Математика»

CC BY
179
63
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Оскорбин Николай Михайлович, Жилин Сергей Иванович, Дронов Сергей Вадимович

В работе проведено экспериментальное сравнение метода максимального правдоподобия и метода центра неопределенности в применении к решению задачи оценивания прогнозного значения эмпирической зависимости. Основной результат сравнения состоит в том, что описательная способность нестатистического метода для всех исследованных объектов при равномерно распределенной ошибке оказалась выше, чем при использовании более точных статистических процедур.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Comparison of statistical and nonstatistical estimation of empirical dependency parameters

Experimental comparison of maximum likelihood method and indeterminancy center method for empirical dependency predicted value estimation is performed. It is shown that for all considered objects in the case of evenly distributed error the descriptive properties of nonstatistical method is better than for more precise statistical procedures.

Текст научной работы на тему «Сравнение статистической и нестатистической оценок параметров эмпирической зависимости»

УДК 519.8

Н.М. Оскорбин, С.И. Жилин, С.В. Дронов Сравнение статистической и нестатистической оценок параметров эмпирической зависимости

Введение

Рассматривается проблема оценивания параметров функциональной зависимости у = /(ж) по

экспериментальным данным. Для решения этой задачи наиболее широко применяются статис -тические процедуры. Под статистическими про -цедурами здесь понимаются методы оценивания, явным образом использующие информацию о виде распределения ошибки. Известно, что среди таких процедур лучшую оценку дает метод максимального правдоподобия. В последнее время при решении указанной задачи используются методы интервальной математики. Предметом настоящей работы является задача сравнения описательных способностей эмпирических зависимостей, полученных статистическим и нестатистическим методами. Сравнение производится на основе вычислительного эксперимента. Основной результат сводится к тому, что описательная способность нестатистического метода для всех исследуемых объектов при равномерно распределенной ошибке оказалась выше, чем для более точных статистических процедур, что, по мнению авторов, противоречит принципу «больше информации — точнее оценки».

Постановка задачи и метод исследо-вания

Рассмотрим задачу построения оценок @ ^вектора параметров'^ линейной по параметрам функУ = /(*,/?) т

циональнои зависимости •

по экспе-

{(*<,№) I » = 1,... ,N)

риментальным данным и оценки прогнозного значения этой зависимое-

У

ти^в точке х*. Предполагается, что ошибка 1

Ух ~ ~

измерения величины является случайной величиной, принимающей значения из интервала

[-£,£], т .

сизвестным распределением. 1 аким образом, У' представимо в виде^1

= у ° + є.-.

где

•у® — точное значение функции. Используя ме -тод статистических испытаний, выясним соотношение оценок прогнозных значений, получаемых методом максимального правдоподобия и методом центра неопределенности (МЦН).

Схема статистических испытаний состоит в

У ~ )

следующем. Для заданной функции

формируется^совокупность пар значений I х ■

Причем 1 и N выбираются таким образом, чтобы значения аргумента повторялись в совокупности Е от трех до пяти раз. Далее, в каждом к-м испытании^' — 1......^0 Генерируется совокуп-

ность исходных экспериментальных данных

Я(*> = { y|fc>) | = у?+е?\ * = 1

где

є\к) Є [~£,е]

— случайная величина с задан

ным распределением.

В каждом к-м испытании для сгенерирован-£(*0

ного производится оценивание параметров

функциональной зависимости ^ двумя методами. Оценки, полученные методом максимума правдоподобия и методом центра неопределен-

3{к) Жк)

ности, обозначим соответственно 1 и 2 На основе этих оценок параметров функции вычисляются прогнозные значения функциональных зависимостейв ^ точке

По результатам К испытаний для каждого

dj =

Сравнение значений й[/ позволяет выяснить «качество» прогнозных значений, обеспечиваемое различными методами.

Таким образом, определены все элементы схемы статистических испытаний за исключением вида распределения ошибки. Выбор распределения ошибки сопряжен с некоторыми трудностями методологического характера. Проблема состоит в том, что метод центра неопределенности является нестатистическим по своей сути, и информация о распределении ошибки при использовании этого метода не учитывается. Тем не менее, базовое в данном методе предположение о равнозначности всех элементов множества неопределенности можно реализовать наиболее адекватно, если распределение ошибки положить

с известными параметрами предварительно

/3°

равномерным на отрезке [—е, е]. Однако этот выбор, в свою очередь, создает сложности при построении оценок методом максимального прав -доподобия. Дело в том, что в отличие от традици -онной для этого метода гипотезы о нормальности ошибки при равномерно распределенной ошибке получаемые оценки однозначно не определены. Это обусловлено неединственностью максимума функции правдоподобия в этом случае.

Выход из данной ситуации видится в следующем. Рассмотрим параметрическое семейство функций плотности распределения ошибки Р = {ра(х) 1а е [0, атах]} такое, что р„(х) — плотность, доставляющая единственный максимум функции правдоподобия, ратах(х) — совпадающая с плотностью равномерного распределения на отрезке [—е,е], а остальные элементы этого семейства имеют некоторый промежуточный вид в зависимости от значения параметра а. Вычислительный эксперимент по изложенной схеме с равномерно распределенной ошибкой заменяется серией из М экспериментов, в каждом из которых распределение ошибки имеет плотность Раго(#), ГДе Qfm = "jrfCXrnaxi ТП — 0, . .

. , М. Тогда, проследив тенденцию изменения соотношения прогнозных значений, полученных двумя методами, по мере приближения распределения ошибки к равномерному, можно

вывод об их соотношении и в «предельном» случае, т.е. при равномерном распределении ошибки.

Предлагается рассмотреть три варианта се -мейства Р с плотностями

где а Є [0, є];

Й(*)=| 1РІ5+ЇГ. -а < г < а

где аг є [О, ¿-];

где а € [0,£].

При £ — 1 графики функций рРа{х), ] = 1,2,3 для граничных и двух внутренних значений параметра а приведены на рисунках 1-3.

1 .1

Г

(

а б

Рис. 3. Графики функции плотности

1 ( 1 -]

Ро(я) при а = 0 (а), а = 1/3 {б), а = 2/3 (в), о = 1 (г)

Метод получения статистических оценок

Построение статистических оценок проводится с использованием метода максимального прав-

в

ДОПОДОбИЯ [1], КОТОРЫЙ В КаЧеСТГ ^ЦеНКИ ДЛЯ'

рекомендует принять статистику ‘ ' определяемую соотношением

где В — множество всех значений /?; —

функция правдоподобия. Для заданной совокупности наблюдений Е и известной плотности распределения ошибки р(х) функция правдоподобия задается формулой

Поиск максимума функции правдоподобия осуществляется методом полного перебора значений функции на регулярной сетке с заданным шагом яр. Выбор столь сложного в вычислительном смысле метода обусловлен тем, что традиционный способ, основанный на решении уравнений правдоподобия, не работоспособен в случае неединственности максимума. Метод полного перебора способен обнаружить все точки максимума с заданной точностью, однако вопрос выбора из нескольких обнаруженных точек единственного значения в этом случае все равно остается открытым. Один из вариантов решения этой проблемы состоит в регуляризации задачи поиска максимума функции правдоподобия. С этой целью предлагается к максимизируемой функции добавить

стабилизирующее слагаемое видг1 - /?0)2. где < О

постоянный

весовой коэффициент;, 3— известные значения оцениваемых параметров. В этом случае не вносится дополнительных искажений в задачу сравнения двух методов.

Метод получения нестатистических оце нок

Используемый метод построения нестатистических оценок носит название метода центра неопределенности [2]. Метод разработан в рамка; подхода, предложенного Л.Б. Канторовичем [3],и использует возможности математического про -граммирования для записи условий обработки экспериментальных данных с учетом всех соотношений между значениями наблюдаемых переменных.

Пусть В — множество всех значений /?, удовлетворяющих системе двусторонних неравенств

Основным принципом обработки наблюдении в данном методе является равнозначность всех элементов множества В, что подчеркиваете) термином, используемым для этого множества. — «множество неопределенности значений /3», Пустота множества неопределенности означаех наличие противоречий в совокупности исходных экспериментальных данных Е. Отдельные точки множества В, в частности, каким-либо образом задаваемый «центр неопределенности», могут выступать в виде характеристик части или всего множества, удобных для анализа или практического использования.

Способ выбора центра неопределенности, примененный в настоящей работе, состоит в следующем. Множество неопределенности подвергается сжатию путем пошагового уменьшен™ ошибки е до тех пор, пока множество остаета непустым. Процесс уменьшения ошибки можех

представлять собой, напрг * _ I дихото

■ ^3 — 2

мии, т.е. на каждом7-м шаге где

] = 1,2... и е0 = е. Непустота множества

В} = {Р I У\~£) < /(ж,-,/9) < Уi+£j, г = 1,... ,я]

на каждом шаге процесса сжатия может бьть проверена методами математического программирования. В качестве центра исходного множества неопределенности выбирается геометри

ческий центр множества Bj0, где jo такое, что

Bjo ф 0 и %+1 = 0.

Численные результаты

Описанная схема статистических испытаний была реализована в виде программы на языке C++ (компилятор IBM С Set++ for AIX 4.2) на рабочей станции IBM RS/6000 Model 43Р-140. В качестве исследуемой зависимости рассматривалась функция у = х + 1 с вектором истинных значений параметров= (1,1). Совокупность Е для данной 0

функции., была сформирована путем

пятидесятикратного случайного выбора це -лочисленных значений из интервала [0,10] и вы -числения функции для сгенерированных значений аргумента. Совокупность экспериментальных данных ЕW в к-м испытании строилась

на основе Е добавлением к каждому значению

л у? ,(*) .. .. '

функции погреши С1 — случайной величины из

интервала - . 2І 2І с одной из функций

плотности^1 *1'' І ~ 11 2, 3.

Датчики случайных чисел с заданными плотностями были реализованы на основе следующего известного факта. Случайные числа с произвольной функцией распределения F (x) могут быть построены по последовательности равномерно распределенных случайных чисел ч,‘как , т.е. найдены из уравнения

Г 1}п = Р 1 п. тл

£„ = . и — 1,2,.... Источником

равномерно распределенных псевдослучайных чисел служила стандартная функция т^().

Результаты экспериментов для каждого из

семейств^7?1.^ \] — 1,2,3 при'Ч,і = 0.005, ^ ~ 0.01,

М = 20 и К = 1 0000 приведены в таблице и в виде

Среднеквадратичные отклонения прогнозных и истинных значений, К — 10000

р1 (x) (x) (x)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

т di d-2. d C?2 d d2

0 0.000242 0.000572 0.000241 0.000572 0.000227 0.000596

1 0.000235 0.000576 0.000253 0.000598 0.000238 0.000593

2 0.000242 0.000573 0.000254 0.000594 0.000262 0.000586

3 0.000239 0.000552 0.000269 0.000588 0.000261 0.000576

4 0.000239 0.000568 0.000269 0.000560 0.000273 0.000560

5 0.000241 0.000536 0.000289 0.000548 0.000275 0.000521

6 0.000239 0.000523 0.000296 0.000517 0.000275 0.000475

7 0.000232 0.000514 0.000308 0.000507 0.000283 0.000451

8 0.000232 0.000482 0.000313 0.000473 0.000286 0.000438

9 0.000227 0.000458 0.000313 0.000448 0.000284 0.000397

10 0.000227 0.000437 0.000319 0.000423 0.000268 0.000380

11 0.000213 0.000407 0.000326 0.000389 0.000278 0.000351

12 0.000207 0.000378 0.000320 0.000374 0.000269 0.000304

13 0.000204 0.000349 0.000323 0.000347 0.000251 0.000293

14 0.000185 0.000313 0.000325 0.000312 0.000226 0.000261

15 0.000178 0.000278 0.000333 0.000295 0.000220 0.000257

16 0.000156 0.000247 0.000328 0.000269 0.000197 0.000226

17 0.000144 0.000228 0.000327 0.000254 0.000173 0.000210

18 0.000118 0.000208 0.000318 0.000228 0.000137 0.000209

19 0.000081 0.000191 0.000309 0.000219 0.000095 0.000212

20 0.000000 0.000206 0.000000 0.000212 0.000000 0.000215

0.0006. 0.0005- 1

0.0004.

0.0003.

0.0002- 0.0001-

ппппп \

0 2 4 6 8 10 12 14 16 18 20 т

0 0006-

0.0005.

00004.

0.0003.

00002.

0.0001. 0.0000-

-с/, " ¿2

46

10 12 14 16 18 20 т

Рис. 4. Среднеквадратичные отклонения прогнозных значений от истинных для статистического о (о!',)

, р3а(х) (в), К = 10000 ■

методов при ошибке с плотностями распределения Ра (х) (а), р~„(х) (б) и

Заключение

Анализ результатов проведенного исследования показывает, что при распределениях погрешности, близких к «треугольным», характер поведения ошибки прогноза соответствует известным соотношениям и закономерностям, свойственным использованным методам оценивания.

Действительно, МЦН как нестатистическая про -цедура не учитывает дополнительную информацию, связанную с характером распределения, и, соответственно, имеет большую ошибку прогноза. Кроме того, ошибка прогноза, обеспечиваемая МЦН, снижается по мере приближения рас -пределения погрешности к равномерному. Это объясняется тем, что в такой ситуации становится выполненным базовое для МЦН предположение о равноценности всех элементов множества неопределенности и устойчивость оценок повышается. Одинаковое поведение оценок МЦН для всех семейств распределений служит подтверждением достоверности результатов.

Рассматривая оценки метода максимального правдоподобия, следует отметить, что среднеквадратичное отклонение прогнозного и ис-тинного значений при совпадении распределе

ний с треугольным практически совпадает во всех трех случаях (^2 € [0.000227, 0.000242]). Существенным представляется также заметить, что при распределениях погрешности, удаляющихся от треугольного, эта величина не убывает. Рост погрешности объясняется тем, что по мере приближения к равномерному распределению количество используемой для оценивания информации уменьшается. Дальнейшее нарушение этой тенденции объясняется «притяжением» оценок к истинным значениям искомых коэффициентов уравнения регрессии, вызванным возрастающим весом стабилизирующего слагаемого.

Проведем сравнение МЦН и статистических процедур по точности оценок в предельном случае равномерного распределения. Исходя из выше сказанного и анализируя результаты эксперимента, мы можем предполагать, что ошибка прогноза МЦН будет меньше соответствующих ошибок для статистических процедур. Действительно, среднеквадратичное отклонение ошибки МЦН для равномерного распределения оценена в пределах <12 € [0.000206, 0.000215], что меньше указанной выше величины ^ для статисти-

ческих процедур в случае треугольного распределения. При этом гй возрастает по мере приближения распределения к равномерному. Данный результат, вообще говоря, противоречит известным закономерностям соотношения точности статистических и нестатистических процедур оценивания.

Полученный вывод о том, что нестатистическая процедура при равномерно распределенной ошибке имеет лучшую описательную способность, чем статистическая процедура, выносится авторами в качестве научной гипотезы.

При условии подтверждения высказанной гипотезы практическая значимость полученных результатов состоит в том, что при распределениях ошибок, близких к равномерному, МЦН может оказаться более эффективной процедурой оценивания параметров эмпирических зависимостей, чем статистические процедуры. Проведенные исследования качества описательной способности МЦН и статистических процедур для других распределений (усеченное нормальное, М-образное распределение) также подтверждают данный вывод.

Литература

1.Боровков А.А. Математическая статистика. Новосибирск, 1984.

2.Оскорбин Н.М., Максимов А.В., Жилин С.И. Построение и анализ эмпирических зависи -мостей методом центра неопределенности // Известия Алтайского государственного уни

верситета. 1998. №1.

3. Канторович Л.Б. О некоторых новых подходах к вычислительным методам и обработке наблюдений // Сиб. мат. журнал. 1962. Т. 3. №5.

i Надоели баннеры? Вы всегда можете отключить рекламу.