Научная статья на тему 'Свойства комбинированной оценки регрессии при конечных объемах выборок'

Свойства комбинированной оценки регрессии при конечных объемах выборок Текст научной статьи по специальности «Математика»

CC BY
235
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКАЯ ОЦЕНКА РЕГРЕССИИ / КОМБИНИРОВАННАЯ ОЦЕНКА / БУТСТРЕП-ОЦЕНКА / СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

Аннотация научной статьи по математике, автор научной работы — Скрипин С. В.

Представлены свойства комбинированной непараметрической оценки регрессии, использующей оценки двух построенных моделей регрессии параметрической и непараметрической. Применение бутареп-метода для комбинированной модели позволяет получать оценки, близкие к оптимальным по критерию минимума среднеквадратического отклонения. Статистическим моделированием показано, что при выборках конечного объема комбинированная оценка предпочтительнее, чем каждая из оценок построенных моделей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROPERTIES OF COMPLEX REGRESSION ESTIMATION AT FINAL SAMPLE VOLUMES

Properties of complex nonparametric regression estimation using estimations of two constructed regression models parametric and nonparametric have been given. Application of bootstrap method for the complex model allows obtaining estimations close to optimal ones by mean square deviation minimum criterion. Statistic simulation showed that at finite samples a complex estimation is more preferable than each of estimations of the constructed models.

Текст научной работы на тему «Свойства комбинированной оценки регрессии при конечных объемах выборок»

УДК 519.24

СВОЙСТВА КОМБИНИРОВАННОЙ ОЦЕНКИ РЕГРЕССИИ ПРИ КОНЕЧНЫХ ОБЪЕМАХ ВЫБОРОК

С.В. Скрипин

Томский государственный университет Томский научный центр СО РАН E-mail: skripin@ef.tsu.ru

Представлены свойства комбинированной непараметрической оценки регрессии, использующей оценки двух построенных моделей регрессии - параметрической и непараметрической. Применение бутстреп-метода для комбинированной модели позволяет получать оценки, близкие к оптимальным по критерию минимума среднеквадратического отклонения. Статистическим моделированием показано, что при выборках конечного объема комбинированная оценка предпочтительнее, чем каждая из оценок построенных моделей.

Ключевые слова:

Непараметрическая оценка регрессии, комбинированная оценка, бутстреп-оценка, статистическое моделирование.

Задача оценки регрессии при конечных объемах выборок широко применяется в технических и компьютерных системах различного назначения и может быть решена с использованием различных моделей, как из класса параметрических так и непараметрических. В условиях малого объема данных возрастают требования к качеству оценок регрессионных моделей. Для повышения качества оценок можно использовать комбинированные модели регрессии различного вида. При отсутствии априорной информации о выборке конечного объема N качество оценок регрессии комбинированных моделей может быть лучше, чем у моделей из класса параметрических или непараметрических, либо получено частное решение для конкретной выборки.

Другой подход для оценки регрессии состоит в получении оценок комбинированных моделей, использующих оценки построенных моделей регрессии и априорную информацию о некоторых функционалах плотности. В настоящее время разработаны различные комбинированные модели регрессии и методы получения комбинированных оценок, в том числе [1-3].

Результаты работы [1] позволяют оперировать множеством построенных моделей из разных классов и рассматривать в виде результатов классы оценок. В данной работе рассмотрен случай реализации комбинированной модели регрессии [1], построенной по оценкам двух моделей - параметрической и непараметрической, с использованием подхода, предложенного в [2]. В этом случае матричные и векторные выражения в формулах преобразуются в скалярные, что позволяет упростить программную реализацию алгоритмов, сократить требования к вычислительным ресурсам и время обработки данных.

Пусть (У1,Х1),...,(У/,Х/) независимые наблюдения случайного вектора (У,Х) с неизвестной плотностью вероятности Дх,у); хей", уеЛ1. Для построения комбинированных оценок выберем две модели регрессии из разных классов: линейную параметрическую /(х;(9)=0о+01ха)+...+0„Х") и непараметрическую ](\)=}уЛУ\\)йу, гдеЛУ\х) - неизвестная условная

плотность вероятности случайной величины Y при фиксированном значении X=x. Комбинированную оценку регрессии представим в виде:

JN (x; 1) = JN (x) -1( JN (x) - J (x; в)). (1)

Здесь 1 - коэффициент, выбираемый согласно требованиям к качеству оценки, /(х;0) - параметрическая оценка регрессии, где в - оценка по методу наименьших квадратов вектора в=(в0,...,вт), /д(х) - непараметрическая оценка регрессии следующего вида

N .т

£ Y П к [(х(j5 - Xj v hN >]

JN (х(1),..., х( т)) = -,

N v > ' ' N т >

£п к [(*(j) - X,(j V hN)]

i=i j=i

где K(u) - заданное ядро (некоторая функция плот-

1

ности вероятности), h(!j) = cj(тт)4+т - параметры

масштаба, а cj - выбираются из условия минимума суммы квадратов регрессионных остатков

ö(Ci,...,Cm) = £[Yi - Jn(X(1),...,Xm))]2 ^ min.

i=i Ci--Cm

Продемонстрируем преимущества комбинированной оценки регрессии вида (1) по сравнению с оценками построенных моделей (параметрической или непараметрической). Рассмотрим два критерия качества оценок регрессии и соответствующие им комбинированные оценки. Выберем в качестве критерия выражение суммы квадратов регрессионных остатков

Qi(1) = £[Y - Jn(X,(1),..., Xjm); 1)]2 ^ min. (2)

,=i 1

Из выражения (2) получим оптимальный коэффициент 1=1o:

N

£ (JN (X®,..., X<m>) - Y)(JN (X®,..., X<m>) - J (X-0),..., X- т);в)) 1» = --N-. (3)

£ (JN (X®,..., x( m)) - J ( X® ,..., X<m); e ))2 i=i

Коэффициент 1o в выражении (3) не зависит от выбора точки хе R", в которой оценивается регрессия. С учетом (3) критерий (2) примет вид

йЯ)- ^ (х )]2 -

1=1

[X (JN (х,.) - у)(JN (х,.) - з (X.; в))]2

_ ,=1_

N '

X (JN (X, ) - 3 (X, ;в ))2

. =1

Добавим внутрь скобок критерия (2) два слагаемых: +/(Х;;в) и -/(Х,;в). В результате, с учетом оптимального коэффициента Я, получим эквивалентный вид критерия (2)

0а (Я) = Х[У -з(X;в)]2 -

,=1

[X (У, - з (X,; в))(JN (X) - з (X- ;в))]2

- ,=1_

N '

X (JN (X,) - J (X, ;в ))2

,=1

Рассмотрим другую комбинированную оценку (1) с выбором коэффициента Я на основе критерия

02(Я) = Е[JN(х;Я)- J(х)]2 ^ шш,

(4)

но непосредственно по исходной выборке, поскольку /(х) - неизвестна. Но можно предложить несколько способов оценки коэффициента ЯДх). Выделив в (5) главную часть и оценив ее по исходной выборке, получим оценку Я0(х) в точке х [2]:

Яо (х) =-

С(х) (1 - NN(АСх))2/ V(х)

V(х) ^ 1 + NH(А1 (х))2 / V(х) Здесь С(х)=&(х)-/(х)й(х),

1

(6)

А1 (х) = А о (х)

Л

1 —

1 + (NN )*(А о (х))2

Н = П # \

]=1

где Е - оператор математического ожидания, /(х) -неизвестная истинная функция регрессии. Из выражения (4) получим оптимальный коэффициент Я(х)=Я0(х), зависящий от выбора точки хе В",

Я ( ) Е(JN (х) - J(х))(JN (х) - J(х;в))

Яо(х) =-^-> (5)

Е (JN (х) - J (х;в ))2

а критерий (4) с учетом (5) примет вид 02 (Яо (х)) = Е[JN (х) - J(х)]2 -

- [Е(JN (х) - J (х))( JN (х) - J(х; в))]2

Е (JN (х) - J (х;в ))2 '

Или, аналогично критерию (2), в эквивалентном виде

02а (Яо (х)) = Е^ (х;в) - J (х)]2 -

- [ Е (J (х) - J (х;в))(JN (х) - J (х;в ))]2

Е (.1N (х) - J (х;в ))2 '

Из представленных выражений для квадратов остатков комбинированной оценки (1) - <21(Я0), <21а(Я0), 02(Яо(х)), 02°(Яо(х)) следует, что они меньше, чем квадраты остатков построенных моделей (первые слагаемые выражений). Следовательно, комбинированная оценка (1) эффективнее оценок построенных моделей (параметрической или непараметрической) как в случае конечного объема выборок N (критерий (2)), так и в асимптотическом случае (критерий (4)). Но проблема заключается в получении действительно оптимальных коэффициентов Я. На качество оценок влияет и объем выборок N (особенно когда он мал), и ошибки измерений, другие шумы в исходных данных. Далее, в отличие от (3) выражение (5) не может быть оцене-

Ао(х) = &(х) - J (х;в) £о(х) &(х), й(х), &(х) имеют вид:

N _т.

ёо(х) = -¿НХПК[(х°° -Х,а))/% >],

,=1 1=1

N т

&(х) = ^НXУ,ПК[(Xа) -Л)/#>],

,=1 1=1

N т

ё 2 (х)=-н X у2 П к[(*а) - X}1 у $>].

,=1 1=1

Оценку коэффициента Я0(х) в выражении (5) можно выполнить и бутстреп-методом [4]. При этом оценку коэффициента можно представить в двух вариантах.

Первый вариант предусматривает получение для каждой бутстреп-выборки оценок регрессии двух моделей - параметрической и непараметрической. Обозначим оценки, получаемые по бутстреп-методу символом звездочка, а по исходной выборке - без звездочки. В соответствии с (5) оценка оптимального коэффициента Я0(х) по бутстреп-вы-боркам примет вид [3]

в *

X (х) - JN (х))0С 1 (х) - Л. х;в)) Я о (х) = 11-в-;-,(7)

X (К, 1 (х) - J (х;в1 ))2

1=1

где В - размер серии сформированных бутстреп-выборок, соответствующих одной исходной выборке, для оценки коэффициента Я*,(х) в точке хеВ".

Второй вариант предусматривает получение для каждой бутстреп-выборки оценок регрессии только одной модели - непараметрической. Тогда оценка оптимального коэффициента Я0(х) по бут-стреп-выборкам будет иметь вид

X (JN у (х) - JN (х))( JN1 (х) - J (х; в))

Я + (х) = 11-в-. (8)

X (JN, 1 (х) - J (х;в ))2

1=1

Оценка (8) позволяет экономить вычислительные ресурсы и избегать проблем с получением оценок параметрической модели регрессии в случае вырожденной матрицы ковариаций у сформированных бутстреп-выборок.

Для сравнения качества оценок регрессии в условиях малых объемов выборок был проведен имитационный эксперимент, а также проверка качества оценок на нескольких выборках реальных статистических данных. Сравнение свойств комбинированных оценок является нетривиальной задачей, поскольку оценки коэффициентов Я в выражениях (3), (6)-(8) получены с использованием разных критериев оптимальности и требуют корректных условий сравнения. Для простоты интерпретации результатов имитационный эксперимент был проведен с одномерной величиной хеЛ1. Поскольку оценки (6)-(8) адаптированы к выбору точки х, вначале были рассмотрены свойства оценок регрессии в фиксированных точках выборки х! (г=1,...,п), выбранных с одинаковым шагом в заданном интервале моделирования. Затем выполнено сравнение свойств оценок со случайным выбором точек X. Для проверки качества комбинированных оценок в различных условиях в эксперименте использованы две функции «истинной» регрессии - линейная Р1(х)=2,0+х и нелинейная Р2(х)=х(10,0-х). Для добавления шумов к переменной отклика выбраны соответственно функции У1(х)=Р1(х)+% и У2(х)=Р2(х)+£, где £ - независимая случайная величина с нормальным законом распределения, нулевым математическим ожиданием и одинаковым значением дисперсии стдля всех точек заданного диапазона.

Для проведения имитационного эксперимента были выбраны следующие условия моделирования:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• для сравнения качества оценок в условиях малых объемов выборки выбран фиксированный объем п=10;

• интервал моделирования величин х1 и X выбран в диапазоне [0,9;9,0];

• шаг между фиксированными точками х1 выбран

0.9;

• случайная величина X выбрана из равномерного закона в диапазоне [0,9;9,0];

• величина дисперсии случайной величины £ равна о=3,0;

• числовые результаты эксперимента были получены по серии исходных выборок количеством К=1000 (с одинаковым объемом наблюдений п в каждой выборке). При этом для каждого наблюдения каждой исходной выборки из серии К формировалась серия В бутстреп-выборок размером В=1000.

Сравнение качества оценок регрессии у шести моделей (/;=/(х;0), /2=/д{х), /3=/д(х;Я0), /^Дх^х)), /5=/д(х;Хе0(х)), /6=/д(х;Х+0(х))) можно проводить по многим критериям. Поскольку преимущества комбинированной оценки регрессии вида (1) для применения к выборочным данным очевидны, ограничимся критериями, вычисляющими близость оценок моделей к истинной регрессии. Укажем критерии, вычисленные для каждой исходной выборки.

1. Средняя квадратичная погрешность прогнозирования в фиксированных точках

Бр(Р(х)) = П£[Рр ^) -- (х )]2, р = 1,6, р = 1,2,

где Рр(х) - истинное значение регрессии вида р в фиксированной точке х, /¡(х) - оценка регрессии по модели ¡ в фиксированной точке х.

2. Средняя квадратичная погрешность прогнозирования в произвольных точках

Бр (Р(X)) = П £ [Рр (X) - - (Х1)]2, р = 16, р = 12,

п 1=1

где Pp(X¡) - истинное значение регрессии вида р в произвольной точке X, /¡(X) - оценка регрессии по модели ¡ в произвольной точке X.

Укажем критерии, вычисленные по серии К исходных выборок.

3. Среднее квадратичных погрешностей прогнозирования по серии К в фиксированных точках

ар (Р(х)) = К £ Бр (Р(х)), р = 16, р = 12. (9)

4 = 1

4. Среднее квадратичных погрешностей прогнозирования по серии К в произвольных точках

ар (Р(Х)) = К £ Бр (Р(Х)), р = 16, р = 12. (10)

4=1

5. Средняя квадратичная погрешность прогнозирования по серии Кв каждой фиксированной точке

ар (Р( х))=К £[ Рр (х) - - (х )]2,

4=1

I = Щ р = 1б, р = 1Д (11)

6. Среднее оценок регрессии по серии выборок Кв каждой фиксированной точке

— (х-) = К £-р (хI), I = м, р= 16, р = 12.

4=1

7. Квадраты отклонений прогнозирования по серии Кв каждой фиксированной точке

1р(х■) = [Рр (х)-—(х )]2, I = й р = 1Л р = 12.

8. Среднее квадратов отклонений прогнозирования по серии Кв фиксированных точках

!р(х) = П£!р(х), Р= 16, р = 12. (12)

п -=1

Приведем результаты эксперимента. Средние квадратичных погрешностей оценок регрессии по критериям (9), (10) и (12) представлены в таблице.

Средние погрешностей оценок регрессии по критериям (11) представлены на рисунке.

По результатам сравнения при указанных условиях моделирования можно сделать следующие выводы. 1. Оценки модели регрессии:

• параметрической / дают наилучший результат среди представленных моделей в случае, когда истинна линейная регрессия. При этом качество оценок комбинированных моделей /5 и /6 почти равно / (рисунок, а). В случае

1=1

нелинейной регрессии оценки параметрической модели наихудшие (рисунок, б);

Таблица. Средние квадратичных погрешностей и квадратов отклонений прогнозирования в точках

Вид истинной регрессии Модели регрессии

Линейная па-раме-трич. J Непа-раме-триче-ская J2 Комбинированная Л Комбинированная J4 Ком-бини-рован-ная J5 Комбинированная

Среднее квадратичных погрешностей прогнозирования в фиксированных точках Qp(P(x))

Линейная P 1,252 2,515 2,318 3,189 1,450 1,437

Нелинейная P2 44,645 6,881 4,924 17,577 18,206 17,247

Среднее квадратичных погрешностей прогнозирования в произвольных точках Qp(P(Х))

Линейная P 1,395 5,315 2,612 4,195 2,057 2,236

Нелинейная P2 44,801 19,524 19,164 20,991 24,267 22,709

Среднее квадратов отклонений прогнозирования в фиксированных точках Ip(x)

Линейная P 0,00064 0,13873 0,07389 0,09404 0,00116 0,05292

Нелинейная P2 43,429 4,618 0,510 14,685 15,711 14,769

Рисунок. Средняя квадратичная погрешность прогнозирования Qlp(P(Xj)) в каждой точке xi для случая регрессии: а) линейной Pь б) нелинейной P2

• непараметрической /2 дают невысокий результат среди представленных моделей в случае истинной линейной регрессии. В случае нелинейной регрессии оценки модели дают второй по качеству результат (рисунок, б);

• комбинированной /3 в случае, когда истинна линейная регрессия, дают результат лучше, чем у непараметрической модели /2 и комбинирован-

ной /4. В случае нелинейной регрессии модель /3 дает наилучшие результаты (рисунок). Это свидетельствует о хороших свойствах модели /3;

• комбинированной модели регрессии /4 в случае истинной нелинейной регрессии дают результат, уступающий лишь оценкам непараметрической модели /2 и комбинированной модели /3 (рисунок, б);

• комбинированной /5 в случае, когда истинна линейная регрессия, дают третий по качеству результат среди представленных моделей, уступая лишь модели и модели /6 (рисунок, а). В случае, когда истинна нелинейная регрессия оценки модели /5 дают удовлетворительный результат (рисунок, б);

• комбинированной /6 дают результат, почти одинаковый с оценками модели /5 по указанным критериям, несколько выигрывая у модели /5. Это справедливо в случаях линейной и нелинейной регрессии (рисунок).

2. Проигрыш оценок комбинированной модели /4 в случае истинной линейной регрессии можно объяснить малым объемом данных исходных выборок п. Применение бутстреп-метода для моделей /5 и /6 требует больших вычислительных затрат, растущих с увеличением N.

3. При переходе к произвольному выбору точек X свойства оценок регрессии у представленных моделей почти не меняются, а величины погрешностей для случаев линейной и нелинейной регрессии - сближаются.

4. При невысоком качестве оценок одной из построенных моделей (параметрической или непараметрической) комбинированная оценка (1) позволяет достигать наилучших результатов в условиях малых объемов выборок.

5. Погрешность оценок регрессии на краях диапазона моделирования (рисунок) у всех представленных моделей регрессии увеличивается (в большей или меньшей степени).

На реальных данных оценки комбинированных моделей регрессии (/3, /4, /5) показали лучшие результаты по сравнению с оценками построенных моделей ^ и /2.

Результаты эксперимента позволяют утверждать, что предложенные комбинированные оценки регрессии /3, /4, /5 и /6 предпочтительнее оценок построенных моделей и /2 при конечных объемах выборок. Получение оценок моделей /3 и /4 требует значительно меньших вычислительных ресурсов по сравнению с оценками моделей /5 и /6.

Представленные комбинированные оценки могут найти широкое применение для получения качественных оценок регрессии в условиях малых объемов выборок и отсутствии априорной информации о данных.

Результаты моделирования, представленные на рисунках и в таблицах, получены с помощью кластера Межрегионального Вычислительного Центра ТГУ СКИФ СуЬепа (skif.tsu.ru). Автор выражает благодарность сотрудникам Центра за оказанную помощь.

СПИСОК ЛИТЕРАТУРЫ

1. Дмитриев Ю.Г. Непараметрическое условное оценивание функционалов плотности распределения // Математическое моделирование и теория вероятностей. - Томск: Изд-во «Пеленг», 1998. - С. 169-177.

2. Скрипин С.В. Комбинированная непараметрическая оценка регрессии // Проблемы компьютерной безопасности и криптография: Докл. IV Сибирской научной школы-семинара с международным участием. - 81Ъеегур1 '05 // Вестник Томского государственного университета. - 2005. - Прил. № 14. -С. 311-313.

3. Скрипин С.В. О свойствах комбинированной оценки регрессии // Проблемы компьютерной безопасности и криптография: Докл. VI Сибирской научной школы-семинара с международным участием. - 81Ъеегур1' 07 // Вестник Томского государственного университета. - 2007. - Прил. № 23. -С. 326-329.

4. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. - М.: Финансы и статистика, 1988. - 261 с.

Поступила 09.06.2008 г.

УДК 504.064(4)

ПРИМЕНЕНИЕ ПРОСТРАНСТВЕННЫХ ХАРАКТЕРИСТИК ПРИ МОДЕЛИРОВАНИИ ИЗМЕНЕНИЙ ЛАНДШАФТНОГО ПОКРОВА С ИСПОЛЬЗОВАНИЕМ КЛЕТОЧНЫХ АВТОМАТОВ

А.В. Замятин

Томский политехнический университет E-mail: zamyatin@tpu.ru

Предложен подход к моделированию изменений ландшафтного покрова с использованием клеточных автоматов и 7-ми пространственных характеристик, наиболее часто встречающихся при решении различных задач геоинформатики, позволяющий повысить адекватность моделирования. Проведен поиск информативности каждой из характеристик в различных размерах скользящего окна. Предложена методика оценки значимости характеристик в различных сочетаниях при определении правил функционирования клеточных автоматов, а также выполнена соответствующая оценка значимости характеристик. Результаты экспериментов получены с использованием типовых разновременных данных растровой геоинформационной системы Idrisi Kilimanjaro.

Ключевые слова:

Моделирование, клеточные автоматы, пространственные характеристики, численные эксперименты, экосистемный мониторинг.

Введение

Моделирование изменений ландшафтного покрова является одним из наиболее перспективных подходов к прогнозированию таких явлений как распространение лесных пожаров, обезлесение, эрозия почвы, изменение границ снежного покрова [1, 2]. Решают задачи моделирования с использованием как детерминированных, так и стохастических моделей [3]. С учетом случайной природы моделируемых процессов ландшафтного покрова и возрастающими возможностями компьютерной техники наиболее перспективными следует считать стохастические модели, учитывающие пространственное взаимодействие элементов с помощью клеточных автоматов (КА).

Одним из ключевых факторов, влияющих на адекватность моделирования с использованием КА, является определение в каждом конкретном случае правил взаимодействия элементов (правил функционирования) КА. В настоящее время все большее распространение получают подходы к использованию пространственных характеристик при решении различных задач геоинформатики [4-6], а предварительные исследования в [7] показывают перспективность использования таких характеристик для определения правил функционирования КА.

При моделировании практическое применение пространственных характеристик, позволяющих более полно учитывать особенности ландшафта, обычно затруднено в связи с их различной информативностью в различных размерах анализируемой окрестности, а также неопределенностью вариантов возможного сочетания характеристик и их необходимого количества в каждом конкретном случае. Так, в [2, 4] использована лишь одна, а в [7] - четыре пространственные характеристики при решении задач моделирования изменений ландшафтного покрова.

Данная работа направлена на повышение эффективности моделирования изменений ландшафтного покрова с использованием увеличенного набора из 7-ми пространственных характеристик, наиболее часто встречающихся при решении различных задач геоинформатики, анализ этих характеристик в варьируемом размере анализируемой окрестности и определение их результативной сочетаемости при совместном применении.

Правила функционирования КА при моделировании

В [7] автором правила функционирования КА в алгоритме моделирования изменений ландшафтного покрова предлагается определять в каждой

i Надоели баннеры? Вы всегда можете отключить рекламу.