Свойства комбинированной оценки регрессии при конечных объемах выборок

Скрипин С.В.

УДК 519.24

СВОЙСТВА КОМБИНИРОВАННОЙ ОЦЕНКИ РЕГРЕССИИ ПРИ КОНЕЧНЫХ ОБЪЕМАХ ВЫБОРОК

С.В. Скрипин

Томский государственный университет Томский научный центр СО РАН E-mail: [email protected]

Представлены свойства комбинированной непараметрической оценки регрессии, использующей оценки двух построенных моделей регрессии - параметрической и непараметрической. Применение бутстреп-метода для комбинированной модели позволяет получать оценки, близкие к оптимальным по критерию минимума среднеквадратического отклонения. Статистическим моделированием показано, что при выборках конечного объема комбинированная оценка предпочтительнее, чем каждая из оценок построенных моделей.

Ключевые слова:

Непараметрическая оценка регрессии, комбинированная оценка, бутстреп-оценка, статистическое моделирование.

Задача оценки регрессии при конечных объемах выборок широко применяется в технических и компьютерных системах различного назначения и может быть решена с использованием различных моделей, как из класса параметрических так и непараметрических. В условиях малого объема данных возрастают требования к качеству оценок регрессионных моделей. Для повышения качества оценок можно использовать комбинированные модели регрессии различного вида. При отсутствии априорной информации о выборке конечного объема N качество оценок регрессии комбинированных моделей может быть лучше, чем у моделей из класса параметрических или непараметрических, либо получено частное решение для конкретной выборки.

Другой подход для оценки регрессии состоит в получении оценок комбинированных моделей, использующих оценки построенных моделей регрессии и априорную информацию о некоторых функционалах плотности. В настоящее время разработаны различные комбинированные модели регрессии и методы получения комбинированных оценок, в том числе [1-3].

Результаты работы [1] позволяют оперировать множеством построенных моделей из разных классов и рассматривать в виде результатов классы оценок. В данной работе рассмотрен случай реализации комбинированной модели регрессии [1], построенной по оценкам двух моделей - параметрической и непараметрической, с использованием подхода, предложенного в [2]. В этом случае матричные и векторные выражения в формулах преобразуются в скалярные, что позволяет упростить программную реализацию алгоритмов, сократить требования к вычислительным ресурсам и время обработки данных.

Пусть (У1,Х1),...,(У/,Х/) независимые наблюдения случайного вектора (У,Х) с неизвестной плотностью вероятности Дх,у); хей", уеЛ1. Для построения комбинированных оценок выберем две модели регрессии из разных классов: линейную параметрическую /(х;(9)=0о+01ха)+...+0„Х") и непараметрическую ](\)=}уЛУ\\)йу, гдеЛУ\х) - неизвестная условная

плотность вероятности случайной величины Y при фиксированном значении X=x. Комбинированную оценку регрессии представим в виде:

JN (x; 1) = JN (x) -1( JN (x) - J (x; в)). (1)

Здесь 1 - коэффициент, выбираемый согласно требованиям к качеству оценки, /(х;0) - параметрическая оценка регрессии, где в - оценка по методу наименьших квадратов вектора в=(в0,...,вт), /д(х) - непараметрическая оценка регрессии следующего вида

N .т

£ Y П к [(х(j5 - Xj v hN >]

JN (х(1),..., х( т)) = -,

N v > ' ' N т >

£п к [(*(j) - X,(j V hN)]

i=i j=i

где K(u) - заданное ядро (некоторая функция плот-

1

ности вероятности), h(!j) = cj(тт)4+т - параметры

масштаба, а cj - выбираются из условия минимума суммы квадратов регрессионных остатков

ö(Ci,...,Cm) = £[Yi - Jn(X(1),...,Xm))]2 ^ min.

i=i Ci--Cm

Продемонстрируем преимущества комбинированной оценки регрессии вида (1) по сравнению с оценками построенных моделей (параметрической или непараметрической). Рассмотрим два критерия качества оценок регрессии и соответствующие им комбинированные оценки. Выберем в качестве критерия выражение суммы квадратов регрессионных остатков

Qi(1) = £[Y - Jn(X,(1),..., Xjm); 1)]2 ^ min. (2)

,=i 1

Из выражения (2) получим оптимальный коэффициент 1=1o:

N

£ (JN (X®,..., X<m>) - Y)(JN (X®,..., X<m>) - J (X-0),..., X- т);в)) 1» = --N-. (3)

£ (JN (X®,..., x( m)) - J ( X® ,..., X<m); e ))2 i=i

Коэффициент 1o в выражении (3) не зависит от выбора точки хе R", в которой оценивается регрессия. С учетом (3) критерий (2) примет вид

йЯ)- ^ (х )]2 -

1=1

[X (JN (х,.) - у)(JN (х,.) - з (X.; в))]2

_ ,=1_

N '

X (JN (X, ) - 3 (X, ;в ))2

. =1

Добавим внутрь скобок критерия (2) два слагаемых: +/(Х;;в) и -/(Х,;в). В результате, с учетом оптимального коэффициента Я, получим эквивалентный вид критерия (2)

0а (Я) = Х[У -з(X;в)]2 -

,=1

[X (У, - з (X,; в))(JN (X) - з (X- ;в))]2

- ,=1_

N '

X (JN (X,) - J (X, ;в ))2

,=1

Рассмотрим другую комбинированную оценку (1) с выбором коэффициента Я на основе критерия

02(Я) = Е[JN(х;Я)- J(х)]2 ^ шш,

(4)

но непосредственно по исходной выборке, поскольку /(х) - неизвестна. Но можно предложить несколько способов оценки коэффициента ЯДх). Выделив в (5) главную часть и оценив ее по исходной выборке, получим оценку Я0(х) в точке х [2]:

Яо (х) =-

С(х) (1 - NN(АСх))2/ V(х)

V(х) ^ 1 + NH(А1 (х))2 / V(х) Здесь С(х)=&(х)-/(х)й(х),

1

(6)

А1 (х) = А о (х)

Л

1 —

1 + (NN )*(А о (х))2

Н = П # \

]=1

где Е - оператор математического ожидания, /(х) -неизвестная истинная функция регрессии. Из выражения (4) получим оптимальный коэффициент Я(х)=Я0(х), зависящий от выбора точки хе В",

Я ( ) Е(JN (х) - J(х))(JN (х) - J(х;в))

Яо(х) =-^-> (5)

Е (JN (х) - J (х;в ))2

а критерий (4) с учетом (5) примет вид 02 (Яо (х)) = Е[JN (х) - J(х)]2 -

- [Е(JN (х) - J (х))( JN (х) - J(х; в))]2

Е (JN (х) - J (х;в ))2 '

Или, аналогично критерию (2), в эквивалентном виде

02а (Яо (х)) = Е^ (х;в) - J (х)]2 -

- [ Е (J (х) - J (х;в))(JN (х) - J (х;в ))]2

Е (.1N (х) - J (х;в ))2 '

Из представленных выражений для квадратов остатков комбинированной оценки (1) - <21(Я0), <21а(Я0), 02(Яо(х)), 02°(Яо(х)) следует, что они меньше, чем квадраты остатков построенных моделей (первые слагаемые выражений). Следовательно, комбинированная оценка (1) эффективнее оценок построенных моделей (параметрической или непараметрической) как в случае конечного объема выборок N (критерий (2)), так и в асимптотическом случае (критерий (4)). Но проблема заключается в получении действительно оптимальных коэффициентов Я. На качество оценок влияет и объем выборок N (особенно когда он мал), и ошибки измерений, другие шумы в исходных данных. Далее, в отличие от (3) выражение (5) не может быть оцене-

Ао(х) = &(х) - J (х;в) £о(х) &(х), й(х), &(х) имеют вид:

N _т.

ёо(х) = -¿НХПК[(х°° -Х,а))/% >],

,=1 1=1

N т

&(х) = ^НXУ,ПК[(Xа) -Л)/#>],

,=1 1=1

N т

ё 2 (х)=-н X у2 П к[(*а) - X}1 у $>].

,=1 1=1

Оценку коэффициента Я0(х) в выражении (5) можно выполнить и бутстреп-методом [4]. При этом оценку коэффициента можно представить в двух вариантах.

Первый вариант предусматривает получение для каждой бутстреп-выборки оценок регрессии двух моделей - параметрической и непараметрической. Обозначим оценки, получаемые по бутстреп-методу символом звездочка, а по исходной выборке - без звездочки. В соответствии с (5) оценка оптимального коэффициента Я0(х) по бутстреп-вы-боркам примет вид [3]

в *

X (х) - JN (х))0С 1 (х) - Л. х;в)) Я о (х) = 11-в-;-,(7)

X (К, 1 (х) - J (х;в1 ))2

1=1

где В - размер серии сформированных бутстреп-выборок, соответствующих одной исходной выборке, для оценки коэффициента Я*,(х) в точке хеВ".

Второй вариант предусматривает получение для каждой бутстреп-выборки оценок регрессии только одной модели - непараметрической. Тогда оценка оптимального коэффициента Я0(х) по бут-стреп-выборкам будет иметь вид

X (JN у (х) - JN (х))( JN1 (х) - J (х; в))

Я + (х) = 11-в-. (8)

X (JN, 1 (х) - J (х;в ))2

1=1

Оценка (8) позволяет экономить вычислительные ресурсы и избегать проблем с получением оценок параметрической модели регрессии в случае вырожденной матрицы ковариаций у сформированных бутстреп-выборок.

Для сравнения качества оценок регрессии в условиях малых объемов выборок был проведен имитационный эксперимент, а также проверка качества оценок на нескольких выборках реальных статистических данных. Сравнение свойств комбинированных оценок является нетривиальной задачей, поскольку оценки коэффициентов Я в выражениях (3), (6)-(8) получены с использованием разных критериев оптимальности и требуют корректных условий сравнения. Для простоты интерпретации результатов имитационный эксперимент был проведен с одномерной величиной хеЛ1. Поскольку оценки (6)-(8) адаптированы к выбору точки х, вначале были рассмотрены свойства оценок регрессии в фиксированных точках выборки х! (г=1,...,п), выбранных с одинаковым шагом в заданном интервале моделирования. Затем выполнено сравнение свойств оценок со случайным выбором точек X. Для проверки качества комбинированных оценок в различных условиях в эксперименте использованы две функции «истинной» регрессии - линейная Р1(х)=2,0+х и нелинейная Р2(х)=х(10,0-х). Для добавления шумов к переменной отклика выбраны соответственно функции У1(х)=Р1(х)+% и У2(х)=Р2(х)+£, где £ - независимая случайная величина с нормальным законом распределения, нулевым математическим ожиданием и одинаковым значением дисперсии стдля всех точек заданного диапазона.

Для проведения имитационного эксперимента были выбраны следующие условия моделирования:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• для сравнения качества оценок в условиях малых объемов выборки выбран фиксированный объем п=10;

• интервал моделирования величин х1 и X выбран в диапазоне [0,9;9,0];

• шаг между фиксированными точками х1 выбран

0.9;

• случайная величина X выбрана из равномерного закона в диапазоне [0,9;9,0];

• величина дисперсии случайной величины £ равна о=3,0;

• числовые результаты эксперимента были получены по серии исходных выборок количеством К=1000 (с одинаковым объемом наблюдений п в каждой выборке). При этом для каждого наблюдения каждой исходной выборки из серии К формировалась серия В бутстреп-выборок размером В=1000.

Сравнение качества оценок регрессии у шести моделей (/;=/(х;0), /2=/д{х), /3=/д(х;Я0), /^Дх^х)), /5=/д(х;Хе0(х)), /6=/д(х;Х+0(х))) можно проводить по многим критериям. Поскольку преимущества комбинированной оценки регрессии вида (1) для применения к выборочным данным очевидны, ограничимся критериями, вычисляющими близость оценок моделей к истинной регрессии. Укажем критерии, вычисленные для каждой исходной выборки.

1. Средняя квадратичная погрешность прогнозирования в фиксированных точках

Бр(Р(х)) = П£[Рр ^) -- (х )]2, р = 1,6, р = 1,2,

где Рр(х) - истинное значение регрессии вида р в фиксированной точке х, /¡(х) - оценка регрессии по модели ¡ в фиксированной точке х.

2. Средняя квадратичная погрешность прогнозирования в произвольных точках

Бр (Р(X)) = П £ [Рр (X) - - (Х1)]2, р = 16, р = 12,

п 1=1

где Pp(X¡) - истинное значение регрессии вида р в произвольной точке X, /¡(X) - оценка регрессии по модели ¡ в произвольной точке X.

Укажем критерии, вычисленные по серии К исходных выборок.

3. Среднее квадратичных погрешностей прогнозирования по серии К в фиксированных точках

ар (Р(х)) = К £ Бр (Р(х)), р = 16, р = 12. (9)

4 = 1

4. Среднее квадратичных погрешностей прогнозирования по серии К в произвольных точках

ар (Р(Х)) = К £ Бр (Р(Х)), р = 16, р = 12. (10)

4=1

5. Средняя квадратичная погрешность прогнозирования по серии Кв каждой фиксированной точке

ар (Р( х))=К £[ Рр (х) - - (х )]2,

4=1

I = Щ р = 1б, р = 1Д (11)

6. Среднее оценок регрессии по серии выборок Кв каждой фиксированной точке

— (х-) = К £-р (хI), I = м, р= 16, р = 12.

4=1

7. Квадраты отклонений прогнозирования по серии Кв каждой фиксированной точке

1р(х■) = [Рр (х)-—(х )]2, I = й р = 1Л р = 12.

8. Среднее квадратов отклонений прогнозирования по серии Кв фиксированных точках

!р(х) = П£!р(х), Р= 16, р = 12. (12)

п -=1

Приведем результаты эксперимента. Средние квадратичных погрешностей оценок регрессии по критериям (9), (10) и (12) представлены в таблице.

Средние погрешностей оценок регрессии по критериям (11) представлены на рисунке.

По результатам сравнения при указанных условиях моделирования можно сделать следующие выводы. 1. Оценки модели регрессии:

• параметрической / дают наилучший результат среди представленных моделей в случае, когда истинна линейная регрессия. При этом качество оценок комбинированных моделей /5 и /6 почти равно / (рисунок, а). В случае

1=1

нелинейной регрессии оценки параметрической модели наихудшие (рисунок, б);

Таблица. Средние квадратичных погрешностей и квадратов отклонений прогнозирования в точках

Вид истинной регрессии Модели регрессии

Линейная па-раме-трич. J Непа-раме-триче-ская J2 Комбинированная Л Комбинированная J4 Ком-бини-рован-ная J5 Комбинированная

Среднее квадратичных погрешностей прогнозирования в фиксированных точках Qp(P(x))

Линейная P 1,252 2,515 2,318 3,189 1,450 1,437

Нелинейная P2 44,645 6,881 4,924 17,577 18,206 17,247

Среднее квадратичных погрешностей прогнозирования в произвольных точках Qp(P(Х))

Линейная P 1,395 5,315 2,612 4,195 2,057 2,236

Нелинейная P2 44,801 19,524 19,164 20,991 24,267 22,709

Среднее квадратов отклонений прогнозирования в фиксированных точках Ip(x)

Линейная P 0,00064 0,13873 0,07389 0,09404 0,00116 0,05292

Нелинейная P2 43,429 4,618 0,510 14,685 15,711 14,769

Рисунок. Средняя квадратичная погрешность прогнозирования Qlp(P(Xj)) в каждой точке xi для случая регрессии: а) линейной Pь б) нелинейной P2

• непараметрической /2 дают невысокий результат среди представленных моделей в случае истинной линейной регрессии. В случае нелинейной регрессии оценки модели дают второй по качеству результат (рисунок, б);

• комбинированной /3 в случае, когда истинна линейная регрессия, дают результат лучше, чем у непараметрической модели /2 и комбинирован-

ной /4. В случае нелинейной регрессии модель /3 дает наилучшие результаты (рисунок). Это свидетельствует о хороших свойствах модели /3;

• комбинированной модели регрессии /4 в случае истинной нелинейной регрессии дают результат, уступающий лишь оценкам непараметрической модели /2 и комбинированной модели /3 (рисунок, б);

• комбинированной /5 в случае, когда истинна линейная регрессия, дают третий по качеству результат среди представленных моделей, уступая лишь модели и модели /6 (рисунок, а). В случае, когда истинна нелинейная регрессия оценки модели /5 дают удовлетворительный результат (рисунок, б);

• комбинированной /6 дают результат, почти одинаковый с оценками модели /5 по указанным критериям, несколько выигрывая у модели /5. Это справедливо в случаях линейной и нелинейной регрессии (рисунок).

2. Проигрыш оценок комбинированной модели /4 в случае истинной линейной регрессии можно объяснить малым объемом данных исходных выборок п. Применение бутстреп-метода для моделей /5 и /6 требует больших вычислительных затрат, растущих с увеличением N.

3. При переходе к произвольному выбору точек X свойства оценок регрессии у представленных моделей почти не меняются, а величины погрешностей для случаев линейной и нелинейной регрессии - сближаются.

4. При невысоком качестве оценок одной из построенных моделей (параметрической или непараметрической) комбинированная оценка (1) позволяет достигать наилучших результатов в условиях малых объемов выборок.

5. Погрешность оценок регрессии на краях диапазона моделирования (рисунок) у всех представленных моделей регрессии увеличивается (в большей или меньшей степени).

На реальных данных оценки комбинированных моделей регрессии (/3, /4, /5) показали лучшие результаты по сравнению с оценками построенных моделей ^ и /2.

Результаты эксперимента позволяют утверждать, что предложенные комбинированные оценки регрессии /3, /4, /5 и /6 предпочтительнее оценок построенных моделей и /2 при конечных объемах выборок. Получение оценок моделей /3 и /4 требует значительно меньших вычислительных ресурсов по сравнению с оценками моделей /5 и /6.

Представленные комбинированные оценки могут найти широкое применение для получения качественных оценок регрессии в условиях малых объемов выборок и отсутствии априорной информации о данных.

Результаты моделирования, представленные на рисунках и в таблицах, получены с помощью кластера Межрегионального Вычислительного Центра ТГУ СКИФ СуЬепа (skif.tsu.ru). Автор выражает благодарность сотрудникам Центра за оказанную помощь.

СПИСОК ЛИТЕРАТУРЫ

1. Дмитриев Ю.Г. Непараметрическое условное оценивание функционалов плотности распределения // Математическое моделирование и теория вероятностей. - Томск: Изд-во «Пеленг», 1998. - С. 169-177.

2. Скрипин С.В. Комбинированная непараметрическая оценка регрессии // Проблемы компьютерной безопасности и криптография: Докл. IV Сибирской научной школы-семинара с международным участием. - 81Ъеегур1 '05 // Вестник Томского государственного университета. - 2005. - Прил. № 14. -С. 311-313.

3. Скрипин С.В. О свойствах комбинированной оценки регрессии // Проблемы компьютерной безопасности и криптография: Докл. VI Сибирской научной школы-семинара с международным участием. - 81Ъеегур1' 07 // Вестник Томского государственного университета. - 2007. - Прил. № 23. -С. 326-329.

4. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. - М.: Финансы и статистика, 1988. - 261 с.

Поступила 09.06.2008 г.

УДК 504.064(4)

ПРИМЕНЕНИЕ ПРОСТРАНСТВЕННЫХ ХАРАКТЕРИСТИК ПРИ МОДЕЛИРОВАНИИ ИЗМЕНЕНИЙ ЛАНДШАФТНОГО ПОКРОВА С ИСПОЛЬЗОВАНИЕМ КЛЕТОЧНЫХ АВТОМАТОВ

А.В. Замятин

Томский политехнический университет E-mail: [email protected]

Предложен подход к моделированию изменений ландшафтного покрова с использованием клеточных автоматов и 7-ми пространственных характеристик, наиболее часто встречающихся при решении различных задач геоинформатики, позволяющий повысить адекватность моделирования. Проведен поиск информативности каждой из характеристик в различных размерах скользящего окна. Предложена методика оценки значимости характеристик в различных сочетаниях при определении правил функционирования клеточных автоматов, а также выполнена соответствующая оценка значимости характеристик. Результаты экспериментов получены с использованием типовых разновременных данных растровой геоинформационной системы Idrisi Kilimanjaro.

Ключевые слова:

Моделирование, клеточные автоматы, пространственные характеристики, численные эксперименты, экосистемный мониторинг.

Введение

Моделирование изменений ландшафтного покрова является одним из наиболее перспективных подходов к прогнозированию таких явлений как распространение лесных пожаров, обезлесение, эрозия почвы, изменение границ снежного покрова [1, 2]. Решают задачи моделирования с использованием как детерминированных, так и стохастических моделей [3]. С учетом случайной природы моделируемых процессов ландшафтного покрова и возрастающими возможностями компьютерной техники наиболее перспективными следует считать стохастические модели, учитывающие пространственное взаимодействие элементов с помощью клеточных автоматов (КА).

Одним из ключевых факторов, влияющих на адекватность моделирования с использованием КА, является определение в каждом конкретном случае правил взаимодействия элементов (правил функционирования) КА. В настоящее время все большее распространение получают подходы к использованию пространственных характеристик при решении различных задач геоинформатики [4-6], а предварительные исследования в [7] показывают перспективность использования таких характеристик для определения правил функционирования КА.

При моделировании практическое применение пространственных характеристик, позволяющих более полно учитывать особенности ландшафта, обычно затруднено в связи с их различной информативностью в различных размерах анализируемой окрестности, а также неопределенностью вариантов возможного сочетания характеристик и их необходимого количества в каждом конкретном случае. Так, в [2, 4] использована лишь одна, а в [7] - четыре пространственные характеристики при решении задач моделирования изменений ландшафтного покрова.

Данная работа направлена на повышение эффективности моделирования изменений ландшафтного покрова с использованием увеличенного набора из 7-ми пространственных характеристик, наиболее часто встречающихся при решении различных задач геоинформатики, анализ этих характеристик в варьируемом размере анализируемой окрестности и определение их результативной сочетаемости при совместном применении.

Правила функционирования КА при моделировании

В [7] автором правила функционирования КА в алгоритме моделирования изменений ландшафтного покрова предлагается определять в каждой

Свойства комбинированной оценки регрессии при конечных объемах выборок Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Скрипин С. В.

Похожие темы научных работ по математике , автор научной работы — Скрипин С. В.

PROPERTIES OF COMPLEX REGRESSION ESTIMATION AT FINAL SAMPLE VOLUMES

Текст научной работы на тему «Свойства комбинированной оценки регрессии при конечных объемах выборок»