Научная статья на тему 'Об исследовании некоторых непараметрических оценок функции регрессии по наблюдениям'

Об исследовании некоторых непараметрических оценок функции регрессии по наблюдениям Текст научной статьи по специальности «Математика»

CC BY
103
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКИЕ ОЦЕНКИ / ЯДЕРНЫЕ ОЦЕНКИ / КВАДРАТИЧНОЕ ОТКЛОНЕНИЕ / РЕГРЕССИЯ / СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / СХОДИМОСТЬ / ДИСКРЕТНО-НЕПРЕРЫВНЫЕ ПРОЦЕССЫ / NONPARAMETRIC ESTIMATORS / KERNEL ESTIMATORS / SQUARED DEVIATION / REGRESSION / STATISTIC SIMULATION / CONVERGENCE / DISCRETE-CONTINUOUS PROCESS

Аннотация научной статьи по математике, автор научной работы — Демченко Яна Игоревна, Орлова Анна Сергеевна

Рассматривается задача восстановления функции регрессии по наблюдениям со случайными ошибками. Применение для этих целей классических непараметрических оценок кривой регрессии не всегда дает удовлетворительные результаты на выборках небольшого объема. Предлагается новый класс непараметрических оценок, позволяющих повысить качество восстановления кривой регрессии по наблюдениям.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT RESEARCHE OF SOME NONPARAMETRIC ESTIMATIONS OF REGRESSION FUNCTION ACCORDING OBSERVATIONS

Task of regression function restoration according observations with random errors is considered in the article. Usage of the classical nonparametric estimations of regression curve for such purposes doesn't always give satisfactory results on small samples. The new class of nonparametric estimations is proposed, it allows to increase the regression curve restoration quality of according observations.

Текст научной работы на тему «Об исследовании некоторых непараметрических оценок функции регрессии по наблюдениям»

Библиографические ссылки

1. Kuligowsky E. D., Peacock R. D. A rewiew of evacuation models / National Institute of Standards and Technology, U. S. Department of Commerce, Technical note. 1471. 2005.

2. Evacuation Dynamics: Empirical Results, Modeling and Applications / A. Schadschneider [et al.] // Encyclopedia of Complexity and System Science. Springer. 2009.

3. Холщевников В. В., Самошин Д. А. Эвакуация и поведение людей при пожарах : учеб. пособие. М. : Академия ГПС МчС России, 2009.

4. Kirik E., Yurgel’yan T., Krouglov D. The Shortest Time and/or the Shortest Path Strategies in a CA FF

Pedestrian Dynamics Model // Журн. СФУ. Сер. Математика и физика. 2009. C. 271-278.

5. Schadschneider A., Seyfried A., Validation of CA models of pedestrian dynamics with fundamental diagrams // Cybernetics and Systems. 2009. Vol. 40 (5). P. 367-389.

6. Предтеченский В. М., Милинский А. И. Проектирование зданий с учетом организации движения людских потоков. М., 1969.

7. Weidmann U. Transporttechnik der Fubganger. Schriftentreihe des IVT. Nr. 90. ETH-Zurich, 1993.

8. The Fundamental Diagram of Pedestrian Movement Revisited / A. Seyfried [et al.] // J. Stat. Mech. Theory Exp. P10002. 2005.

T. B. Yurgel’yan, E. S. Kirik, D. V. Krouglov

ON VALIDATION OF SIGMA.CA MODEL OF PEDESTRIAN DYNAMICS ACCORDING TO DATA OF FUNDAMENTAL DIAGRAMS

Validation of SIgMA.CA model of pedestrian dynamics is carried out. Fundamental diagrams (the relation between density and flow) for a certain geometries are presented for different way shapes and model parameters. The simulation data are compared with experimental.

Keywords: discrete stochastic model of pedestrian dynamics, validation, fundamental diagram.

© Юргельян Т. Б., Кирик Е. С., Круглов Д. В., 2010

УДК 519.8

Я. И. Демченко, А. С. Орлова

ОБ ИССЛЕДОВАНИИ НЕКОТОРЫХ НЕПАРАМЕТРИЧЕСКИХ ОЦЕНОК ФУНКЦИИ РЕГРЕССИИ ПО НАБЛЮДЕНИЯМ

Рассматривается задача восстановления функции регрессии по наблюдениям со случайными ошибками. Применение для этих целей классических непараметрических оценок кривой регрессии не всегда дает удовлетворительные результаты на выборках небольшого объема. Предлагается новый класс непараметрических оценок, позволяющих повысить качество восстановления кривой регрессии по наблюдениям.

Ключевые слова: непараметрические оценки, ядерные оценки, квадратичное отклонение, регрессия, статистическое моделирование, сходимость, дискретно-непрерывные процессы.

В настоящее время известно большое число работ, посвященных непараметрическому восстановлению функций регрессии по наблюдениям с ошибками [1; 2]. Однако при обработке реальных данных приходится сталкиваться с ограниченными неравномерными выборками переменных {ж, у,, I = 1, ..., 5}, содержащих сгущения, пустоты и разреженности в выборочном пространстве. В таких ситуациях классические непараметрические оценки кривой регрессии дают неудовлетворительные результаты, поэтому возникает необходимость введения новых непараметрических оценок функции регрессии, которые отличаются от известных использованием специальных ядерных функций. Исследуются также асимптотические свой-

ства полученных оценок и приводятся результаты статистического моделирования.

Непараметрические оценки функции регрессии. Пусть (х, у) - случайная величина со значениями в пространстве 0(х,у) с К2, р(х, у) > 0 - плотность распределения двумерной случайной величины (х, у), она неизвестна, кроме того р(х) > 0. Дана выборка из 5 статически независимых наблюдений двумерной случайной величины (х, у) - (хь у1), (х2, у2), ... , (х5, у5).

Обычно за непараметрическую оценку функции регрессии принимают статистику [1; 2]

у.

Тф

х - xt

С,

(1)

где интегрируемая с квадратом функция Ф(С5-1(х - х1)) и параметр С5 (коэффициент размытости) удовлетворяют некоторым условиям сходимости [3].

Новые непараметрические оценки кривой регрессии. В качестве непараметрической функции регрессии предлагается класс статистик:

У5 (х) =-

^ | х - х I | х - х,.

Е у, Ф1> —-|Ф-

С

С

V,,, I х - х I I х - х,.

ЕФ1| —- |Ф'

С

С

У5(х) =

Е у, ПФ1

,=1 j=1

V С У

Ф

ЕПф.

,=1 j=l

Ф

V С У

Е у-

У5 ( х) =■

С,

С,

Е

,=1

V

С

- 2

С

5

где интегрируемые с квадратом, ограниченные, четные, дельтообразные функции Ф1 (С^( х - х,)),

Ф 2 (С- (х - х1)) и параметр С5 (коэффициент размытости) удовлетворяют условиям сходимости:

lim С;[(Ф1(С;[( х - х,)) + +Ф2 (С-1 (х - х,))) = 8( х - х,),

(6)

с;1 I (Ф1(С-1(х-х,)) + Ф2(С;'(х-х,))^х = 1. (7)

□ (*)

Если (х,..., хп) с К”, то непараметрическая оценка кривой регрессии (5) принимает вид:

(2)

У 5 ( х ) =

Е у, П

,=1 j=l

Ч I х - х, I I х - х, ^

Ф11 _ ' 1+Ф

С

С

ЕП

,=1 j=1

. (8)

где функции Ф1(С51(х - х,)), Ф2 (С5 1 (х - х,)) и параметр С5 также удовлетворяют условиям сходимости [3] и свойству

с:1 | Ф1 (С;1 (х - х,))Ф2 (С-'(х - х,)^х = 1. (3)

а( х )

В случае, когда (х,..., хп) с К”, непараметрическая оценка кривой регрессии (2) принимает вид

(4)

Возможный вид функций Ф1(-), Ф2(-) представлен на рис. 1.

Также может быть введена оценка следующего вида:

(5)

Непараметрические оценки функции регрессии имеют непосредственное отношение к задаче идентификации дискретно-непрерывных процессов по наблюдениям «входных-выходных» переменных. При этом выборочное пространство наблюдения соответствующих переменных может иметь некоторые особенности, в частности, сгущения, пустоты, разреженности.

Для непараметрических оценок функции регрессии у5 (х) (2) и у5 (х) (5) имеют место следующие теоремы.

Теорема 1. Пусть у(х) дважды дифференцируема и с вероятностью 1 р(х) > 0 , Ух е 0(х), а функции Ф1(С; 1(х-х,)), Ф2(С-'(х-х,)) и параметр размытости С5 удовлетворяют условию сходимости (3), тогда:

ИтМ{(у(х)- у5(х))2} = 0, Ух еП(х).

Теорема 2. Пусть у(х) дважды дифференцируема и с вероятностью 1 р(х) > 0 , Ух е 0(х), а функции Ф1(С; 1(х-х,)), Ф2(С-'(х-х,)) и параметр размытости С5 удовлетворяют условиям сходимости (6) и (7), тогда:

ИтМ{( у( х)- у 5 (х))2} = 0,

Ух е 0(х).

Ф1

С,

С5

Ф,

С

С

х-х

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

х

При доказательстве теорем использованы приемы, предложенные в [1; 4]. Более подробные доказательства приведены в [5; 6].

Исследование непараметрических оценок методом статистического моделирования. В процессе исследований использовалась истинная зависимость

вида у(х1,x2) = x12 +1 е*2 + 2x1x2 + h , где h - уровень

помех, распределенных по нормальному закону с нулевым математическим ожиданием и ограниченной дисперсией, а значения (x1, x2) генерировались из интервала [0, 4] таким образом, что стохастически зависимые переменные х1 и х2 образуют «трубчатый» процесс в выборочном пространстве (у, x1, x2). Зависимость у(x1, x2) необходима для получения выборочных данных, но при восстановлении регрессии информация о ее параметрической структуре считается неизвестной. Эксперименты проводились при различных объемах выборок «входных-выходных» переменных ,, с различным уровнем помех h. Для восстановления у(х1, х2) использовались непараметрические оценки кривой регрессии у, (х1, х2) вида (4), где п = 2, и у, (х1, х2) вида (8), где п = 2. При построении непараметрических оценок функции регрессии использовались функции Ф1(-) и Ф 2(-), приведенные на рис. 1. Параметры размытости С, выбирались путем минимизации критерия оптимизации:

1 5

™(С) = - Е(Уj - У,(Х1 j, х2,))2 ^ пт,

5 j=l ,

рессии у, (х1, х2) вида (8) более эффективна на данной выборке, чем оценка у, (х1, х2) вида (9).

На рис. 3 график оценки кривой регрессии у, (х1, х2) представлен линией, исходная выборка процесса - точками. Объем выборки 5 = 60 точек, на интервалах [0,5; 2,1], [2,3; 2,7], [2,8; 2,9], [3,4; 3,5] и [3,7; 3,8] присутствуют сгущения, на интервалах [3; 3,3], [3,6; 3,7] и [3,9; 4] имеются разреженности, и на интервалах [2,1; 2,3], [2,7; 2,8], [2,9; 3], [3,3; 3,4] и [3,8; 3,9] отсутствуют элементы выборки. Уровень помех h = 0 %. Значения параметров размытости функций Ф1(-) и Ф2(-), соответственно, С, 1= 0,13 и С, 2= 0,18. Ошибки аппроксимации = 0,03,

ws = 0,12 . Таким образом, новая оценка кривой регрессии у, (х1, х2) вида (8) более эффективна на данной выборке, чем оценка у, (х1, х2) вида (9).

где

У,(х1>...> Хп ) =

X у-Пфі

,=1 j=1

ХПФі

І=1 j=1

(9)

либо у, (х1, х2) вида (4), либо у, (х1; х2) вида (8).

В качестве точности аппроксимации использовалась квадратичная ошибка. Для оценки кривой регрессии у, (х1, х2) вида (9) ошибку обозначим как V,, для оценки у, (х1, х2) вида (4) - как її,, для оценки у, (х1, х2) вида (8) - как її,.

На рис. 2 график оценки кривой регрессии у, (х1, х2) представлен линией, исходная выборка процесса - точками. Объем выборки , = 80 точек, на интервалах [0,5; 1], [1,7; 2,1], [2,4; 2,8], [3,4; 3,6] и [3,9; 4] присутствуют сгущения, на интервалах [1; 1,7], [2,9; 3,3] и [3,7; 3,8] имеются разреженности, и на интервалах [2,1; 2,4], [2,8; 2,9], [3,3; 3,4] и [3,8; 3,9] отсутствуют элементы выборки. Уровень помех h = 10 %. Значения параметров размытости функций Ф1(-) и Ф2(-), соответственно, С„= 0,11 и С, 2= 0,14. Ошибки аппроксимации її, = 0,05,

V, = 0,15. Таким образом, новая оценка кривой рег-

На рис. 4 график оценки кривой регрессии у, (х1, х2) представлен линией, исходная выборка процесса - точками. Объем выборки , = 100 точек, на интервалах [0,5; 2], [2,7; 3,1] и [3,4; 3,6] присутствуют сгущения, на интервалах [2,1; 2,6] и [3,1; 3,2] имеются разреженности, и на интервалах [2,6; 2,7] и [3,3; 3,4] отсутствуют элементы выборки. Уровень помех h = 25 %. Значения параметров размытости функций Ф1(-) и Ф 2(-), соответственно, С, 1= 0,07 и С, 2 = 0,08. Ошибки аппроксимации м>, = 0,08, ws = 0,19 . Таким образом, новая оценка кривой регрессии у, (х1, х2)

вида (8) более эффективна на данной выборке, чем оценка у,(х1, х2) вида (9).

рессии у, (х1, х2) вида (4) более эффективна на данной выборке, чем оценка у, (х1, х2) вида (9).

Рис. 4

На рис. 5 график оценки кривой регрессии у, (х1, х2) представлен линией, исходная выборка процесса - точками. Объем выборки , = 50 точек, на интервалах [1; 1,3], [2,1; 2,5] и [3,4; 3,5] присутствуют сгущения, на интервалах [0,6; 1], [1,3; 2,1], [2,9; 3,4] и [3,6; 4] имеются разреженности, и на интервалах [2,5; 2,7] и [2,7; 2,9] отсутствуют элементы выборки. Уровень помех h = 0 %. Значения параметров размытости функций Ф1(-) и Ф2(-), соответственно, Сл = 0,25 и С, 2 = 0,29. Ошибки аппроксимации ^ = 0,06,

ws = 0,17 . Таким образом, новая оценка кривой регрессии у, (х1, х2) вида (4) более эффективна на данной выборке, чем оценка у, (х1, х2) вида (9).

На рис. 7 график оценки кривой регрессии у, (х1, х2) представлен линией, исходная выборка процесса - точками. Объем выборки , = 120 точек, на интервалах [0,6; 1,5] и [2,3; 3] присутствуют сгущения, на интервалах [1,5; 2,3], [3; 3,4], [3,5; 3,7] и [3,8; 3,9] имеются разреженности, и на интервалах [3,4; 3,5] и [3,7; 3,8] отсутствуют элементы выборки. Уровень помех h = 8 %. Значения параметров размытости функций Ф1 (•) и Ф2 (•), соответственно, С,1= 0,05 и С,2 = 0,05. Ошибки аппроксимации ^ = 0,09, ws = 0,2 . Таким образом, новая оценка кривой регрессии у, (х1, х2) вида (4) более эффективна на данной выборке, чем оценка у, (х1, х2) вида (9).

На рис. 6 график оценки кривой регрессии у, (х1, х2) представлен линией, исходная выборка процесса - точками. Объем выборки , = 90 точек, на интервалах [2,9; 3,1] и [3,2; 3,3] присутствуют сгущения, на интервалах [0,7; 1,7], [1,8; 2,9] и [3,3; 4] имеются разреженности, и на интервалах [1,7; 1,8] и [3,1; 3,2] отсутствуют элементы выборки. Уровень помех h = 20 %. Значения параметров размытости функций ФД-) и Ф2(-), соответственно, Сл = 0,09 и С, 2 = 0,08. Ошибки аппроксимации ^ = 0,1,

ws = 0,22 . Таким образом, новая оценка кривой рег-

Если (х1,...,х5) еR , использовалась истинная за-

2 1 X

висимость вида у(х1,...,х5) = х1 +—е 2 + 5sm(x3)-

-3 ^(х4) + х5 + h , где h - уровень помех, распределенных по нормальному закону с нулевым математическим ожиданием и ограниченной дисперсией, а значения (х1,...,х5) генерировались из интервала [0, 4] таким образом, что стохастически зависимые переменные х1,...,х5 образуют «трубчатый» процесс в выборочном пространстве (у,х1,...,х5). Зависимость у(х1,...,х5) необходима для получения выборочных данных, но при восстановлении регрессии информация о ее параметрической структуре считается неиз-

вестной. Эксперименты проводились при различных объемах выборок «входных-выходных» переменных s, с различным уровнем помех h. Для восстановления у( х1,..., х5) использовались непараметрические оценки кривой регрессии уа(х1,...,х5) вида (4), где п = 5, и уа(х1,...,х5) вида (8), где п = 5. При построении непараметрических оценок функции регрессии использовались функции Ф1(-) и Ф2(-), приведенные на рис. 1. Параметры размытости Са выбирались путем минимизации критерия оптимизации:

1 1

^(С*) = - Е(У] - У*(Х1 ],..., х5] ))2 ^ т™,

а ]=1 а

где уа (х1,..., х5) вида (9), п = 5, либо уа (х1,..., х5) вида (4), либо уа (х1,..., х5) вида (8).

В качестве точности аппроксимации использовалась квадратичная ошибка. Для оценки кривой регрессии уа(х1,...,х5) вида (9) ошибку обозначим как ws, для оценки уа(х1,..., х5) вида (4) - как , для оценки уа(х1,...,х5) вида (8) - как м>а (см. таблицу).

Таким образом, при восстановлении функции регрессии по результатам экспериментальных данных в выборочном пространстве наблюдений могут иметь место сгущения, разреженности, пропуски данных. В этом случае классические непараметрические оценки восстановления стохастической зависимости типа (9) могут оказаться недостаточно эффективными. Предложен прием формирования ядерных функций некоторым специальным образом (рис. 1). Для новых

непараметрических оценок функции регрессии доказаны соответствующие теоремы сходимости.

Проведение численных исследований показывает более высокую эффективность непараметрических оценок функции регрессии уа(х1,..., хп) вида (4) и уа (х1,..., хп) вида (8). При использовании функций (4) и (5) квадратичная ошибка в среднем уменьшается в два раза. Следует обратить внимание, что исследование непараметрических оценок проводилось для процессов «трубчатой» структуры.

Библиографические ссылки

1. Надарая Э. А. Некоторые вопросы теории вероятностных процессов // Вычислительный центр / АН ГрузССР. 1965. Вып. 5. С. 56-68.

2. Васильев В. А., Добровидов А. В., Кошкин Г. М. Непараметрическое оценивание функционалов от распределений стационарных последовательностей. М. : Наука, 2004.

3. Медведев А. В. Непараметрические системы адаптации. Новосибирск : Наука, 1983.

4. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятностей и ее применение. 1969. Т. 14. Вып. 1. С. 156-162.

5. Демченко Я. И. О некоторых непараметрических оценках плотности вероятности и кривой регрессии. Ч. 1 // Молодой ученый. 2010. № 11(22). Т. 1. С. 10-20.

6. Демченко Я. И. О некоторых непараметрических оценках плотности вероятности и кривой регрессии. Ч. 2 // Молодой ученый. 2010. № 11(22). Т. 1. С. 21-32.

Экспериментальные данные

Кривая регрессии Объем выборки, s Уровень шума h, % Значение Cs1 Значение Cs 2 Ошибка аппроксимации ws или ws Ошибка аппроксимации ws

У, ( *!>•••> Х5) 50 0 0,15 0,13 0,1 0,24

ys ( Х1 — Х5 ) 80 5 0,1 0,09 0,12 0,28

У, ( Х1 — Х5) 100 10 0,09 0,08 0,09 0,19

У s ( Х1 — Х5) 65 5 0,12 0,13 0,14 0,31

У s ( Х1 — Х5) 90 0 0,1 0,1 0,08 0,2

У s ( Х1 — Х5) 110 10 0,09 0,08 0,07 0,22

Ya. I. Demchenko, A. S. Orlova

ABOUT RESEARCHE OF SOME NONPARAMETRIC ESTIMATIONS OF REGRESSION FUNCTION ACCORDING OBSERVATIONS

Task of regression function restoration according observations with random errors is considered in the article. Usage of the classical nonparametric estimations of regression curve for such purposes doesn’t always give satisfactory results on small samples. The new class of nonparametric estimations is proposed, it allows to increase the regression curve restoration quality of according observations.

Keywords: nonparametric estimators, kernel estimators, squared deviation, regression, statistic simulation, convergence, discrete-continuous process.

© Демченко Я. И., Орлова А. С., 2010

i Надоели баннеры? Вы всегда можете отключить рекламу.