Математическое моделирование. Оптимальное управление Вестник Нижегородского университета им. Н.И. Лобачевского, 2012, № 1 (1), с. 138-143
УДК 519.2
PC-ОЦЕНКИ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ В МОДЕЛИ ДОЗА-ЭФФЕКТ ПО СЛУЧАЙНЫМ ПЛАНАМ ЭКСПЕРИМЕНТА
© 2012 г. М.С. Тихое
Нижегородский госуниверситет им. Н.И. Лобачевского
йкЬоут@таі1. т
Поступила в редакцию 02.12.2011
Рассмотрены непараметрические РС-оценки функции распределения по случайным планам эксперимента в модели доза-эффект. Показано, что РС-оценки являются состоятельными и асимптотически. Предложена и исследована оценка предельной дисперсии.
Ключевые слова: доза-эффект-модель, непараметрические ядерные оценки, случайный план эксперимента.
Введение
В данной работе рассматривается проблема построения оценки функции распределений в модели доза-эффект, которая описывается следующим образом. Пусть последовательность X(и) = {(X,., и1 ),1 < , < п } независимых и одинаково распределенных с (X, Ц) пар случайных величин (с.в.) имеет совместную плотность распределения /(х) g(и) > 0 и функцию распределения Г (х^(х), где
Г(х) = ¥(Х < х),G(u) = Г(и < и),
Г'(х) = /(х), ^(х) = g(х),
Ж = I (X < и) есть индикатор события (X < и). В зависимости доза-эффект вместо выборки Х^п) наблюдается выборка (см. [1])
и(п) = {(Ж, ,и,),1 <, <п},
где величина X интерпретируется как пороговая доза (латентная случайная величина), являющаяся самой большой дозой, при которой не наблюдается эффекта в эксперименте, а и есть введенная доза. Биологическая суть вышеизложенного становится понятной из следующих пояснений. Предположим, что речь идет о яде, который попадает в биообъект. Например, при биотестировании воды речь обычно идет о це-риодафниях, которые чувствительны к загрязнению воды вредными веществами и для которых это загрязнение является ядом. Для каждого яда теоретически существует минимальная доза, вызывающая у тест-объекта его гибель. Оценить эту дозу для каждого биообъекта довольно трудно. Если биообъект в эксперименте выжил, то он получил дозу, заведомо меньшую минимальной летальной дозы. Для каждого биообъекта эта доза будет различной, что определяется индивидуальной чувствительностью
особей биологического вида к тестируемому препарату. Однако будем считать, что в однородной массе величина X является случайной величиной с неизвестной функцией распределения F(x), плотность распределения g(U) случайной величины и также предполагается неизвестной. Требуется по выборке ї/п) оценить неизвестную функцию распределения F(x) и её квантили (называемые в токсикологии категориями эффективных доз) на всем интервале изменения переменной х. Медианная доза обозначается как ЕД50 и называется среднеэффективной дозой. Проблема осложняется тем, что сама величина X ненаблюдаема, а наблюдаются индикаторы wi и уровни введенных доз иі. Если вводимые дозы щ неслучайны, то мы называем такую модель моделью с фиксированным планом эксперимента, если же величины щ случайны, то такая модель называется моделью зависимости доза-эффект со случайным планом эксперимента.
В [1] в качестве оценки неизвестной функции распределения использовались оценки На-дарая [2] и Ватсона [3] (№^оценки) вида
(х) _
^п
<=1 WtKh (и, - х)
^п
,=1 К (и, - х)
(1)
где КИ (х) = (1/ И)К(х / И) - ядерная функция (ядро), И = И(п) есть ширина окна просмотра данных - неслучайная последовательность, сходящаяся к нулю при п ^да>, но при этом
пИ ^да>.
Обычно NW-оценки вида (1) используются в следующей схеме наблюдений:
у, = т(и,) + е,, , = 1,2,... (2)
где £1, е2,... - последовательность независимых и одинаково распределенных с.в., а щ - случайные или фиксированные величины, т(х) - неизвестная функция.
Для неслучайных ut в схеме наблюдений (2) Priestley и Chao (см. [4]) предложили оценки для функции m(x) по выборке (ut, yt), 1 < t < n , объема n следующего вида:
n-1
FPC (x) = 2 (ut+i - u,) y,Kh(u, - x). (3)
t=1
Мы будем называть их РС-оценками.
Если ut = t /n, t = 0,1,...,n, то РС-оценка принимает вид:
Л 1 % ^ n-1
Fpc(x) = n- 2,= y,Kh(t / n - x). (4)
Известно (см. [4, 5]), что как в схеме наблюдений (2), так и в зависимости доза-эффект для фиксированных планов наблюдений оценки (3) или (4) при некоторых условиях регулярности являются асимптотически нормальными. Однако в зависимости доза-эффект довольно часто планы эксперимента являются случайными, поэтому в данной работе мы изучим оценки вида (3) для случайных планов эксперимента, т.е. мы будем предполагать, что величины ut являются случайными величинами, и докажем состоятельность и асимптотическую нормальность PC-оценок в этом случае, используя методы работы [6].
1. Основные результаты
Для дальнейшего изложения нам понадобится понятие порядковых и индуцированных порядковых статистик.
Пусть U(1) < U(2) < ... < U(и) - вариационный ряд, построенный по совокупности U1,U2,...,Un). Тогда U(,) называется i-й порядковой статистикой. Индуцированная порядковая статистика W] определяется следующим образом: если U(,) = Uj, W= Wj.
Будем рассматривать статистики
0 n (x) = 2 W[i](U<м) - U {t) )Kh (Uf - x)
i =1
и
n-1
2w[i](U(i+1) -U(i))Kh(Uf -x)
Fn (x) = ^=-1------------------------------=
Fn(x) позволяет при достаточно больших п строить доверительные интервалы на функцию распределения F(x), используя квантили нормального распределения.
Именно, мы покажем, что
I--- Л ^ г.
■и nh (0 (х) - Кк * F(х)) ^ N(0,2ст (х)),
п^да
I--- ^ т
*[пк (¥п (х) - Кк * F(х)) ^ N(0,2ст (х)),
п^да
где (К, * F)(х) есть свертка функций К, (х) и
F(x) на интервале (0,1), т.е.
1
(р * К, )(х) = ^F(и)К, (х - и) с1и, 0 < х < 1,
0
F (х)(1 - F (х))| К\\2
а ст (x) =
g (x)
2. Условия
Условия (К)
(K1) K(x) > 0 для любого x е R .
(K2) j K (x) dx
= 1.
£ (и(-1) - и(»)Ккип° - х)
/=1
=______________0п(х______________
п-1 "
£ (и ^ - и «к (ип° - х)
1=1
Целью нашего исследования является доказательство асимптотической (при п ^ да) нормальности оценок 0 п (х) и Fn(x). Свойство асимптотической нормальности оценок 0 п (х) и
(K3) K(-x) = K(x) для любого x е R .
(K4) K(x) - финитная функция, т.е. K(x) = 0 для x g [-1,1].
(K5) K(x) - ограниченная функция, т.е. sup | K (x) | = C < да .
xe[-1,1]
Для ядерной функции K(x) определим следующие характеристики:
да да
v2 = Jx2K(x)dx, ||K||2 = JK2(x)dx ,
-да -да
которые нам понадобятся в дальнейшем.
В силу условий (K1) - (K5) они существуют. Примерами ядерных функций, удовлетворяющих условиям (K1) - (K5), являются:
• ядро Епанечникова
K о( x) = 3(1 - x 2)I (x\< 1);
• квартическое ядро
K 0(x) = 1f(1 - x2)21 (\x\< 1);
16
где I(A) есть индикатор множества A.
Для ядра Епанечникова v2 = —, ||K||2 = — ,
2 1 ||^||2 5
для квартического ядра v = —, ЦлЦ = —. Условия (S)
(S1) Плотность g(x) > 0 есть непрерывная и ограниченная функция, которая имеет ограниченные производные до третьего порядка включительно.
^2) Функция F(x) имеет ограниченные непрерывные производные до третьего порядка включительно.
Примерами функций, удовлетворяющих условиям ^1), ^2), являются функции распределения и плотности нормального, логистического и логнормального распределений.
3. Результаты
Следующая теорема 1 устанавливает асимптотическую нормальность оценок 0 п (х) и Fn(x).
Пусть М - заданная константа.
Теорема 1. Пусть Ь = Мп4/5 и выполнены условия (К), ^).
Тогда
4пй(0п (х) - (Кь * F)(x))-^ N(0,2ст2 (х)),
п^да
I--- ^ т
д/йй ^п (х) - Кь * F(х)) ^ N(0,2ст (х)).
п^да
Заметим, что дисперсия предельного распределения а;2 (х) = 2ст2 (х) зависит от неизвестной функции распределения F(x), и, следовательно, о2(х) также неизвестна, поэтому в качестве оценки о2(х) мы предлагаем использовать статистику
CT2(x) ^2 (W [i+1] - W[i])2(U (i+1) - U(i))2 x
i=1
x Kh (U(i+1) - x)Kh (U(i) - x).
п-1 / \ п-1 А ^
N3 =£ АЖЛ (и('+1) - и(° )-£--------------(^
£ ' £ К (и0)) [,]
Покажем, что при п ^ да
N2 = 0р ((пЬ)^2), N3 = 0р ((пЬ)-^2). Рассмотрим слагаемое N2.
Из представления свертки
1 и °+1} п-1 и
(F * Кь )(х) = £ | (и)КЬ (и - х)Ли
следует, что
n2 =2^ (и (i))U (м) - и(i)) -i=1
U 0+0
- J F(u)Kh (u - x) du =
U <■>
-2(^(U(°)-Ц&))(U(i+1) -U(i))
=1
где ^ е [U(i),U(i+1)]. Отсюда
N 2| <2|^ (U(°) -Ц & )(U (i+1) - U «) <
i = 1
n-1
(4)
В следующей теореме утверждается, что оценка <CTj2(x) является состоятельной оценкой дисперсии CTj2 (x).
Теорема 2. Пусть выполнены условия
Р
(K), (S). Тогда при n ^ да CTj2 (x) ^ст;2 (x).
4. Доказательства
Доказательство теоремы 1.
Пусть
|a(u) = F(u)Kh (u - x), d,] = (G(U (i+1)) - G(U (i)))Kh (U(i) - x),
AW[i] = (W[i] - F(U(i)))Kh (U(i) - x).
Представим разность 0 n (x) -(F * Kh)(x) в следующем виде:
0, (x)-(F * Kh)(x) = N1 + N 2 + N3,
где
1 n-1 AW
N1 = 12^WT nd[i],
1 nj-f g (U ()) [i]
N2 =2 Ц(U(i))(U(i+1) - U(i)) - (F * Kh)(x),
<2(| Kh(u(i) -x)-Kh& -x)| +
i=1
+ Kh fa -x)(f(U(i+1))-F(U(i)))](u(i+1) -U(i))<
<2 f L+L- > - и -» )2=((nh)-*2).
и Ih h
Для слагаемого N3 имеем оценки:
N 3 =
2AW,i, (и 1ВД - и "> )-2
AW
[i]
n-1 AW
2------------^(U (i+1) - U (°) x
£ g (и(i))
dr..
(i) \ i‘]
x(g(U(i))-g(^))Kh(U(i) -x)|, где е [U(i),U(i+1)].
Значит, при n ^ да
-2
7/7
K])’
y/2
„-Ц g2 (U ) ,
1 n-1
12 n2 (u (i+1) - U(i))
\12
X I — 7 П
n
= Op (1) Op ((nh)-1) = 0p ((nh)-1/2).
Поэтому
0 n (x) - (F * Kh)(x) = - 2 Kh (U(i) - x) X
X n (G(U {i+X)) - G(U(i))) + op ((nh)-in ).
U
X
В работе [7] показано, что
g (и(,))
асимптотически независимы от ^(и (,+1)) -- G(U ())). Кроме того, известно, что G(U ) имеет равномерное распределение на [0,1], поэтому G(U(,)) есть ,-я порядковая статистика из равномерного на [0,1] распределения.
Известно также (см., например, [8]), что если ^1, 2,..., ^п есть независимые случайные величины из равномерного на [0,1] распределения и {^),, = 1,2,..., п} - вариационный ряд, построенный по ^1, \2,..., \п, Di = ^(,+1) - ^(,),
£(0) = 0, ^^ = 1, / = 1,2,...,п , {с.}. незави-
то
;=і
(Д, D2,..., Dn) = й (?і/ Т, с 2/ Т,..., с и / Т).
, с. Т р
Л - и Т ^ 1.
П п ^да
Поэтому nD^ =а
Т / п
В таком случае при п ^ да
і п-1 АW с 12 мс
(і)
1 А^,] с
(і)
п и ё(и )) пТ1 ё(и ()
= с.
ґ(ї(X. < и.) - F(и. ))2^
■Г (и)(1 - F (и))г2,.. _2,
Я(и)
- К (и - х) ^и = ст (х) (1 + о(1)),
E
( I
Я (и.)
= 0, Е(с.) = 2,
поэтому
I- ^ т
4” (к(х) - кь * (х)) ^ N(0,2а (х)).
п ^да
Оптимальное значение константы М, входящей в определение ширины окна И просмотра данных (см. формулировку теоремы 1), определяется из условия минимума среднеквадратичного отклонения, зависящего от интеграла (см. [10])
Ь2 = ^ F (х)(1 - F (х))&, который необходимо
оценивать по вы
г 2
борке ип\ Для
оценки величины Ь можно воспользоваться следующей статистикой
: (0) = 0 ^ (п+1) симы и одинаково распределены с плотностью
р(х) = е~х, х > 0; Т = 2 с. ,
.=2
Статистика Ь2 асимптотически эквивалент-
на статистике
2 т.2
, так и Ь являются со-
п .1 К(и.)
и асимптотическая нормальность N1 получается теперь из центральной предельной теоремы Линдеберга-Леви (см. [9]).
Найдем дисперсию суммы N1, считая, что величины (Xj ,и., ?. )1<.<п независимы как
тройками, так и между собой. Для этого воспользуемся формулой для дисперсии произведения независимых величин 21, 2^.
D(Z 1 • 2 2) = E(Z2 )E(Z2) - E 2(2 ^ 2(2 2), принимая во внимание, что
Е
~ ( \
~ = п 1 £№. (1 - №-),
.=2
поскольку Ъ2 = Ь 2 + О (п-1).
Покажем, что как стоятельными оценками Ъ2.
Лемма 1. Для фиксированных планов экспе-
Р ~ Р
римента при п ^ да Ъ2 ^ Ъ2, Ъ 2 ^ Ъ2.
Доказательство. В силу независимости величин №. и №.-1 получаем.
~ Г1 п / О
Е(Ъ2) = Е -£№.(1 -№,-) =
= Е
'1 п Л п
2^ -Е п2^-1
V ^=2 ) V .=2
1 п 1 п ( 1 ^ =п 2г (и.) - - 2 г (и. )г (и-,) =Ь 2 + о(-
.=2 .=2
Кроме того, имеем:
(
j=2
п ( \ »2 wj(1 - ^-1)
.=1
+ “г |2 Со¥^ (1 - ^-1), Wj (1 - Wj-1))
п V ‘
Вычислим сначала 2С о^Уі (1 - W-1), Wj (1 - Wj-1))
V ^ 4 J ' )
и учитывая возможность предельного перехода под знак математического ожидания, получим результат первой части теоремы 1. С небольшими изменениями показывается, что
1 п-1 р
-2 (и (і+1) - и {С))Кк (и(і) - х) ^ 1,
VI п ^да
Не нарушая общности, рассмотрим случай , < .. Множество индексов разобьем на две части. 1) ,= =. - 1 <. и 2) , <. - 1. В первом случае Ъ (1 - №-1 №. (1 - WJ_1 ) =
= №.-1 (1 - №-1 )(1 - №.-2 )№. = 0,
поэтому здесь
2
1
+
2
п
^у—1 - - ^ (1 - = S1 + л 1 + «2
'.-2р''
= -Г (и . 1 )(1 - Г (и .-2 ))Г (и. )(1 - Г (и . 1)). где
Во втором случае, т.е. когда , <. - 1, величи- о _ 1 л п 1
.-1 /V ^ .~2'' ' .л ^
зличи- „ 1 . . ч 2 г> 1 Х-' 2
5’1 =—£ (А^г.+11 -А^г.,) , Я1 =—£ гг.,. ны №1 (1 - №-1), №. (1 - №._1) независимы, откуда 2п “ ] [ ] 2п “
Ссу(№ (1 - №- ),№. (1 - №.-1)) = 0.
Так как
1 п-1
Л2 = - 2 (А^[і+1] -А^[і])Г[і]. п і=1
о(№.(1 -№-1)) = Е(№.(1 -№-1))-Е2(№■ (1 -№-1))= Покажем, что Я1 = 0р(п"), Я2 = Ор(п").
= F (и )(1 - F (и ))(1 - F (и ) + F2 (и )), Действительно,
то получаем, что при п ^ да
1 п 1 п
1~\ т , ч л 1 = — 2 г2, <—2 я2(и(і+1) - и(і))2 =
б(ь2 )- п-1Г(х)(1 - Г(х))х 2п £ [ ] 2п £
х(1 - 2Г(х) + 2Г\х))с1х ^ 0. = ^ 2 (п(и (і+1) - и(і)))2 = О (п -2) = о (п-1),
п ^да 2п 3 Р р\^’
Из неравенства Чебышева теперь следует со- п
стоятельность оценок Ъ 2 и Ъ2. | Я21= — £ | Аw{i+Ц - Аw{^] | | гм | <
Поскольку величины, входящие в сумму (1) п ,=1
и (2), ограничены, то из [9, с. 291] следует также И, п-1 п , И, (и(п) - и(1))
-2 <—1 £ (и (,+1) - и(,)) = —±------------------= о (п ).
асимптотическая нормальность статистик Ъ и п п
~2 „ ---, и2
с ожиданием Ъ2 и дисперсией 1 Г F (х)(1 - Рассмотрим теперь слагаемое ^. Имеем.
п-I . ...
X х))(1 -Пусть
п 1 п 1 п-1
-Г(х))(1 -2Г(х) + 2Г2(х))йХ. ^ = —2(А^[-+1] -А^<1)2 = 2(А^[-1)2 +
2п і=1 2п і=2
что
і п-1
ст2(х) = —2 (WJ+1 - WJ )2 К2(и;. - х). 1 ,2 1 2 л л с С С
4п-=1 +—2 (А^[<]) 2А^[і+1]А^[і] = S11 + S12- S13.
2п і=1 п і=1
Аналогично предыдущему можно показать, очевидно
1 п 1 п-1
^ ~ ^ - — 2(А*,)2, Slз = -2 А*™А^,].
<ст2(х) ^ Г(х)(1 -Г(х))||к 11 . ^ ~ ^ ~2-2(А*) , ^ = п2А*[,-
п ^да 11 11 ,=1
2 2
Доказательство завершено. Отсюда
Рассмотрим теперь случайные планы эксперимента, где будем считать, что Р (0 < и, < Е05п) п~^да ^ , п~^да ^ ,
< 1) = 1, и пусть 1 п-1
1 п-1 Е(^) = - £ Е(Аи'[,+1] А^, | и (,+1),и(1)).
я2 = 1 £(№[,+1] - №[,])2 . п ,=1
п =1 В силу условной независимости индуциро-
Лемма 2. Если выполнены условия (К), ^), то ванных порядковых стэтжтж (см. [13])
р . 1 п-1
я2 ^52 = ГF(и)(1 -F(и))к(и)йи . Е(^) = -£Е(А^,+Ч | и(,+1))Е(А^,] | и(,)) = 0.
п^да п ,=1
Доказательство. Представим статистику я2 Поскольку слагаемые Д^[,+1], Д^[,] ограниче-в следующем виде. ны, то дисперсии сумм £л, ^12 сходятся к нулю.
1 Р я2
я2 =— £(Аж.+„ -А^[,] + Г[,])2 , Из неравенства Чебышева следует 511 ^ —,
2п “■- п^да 2
где Р я2 „2 Р 2
(,^) S12 ^ —, поэтому я ^ я , что и требова-
А*[і] = (w[і] - Г (и(,))),
п^да 2 п^да
поскольку F(x) удовлетворяет условию Липши- лось доказать.
ца (так как плотность Дх) ограничена), то Доказательство теоремы 2. Рассмотрим
| г | =| №[,+1] - №[,] - (А^[,+1] - А^[,]) | = оценку (4) или эквивалентную ей оценку
(,+1)) - Ъ(и (,))1 < И (и (,+1) - и(,)) ^М] _wГ,]\2(TT(,+1)TT(,)\2
=|Г(и (,+1)) - Г(и (,))|< Их(и (,+1) - и(,)). <ст2(х) ^2 ^ ['+1] - W [,])2(и (,+1) - и(,)) 4 ,=1
Тогда х К2(и(,) - х).
— n-1
Поскольку ст2 (х) < — £ (n (U("+-) - U(,) ))2 ,
4n
и
1 £(И U("+1) _ U( )})2 сходится к нулю, по
то отсюда следует, что дисперсия статистики
п-1
п '^1
/=1
этому D (с>2( х)) ^ 0 .
п ^да
Если мы покажем, что
Е (ст2(х)) ^ F(х) (1 - F(х))|| К\I2,
п ^да
то результат теоремы 2 будет следовать из неравенства Чебышева.
Заметим, что
E (ст2(х)) = E
n-1 n-1
n
Z I n Z(W[i+1] - W[i]):
i I 4 i=i
X(U('+1) -U(i)YK2h(U(0 -x)|U('+1),uw)), а n(U (i+-) - U(0) --
ng (и {‘>)
для центральных членов вариационного ряда. Известно (см. [13]), что индуцированные порядковые статистики условно независимы, и поскольку величины РУ1, ^2,..., РУп одинаково распределены, то из предыдущих рассуждений следует, что каждое слагаемое последней суммы сходится по вероятности к
F (х)(1 - F (х))|| К\
g (х)
. Тогда из теоремы Коши
(см. [14, с.79]), примененной к последовательности рассматриваемых случайных величин, будет следовать, что
м и 2
F(х)(1 - F(х)) К
g (х)
Результат теоремы 2 следует теперь из неравенства Чебышева.
Список литературы
1. Тихов М.С., Криштопенко С.В. Попова Е.С. Доза-эффект. М.: Медицина, 2008. 288 с.
2. Надарая Э.А. О непараметрических оценках плотности вероятности и регрессии // Теория веро-ятн. и ее примен. 1965. Т. 10, в.1. С.199-203.
3. Watson G.S. Smooth regression analysis // Sank-hya. 1964. V.26. P. 359-372.
4. Priestley M.B., Chao M.T. Nonparametric function fitting // Journal of the Royal Statistical Society. 1972. Ser.B. V.34. P. 385-392.
5. Тихов М.С., Криштопенко Д.С., Ярощук М.В. Оценивание распределений в зависимости доза-эффект при фиксированном плане эксперимента // Статистические методы оценивания и проверки гипотез: Межвуз. сб. научных трудов. Пермь: Изд-во Пермского ун-та, 2006. С. 66-77.
6. Lewbel A., Schennach S. Estimator for inverse density weighted // Journal of Econometrics. 2007. V.136, №1. P.189-211.
7. Barbe P. Joint approximation of process based on spacing and order statistics // Stochastic Process and Their Applications. 1994. V.53. P. 339-349.
8. Гаек Я., Шидак З. Теория ранговых критериев. М.: Наука, 1971. 376 с.
9. Лоэв М. Теория вероятностей. М.: ИЛ, 1962. 719 с.
10. Тихов М.С. Построение и анализ статистических оценок для неполностью известных семейств распределений: Дис. ... д-ра физ.-мат. наук. Нижний Новгород, 1993. 354 с.
11. Li J., Liu R.Y. Multivariate spacings based on data depth: I. Construction of nonparametric multivariate tolerance regions // Ann. Statist. 2008. V.36, No.3. P. 1299-1329.
12. Pino G.E. On the asymptotic distribution of k-spacings with applications to goodness-of-fit tests // Ann. Statist. 1979. V.7, No.5. P. 1058-1065.
13. David H.A., Nagaraja H.N. Order Statistics. John Wiley & Sons, 2003. 458 p.
14. Фихтенгольц Г.М. Курс дифференциального и интегрального исчисления. Т.1. М.: Физматлит, 2001. 680 с.
х
n ^да
PC-ESTIMATORS OF DISTRIBUTION FUNCTION OVER RANDOM EXPERIMENT PLANS
IN A DOSE-EFFECT MODEL
M.S. Tikhov
Nonparametric PC-estimators of a distribution function over random experiment plans in a dose-effect model are considered. PC-estimators have been shown to be consistent and asymptotically normal. We propose and investigate an estimator of limiting variance.
Keywords: dose-effect model, nonparametric kernel estimators, random experiment plan.