2009
НАУЧНЫЙ ВЕСТНИК МГТУ ГА серия Эксплуатация воздушного транспорта
№ 147
УДК 347.471.33.37
К ОЦЕНКЕ ТОЧНОСТИ ОПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЕЙ БЕЗОПАСНОСТИ ПОЛЕТОВ ПРИ ОГРАНИЧЕННОЙ СТАТИСТИКЕ
А.А. КОПЦЕВ
Статья представлена доктором физико-математических наук, профессором Козловым А.И.
На основе бутстреп-метода и метода перевыборки получены общие соотношения для оценки точности определения показателей безопасности полетов при ограниченной статистике.
Ключевые слова: показатели безопасности полета, бутстреп-метод, метод перевыборки.
Одна из основных трудностей при оценке показателей безопасности полетов связана с крайне ограниченным объемом исходной информации. Однако, даже имея такую усеченную информацию, можно с достаточно высокой точностью проводить оценки показателей безопасности, которые, в конечном счете, определяются из искусственно получаемых случайных распределений, сколь угодно точно повторяющих неизвестные распределения, например, отклонений средней наработки на летное происшествие от математического ожидания (которое всегда остается неизвестным) такой наработки.
Известны два основных метода, дающие возможность имитировать ненаблюдаемые распределения отклонений точечных оценок, давая размножение статистических данных. К ним относятся бутстреп (Ьоо181хар)-метод и метод перевыборки первоначальных данных [1].
Рассмотрим возможности и различия между бутстреп-методом и методом перевыборки.
Пусть имеется некоторая общая схема сбора данных и пусть (О, В(О), Р0 ()) будет базисным вероятностным пространством, т.е. О будет множеством элементарных событий ю, В(О) -
о - алгеброй всех событий и Ро ( ) - истинным распределением на (О, В(О)). Сбор данных можно понимать как последовательность экспериментов £1,£2,.... Итог /-го эксперимента может быть представлен как точка х/ е Xг-, где Хг- - множество значений х{. Мы рассматриваем х{ -как значение из Хг- для оцениваемой случайной величины, которая является измеримым отображением О на Хг-. Вероятность того, что Xг- е В задается как Р^1 (В ) - Ро(Хг (ю)е В} , где предполагается, что Ро, () принадлежит некоторому известному семейству распределений вероятностей Вг- — (¿о /, ве 0), или, что эквивалентно, истинный параметр 0о е 0. Введем естественное предположение, что любое 0о е 0 единственным образом определяет Ро, (). Будем использовать следующее допущение: истинные переменные Хг-, /=1,2, ... - независимы. Мы здесь не предполагаем, что Хг- одинаково распределены, или что Хг- =Х, /=1,2,..
Для каждого фиксированного п рассматриваем Хп — (хь Х2,..., хп) как заданные статистические данные. Пусть 0п — 8п (х1, Х2,..., хп) будет состоятельной точечной оценкой 0о, т.е. в некотором смысле 0п ® 0о при п ® ¥.
Если 0 с Я.г , то 0 —(01,01,..., 0Г ) и 0/ - действительные величины. В таком случае это действительное измерение отклонений 0п от 0о при различных 0п -0о п = 1,2,... .
В случае «регулярных» экспериментов часто можно стабилизировать отклонения путем умножения их на 4п . В этом случае можно рассмотреть закон распределения нормированных отклонений:
Ч.» := 1У"И-&)). (')
Если представляющий интерес параметр T0 = T(0О). где T : 0® Г.
Г = (T(0О): 0 е 0) с R5. то можно рассмотреть
L,» := Ь(4»(T,, - T)). (2)
где Tn = Tn (xi. x2.....х») - точечная оценка T 0 = T (0О).
Пусть Tn := Tn (0n). Если мы будет рассматривать 0» как истинный параметр. то Tn должен быть рассмотрен в качестве истинного значения интересующего нас параметра.
Возникает вопрос. можно ли определить или. по крайней мере. узнать что-то большее о
распределениях (1) и (2). когда Tn неизвестна?
Иногда это возможно путем использования сложных асимптотических методов математического анализа. Сравнительно недавно был предложен [1] другой подход — «бутстреп»
(bootstrap) для решения задачи аппроксимации распределений (1) и (2). Под «бутстрепом»
будем понимать следующую последовательность действий.
1. Найти 0n . (состоятельную оценку).
2. Использовать распределения P0 i.P0 2.....P0 n . где 0» теперь рассматривается как истинный параметр для моделирования так называемой бутстреп-копии данных Xn = (xi.Х2....хп).
* * * * xi е Xi.Х2 е X2.....хп е Xп. где xi — значение некоторой случайной величины Xi. которая имеет распределение P 0 г-. i=i.2,...B; смоделировать В бутстреп-копии данных
X*nb = (x*b.x2b....x»b). x*b е Xi.x2b е X2.....х*ь е Xn (обычно В или более).
3. Использовать b-ую копию Xnb для получения точечной оценки T = Tn (Xnb) интере-
^ *ь
сующего нас параметра T = T (0О).
4. Вычислить бутстреп-версию для условного закона нормированного отклонения T : T(0n). задавая xi.x2....xn :
L».b = L (jn (£, - Tt\x„ x...... x» )): B f1У« (£“ - Tn )е а). (3)
Здесь правая часть (3) должна пониматься как эмпирическое распределение R5 в b(r 5), т.е. для "A е b(r5) значение распределения LnB будет
B t1 ^ (? - ~)е A) B
*
В некоторых предположениях Ln в будет имитировать Lt(q0 )n для больших значений п.
Главный смысл бутстреп-метода состоит в размножении данных путем генерации бутст-реп-копии. Особенно подчеркнем, что в этой генерации вместо неизвестного параметра 0О
должна использоваться точечная оценка 0п.
Аналогично бутстрепу имеется другой, более общий и в некоторых ситуациях более приемлемый, подход к размножению данных [1]. Иногда представляется естественным думать, благодаря предположению о независимости хь (/=1,2, ..., п), что порядок проведения экспериментов не оказывает существенного влияния при статистических выводах, например, для определения точечной оценки. Такое же заключение должно иметь место и когда эксперименты £1,£2,...,£п будут проведены в другом порядке, скажем £/ £/2,...,£/п . Далее, пусть первоначальные данные есть (хг- Х/ ,...,х/п). Здесь {(/ь/2,. .,/п)} - перестановка из {1, ..., п}. Заметим, что внутри последовательности £1,£2,...,£п для некоторых экспериментов, скажем, £г1 и £/2 , возможно Хг1 = Х/2 , Р0А = р0,/2 , 0е0.
Теперь £1, £2,..., £п есть только случайная выборка из более общего набора возможных экспериментов. Далее, почему бы не размножить данные путем выборки с возвращением из £1,£2,...,£п . Это было бы эквивалентно генерации копий статистическим путем случайной выборки с заменой из первоначальных статистических данных (хг- Х/2,...,Х/п ). Поскольку требуется получить больше информации о распределении нормированных отклонений точечной оценки Тп := Тп (х1, Х2,..., хп) для параметра То = Т(0о ), следует предположить, что Тп ( ) также будет определяться для перевыборочных статистических данных.
Такой подход называется перевыборкой. Его точное определение описывается следующей последовательностью действий.
1. Находят Тп = Т(Xп) — состоятельную оценку интересующего параметра.
2. Берут В случайных выборок с возвращением из первоначальных данных такой же длины
„Ц ( *1 *1 *Л ^12 ( *2 *2 *2^ ж^®В ( *В *В *в\ л/г
п: Х п = 1Х1 , Х2 ,-Хп ), Х п = 1Х1 , Х2 ,.Хп j, •••, Х п = 1Х1 , Х2 ,.Хп ). Мы назовем Х п -
перевыборочной копией первоначального данных (обратим внимание на разницу между I и * )
3. Если Т 0 = Т (0О) - интересующий нас параметр и Тп = Т(Хп) - состоятельная оценка, то
каждая перевыборочная копия первоначальных данных находится как Ги = Т (х 1),
£.“ = Т (х ?2), .... тТ = Т (х ®в).
^ чь ;
4. Находят отклонения оцениваемых величин Т^п от Тп, т.е.
/ Л 11 ; ; ®2 ; ; I В ; Л
I Тп -Тп, Тп -Тп,..., Тп -Тп, I. После чего вычисляют перывоборочную версию для условного закона нормированных отклонений от Тп, задаваемых через (хг- хг- ...,Х/п ):
С=ь (т I - Т,) х„ х,,..., х, ]=В £ I ('Ш (Т “-Т, )^ а).
При некоторых предположениях 1^ в будем также повторять Ьт (0о )п для больших значений п.
В работе [2] подчеркивается, что различие между бутстрепом-методом и методом перевы-борки носит существенный характер. Внутри перевыборки нет необходимости иметь и использовать 0п для моделирования копий данных. Эти копии получаются прямо посредством случайной перевыборки с заменой из первоначальных данных. Следовательно, можно сосредото-
читься только на отклонении параметра Т0 = Т(0О) от истинного параметра 0О . Если для любого 0 = (ф, у) То = Т (ф), то у можно рассматривать, как «мешающий» параметр.
Бутстреп-метод можно эффективно использовать в том случае, когда можно найти состоятельную оценку ф п только для уо, а У не является состоятельной оценкой для у о, т.к. нет необходимости в использовании 0п = (фп, Уп) для размножения данных. Таким образом, будет использована только составляющая фп , потому что Тп = Т(фп). Однако, и это также необходимо подчеркнуть, внутри перевыборочного подхода предположения о точечной оценке Тп (•) = Тп (•) могут быть более ограниченными, чем внутри бутстрепа. Это зависит от конкретных задач, в которых лучшим может быть либо бутстреп, либо перевыборки.
Для иллюстрации этих подходов мы рассмотрим следующие два примера [2].
Пример 1. Пусть X1 = X2 = ... = Xп = Я.1 и Р01 = Р02 = ... = Р0п , т.е. первоначальные данные являются значениями случайных величин Х1 = X 2 = ... = X п.
Сначала рассмотрим непараметрический случай. Пусть представляющий интерес параметр
1 п
0о есть Ро(•), где Ро(х) = Ро(хг < х} и 0п = Рп (•), Рп (х) = -21 (Х < х), х е я1.
п\ ,
I=1
Таким образом, как видно, перевыборка и бутстреп подход совпадают, поскольку результат будет одинаковым, если брать случайную выборку с возвращением из Xп или сначала брать
эмпирическую функцию распределения Рп (• ), а затем генерировать п независимых значений данных, используя Рп (• ).
Если рассмотреть параметрический случай, когда Xп = (хь Х2,...,хп) являются значениями случайной величины X с функцией распределения ¿о (• ) = Оо (•, 0о), Оо - заданная функция, т.е. ¿о (• ) принадлежит некоторому параметрическому семейству, то перевыборка и бутстреп будут отличаться. Внутри бутстреп-подхода необходимо сначала найти оценку 0п, а затем смоделировать п независимых компонент данных с помощью Рп (• ) = Оо (•, 0п). Если Оо (•, 0о) непрерывна, то взяв значения «1,«2,..,«п п независимых случайных величин Ж1, Щ,... , Жп, равномерно
,~—* ^ \
распределенных в [о,1], генерируются хп , как решения уравнений Оо = Х ,0п) = «, г = 1,п.
/~* ~* ~*\
Бутстреп-копия будет Xп = ^1, Х2,..., хп) и, как видно, она принципиально отличается от пере-выборочной копии.
Напомним смысл кумулятивной функции опасности отказов, которая будет пользоваться в следующем примере. Пусть X - неотрицательная случайная величина, а Р(-) - ее функция распределения. Кумулятивная функция опасности отказов определяется следующим соотношени-
^ (и)
ем: Н (5) := у 5 > о, где Р (• ) = 1 - Р (• ), Р (и -) = Р (и - И), Н (• ) - неубывающая справа не-
о Р (и —) 11т и ®о
прерывная функция, АН(5) = Н(5)-Н(5 -)< 1, 5 > о; Р(• ) может быть выражена через
Н (• ): Р (5 ) = П(1 -АН (и)), 5 > о.
п < 5
Пример 2. Пусть статистические данные Б = (X!,X2,...,Xп) будут собраны в виде п порций п независимых одномерных случайных процессов восстановления (Боу)>1, у = 1, п, где Рогу -
случайные величины с общей функцией распределения Р(• ). Каждая порция X3 3 = 1, п процесса восстановления получается путем наблюдения всех времен восстановления Ту на интервале [о, ^ ]:
о < Ту = ^ < Т = ^ ^ < ... < Т = ^ + ... + ^ , 3 < t0 < Ту +1]
3 3 3 3 3 3 3 3 3 0
АО- (п, г'** (п))
Н* (п.5) = 2
И:2и (п)£
)<5 N'* (п,г** (п))
(4)
7** ^ г7** ^ О** • 1 О Л** I 1 1
, , 1 < /1 < ... - упорядоченные значения различных величин р. , г = 1,2,..., 1 +1,3 = 1,п,
1 '* 1 **
п и3 п UJ
АО-* (п, г** (п)) = 2 2 (% = г** (п)), N •* (п, г** (п)) = 2 2 (р** > 1* (п)).
3=1 г=1
3=1 г=1
Пусть исследуемый параметр будет То=Но(5), 5о<4о. Тогда Тп = Тп = 7/ (п,5о), где мы ис-
пользуем введенную выше оценку, Ь
:= Ь
(-Л(г; - То))
т (0)п - ьучпуп- ±о^ есть распределение, которое мы
желаем имитировать с помощью бутстрепа. Оценка (4) дает величины Т** = Нъ (п, 5о), Ъ = 1, В. Бутстреп-версия для закона нормированных отклонений есть
ь'„,в = ь [47, (т* -Т„)| О, )=-В 21 (>/" (г:'* -£ )е а). (5)
Другой путь имитации ЬТ(0)п относится к перевыборке. Перевыборки осуществляются внутри порций Бп =(X1,X2,...,Xп) и мы получаем в перевыборочных копиях данных:
Б®* =( X®*, X®*,..., X®*), п = 1, В , Р (X®* = Х3„ ) =1, 3,3' = 1, п, где X 3 задаются описанным выше способом. Пусть Б®* = Р., включаемых в О ®*, и
У ‘.У
11 п 03 п 03
АО®* (п, г® (п)) = 227 (3 = 3“ (п)), N (п, г®* (п)) = 2 2 7 (3 > г®* («)).
3=1 г=1 3=1 г=1
В этом случае можно получить *-ую перевыборочную копию для оценки
Н “ (п, 5 )= 2
АО** (п, 2* (п))
^ (п, гИ* (п)) •
(6)
Оценка (6) дает значения Т®* = 7/®*, * = 1, В.
Перевыборочная копия для закона нормированных отклонений теперь есть
С = ь (Т Т, ) О, )=-121 уп (Т “ - Т)^ а) .
(7)
Имитируют ли распределения (5) и (7) ЬТ(0) п ? Ответ должен быть утвердительным. Это
свойство можно доказать. Можно наблюдать это имитационное свойство в следующем численном примере.
Пусть ¿о=1,5, 5о=1,о, Но У) =-ИРо (5) = с
1 - ехр
V «1 У
+
V а2 У
где с=о.75, а1=1.о,
Ъ1=5.0, а2=2.о, *2=2.о являются компонентами истинного параметра 0о = (с1,а1,Ъ1,*2); Р() есть
функция распределения интервалов в процессе восстановления. Нас интересует параметр То = Н (5о) и оценка Тп = Н (п, 5о). Пусть п=2о будет числом порций. Можно, используя моделирование, найти точную аппроксимацию теоретического закона распределения Ь
Этот
закон распределения показан на рис. 1 (а) и (б) точечными линиями, бутстреп-версия ЬпВ и пе-ревыборочная версия Ь®В, п = 2о В=1ооо - соответственно сплошными линиями.
ЬТ (0о ),п
—ъ
б)
—0-
б)
0,25 —0-
-3-2-10123-3-2-10123
Рис. 1
-3-2-10123-3-2-10123
Рис. 2
Аналогичные результаты при п=2оо, когда имеются в 1о раз больше статистических данных (и также при В=1 ооо), показаны на рис. 2 (а) и (б).
Эти аппроксимации для теоретического закона распределения отклонений ЬТ(0 )п (точечная
линия) с помощью бутстреп-версии Ьп В (сплошная на рис. 2 (а) и (б)) и с помощью перевыбо-рочной версии Ь®В, п = 2о показывают одинаково хорошее приближение по количеству подгонки и, несомненно, лучше, чем при п=2о.
Из рис. 2 видно, что как Ь®В,п = 2о, так и ЬпВ хорошо аппроксимируют ЬТ(0 )п, при этом
аппроксимация тем лучше, чем п больше, что свидетельствует об имитации ЬТ (0) п.
ЛИТЕРАТУРА
1. Belyaev Y.K. Bootstap, Resampling and Mallows Metric. Institute of Mathematical Statistics, Umea University, Umea, Sweden, Lecture notes, N1, 1995.
2. Копцев А.А. Модели коррекции параметров движущихся объектов. М.: МГУ, 1999.
ACCURACY ESTIMATION OF THE FACTORS DETERMINATION SAFETY FLIGHT UNDER
STATISTICS LIMITED
Koptcev A.A.
On base bootstrap-method and secondary samples method are received general correlations for estimation of accuracy of the determination of the factors to safety flight under limited to statistics
Сведения об авторе
Копцев Анатолий Александрович, 1964г.р., окончил МГТУ ГА (1987), кандидат технических наук, директор Департамента проектирования аэродромных комплексов ЗАО «Научно-технологический и проектный институт транспортной инфраструктуры», автор более 20 научных работ, область научных интересов - управление сложными системами, навигация, радиолокация.