2009
НАУЧНЫЙ ВЕСТНИК МГТУ ГА серия Аэромеханика, прочность, поддержание летной годности ВС
№141
УДК 347.471.33.37
ОБ ОРГАНИЗАЦИИ БАЗЫ ДАННЫХ И БАЗЫ ЗНАНИЙ ДЛЯ ОЦЕНКИ УРОВНЕЙ БЕЗОПАСНОСТИ ПОЛЕТОВ
А.А. КОПЦЕВ
Статья представлена доктором физико-математических наук, профессором Козловым А.И.
Изложены общие подходы организации базы данных и базы знаний для анализа безопасности полетов воздушных судов гражданской авиации. Разработанные подходы можно также использовать для анализа безопасности других транспортных средств (водных, автомобильных, железнодорожных, трубопроводных).
Ключевые слова: база данных, база знаний, безопасность полетов.
Основные требования к организации базы данных, содержащей информацию о безопасности полетов воздушных судов гражданской авиации, а также необходимую смежную информацию, сводятся к необходимости включения в нее вновь поступающих данных, получаемых в процессе эксплуатации воздушных судов всего самолетного парка РФ, и к требованию наличия в ней всей информации об имевших место отказов воздушных судов и наземных обеспечивающих технических средств (в том числе и по вине летного, управленческого и технического персонала, метеоусловий). Кроме того, эта база данных должна органически совмещаться с современной базой знаний для быстрого вычисления целого набора показателей безопасности полетов в системе организации воздушного движения.
База знаний должна содержать небольшое число основных формул и правил, позволяющих рассчитывать текущие показатели безопасности полетов и оперативно доводить их до всех авиакомпаний с целью принятия соответствующих предупредительных мер.
При выборе модели накопления данных по безопасности полетов необходимо учитывать все этапы работы с ними: планирование сбора, хранение собранных данных и обработку больших, постоянно обновляемых массивов накопленных данных. При этом должна быть обеспечена определенная стандартизация получаемых данных.
Практика показывает, что традиционные методы математической статистики, имеющие дело с однородными и сравнительно небольшими объемами данных, при обработке больших и разнородных массивов реальных данных о безопасности полетов малоэффективны, а потому можно говорить об их фактической бесперспективности.
Ниже будут изложены новые подходы к использованию больших массивов данных о безопасности полетов. В основе такого подхода лежат методы, разработанные научной школой профессора Ю.К.Беляева [1].
Информация о безопасности полетов поступает в базу данных в виде порций, являющихся по своей сути наименьшей единицей информации и составляющих основной массив данных.
На этапе предварительной обработки информации на основании порций данных образуются специальные таблицы, в которых сосредоточивается необходимая информация для получения статистических выводов: точечных и доверительных оценок функций распределений и функций интенсивностей инцидентов (отказов, катастроф), а также других показателей безопасности полетов. Данные для заданного типа ВС должны быть однородными, а поэтому, если данные собираются в течение продолжительного времени или из разных климатических зон, то их массив следует разбить на части (по временам года и климатическим зонам). При отсутствии однородности данные должны сопровождаться дополнительными метками. Другой путь учета неоднородности данных состоит в учете ковариат, т.е. значений дополнительно измеренных величин, влияющих на безопасность полетов.
Обязательное требование к регистрируемым данным состоит в том, что данные о безопасности полетов должны содержать значение наработки £ - времени работы ВС и его оборудования до отказа в воздухе. При этом фиксируется также момент самого неблагоприятного события - отказа, катастрофы ВС или предпосылки к ней. Это значение наработки должно быть снабжено признаком - меткой Г, кодирующей факт наступления или отсутствия катастрофы (предпосылки к ней, отказа в воздухе) при данном значении наработки (в целом по ВС и по отдельным его системам). Метка Г может кодировать и тип наблюдаемого отказа (опасный, менее опасный и др.). Должны быть рассмотрены и две шкалы времени: календарного времени и времени наработок £.
Разбиение накапливаемых данных на порции дает возможность стандартизировать процесс накопления и обработки данных.
Порцией данных [2] Х=( ^ •Г) •1=1 ■>, называется набор значений случайных величин £ ц, Г у, где у — номер порции; — полученная наработка; Г у - метка, кодирующая причину
прекращения наблюдения (тип отказа, в том числе и отказ, приведший к катастрофе).
Если данные о безопасности полетов не представлены в виде порций, то они должны быть преобразованы к стандартному виду.
Для расчета показателей безопасности определенного типа ВС и определенного типа их отказов отбираются те порции данных, которые имеют необходимую информацию. Например, для информации о катастрофических отказах, кодированных меткой /, для каждой порции X
следует определить подмножество Лу значений меток Гу (/ не входит в Лу ). Если в порции Х}-есть наработка с меткой Гу, значение которой равно / или она входит в Лу (Г у е Лу и /), то
эта порция располагает необходимой информацией. При расчетах показателей безопасности с разными типами отказов, кодированных метками /1,..., /к, информацию содержат все порции, в
к
которых метки Гу е V (Лт, у и /н).
Последовательность порций Х}., в которых содержатся наработки с меткой / (с набором /1,...,/к) или с меткой из подмножеств Лу (объединения подмножеств Л1И]., И = 1,к, у = 1,т), назовем массивом данных = (Х1,..., Хт), связанных с меткой / (с набором меток /1,..., /к ).
Образование таких массивов данных - второй этап машинной обработки данных. Итак, на первом этапе входные данные преобразуются в порции, на втором - эти порции преобразуются в массив данных, связанных меткой /.
Перейдем теперь к образованию базы знаний по безопасности полетов. Продолжительность работы ВС до катастрофы (предпосылки к ней) является случайной величиной, функция распределения которой определяется типом ВС. Летные происшествия (инциденты, аварии, катастрофы и т.п.) происходят из-за отказов разных типов, метеоусловий, а также по вине летного и наземного персонала. Каждой такой причине летного происшествия соответствует своя случайная величина, равная времени до наступления летного происшествия. Предполагается, что случайные величины, соответствующие различным причинам, взаимно независимы. Если летное происшествие кодируется меткой /, то соответствующая функция распределения обозначается (0), а ее значение в точке £ как ^). Тогда вероятность отсутствия летного происшествия
за время ^ равна ^ ^) = 1 - ^ ^).
Точечные и интервальные оценки для значения функции распределения и других, связанных с ними показателей безопасности, прежде всего средней наработки на одно летное происшествие, рассчитываются на основе соответствующих меток / массивов данных методом мак-
симального правдоподобия. Для этого необходимо иметь полное описание исходной статистической модели.
Статистическая модель для порции данных задается возможными значениями порции Xу ={Xу} семейства вероятностных распределений Р- = {Р-} .
Элементы Х- имеют вид Х- =(£., Гц), г = 1, Jj, где £. >0, Гц е (±1,±2,...,±г).
Каждое распределение семейства {Ру} определяется значением набора функций распределения Г = (Г (•),...,Гг (•)) и некоторого мешающего параметра в, влияющего на значения вероятностей событий РГ в (Х}. е Л).
Распределение из {Ру} для пары (Г,в) обозначим через Ррв.
Для построения точечных оценок функции распределения Г можно было бы использовать стандартный метод максимального правдоподобия, требующий существования плотностей распределения, т.е. непрерывности исходных функций распределения. Однако при исследовании
проблемы безопасности мы можем столкнуться со случаями, когда распределения из {Р-} не
будут иметь плотностей распределения.
Из-за отсутствия плотности для массива Уг, следуя [1], введем обобщенную функцию прав-
т
П Р™( Х-)
доподобия: Ь(^,3;Г2Д;У ) = -—т-----------------.
1П Р в. (Х)
«=1 у=1
Обобщенный метод максимального правдоподобия состоит в нахождении пары Г7, в такой, при которой для любой другой пары (Г, в) выполняется неравенство
Ь (Г,в; Г , в;У )> Ь (Г, в; Р,в;Уг).
Для всех задач безопасности нужно найти пару Г7, в, для которой
т
Рм (У) = ™хПРг, в (Х,) . (1)
-=1
Пусть 2^ (т)< 2^ (т)<... < 2г (т) - последовательность чисел, полученных упорядочением по величине всех наработок 8-, входящих в массив Уг, у которых Г- е / и Л-, . = . (т).
Каждому значению 2г (т) соответствует, хотя бы одна, наработка с меткой Г- е / и Л-. Обозначим число наработок 8-, равных 2/ (т), с меткой Г- = / через Л (т); с меткой
Гу е Л через С, (т) ,т е.
т J
Л (т) = Ц1 (£,= 2и (т); Г, = I) ^ (2)
/=1 1 = 1
т ^ -
С, (т) = II1 £ = 2и (т); Г е Л) ^ (3)
/ = 1 1=1
где / - индикатор событий, указанных в скобках. Поэтому вероятность наблюдения массива У.
т к Г г~ - ч -Л (т) г / ч ~\С/ (т) 1 т , ч
Рр,в (У, ) = П Рг.в (Х, ) = П|[ ¿Р (2/, (т)) ]И [г/ (2/, (т))]И 1хП Сг,„ (X- )> 0. (4)
=1 ,=1 - =1
Из (1) и (4) вытекает, что обобщенной оценке максимального правдоподобия Рг (•) соответ-
к Гг \-|Ли (т) Г ^ / .-¡С, (т)1
ствует максимум выражения П)1 Др (21 (т)) р (2г (т)) }.
И=1 I -I
Теперь отметим одно важное обстоятельство, связанное с представлением удобных для использования ЭВМ данных в соответствии с приведенными математическими сведениями из базы знаний: статистические данные из массива У1, которые определяют обобщенную оценку максимального правдоподобия функции распределения р, будем представлять в виде таблицы
Д (У ) =
^ 2 ( т) 2/2 ( т ) ... 2,(т) ^
Л (т ) Л 2 ( т) ... Л(т)
С1 (т ) С ( т ) ... С. (т )
(5)
в которой в первой строке - значения полученных наработок, во второй строке - числа наработок, имеющих метку /, в третьей строке — числа наработок с метками из и Л-, т.е. с наработками, которые не завершились летным происшествием типа /, . = . (т).
Если порядковая таблица Д(У) уже рассчитана, то при поступлении очередной порции Хт+1 образуется порядковая таблица Д (Хт+1), которая агрегируется с таблицей Д (У) в таблицу Д (*7) массива У'=( X1,..., Хт , Хт+1 ) .
Для этого надо таблицы Д (У) и Д (Хт+1) рассмотреть как совокупность столбцов. Эти
столбцы из значений 2, / и С необходимо упорядочить по 2, суммируя сначала значения Л а затем значения С.
Примеры использования таблиц типа таблицы (5) для решения задач надежности даны в [3,4]. При этом была учтена и специфика задач оценки показателей безопасности полетов (прежде всего, ограниченность исходной статистической информации).
Покажем, как информацию табл. 5 использовать для оценки вероятности летного происшествия, применяя введенные Ю.К.Беляевым множительные оценки [1]. Поставим каждому значению £ в соответствие целочисленную величину
Ы1 (т 5)= I [/, + С (т)] .
И;2/И (т)>£
(6)
Для всех моделей из базы данных из области безопасности полетов обобщенная оценка максимального правдоподобия работы без летного происшествия р (5) определяется как
^ п(5) Р (5)=П
И=1
Л(т)
(7)
( Щ 2, (т))
где .(5) = тах{,: 2^ (т) < 5} ; Ы1 (т, 2^ (т)) - число из (6); Л (т), С^ (т) - числа, входящие в столбцы порядковой табл. 5 и определяемые по формулам (2) и (3).
Оценки (7) и оценка р (5 ) = 1 - р (5) называются множительными оценками соответственно
для р (5) и р (5).
Выражение (7) позволяет вычислить оценку (5) при заданном значении аргумента 5, т.е.
в заданной точке 5. По аргументу 5 оценка р (5) является невозрастающей ступенчатой функцией, скачки которой в тех точках 2^ (т), которым сопоставляются (т) > 0 .
Для расчета р (2^ (т)) сначала находится р (2{- ^ (т)), а затем используют соотношение
Р (24 (т)) = - А (т) 1Н1 (т 2Ь (т))]'р (^ (т)), (8)
где 2г0 (т) = 0, р0 (0) = 1.
Значение скачка р в точке 2^ (т) согласно (7) определяется как
— А (т)
Р (т) = ДР (2,п (т)) = р (^ (т)) (2 ( )) . (9)
N. (m, 24 (т))
Важным показателем безопасности полетов ВС является математическое ожидание времени наработки ВС на одно летное происшествие при наилучшей оценке р (•): тг. = 1(5).
0
На практике пгр подсчитывается с учетом (7)-(9) по формуле
Д2, £ Я (2,)
т / л. л. \ т /л. л. \ т А/ л.
т.Р = Е5, (. (5,-,)-Р (5,)) или тг = £2,(р (2,-,)-. (2,)) = £2,R-/-Рр (2,_,), (10)
где 21 < 22 < ... < 2т - моменты летных происшествий, Я(5) = ^
т т
а} = Е1 (5 - 2 )•1 (Я =1), NJ = Е1 (5 - 2), 1 - индикатор
1
Я, =
- • 1 (=1), N = Е л 5
,=1 ,=1
1 - происшествие было,
[0 - происшествия не было Следует отметить, что при исследовании свойств множительных оценок сначала используется метод статистического моделирования.
Важно отметить, что оценка (7) является состоятельной оценкой для р (5), т.е. она тем
точнее, чем больше исходных данных. Состоятельность оценок дает возможность использовать их в условиях накопления большого числа данных.
Точность оценок р (•) при заданном массиве данных У, можно охарактеризовать асимптотическими (при т ® ¥ ) у - доверительными интервалами (напомним, что т — число порций данных). Статистики Вн (У,) и ВВ (У,) называют нижней и верхней границами асимптотически
у-доверительного интервала (при т ® ¥ ) для величины В0, если Р (Вн (У,) £ В0 £ Вв (У,)) ® у при т ® ¥ .
Нижняя и верхняя границы асимптотически у-доверительных интервалов (при т ® ¥) для значений р (5) задаются так:
р (*) Г1 - (5)] и р (5) П + (5)] (1 1)
f
тг2 / \ ^ ^ h (т) тт 1
соответственно, где V (^)= ^ ----------т, а Up - квантиль уровня 1-р, т.е.
h-.Zlk (m)<SNf (m, ^ (m ))
1 y
Ф (Up) = 1 -p, ф (y )=—JV Л2 <*.
Специфика безопасности полетов для более детального анализа летных происшествий требует расширения понятия порции данных, что даст возможность объединить в общий массив разнородные порции данных. Введем для этой цели новое понятие - ковариат и обобщим понятие порции данных следующим образом: считаем, что j-я порция данных есть набор чисел
X = (Sij,Qij,...,Qkij, i = 1, Jj), где по-прежнему Sij -наработки; Гц — метки, а Qij - ковариаты, ха-
рактеризующие условия полета (внешние условия, вибрации, подготовленность экипажа и др.), а также параметры ВС (его конструктивные особенности, летно-технические характеристики и др.). При учете ковариат необходимо выяснить их влияние на функцию распределения Fl. С
этой целью из массива Yl = (X1,...,Xm) отбираются два массива порций Y" =(Х^,...,Х'щ ) и
Y" = (Х^,..., Х'щ ), m1 + m2 = m, которым соответствуют сильно отличающиеся значения ковариат. Затем рассчитываются значения множительных оценок и соответствующих им асимптотически Y доверительных интервалов на основе Y* и Y*. При получении существенно различных
оценок и непересекающихся доверительных интервалов следует сделать вывод, что в этом случае не учитывать значения ковариат нельзя.
Пусть все векторы ковариат Qi}. = (Q1ij.,...,Qkij) имеют одинаковую размерность k, а порядок расположения ковариат одинаков для всех типов ВС. Номера компонент вектора ковариат Qjj.
разбиваются на два подмножества: в первое входят номера ковариат, связанные с условиями полета ВС, в во второе — номера ковариат, характеризующие параметры и состояние каждого из жизненно важных с точки зрения полета агрегатов (двигателя, навигационной системы, системы связи и др.). Таким образом, каждому ВС Qi, представленному в порции Xj наработкой
Si}- и меткой Гц, соответствует вектор ковариат Qi}. = (QU].,...,Qkij).
Пусть Qa, а = 1, k - номинальные значения компоненты с номером а. Компоненты вектора уклонений ковариат Уу = (V1ij,..., Vkij) определяются соотношениями Vaij = Qaij -Qa, где а = 1,k . Если ковариаты ВС Qt совпадают с номинальными, то Vi}- = (0,...,0) = Ok. ВС с вектором ковариат V = (V1,..., Vk) имеет функцию распределения продолжительности работы без летного происшествия Fl (s, v). Если V = Ok , то будем использовать обозначение F0l (s) = Ft (s, Ok).
В базе знаний по безопасности полетов успешное использование массивов данных с различающимися значениями ковариат возможно в тех случаях, когда применима одна из моделей пересчета данных, однако для всего спектра задач безопасности полетов в этом направлении следует проводить дальнейшие исследования.
ЛИТЕРАТУРА
1. Belyaev Y.K. Bootstap, Resampling and Mallows Metric. Institute of Mathematical Statistics, Umea University, Umea, Sweden, Lecture notes, N1,1995.
2. Барзилович Е.Ю., Каштанов В.А. Некоторые математические вопросы теории обслуживания сложных систем. - М.: Сов. радио, 1971.
3. Belyaev Yuri K. Central Limit Resampling Theorems for m-Dependent Heterogeneous Random Variable. Department of Mathematical Umea University, Umea, Sweden, Research Report, N 5, 1996.
4. Копцев А.А. Модели коррекции параметров движущихся объектов. - М.: МГУ, 1999.
ABOUT ORGANIZATIONS DATABASE AND KNOWLEDGEBASE FOR ESTIMATION OF
SAFETY FLIGHT LEVEL
Koptcev A.A.
They are stated general approaches to organizations database and knowledgebase for analysis of safety flight air court to civil aviation. The designed approaches possible also to use for analysis of safety other transport facilities (water, car, railway, pipe-line).
Сведения об авторе
Копцев Анатолий Александрович, 1964г.р., окончил МГТУГА (1987), кандидат технических наук, директор Департамента проектирования аэродромных комплексов ЗАО «Научно-технологический и проектный институт транспортной инфраструктуры», автор более 20 научных работ, область научных интересов - управление сложными системами, навигация, радиолокация.