Статистическое оценивание срединного отклонения
случайной величины
А.В. Тихоненков
Рассмотрена сущность срединного отклонения как характеристики рассеивания случайной величины. Доказана чувствительность этой характеристики к отклонениям закона распределения случайной величины от нормального. Показаны возможные изменения срединного отклонения в статистических расчётах, связанные с недооценкой характеристик выборки.
Ключевые слова: выборка, гипотеза, параметр, распределение, совокупность, функционирование, функция, характеристика, цензурирование
Во многих вопросах прикладной теории вероятностей, в частности в теории стрельбы, а также в теории ошибок для количественной оценки рассеивания используется обычно величина, которую называют вероятным или срединным отклонением (срединной ошибкой) [1].
Вероятным или срединным отклонением (обычно обозначается Ех) называется половина длины интервала, симметричного относительно центра рассеивания, вероятность попадания в который равна 0,5. В интервал длиной 2Ех, симметричный относительно центра рассеивания, попадает в среднем «лучшая» половина значений нормальной случайной величины [2].
Характеристики рассеивания можно определять опытным, опытно-теоретическим и теоретическим методами. Но находят применение только разновидности опытно-теоретического метода с различной степенью участия эксперимента и теории [3].
В основу определения характеристик рассеивания положены опытные значения этих характеристик, полученные для каждой группы испытаний по известной формуле:
где В^ - статистическая оценка вероятного (срединного) отклонения результатов измерений (точек попадания) по координате:
Тихоненков Алексей Викторович - кандидат технических наук, доцент кафедры информатики и математики Международного института экономики и права, докторант Военного учебно-научного центра Сухопутных войск «Общевойсковая академия Вооружённых Сил Российской Федерации». Адрес для корреспонденции: tihonenk@mail.ru
Для цитирования: Вестник МИЭП. 2014. № 1. С. 17-23.
п _ 2
(1)
п
_ I £ £ =
1=1 1
(2)
п
где п - число счетных результатов в данной группе.
Статистическая оценка срединного отклонения В^ по N группам испытаний определяется по формуле:
В = 0,6745
1
N 2
I В^-1) ]=1
N
I п^
н
(3)
Однако уже давно замечена нестабильность исследуемых характеристик при повторных испытаниях, то есть значения В^, вычисляемые по формуле (3), имеют значительный разброс, доходящий до 30-40% и более. Очевидно, нужны методы, позволяющие устранить этот недостаток.
Вероятное отклонение выражается через среднеквадратическое отклонение. Согласно определению,
Г1 ^
Р(
Х-т
X
< Е =
X
2
(4)
Для симметричного (относительно центра рассеивания) интервала известна формула:
г > < 1 = Ф —
Р(
Х-т
X
О
V X У
(5)
Тогда, принимая 1 = Ех, находим:
Ф
Г Е ^
X
О
V X У
0,5.
(6)
По таблице функции Ф(х) получаем значение аргумента х ~ 0,6745, при котором она будет равна 0,5. Следовательно, справедливо соотношение:
Ех/ах = 0,6745.
Отсюда получим:
Ех = 0,6745 ах.
(7)
(8)
Проведенные вычисления доказывают, что исторически в основу определения характеристик рассеивания был положен нормальный закон распределения с исчерпывающими характеристиками - функцией распределения (9) и функцией плотности распределения (10):
Б (X, ц, О)
1
X
1 Г X-Ц
г- Iе
ол/2п -(Ю
2 v о
dx,
(9)
1 -2н2
f (X, ц, о) = —^е о > ■ (10)
ол/ 2п
Однако при малом числе испытаний (для малых выборок) использование нормального закона распределения представляется недостаточно обоснованным. Тем не менее его используют практически во всех областях науки и техники, что приводит к значительному (недопустимому с точки зрения математики) разбросу получаемых опытно-теоретическим путем параметров кучности и значительному их завышению в силу осреднения экспериментальных данных в соответствии с законом нормального распределения.
Предпринимались различные попытки скорректировать случайные отклонения путем учета разброса условий проведения эксперимента (вплоть до атмосферных), однако проблема огрубления характеристик рассеивания этим не снимается.
Ни одна из методик проведения испытаний с целью определения характеристик рассеивания не учитывает также факт получения в результате испытаний цензурированных данных. В многочисленных источниках в качестве основных причин возникновения цензурированных выборок называют:
■ перевод изделий из одного режима применения в другой в процессе испытаний или эксплуатации;
■ использование изделий однократного применения по назначению из режима хранения;
■ объединение данных, полученных при испытаниях по двум и более однотипным планам, либо по планам разных типов [4-8, 9, с. 18].
Очевидно, что данные причины имеют место во всех методиках испытаний для определения срединного отклонения. Исходя из логики проведения таких испытаний, можно утверждать, что исследователь имеет дело с цензурированием интервалом, границами которого являются соответственно минимальное и максимальное отклонение результатов измерения (точек попадания) от номинального значения (точки прицеливания).
В соответствии с определением цензурированной выборки, приведенным в ряде публикаций [10, 11] можно сделать вывод о том, что термины «цензурирование» и «усечение» являются синонимами. Данный вывод подтверждает и В.М. Скрипник: «.термин «цензурирование» удобнее использовать для выборок, а термин «усечение» для законов распределения, усеченных на интервале» [9, с. 15]. Кендалл и Стюарт также предлагают выборки, состоящие из элементов с полными и неполными наработками, называть цен-зурированными, а законы распределения случайных наработок до отказа на интервале [0, Т] - усеченными (урезанными) [12].
Хотя встречаются и иные точки зрения [13, с. 123], усеченными принято называть выборки, в которых отсутствуют значения случайной величины, большие или меньшие некоторого граничного значения, тогда как цензури-
рованными - выборки, в которых часть членов отбрасывается. Тем не менее случайные величины, составляющие как цензурированную, так и усеченную выборку, подчиняются усеченному распределению.
К чему приводит недооценка указанных выше факторов, можно проиллюстрировать на следующем примере. В одной из работ автора доказано, что характеристики функционирования технических систем, являющихся предметом исследования, наилучшим образом согласуются с логарифмически нормальным (логнормальным) законом распределения [14], двусторонне усеченным.
Если случайная величина У распределена нормально, то случайная величина
X = 1пУ (11)
подчинена логарифмически нормальному (или логнормальному) закону распределения с исчерпывающими характеристиками - функцией распределения (12) и функцией плотности распределения (13):
1 (1пх-ц ^ 2
1 х 2 ^ а у
Б (х, ц, а) = —1=\ е ёх, (12)
а
л/2П
о
1
1 (1пх-цЛ 2
Г (х, ц, а) = —е а ^ . (13)
хал/ 2п
При вычислениях, связанных с логарифмически нормальным распределением, пользуются приемами, используемыми для нормального распределения, заменяя при этом значение случайной величины ее логарифмом [13, с. 35]. Подробный анализ этого распределения дан в работе Эйчисона и Брауна [15].
Для двусторонне усеченного нормального распределения справедливы следующие соотношения для показателей математического ожидания (М(х)) и дисперсии (Б(х)):
М(х)=ц-(^2-^1)ст, (14)
Б(х)=(1+^1-^2-^1)2а2, (15)
где Х2 - величины, рассчитываемые по формулам (16) и (17) соответственно.
^ = , 0б) = ^ , (17)
к 2 Ф(4 2) - ф(^1)
где ф(^1), ф(^2) - плотности вероятностей стандартного нормального распределения; £,2 - величины, рассчитываемые по формулам (18) и (19) соответственно.
^ = (18) о
£ 2 = , (19)
о
где а15 а2 - граничные значения.
При переходе от нормального закона распределения случайной величины к логарифмически нормальному (в силу того, что функция плотности распределения не симметрична относительно математического ожидания (рисунок) возникает необходимость модификации определения для вероятного (срединного) отклонения.
Их
1 г
1 1 *
; *
1 1
• /■Ч
- * * » /
-1 9 • \
1 и > ч V
Г 1 ч. 3 -
О г*» Ч1 ■"нсотгм-нтгг-.огоиэспгч тоо^^г^огошспгмт^
N г1 Н моооооо^^^гнгмгмгмгоглог)-^ ^ Т Т 1Л [Л
о о о о о о о о' о о о о о' о" о" о" о о о" о" о о" о о" о о" ^ норм.распр, — — усеч. норм.распр. — • логнорм. распр. .......усеч. логнорм,распр.
Функции плотности вероятности
Исходя из приведенных соображений, представляется целесообразным называть вероятным или срединным отклонением половину длины интервала, симметричного относительно центра рассеивания по вероятности, вероятность попадания в который равна 0,5. Результаты соответствующих расчетов приведены в таблице.
Для представленных в таблице исходных данных справедливы следующие утверждения:
■ при использовании зависимостей логнормального закона распределения величина оценки срединного отклонения изменилась на 17,5%;
■ при учете фактора усечения она изменилась на 38,5%;
■ при совместном учете обоих факторов - на 92,9%.
Результаты расчета величины срединного отклонения
Исходные данные и числовые характеристики Законы распределения
нормальный усеченный нормальный логнормальный усеченный логнормальный
x 0,02; 0,05; 0,07; 0,09; 0,12; 0,16; 0,21
lnx -3,912; -2,996; -2,659; -2,408; -2,120; -1,833; -1,561
Ц 0,1028571 0,1028571 -2,49835 -2,49835
о 0,0657557 0,0657557 0,790085 0,790085
$1 -1,260076 -1,78927
$2 1,6294084 1,186837
Ф ($1) 0,180353933 0,080485797
Ф ($2) 0,105776767 0,19726049
А.1 0,213546 0,095185
^2 0,125244 0,233288
M(X) 0,1028571 0,1086635 0,112339 0,077787
D(X) 0,0016361 0,010939 0,000686
ох 0,0657557 0,0404492 0,104591 0,026187
Ex 0,0443522 0,027283 0,036591 0,003144
В данном примере использован один из крайних случаев, однако недооценка отклонения эмпирического закона распределения от нормального и
игнорирование факта цензурирования всегда приводят к значительному искажению характеристик рассеивания.
Литература
1. Пискунов Н.С. Дифференциальное и интегральное исчисления. - М., 1970. - Т. 2. - С. 495.
2. Журко Д.М. Применение математических методов в военном деле. - М., 1984. - С. 120.
3. Беляева С.Д., Монченко Н.М., Паршин Ж.П. Внешняя баллистика. Ч. II: Устойчивость движения снарядов. - М., 1988. - С. 343.
4. Скрипник В.М., Назин А.Е. Оценка надежности технических систем по цензурированным выборкам / Под ред. А.И. Широкова. - Минск, 1981. -144 с.
5. Gill R.D. Censoring and stochastic integrals // Mathematical center tracts 124. - Amsterdam, 1980. - 172 p.
6. Назин А.Е., Приходько Ю.Г., Скрипник В.М., Явид Ю.Ю. Вопросы обработки статистической информации по цензурированным выборкам. -Минск, 1979. - 86 с.
7. Lagakos S.W. General right censoring and its impact on the analysis of survival data // Biometrics. - 1979. - N 35. - P. 139-156.
8. Беляев Ю.К. Непараметрические методы в задачах обработки результатов испытаний и эксплуатации. - М., 1984. - 60 с.
9. Скрипник В.М., Назин А.Е., Приходько Ю.Г. Анализ надежности технических систем по цензурированным выборкам. - М., 1988.
10. Агзамов С.К., Огульник Ю.М. Определение интервальных оценок и точности показателей долговечности по многократно усеченным выборкам // Надежность и контроль качества. - 1976. - № 9. - С. 49-54.
11. Баталова З.Г., Благовещенский Ю.Н. О точности оценок ресурсов элементов конструкций методом максимума правдоподобия при случайном усечении длительности наблюдений // Надежность и контроль качества. 1979. - № 9. - С. 12-20.
12. Кендалл М.Ж., Стюарт А. Статистические выводы и связь: Пер. с англ. -М., 1973. - 900 с.
13. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. - М., 2006.
14. Платонов А.А., Тихоненков А.В. и др. Методические основы построения математических моделей и обработки результатов испытаний неуправляемых артиллерийских снарядов. - М., 2010. - 70 с.
15. Aitchison J., Brown J. The lognormal distribution. London, 1951.
Statistical estimation of the median deviation of the random variable Tikhonenkov Aleksey, Candidate of Engineering Sciences, Associate Professor of Computer Science and Mathematics of International Institute of Economics and Law, doctoral Military Training and Research Center of Land Forces "Combined Military Academy of the Armed Forces of the Russian Federation"
The article considers the nature of the median deviation characteristics of dissipation random variable. Sensitivity of these characteristics to the deviation of the distribution law of a random variable from a normalization is proven. The author shows the possible changes of the median deviation in statistics-sky calculations associated with the underestimation of the characteristics of the sample.
Keywords: sampling, hypothesis, argument, distribution, collection, function, planning, function, feature, censoring
Address for correspondence: tihonenk@mail.ru
For citation: Herald of International Institute of Economics and Law. 2014. N 1(14). P. 17-23.