УДК 519.2:528.1 Н.Б. Лесных СГГА, Новосибирск
НЕКОТОРЫЕ АСПЕКТЫ АЛГОРИТМА СТАТИСТИЧЕСКОГО АНАЛИЗА ГЕОДЕЗИЧЕСКИХ ДАННЫХ
N.B. Lesnykh SSGA, Novosibirsk
SOME ASPECTS OF ALGORITHM FOR THE STATISTICAL ANALYSIS OF GEODETIC DATA
The key points of choosing algorithm for the statistical analysis of geodetic data are described, i.e. the range of distribution laws under study, methods for determination of estimated parameters and numerical characteristics, problems of data grouping and using fitting criteria.
Вероятностно - статистический анализ выполняют с целью определения оценок параметров распределения и числовых характеристик случайных величин, идентификации закона распределения, наилучшим образом, соответствующего выборке наблюдений. По результатам обширных статистических исследований [1] с использованием современной программной системы [2] установлено, что среди законов распределения геодезических данных имеют место нормальный, логистический, минимальных и максимальных значений, Лапласа, Коши и в единичных случаях некоторые другие (Su - Джонсона, Sb -Джонсона, двойной экспоненциальный, двойной показательный).
Нормальный закон представлен в результатах статистического анализа всех групп геодезических данных - поправок, невязок, разностей превышений высокоточного нивелирования и отметок повторных наблюдений на АЭС. Он является основным законом, а также математической моделью распределения случайных величин в геодезии. При анализе геодезических данных первостепенное значение имеет соответствие распределения этих данных именно нормальному закону.
Сравним два метода определения оценок параметров - метод моментов К. Пирсона и метод максимального правдоподобия Р. Фишера. Согласно первому некоторое количество выборочных моментов приравнивается к соответствующим теоретическим моментам случайной величины. Оценкой математического ожидания является среднее арифметическое. Для метода максимального правдоподобия Фишера требуется знать вид плотности распределения случайной величины f (Xj,al5a2, ak) . Неизвестными являются параметры aj (j = 1, 2, ..., k), а величина Xi есть i - е значение в выборке.
Для примера, из статистического анализа случайных ошибок измерений известны оценки параметров закона минимальных значений, полученные
методом максимального правдоподобия а = 0,1126, А, = 0,3358 [3], а е (-°о,°о) - параметр сдвига, Ле (о,«>) - масштабный параметр.
Оценки параметров являются решением системы уравнений правдоподобия
•Vi ti-i е
-Sitie •
-I¿K-(Í,-1)-1] =0, (!)
2 j = l
где si
_ xi _а
t{ =exp
X
tiJ=exp
^xij аЛ
_xij a
и
Соответствующие этим параметрам оценки математического ожидания и среднего квадратического отклонения равны
Мд = а-0,5772 1 = 0,1126 -0,5772 -0,3358 =-0,081;
стд =7iA / д/б = 0,431 .
Для того же ряда случайных ошибок А получены оценки параметров нормального закона распределения
М(А) = А = [А] / п = - 0,086 - математического ожидания и
_ Л /ГСА.-А)21
а( А) = Л|——i-— - о ,437 - среднего квадратического отклонения.
n
Отличие в определении оценки математического ожидания методом Пирсона и максимального правдоподобия составило 5,8 % . Соответствующее отличие в значениях среднего квадратического отклонения не превысило 1,3 %.
Метод максимального правдоподобия требует значительно большего объема вычислений. Именно трудности вычислительного характера ограничивают использование метода максимального правдоподобия. Для нормального закона оба рассмотренных метода определения оценок параметров дают одинаковые результаты. Следовательно, в методе максимального правдоподобия в данном случае нет необходимости.
При достаточно большом объеме исследуемой выборки принято выполнять группирование данных с целью придания статистическому материалу компактности и наглядности, возможности вычисления некоторых критериев согласия, построения графиков. Различные варианты использования группированных и не группированных данных заложены в программной системе [2].
Всякое группирование ведет к определенной потере информации по сравнению с не группированной выборкой. Сравним, например, точность определения среднего арифметического по не группированным и
(-i
n
i-i
e
группированным данным. В первом случае среднее арифметическое вычисляется по формуле Х!=[Х]/П . (2)
Среднее квадратическое отклонение среднего арифметического ст(х1) = ст/Л/п. (3)
При группировании данных среднее арифметическое вычисляется по формуле
х?р п, +Х? п9 + ... + х?р Пи х2=^---2—2-^,(4)
п
где Х1ср = х, + с /2 - середины интервалов. Будем считать, что длина интервала с - постоянная величина (а(с) = ал/2/к,при к >10 а <0,1 а).
<7(х2) =
П
V
п )
п
V
(7
2
п )
(
а
Щ (5)
к
\ п
2
п
- среднее квадратическое отклонение среднего арифметического, вычисленного по группированным данным.
а(хх) пет л/п
Так как п = [п] и пА>0, д/[п2]>-л/п , ст(х2)^(^(х1) , т.е. точность
среднего арифметического, вычисленного по группированным данным всегда будет ниже точности этой величины, полученной без группирования.
Оценки, вычисленные по группированным данным, являются робастными - не чувствительными к грубым ошибкам наблюдений. Между тем, задачей математической обработки геодезических измерений является обнаружение грубых ошибок. Сравнение результатов, полученных без группирования и по группированным исходным данным, может выявить грубые ошибки.
Представляется целесообразным в программе статистического анализа выполнять группирование для вычисления критериев согласия, построения графиков. Оценки параметров и числовых характеристик вычислять по не группированным данным.
Для исследования согласия эмпирических и теоретических законов распределения наиболее доступными критериями являются: асимметрия, эксцесс, критерий Пирсона, а также традиционная проверка четырех свойств случайных ошибок геодезических измерений, которую рекомендуется выполнять с использованием критериев равенства вероятностей и равенства
средних [1]. Как показывает практика статистических исследований, непараметрический критерий согласия Колмогорова малоэффективен.
Есть законы, для которых асимметрия S или эксцесс Е не равны нулю. Например, для логистического распределения S = 0, Е =1,2. Значимость отличных от нуля характеристик предлагается устанавливать по доверительному оцениванию асимметрии и эксцесса. Теоретические значения числовых характеристик должны попадать в интервалы:
+ Ё-3% ^Е^Ё + 3(7)
Если теоретические значения S или Е не попадают в заданные интервалы, это говорит о том, что гипотезу о предполагаемом законе распределения случайной величины следует отвергнуть. Для нормального закона распределения Б = 0, Е = 0, что соответствует известному условию:
если 8 Е -^ЗсТц, Б и Е несущественны.
Значительно расширяют возможности статистических исследований включение в программу элементов корреляционного анализа.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Лесных, Н.Б. Законы распределения случайных величин в геодезии: монография / СГГА. - Новосибирск, 2005. - 128 с.
2. Лемешко, Б.Ю. Статистический анализ одномерных наблюдений случайной величины: Программная система. - Новосибирск: НГТУ, 1995. - 125 с.
3. Теория, методы и программное обеспечение задач статистического анализа независимых и зависимых случайных величин в геодезии: Отчет по НИР (промежуточный)/ НГТУ. Руководитель В.И. Денисов. Исполн.: Б.Ю.Лемешко, Н.Б.Лесных и др. - Новосибирск, 1994 - 40 с.- № ГР 01.95.000159; инв.№ 02.95.0001199.
© Н.Б. Лесных, 2009