УДК 621.941.26.08
В.В. Мартынов, П.В. Мартынов СПОСОБ ОЦЕНКИ ЗАКОНА РАСПРЕДЕЛЕНИЯ ВЫБОРОЧНЫХ ДАННЫХ
На примере логарифмически-нормального распределения
представлены результаты решения задачи разработки критериев для оценки закона распределения выборочных данных.
Выборочные данные, критерии, закон распределения.
V.V. Martynov, P.V. Martynov SAMPLE DATA DISTRIBUTION ASSESSMENT METHOD
The results of problem solving of criteria developing for evaluation of the distribution of sample data on the example of the log-normal distribution are presented in the paper.
Sample data, criteria, assessment of the distribution.
Одной из задач, часто возникающих в практической деятельности, является обработка данных, представляющих собой часть членов некоторой достаточно большой совокупности (называемой генеральной), отобранных из нее для получения сведений обо всей совокупности. Обработкой этих данных занимается раздел математической статистики, называемый теорией выборок.
Основной задачей применения выборочного метода является установление закона распределения изучаемой случайной величины по данным выборки. Если генеральная совокупность подчиняется некоторому закону распределения, то на основании закона больших чисел можно утверждать, что и выборка из этой совокупности будет подчиняться этому же закону.
Для установления вида закона по статистическим данным составляется таблица распределения наблюденных значений случайной величины х в выборке объемом n, строится эмпирическая кривая плотности распределения и по ее внешнему виду или, исходя из физической сущности анализируемого процесса, определяется вид теоретического распределения, к которому она приближается, и производится проверка сходимости теоретических и эмпирических данных по соответствующим критериям согласия [1, 2]. Существует и второй способ, основанный на анализе статистических свойств исследуемого процесса с использованием графического изображения и табулирования [3, 4].
В целом непосредственное исследование плотности является не очень эффективным, поскольку связано с субъективным фактором, и в некоторых случаях может давать существенные погрешности, связанные с неправильным выбором аппроксимирующего распределения в ситуации согласия с выборочными данными нескольких законов. Это объясняется различным поведением интенсивностей распределений и требует применения дополнительных методов, позволяющих принимать однозначные решения.
При применении второго способа для анализа могут быть использованы [3, 4]:
1 - график функции интенсивности или ее логарифма относительно аргумента или его логарифма;
2 - графики функции риска, функции надежности или некоторых их преобразований относительно аргумента или его логарифма;
3 - график значения коэффициента вариации $ = а/ ;
/ м
4 - график нормированного третьего момента $3 =М/3 относительно
/ а
коэффициента вариации,
где м, а и д3 - среднее значение, стандартное отклонение и третий центральный момент случайной величины, соответственно.
Однако при построении этих графиков либо требуется специальная бумага и не всегда является возможной машинная реализация в условиях автоматизации исследований, либо вычисленные оценки имеют большую выборочную ошибку, либо графики получаются «негладкими», что требует разработки дополнительных процедур для проведения их анализа.
В связи с этим представляет теоретический и особенно практический интерес способ, основанный на использовании специальных критериев, позволяющих оценивать принадлежность выборочных данных к распределению конкретного вида. Конструирование критериев осуществляется с учетом их способности однозначно отражать статистические свойства распределения, которые, в свою очередь, есть достаточно точное отражение физического механизма, генерирующего выборочные данные.
В качестве примера рассмотрим критерии, позволяющие оценивать принадлежность выборочных данных к логарифмически-нормальному распределению, которое используется в решении различных задач, в частности, задачи расчета приземных концентраций загрязняющих веществ, выбрасываемых предприятиями топливноэнергетического комплекса, по данным их прямых инструментальных замеров. Это связано с тем, что значение концентрации ci в каждой точке территории, находящейся по направлению движения облака выброса после того как оно покидает источник, представляет собой некоторую часть значения в предыдущих точках этого направления, т.е. является ее случайной долей. Справедливость этого положения подтверждается зависимостью концентрации от большого числа факторов, большинство из которых (объем выброса, метеопараметры, стабильность или динамические свойства атмосферы, солнечная активность и др.) носит случайный характер, т.к. подвержено частым изменениям, поэтому представляет в своей основе вероятностное пространство случайных событий. В этом случае интенсивность образования концентрации к(е,К) при движении облака выброса, начиная с некоторого расстояния еед от источника выброса вначале довольно быстро возрастает, а затем постепенно уменьшается, формируя ее (концентрации) максимум, среднее значение (Мед) и определяя дальность (ас,д) распространения загрязнения (рис. 1). Математически этот физический факт и учитывается логарифмированием данных о расстояниях Ri, на которых производились замеры, что приводит к модели логарифмически-нормального распределения плотностей вероятностей f (е,Ъ) образования концентраций в пределах рассматриваемого направления:
•/ (е к) = -----/2= х ехр|- - )'- Мея] 2}, (!)
(Ъ-ес„)-ас„ -V2п I 2I (1)
Известно, что случайная величина Я > 0 распределена логарифмически-нормально с математическим ожиданием мс,Я и дисперсией а с,я, если 1п Я е N (1п 1^, а ), где Я0 -геометрическое среднее Я. При этом ее среднее значение
Дся = Ъохехр {0,5а2} , (2)
дисперсия
а2с,Ъ = М2с,Ъх[(Мс,Ъ / Я0)2 - 1] , (3)
коэффициент вариации
ис,я = 7 ехР{а2} -1 . (4)
Рис. 1. Физическая основа модели (1)
Следуя [1], преобразуем (2) и (3) как
Я = м2с,я / д/а2с,я + м2с,я } ;
1п Я0 = 2 х 1п Я - 0,5 х 1п (а2сЯ + м2с,Я) ;
а2 = (а2с,я / м2ся + 1) .
Тогда, если выборка {1п Яг-}„ с параметрами Яср,0, яя2 взята из логарифмически-нормальной генеральной совокупности
{пя} еN(1пЯо,а2) ,
(5)
(6) (7)
то
{іпR0}є N(1пR0, а2 /п) , (п -1) х sR2 /а2 є %2(п -1).
Положим
тогда
1п Ro = 2 хіп Rср,o - 0,5 х 1п^2д^2Ср,0) , а2 = (^^Е1ср,0+1) ,
і = (1п R0 - 2 х 1п Rср0 + 0,5 х 1п^ + R2ср,0))л/й/ а
0 ср,0
имеет распределение Стьюдента, а
X2 = а2 х (п—1) / 1п (sR2/R2Cр,o+1)
2
принадлежит х -распределению
_ 1 п 1 п _
1пRo = -11п^ , а2 =—— X (1п^- - 1п Я)2.
п г=1 (п -1) і=1
(8)
(9)
Статистики (8) и (9) и используются для проверки гипотезы (Яг.}п еЛ(дсЯ,а2сЯ) . Условия ее принятия
| t | < ¿р, п—1 ,
2 I 2 2 I
х е|Х1-р,п-1 , хр,n-l\,
где х 1-Р, п-1, X р,п-1 - квантили х -распределения для п-1 степеней свободы и заданных доверительных вероятностей 1-Р и Р, соответственно.
Необходимо отметить, что с формальной точки зрения критерии, основанные на статистиках (8) и (9), служат для проверки гипотез о справедливости равенств (6) и (7). Но так как как они получены в предположении логарифмически-нормального распределения вероятностей, то использование статистик (8) и (9) в качестве критериев принадлежности выборочных значений к логарифмически-нормальной генеральной совокупности является вполне оправданным.
Еще один критерий для проверки гипотезы о логарифмически-нормальном распределении можно получить, если воспользоваться выражением (4) для коэффициента вариации взятой из него случайной величины, преобразованным относительно величины дисперсии последней как
а2 = 1п (и2ся + 1) . (11)
Далее, если вспомнить, что
исЯ = 5Я / Яср,0 ,
то можно переписать (11) в виде
а2 = 1п (Я / Я2ср,0 + 1) . (12)
С другой стороны, значение этой же дисперсии можно получить, используя выражения (10). Тогда для оценки степени адекватности найденных дисперсий можно воспользоваться критерием Романовского [5], в основе которого лежит гипотеза о том, что математическое ожидание величины
9 = (У2-2) х Р / У2 , (13)
где Р = а12/а22 - статистика Фишера; а12, а22 - найденные оценки дисперсий; у2 - число степеней свободы,
в случае принадлежности их одной и той же нормальной (но в данном случае логарифмически) совокупности равно единице, а основное отклонение
У
|2 х(у! +У2 - 2)] (14)
[У1 х(У2 - 4)]
Поэтому с вероятностью, большей 0,889, можно ожидать, что отклонение 9 от 1 по абсолютной величине не превзойдет 3х59. В силу этого по величине критерия
я = |9 - 1 I / Б9 (15)
можно делать заключение о существенности или случайности расхождения между
22
оценками а1 и а2 :
- если Я > 3, то расхождение считается существенным;
- если Я < 3, то расхождение признается случайным.
Выполнение второго условия и означает принадлежность выборочных данных к логарифмически-нормальной генеральной совокупности.
Для применения критерия Я одно из чисел степеней свободы должно быть больше 4; оно и принимается за \2 в (13). Кроме того, в числителе этого выражения должна стоять большая из найденных оценок дисперсий, т.е. а12 > а22.
С целью проведения процедуры статистической проверки гипотезы о принадлежности данных инструментальных замеров логарифмически-нормальному
распределению (1) необходимо сформировать выборку по расстояниям, на которых происходило образование концентраций по каждому из компонентов выброса (в данном случае оксиду N0, диоксиду азота N02 и метану СН).
Однако при этом возникают определенные трудности, обусловленные тем, что образование это происходит в пределах всего анализируемого направления распространения облака выброса от источника. Другими словами, каждое расстояние, включаемое как элемент в выборку, определяется не только самим фактом появления на нем концентрации, но и ее величиной. Поэтому в основу формирования выборки были положены физические закономерности, приводящие к логарифмически-нормальному закону распределения вероятностей образования концентраций. В соответствии с этими предпосылками диапазоны изменения замеренных концентраций и расстояний, на которых производились замеры, были поделены на интервалы, как это принято в математической статистике, а затем последовательно по каждому компоненту для каждого интервала расстояний производился подсчет количества событий, связанных с попаданием в него данных из соответствующих интервалов диапазонов изменения концентраций. По результатам подсчета были получены гистограммы частот образования концентраций при замерах компонентов выброса двумя передвижными постами мониторинга (рис. 2, 3), а из гистограмм - выборки по расстояниям; частота образования концентрации по каждому расстоянию определяла количество его включений в выборку.
В таблице представлены результаты обработки выборок, которые во всех случаях однозначно подтвердили гипотезу о логарифмически-нормальном распределении вероятностей образования концентраций (рис. 4, 5) и, помимо этого, позволили установить, что статистическая мощность критериев (8), (9), (15) является более высокой по сравнению с критериями, традиционно применяемыми в математической статистике для проверки гипотез о законах распределения случайных величин. В связи с этим удовлетворение этим критериям является не только необходимым, но и достаточным условием принятия гипотезы о принадлежности выборочных данных логарифмически-нормальному распределению.
4,5
^3,5
2,5
5-1,5
0,5
5 6 7 О
Расстояние до станции, м
П
4
3
2
а
4,5
=г3,5
£2,5
,£1,5
5 6 7 О П
Расстояние до станции, м
б
4,5
=13,5
“2,5
Л Л и о
Расстояние до станции, м
Рис. 2. Гистограммы распределения частот образования концентраций оксида (а), диоксида (б) азота и метана (в), построенные по данным замеров первого поста
3,5
^2,5
Я 1,5
и 0,5
ол оп
50 С 7 00
4
3
2
0
4
3
2
0
в
3
2
и6
ц5
и4
а2
ОЛ ОП
С0 660 7 00
Расстояние до станции, м
б
л г\
94
«л
со 3
о
о2
и л
ГО 1
т
Расстояние до станции, м
Рис. 3. Гистограммы распределения частот образования концентраций оксида (а), диоксида (б) азота и метана (в), построенные по данным замеров второго поста
О
7
3
0
7
6
0
в
Расстояние до станции, м б
в
Рис. 4. Логарифмически-нормальные кривые распределения концентраций оксида (а), диоксида (б) азота и метана (в) по данным замеров первого поста
5 10 15 20
Расстояние до станции, м
в
Рис. 5. Логарифмически-нормальные кривые распределения концентраций оксида (а), диоксида (б) азота и метана (в) по данным замеров второго поста
Результаты вычисления критериев (0), (П), (15)
Номер выборки Компоне нт Объем выборки 1/1 ^0,95; л-1 2 X 0,95; л-1 2 X 2 X 0,05; л-1 R
1 N0 12 0,010 1,00 4,57 12,46 19,7 0,00
2 N02 11 0,073 1,01 3,94 9,49 10,3 0,19
3 СН 1П 0,110 1,71 9,39 23,23 20,9 0,31
4 N0 11 0,005 1,01 3,94 11,21 10,3 0,12
5 N02 20 0,020 1,73 10,1 10,90 30,1 0,20
6 СН 13 0,012 1,70 5,23 12,50 21,0 0,19
ЛИТЕРАТУРА
1. Баублис А.Б. Статистические модели в АСУ машиностроительного предприятия / А.Б. Баублис. М.: Машиностроение, 1984. 245 с.
2. Солонин И.С. Математическая статистика в технологии машиностроения / И.С. Солонин. М.: Машиностроение, 1972. 208 с.
3. Кокс Д.Г. Анализ данных типа времени жизни / Д.Г. Кокс, Д. Оукс; пер. с англ. М.: Финансы и статистика, 1988. 191 с.
4. Хан Г. Статистические модели в инженерных задачах / Г. Хан, С. Шапиро; пер. с англ. М.: Мир, 1968. 396 с.
5. Митропольский А.К. Техника А.К. Митропольский. М.: Наука, 1971. 576 с.
Мартынов Владимир Васильевич -
доктор технических наук, профессор кафедры «Конструирование и компьютерное моделирование технологического оборудования в машино- и приборостроении» Саратовского государственного технического университета
Мартынов Павел Владимирович -
студент кафедры «Конструирование и компьютерное моделирование технологического оборудования в машино-и приборостроении» Саратовского государственного технического университета
статистических вычислений /
Martynov Vladimir Vasilievich -
Doctor of Technical Sciences,
Professor of the Department of «Designing and Computer Modeling of Technological Equipment in Machine and Instrument Building» of Saratov State Technical University
Martynov Pavel Vladimirovich -
Student of the Department of «Designing and Computer Modeling of Technological Equipment in Machine and Instrument Building» of Saratov State Technical University
Статья поступила в редакцию 09.12.09, принята к опубликованию 25.03.10