Научная статья на тему 'Автоматизация идентификации законов распределения на основе аппроксимативного анализа экспериментальных данных'

Автоматизация идентификации законов распределения на основе аппроксимативного анализа экспериментальных данных Текст научной статьи по специальности «Математика»

CC BY
85
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
АВТОМАТИЗАЦИЯ СТАТИСТИЧЕСКОГО АНАЛИЗА / АППРОКСИМАЦИЯ / ЗАКОН РАСПРЕДЕЛЕНИЯ / ДОКАЗАТЕЛЬСТВО ГИПОТЕЗ / КРИТЕРИИ СОГЛАСИЯ / AUTOMATION OF THE STATISTICS ANALYSIS / APPROXIMATION / DISTRIBUTION LAW / HYPOTHESES PROVING / FITTING CRITERIA

Аннотация научной статьи по математике, автор научной работы — Васильева Татьяна Валерьевна

Предложен алгоритм автоматизации идентификации законов распределения на основе аппроксимативного анализа экспериментальных данных. Метод основан на разложении эмпирических данных в ряд Фурье в пространстве L2 через полиномы Лежандра. Приведены два необходимых и достаточных критерия для автоматического выдвижения гипотезы о законе распределения. Изложенный метод рассмотрен на подробном примере.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Васильева Татьяна Валерьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFICATION AUTOMATION OF THE DISTRIBUTION LAWS ON THE BASIS OF APPROXIMATE ANALYSIS OF THE EXPERIMENTAL DATA

An algorithm of identification automation of the distribution laws on the basis of approximate analysis experimental data is given in the article. The method is founded on the decomposition statistics in Fourier series in space L2. There are two necessary and sufficient criteria for automatic setting up of the hypothesis about the distribution law. The method is considered on a detailed example.

Текст научной работы на тему «Автоматизация идентификации законов распределения на основе аппроксимативного анализа экспериментальных данных»

УДК 519.234.33, 519.676, 519.254 Т.В. ВАСИЛЬЕВА

АВТОМАТИЗАЦИЯ ИДЕНТИФИКАЦИИ ЗАКОНОВ РАСПРЕДЕЛЕНИЯ НА ОСНОВЕ АППРОКСИМАТИВНОГО АНАЛИЗА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

Предложен алгоритм автоматизации идентификации законов распределения на основе аппроксимативного анализа экспериментальных данных. Метод основан на разложении эмпирических данных в ряд Фурье в пространстве L2 через полиномы Лежандра. Приведены два необходимых и достаточных критерия для автоматического выдвижения гипотезы о законе распределения. Изложенный метод рассмотрен на подробном примере.

Ключевые слова: автоматизация статистического анализа, аппроксимация, закон распределения, доказательство гипотез, критерии согласия.

Введение. Статистический анализ получил свое новое развитие с появлением ЭВМ. Компьютеризация статистических исследований, возможности анализа и хранения информации с помощью ЭВМ сделали статистический анализ доступным для широкого практического применения в любых прикладных отраслях, имеющих дело с большими объемами данных. Все это привело к появлению большого количества статистических пакетов на рынке программ. Наилучший выбор статистического пакета зависит от характера решаемых задач, объема, специфики обрабатываемых данных, квалификации пользователей и т.д. Каждый пакет содержит набор основных статистических методов, изучаемых в курсах статистического анализа и эконометрики. Специализированные пакеты наряду с основными методами реализуют новые методы статистической обработки данных или дают более глубокий анализ одного или нескольких методов. Актуальной задачей остается автоматизация новых статистических методов, популяризация их для массового применения, приведение интерфейсов статистических пакетов к новому уровню удобства использования конечным пользователем, разработка алгоритмов, способных реализовать введение интеллектуальной составляющей для анализа статистической информации. Одной из таких нерешенных задач является автоматизация выдвижения гипотезы о виде закона распределения статистических данных. До сих пор эта задача решается на уровне визуального анализа гистограммы. В данной статье предлагается методика автоматизации, и приводится компьютерная реализация выдвижения гипотезы

о законе распределения на основе проведенного исследования в рамках диссертации автора, ранее результаты и основные выводы по предложенной методике можно найти в публикациях [1,2]. Обзор методов идентификации функции распределения. Выбор подходящего аналитического выражения с неизвестными параметрами является самым сложным этапом процедуры сглаживания. Это объясняется тем, что задача плохо формализована, всегда существует опасность, что рассмотрены не все варианты законов распределения, решения необходимо принимать по ограниченному набору данных.

На практике задачу идентификации решают на основе анализа:

1) гистограммы и ее соответствия кривой теоретического распределения;

2) числовых характеристик и их соответствия значениям теоретических числовых характеристик;

3) фазовых портретов (структурных функций) [9].

С точки зрения автоматизации этот процесс полностью полагается на мнение исследователя. Легко можно автоматизировать второй пункт, но на основе соответствия только числовых характеристик сложно сделать выводы о законе распределения. Анализ же первого и второго пунктов не автоматизирован. Третий пункт также полагается на визуальное сравнение и выводы

172

исследователя. Этот пробел в автоматизации предварительного анализа закона распределения эмпирических данных мы попытались исправить с помощью разработанного в рамках представленной работы метода.

Метод идентификации законов распределения на основе аппроксимативного анализа экспериментальных данных. Приведем алгоритм метода идентификации законов распределения на основе аппроксимации статистических данных в ряд Фурье в пространстве L2 через полиномы Лежандра.

Алгоритм идентификации функции распределения.

1. Рассмотрим эмпирические данные, объем выборки п варианта х е (а, Ь)

2. Перейдем от отрезка (а,Ь) к отрезку (0,1) с помощью формулы:

х - а

t = ------. (1)

Ь - а

3. Частным случаем разложения функции в гильбертовом пространстве является разложение функции в ряд Фурье в пространстве L2 [-1, 1] через многочлены Лежандра [8]. В нашем случае будем рассматривать разложение в ряд Фурье через сдвинутые многочлены Лежандра в пространстве L2 [0, 1]. Аналитическое представление эмпирической функции распределения, построенной на отрезке (0,1), выражается формулой:

ад

F 40 = 1 с* • Р,(*), (2)

г=0

где многочлены Лежандра находим по формуле:

1

Р (0 = — ------------ ((2* -1)2 -1)г. (3)

г!2 гё (2* -1) г

Многочлены Лежандра программно вычисляем с помощью рекуррентного соотношения

[10]:

(г + 1)Рг+1(2* - 1) = (2г + 1)(2г - 1)Рг(2* - 1) - гРг-1(2* - 1);

Р, (1 - 2*) = (-1) гРп (2* -1), Р, (1) = 1, Р, (-1) = (-1)г..

Коэффициенты с* находим по формуле

с * = (2г +1) •} F •(/) •Р (*)й1. (4)

И в силу того, что

1 1 (•(( ул =—(1 - ц, ,,),

0 к 1

каждый коэффициент с 2 = с *(ц) выражается через эмпирические начальные моменты распределения. Приведем пять первых коэффициентов разложения:

с* =(1 - Ц1);

с* = 3(ц- Ц2);

с2 = 5(-2ц3 + 3Ц2 - Ц1);

с3 = 7(-5ц4 + 10Ц3 - 6ц2 + Ц1);

с^ = -9(14^5 - 35^4 + 30^3 -10^2 ^ ).

4. Очевидно, следующей нашей задачей является оценка погрешности, возникающей при использовании этого метода, и нахождение необходимого количества элементов ряда Фурье. Дадим определение верхних и нижних сумм Дарбу. Пусть Gi и gi - соответственно верхняя и нижняя границы изменения F(x) в элементарном интервале [х2, х^] для разбиения Z отрезка [а,Ь].

п п

Числа £(I) = Е Gi (х2+1 - х2) и s(Z) = Е gi (х2+1 - х2) называются соответственно верхней и

2=1 2=1

нижней суммой Дарбу разбиения Z [4. С.390].

В силу того, что система полиномов Лежандра ортогональна, но не нормирована, для

* 1 применения равенство Парсеваля [8] коэффициенты с. необходимо умножить на

л/2/ +1 '

_ - с

Обозначим с. =

л/2/ +1 '

Получаем равенство Парсеваля:

к о ад о

~ + I ~ =

2

F

2 = 0 2=к+1

Чтобы оценить количество коэффициентов с*, необходимых при построении эмпирической функции распределения ¥ *(0, найдем следующую разность:

м 112 к '"у ад

-ж—, * ^—> ~*2 ^—> ~*2

¥ -Ес = Ес < е

2=0 2=к+1

Из сходимости ряда Фурье при к-^-ж следует е-^-0. Таким образом, задавая требуемое £>0, £-малое, мы можем оценить количество коэффициентов с* . Функция распределения монотонно возрастающая, следовательно, верхняя и нижняя границы изменения ¥ ) в элементар-

ном интервале [12, г2+1] соответственно равны:

Gi ^2+1; ^ ^2 •>

где юп - относительная накопленная частота.

В нашей задаче для эмпирической функции ¥ ) численное значение нормы необходимо

оценить через верхние и нижние интегральные суммы Дарбу:

п-1 и .. 2 1 п-1

Е®г2(л+1-*г) <||¥ || = I(¥ )2^<Еюм(*г+1-*г).

2=1 0 2 =1

Таким образом, получаем двустороннюю интервальную оценку, дающую погрешность

метода

п-1 к о |, м2 к 0 п-1 к о

->,)-£?/ <||¥* -£?/ < ->,)-£?Д

2 =1 2=0 2=0 2=1 2=0

Откуда следует выражение для нахождения верхней интервальной оценки:

*2

п-1 к с

е = Е®221 (*2+1 -12) - Е ' л. (5)

2=1 2=0 22 + 1

Таким образом, задавая необходимое е, можно рассчитать количество членов разложе-

ния в ряд Фурье. Количество коэффициентов разложения теоретической функции распределения будем брать равным количеству коэффициентов разложения эмпирической функции.

*

Получаем разложение эмпирической функции распределения через k начальных моментов распределения:

гсо=£с» • р (о+. (б)

2=0

5. Проверим качество аппроксимации критерием ю2-Мизеса при заданном уровне значимости а [7]. В общем случае критерий Мизеса является критерием согласия, т.е. критерием проверки близости теоретического и эмпирического распределения. Выдвигается нулевая гипотеза при заданном уровне значимости а

Но: F*(x)=F(x).

В качестве меры различия теоретической функции распределения F(x) и эмпирической F*(x) по критерию Мизеса (критерию ю2) выступает средний квадрат отклонений по всем значениям аргумента x

®П =

| [р * (x) - ¥ (x)]2 dF (x).

—ТО

Статистику критерия находим по следующей формуле:

П

12п

2=1

П

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

При неограниченном увеличении п существует предельное распределение статистики пюП2. Задав значение вероятности а, можно определить критические значения псо„2(а). Проверка гипотезы о законе распределения осуществляется обычным образом: если фактическое значение пюП2 окажется больше критического или равно ему, то согласно критерию Мизеса с уровнем значимости а гипотеза Н0 о том, что закон распределения генеральной совокупности соответствует ¥^), должна быть отвергнута.

Для проверки качества аппроксимации будем придерживаться следующего алгоритма:

1) построим расчетную таблицу, состоящую из следующих столбцов:

i XI и F(t) Fi Л1

В таблице: 2 - порядковый номер эмпирических данных; xi - исходные упорядоченные варианты; и - пересчитанные варианты по формуле (1). В этой формуле a=miп(xi), b=max(xi); ¥(и) - значения теоретической функции распределения, подсчитанные в каждой точке &. В качестве теоретического распределения F(t) выступает аналитическое разложение эмпирических данных в ряд Фурье в пространстве L2 , представленное формулой (5); р* - значения эмпирической функции распределения. В качестве значений эмпирического распределения принимаются значения, вычисленные по следующей формуле р* = ~—05; — расчетные данные наблюдаемого

П

значения статистики, находятся по формуле А 2 = (¥ (и.) — р*)2;

1 п

2) наблюдаемое значение статистики пш2 находим по формуле: п • о2 =-----------ь У А.;

12 • п 7~1

3) критическое значение находим в зависимости от уровня значимости а в статистических таблицах, представленных, например, в [7]. Критическое значение при уровне значимости а=0,05 равно: пю2(0,05)=0,461;

4) если пю2<пю2(а), делаем вывод о том, что полученная аппроксимация не противоречит эмпирическим данным.

6. Аналогично изложенному методу разложения эмпирических данных в ряд Фурье выполняем разложение нескольких теоретических функций. Параметры распределения определяем с помощью статистических оценок методом наибольшего правдоподобия или методом моментов.

Будем рассматривать F(x) не на всей числовой прямой (-да; +да), а на отрезке [а,Ь], полагая, что при малом у>0 F(а) > у и 1 - F (Ъ)

> У.

Приведем основные формулы для разложения в ряд Фурье теоретической функции распределения на основе начальных моментов распределения:

х - а

1 = 7 ;

Ъ - а

да

¥ (I) = £ сгР, (I);

/=0

1

с/ = (2/ +1) • | F (I) р (I ^1.

0

В силу того, что

1 1

Г 1кЕ (I )а1 =—(1 - Мк+Д { к+1

каждый коэффициент с выражается через начальные теоретические моменты Мк распределения.

7. Составим нормированный вектор С*'(/) на основе коэффициентов с*. При подсчете коэффициентов с* используем эмпирические начальные моменты на основе введенных данных.

8. Составим эталонную матрицу С('/,]) на основе теоретических начальных моментов для нескольких, интересующих нас, распределений. Эталонная матрица пересчитывается автоматически на основе статистических оценок параметров распределения.

9. Введем понятие е - близких функций.

Пусть F(x) и F*(x) - монотонно возрастающие функции с областью значений [0,1], назовем F(x) £ - близкой функцией F*(x) в пространстве L2, если можно подобрать такое е - малое, е>0, то для Ух выполняется равенство

||¥(x) - ¥*(x)|| = г .

10. Воспользуемся одним из двух критериев £ - близости формы кривой эмпирической функции распределения к кривой теоретического распределения.

Критерий 1 . Пусть F(t) и ¥*(1) - соответственно теоретическая и эмпирическая функции распределения, разложенные в ряд Фурье на отрезке [0,1] через многочлены Лежандра в

— ____*

пространстве L2; с и с - вектора коэффициентов, соответствующие этим разложениям. Тогда, если форма кривой ¥*(1) £ близка к форме кривой ¥(1), то необходимо и достаточно, чтобы

_ _*

р(с, с ) = г, е 0, е>0.

Доказательство. Расстояние между двумя функциями определяется выражением р(¥,F*) = ¥ - F* . Согласно равенству Парсеваля имеем:

I(с, - с*)2 =

F - F

О р(Ш,¥*) = Ш -¥ 1 = I(с,. -с*)2 = р(сс*) = е.

Т> и требовалось доказать.

Критерий 2. Пусть F(t) и ¥*(г) - соответственно теоретическая и эмпирическая функции распределения, разложенные в ряд Фурье на отрезке [0,1] через многочлены Лежандра в

— ___*

пространстве Х2; с и с - нормированные вектора коэффициентов, соответствующие этим разложениям. Тогда, если форма кривой ¥) близка к форме кривой F(t), то необходимо и доста-

точно, чтобы

с )

= 8 , 8<1, 8^1.

Доказательство. Пусть F является £ - близкой функцией ?, тогда ¥ - ¥ * = е . Пока-

(с, с )

= 8 .

жем, что в этом случае 35<1, 5-^1,

Согласно равенству Парсеваля имеем:

ад

I(С - С*)2 =

i =1

Тогда и только тогда получаем:

= е

(с - с*,с - с*) = е2 О (с*,с*) - (с*,с) - (с,с*) + (с,с) = е2 О

- 2-(с *, с) + 1 с = е2 о

2 II II2

е + с

=(с\с)-

сс

О

сс

22 - е + с

(С,С) = ........

2 гг

Обозначим через 5 выражение, стоящее в правой части полученного равенства,

II * II2 2 II 1|2

с - е + с

2|| с||||с _* _

(с, с)

= 8. Покажем, что 5<1. Согласно неравенству Коши-Буняковского,

<

, так как

= 1,

= 1, получаем

(с , с)

<1, следовательно, и 8<1.

Покажем, 5-^1. В силу утверждения 2 имеем, р(с, с *) = е при е - малое, е>0. Таким образом,

* N II II *

< с - с ^ е ^ с ^ с

Найдем чему равно предельное соотношение

ііш

||с ІІ^ІІс||, е^0

* с - е 2 II II 2 2 + с

2 с * с

=і+1=і. 2 2

2

і=і

2

2

*

*

с

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

*

с

*

2

2

*

*

Таким образом, мы показали, что если F является е - близкой функцией тогда В5<1,

8^1,

= 8.

Что и требовалось доказать.

10. Выдвинуть гипотезу о законе распределения на основании критерия 1 или 2.

11. Проверить гипотезу через критерий согласия ю2 - Мизеса при заданном уровне значимости а.

Численный пример применения метода. Предположим, что выборочная совокупность эмпирических данных дана в табл.1. Эмпирические данные представляют собой типовое непрерывное распределение. С помощью метода эталонной функции выдвинуть гипотезу о законе распределения. Точность разложения принять равной £=0,05. Проверить гипотезу о согласованности аппроксимации эмпирическим данным при уровне значимости а=0,05 с помощью критерия Мизеса (ю2). Проверить выдвинутую гипотезу при уровне значимости а=0,05 с помощью критерия Мизеса (ю2).

Таблица 1

Выбо рка эмпирических данных

Хі Хі Хі Хі Хі

0,843 -0,327 0,727 -0,023 0,392

0,354 0,277 0,752 0,351 1,59

-0,449 1,02 1,03 1,44 -0,657

0,657 0,645 0,746 0,348 0,37

0,141 0,879 1,21 0,953 0,172

0,643 0,0526 1,38 0,447 -0,314

0,201 0,436 0,485 0,133 1,26

-0,139 -0,46 0,684 0,565 0,385

1,57 -0,209 1,36 0,852 1,26

0,262 1,32 1,01 0,586 0,514

Перейдем от переменных Хг к переменным ti по формуле:

_ х + 0,657 _ х + 0,657 _ 1,59 + 0,657 _ 2,247 .

Подсчитаем пять коэффициентов ск через эмпирические моменты по формуле (4): С*=(0,460842; 0,565035; 0,040092; -0,10971; -0,00572).

Проверим, является ли достаточным пять первых членов разложения в ряд Фурье для достижения точности £=0,05.

По формуле (6) получаем £=0,019, из чего делаем вывод о достаточности представления эмпирической функции распределения через пять первых членов разложения.

Получена аппроксимация эмпирической функции распределения:

* 3 о 1 5 1

¥ (?) _ 0,460842 + 0,565035(2? -1) + 0,040092(-(2? -1)2 - -) - 0,10971(-(2? -1)3 -

3 35 15 3

- -(2? -1)) - 0,00572(— (2? -1)4 - - (2? -1)2 + -) + о(?5).

2 8 4 8

На рисунке приведен график, построенный на основе аналитического разложения эмпирических данных в ряд Фурье.

Аппроксимация эмпирической функции распределения в ряд Фурье

Проверим гипотезу о согласованности аппроксимации эмпирическим данным при уровне значимости о=0,05 с помощью критерия Мизеса (ш2). Вычисления приведены в табл.2.

Таблица 2

Исходные данные и результаты вычислений

i XI и F(t) Fi 4

1 2 3 4 5 6

1 -0,657 0 0,039895 0,01 0,000894

2 -0,46 0,087672 0,034710 0,03 2,22Е-05

3 -0,449 0,092568 0,035669 0,05 0,000205

4 -0,327 0,146862 0,054451 0,07 0,000242

5 -0,314 0,152648 0,057296 0,09 0,001069

6 -0,209 0,199377 0,085816 0,11 0,000585

7 -0,139 0,23053 0,109958 0,13 0,000402

8 -0,0232 0,282065 0,157947 0,15 6,32Е-05

9 0,0526 0,315799 0,194188 0,17 0,000585

10 0,133 0,35158 0,236244 0,19 0,002139

11 0,141 0,35514 0,240612 0,21 0,000937

12 0,172 0,368936 0,25783 0,23 0,000775

13 0,201 0,381842 0,274332 0,25 0,000592

14 0,262 0,40899 0,310178 0,27 0,001614

15 0,277 0,415665 0,319207 0,29 0,000853

16 0,348 0,447263 0,362924 0,31 0,002801

17 0,351 0,448598 0,364803 0,33 0,001211

18 0,354 0,449933 0,366685 0,35 0,000278

19 0,37 0,457054 0,376759 0,37 4,57Е-05

20 0,385 0,463729 0,386259 0,39 1,4Е-05

21 0,392 0,466845 0,390709 0,41 0,000372

22 0,436 0,486426 0,418911 0,43 0,000123

Окончание табл.2

1 2 3 4 5 6

23 0,447 0,491322 0,426015 0,45 0,000575

24 0,485 0,508233 0,450687 0,47 0,000373

25 0,514 0,521139 0,469624 0,49 0,000415

26 0,565 0,543836 0,503059 0,51 4,82Е-05

27 0,586 0,553182 0,516845 0,53 0,000173

28 0,643 0,578549 0,554206 0,55 1,77Е-05

29 0,645 0,579439 0,555514 0,57 0,00021

30 0,657 0,58478 0,563351 0,59 0,00071

31 0,684 0,596796 0,580929 0,61 0,000845

32 0,727 0,615932 0,608716 0,63 0,000453

33 0,746 0,624388 0,620890 0,65 0,000847

34 0,752 0,627058 0,624719 0,67 0,00205

35 0,843 0,667557 0,681676 0,69 6,93Е-05

36 0,852 0,671562 0,687174 0,71 0,000521

37 0,879 0,683578 0,703498 0,73 0,000702

38 0,953 0,716511 0,746733 0,75 1,07Е-05

39 1,01 0,741878 0,778272 0,77 6,84Е-05

40 1,02 0,746328 0,783626 0,79 4,06Е-05

41 1,03 0,750779 0,788923 0,81 0,000444

42 1,21 0,830886 0,872920 0,83 0,001842

43 1,26 0,853138 0,891790 0,85 0,001746

44 1,26 0,853138 0,891790 0,87 0,000475

45 1,32 0,87984 0,911414 0,89 0,000459

46 1,36 0,897641 0,922520 0,91 0,000157

47 1,38 0,906542 0,927444 0,93 6,53Е-06

48 1,44 0,933244 0,939556 0,95 0,000109

49 1,57 0,991099 0,950793 0,97 0,000369

50 1,59 1 0,950537 0,99 0,001557

В табл.2: ¥*-=(/-0,5)/50 - значения эмпирической функции распределения; F(ti) - значения функции распределения, подсчитанные с помощью аппроксимации в ряд Фурье; Д- =(F(ti)- Р* )2 - расчетные данные наблюдаемого значения статистики, ХД=0,031118.

Наблюдаемое значение статистики пт2 находим по формуле:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 50

п • ш2 =---+ УЛ, = 0,03278 .

12-50 -=1 -

Критическое значение при уровне значимости а=0,05 равно л-й»2(0,05)=0,461.

Наблюдаемое значение пт2 меньше критического, следовательно, полученная аппроксимация не противоречит эмпирическим данным. На основе предложенных критериев выдвинем гипотезу о принадлежности эмпирических данных одному из четырех типовых распределений.

Критерий №1. Найдем минимальное расстояние между эмпирической и теоретической функциями. Эталонная матрица для этого примера принимает вид: первая строка - равномерный закон, вторая - экспоненциальный закон, третья - закон Лапласа, четвертая - нормальный закон:

0,5 0 0 0 Л (0,460842^ т Л 2 (0,139427^

-0,1267 -3,3788 -25,79 -256,45 0,565035 257,7609

1,3624 -1,4204 -1,9439 22,1227 0,040092 -0,10971 22,26656

0,5650 0,0267 -0,1891 -0,0837 у ч - 0,00572у У ч0,112084у

( 0,5 0,4608 0,4608 0,4608

В силу критерия № 1 минимальное расстояние между векторами находится в четвертой строке, что дает право выдвинуть гипотезу, что выборка взята из нормальной генеральной совокупности.

Критерий №2. Эталонная матрица для этого примера принимает вид: первая строка -равномерный закон, вторая - экспоненциальный закон, третья - закон Лапласа, четвертая -нормальный закон:

(0,707107 0,707107 0 0 0

0,0018 -0,0005 -0,0131 -0,1001 -0,9949

0,0207 0,0611 -0,0637 -0,0872 0,9921

0,6077 0,7451 0,0352 -0,2494 -0,1104

У 0,6241 Л 0,7652 0,0543 0,1486 0,0077

(0,982317 0,022604 0,061486 0,989181

Полученный вектор дает право выдвинуть гипотезу в силу критерия № 2 о том, что выборка взята из нормальной генеральной совокупности, так как максимально близкое значение к 1 находится в четвертой строке, которая соответствует нормальному закону распределения.

Проверим гипотезу о нормальном распределении с помощью критерия Мизеса при уровне значимости а=0,05.

Проведя аналогичные вычисления приведенным в табл.2, получим наблюдаемое значение критерия, равное пт2=0,0235, критическое значение при уровне значимости а=0,05 равно пт2=0,461. Следовательно, гипотеза Н0 не противоречит имеющимся данным.

Заключение. Таким образом, предложенный метод идентификации законов распределения на основе аппроксимативного анализа экспериментальных данных легко автоматизируется. Исходные данные не нуждаются в группировке. Метод позволяет выдвигать гипотезы о законе распределения на основе аппроксимации эмпирических данных, а не на основе визуального анализа гистограммы исследователем.

Метод программно реализован на базе платформы 1С Предприятие 8.1. в рамках статистического пакета «Математическая статистика», а также в программном продукте: "Метод эталонной функции для определения типа распределения выборки" от 20.10.2007, на который автором статьи получено свидетельство об отраслевой регистрации разработки № 9309.

Библиографический список

1. Васильева Т.В. Метод эталонной функции для определения дискретных и непрерывных законов распределения. / Т.В. Васильева // Информационные и математические технологии в науке и управлении. Ч.1. - Иркутск: ИСЭМ СО РАН, 2008. - С.152-158.

2. Васильева Т.В. Метод эталонной функции для нахождения функции распределения. / Т.В. Васильева // Вестник ТГТУ. - 2007. - Ч.4.

3. Айвазян С.А. Прикладная статистика. Основы моделирования и первичная обработка данных. / С.А. Айвазян, И.С. Енюков, Е.Д. Мешалкин. - М.: Финансы и статистика, 1983.

4. Бронштейн И.Н. Справочник по математике / И.Н. Бронштейн, К.А. Семендяев. - М.: Наука, 1980.

5. Прохоров С.А. Аппроксимативный анализ случайных процессов. / С.А. Прохоров - Самара: ГАУ, 2001. - 329 с.

6. Васильева Т.В. Свидетельство об отраслевой регистрации разработки №9309 "Метод эталонной функции для определения типа распределения выборки" от 20.10.2007

7. Ходасевич Г.Б. Обработка экспериментальных данных на ЭВМ. [Электрон. ресурс]. Режим доступа: http://www.dvo.sut.ru/libr/opds/i130hodo_part1/index.htm.

8. Колмогоров А.Н. Элементы теории функций и функционального анализа / А.Н. Колмогоров, С.В. Фомин. - М.: Наука, 1976.

9. Прохоров С.А. Аппроксимативный анализ случайных процессов / С.А. Прохоров. - Самара: ГАУ, 2001. - 329 с.

10. Математическая энциклопедия. // Советская энциклопедия. - 1984. - Т.1-5.

Материал поступил в редакцию 06.10.09.

T.V. VASILYEVA

IDENTIFICATION AUTOMATION OF THE DISTRIBUTION LAWS ON THE BASIS OF APPROXIMATE ANALYSIS OF THE EXPERIMENTAL DATA

An algorithm of identification automation of the distribution laws on the basis of approximate analysis experimental data is given in the article. The method is founded on the decomposition statistics in Fourier series in space L2. There are two necessary and sufficient criteria for automatic setting up of the hypothesis about the distribution law. The method is considered on a detailed example.

Key words: automation of the statistics analysis, approximation, distribution law, hypotheses proving, fitting criteria

ВАСИЛЬЕВА Татьяна Валерьевна, старший преподаватель кафедры «Автоматизированные системы» Иркутского государственного технического университета. Окончила Иркутский государственный университет (1996) по специальности «Прикладная математика», аспирантуру (2008). Область научных интересов: теория вероятностей, теория информации, математическая статистика, программирование.

Автор 7 научных статей и 6 свидетельств о регистрации программ. vtv74@inbox.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.