Научная статья на тему 'Оценка параметров вероятностной модели по экспериментальным данным'

Оценка параметров вероятностной модели по экспериментальным данным Текст научной статьи по специальности «Математика»

CC BY
2713
333
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
«ЗАКОН РАСПРЕДЕЛЕНИЯ НЕПРЕРЫВНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ» / «ГАММА-РАСПРЕДЕЛЕНИЕ» / «РАСПРЕДЕЛЕНИЕ ХИ-КВАДРАТ» / «ПОКАЗАТЕЛЬНОЕ РАСПРЕДЕЛЕНИЕ» / «РАСПРЕДЕЛЕНИЕ ВЕЙБУЛЛА» / «РАСПРЕДЕЛЕНИЕ МАКСВЕЛЛА» / «МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ» / «МЕТОД МОМЕНТОВ» / CONTINUOUS RANDOM VARIABLE DISTRIBUTION / GAMMA DISTRIBUTION / CHI-SQUARE DISTRIBUTION / EXPONENTIAL DISTRIBUTION / WEIBULL DISTRIBUTION / MAXWELLIAN DISTRIBUTION / MAXIMUM-LIKELIHOOD METHOD / METHOD OF MOMENTS

Аннотация научной статьи по математике, автор научной работы — Титов А. Н., Нуриев Н. К., Тазиева Р. Ф.

Рассмотрены некоторые законы распределения непрерывных случайных величин. Получены уравнения для оценки параметров, входящих в распределение, методами максимального правдоподобия и методом моментов. Предложены подходы к решению полученных уравнений. Предложенная методика опробована на конкретных примерах.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Distributions of continuous random variables are in the focus. The maximum likelihood method and the method of moments to get equations for estimating the distribution parameters are used. Equations solving methods are given. The proposed technique is tested on specific examples.

Текст научной работы на тему «Оценка параметров вероятностной модели по экспериментальным данным»

А. Н. Титов, Н. К. Нуриев, Р. Ф. Тазиева

ОЦЕНКА ПАРАМЕТРОВ ВЕРОЯТНОСТНОЙ МОДЕЛИ ПО ЭКСПЕРИМЕНТАЛЬНЫМ ДАННЫМ

Ключевые слова: «закон распределения непрерывной случайной величины», «Гамма-распределение», «распределение хи-квадрат», «показательное распределение», «распределение Вейбулла», «распределение Максвелла», «метод максимального

правдоподобия», «метод моментов».

Рассмотрены некоторые законы распределения непрерывных случайных величин. Получены уравнения для оценки параметров, входящих в распределение, методами максимального правдоподобия и методом моментов. Предложены подходы к решению полученных уравнений. Предложенная методика опробована на конкретных примерах.

Keywords: continuous random variable distribution, gamma distribution, chi-square distribution, exponential distribution, Weibull distribution, Maxwellian distribution, maximum-likelihood method, method of moments.

Distributions of continuous random variables are in the focus. The maximum likelihood method and the method of moments to get equations for estimating the distribution parameters are used. Equations solving methods are given.

The proposed technique is tested on specific examples.

Введение

В настоящее время существует множество пакетов прикладных программ, предназначенных для решения задач математической статистики, таких, как Statistica, Mathematica, Math, SPCC, Stata, SYSTAT, SPSS, Maple и др.

Однако довольно часто возникшая на практике задача может быть решена проще и нагляднее с использованием хорошо описанных процедур, без изучения соответствующего сложного и к тому же дорогостоящего лицензионного программного продукта.

В данной работе авторы на простых примерах, без использования перечисленных пакетов прикладных программ, показали, как, пользуясь не очень сложным математическим аппаратом, решать некоторые задачи

статистического характера.

Описанная методика может быть использована как инструмент в научных

исследованиях и в программных модулях систем искусственного интеллекта [1].

Постановка задачи

Часто на практике возникает задача следующего характера: имеется объект

исследования, который характеризуется набором входных переменных xi i = 1,2,...,k и выходной

переменной y.

Требуется установить зависимость между входными и выходной переменными, то есть найти функцию, наилучшим образом описывающую исходные данные.

Рассмотрим простейший случай, с одной входной переменной x.

Требуется найти зависимость: y = f (x) .

Решение задачи моделирования в данном случае состоит из четырех этапов:

1) проведение эксперимента;

2) выбор вида зависимости;

3) нахождение параметров для выбранной зависимости;

4) исследование модели и анализ результатов.

Пусть на первом этапе исходные данные получены в виде статистического ряда (хъ p1),

/' = 1, т . Здесь p1 - частота появления значения x1.

Требуется выбрать кривую, наилучшим образом описывающую исходные данные.

Второй этап достаточно сложен, так как не существует универсальной методики, позволяющей выбрать вид зависимости для любых исходных данных. Исследователь, как правило, руководствуется имеющимся опытом. Первым шагом может стать построение по исходным данным гистограммы и ее анализ.

Для дальнейшего более точного установления зависимости между входными и выходными параметрами можно рассчитать значения коэффициентов асимметрии и эксцесса и по "близости" значений оценок параметров и диапазонов их теоретических значений выбрать вид распределений [2, 3].

В настоящей работе авторы ограничились рассмотрением следующих видов распределения: гамма-распределение, распределение хи-квадрат, показательное распределение, распределение Вейбулла, распределение Максвелла.

На третьем этапе необходимо подобрать параметры для выбранной кривой распределения таким образом, чтобы она была оптимальной в данном классе кривых.

Существует множество методик оценки параметров распределения: метод максимального правдоподобия (ОМП), метод моментов (ОММ), метод квантилей и другие. В последнее время часто применяют одношаговые оценки (ОШ-оценки) [2].

Оценки, полученные на основе применения различных методов, различаются. Универсального ответа на вопрос, какой из рассмотренных методов лучше или можно ли положиться на данный метод при решении любой задачи, нет. Значение оценки в каждом конкретном случае (для разных выборок) отличается от истинного значения параметра на неизвестную величину. Точность оценок можно косвенно определить на основе проверки

согласованности эмпирических и теоретических данных.

Преимущество применения типовых законов распределения состоит в их хорошей изученности и возможности получения состоятельных,

несмещенных и относительно высоко эффективных оценок параметров.

Для оценки параметров в данной работе применяли метод максимального правдоподобия и метод моментов [4,5]. Для получения оценок были выведены уравнения, для которых существуют численные методы решения. Поэтому все, что требуется - это обладание небольшими навыками программирования и умение применять численные методы решения уравнений.

В некоторых видах распределений требуется вычислить значения гамма-функции и ее производной, что является довольно сложной задачей. Вместо непосредственного вычисления гамма-функции ее значения можно рассчитывать по известным аппроксимирующим функциям, например, по формуле Стирлинга [6].

В данной работе для получения оценок использовали свободно распространяемую версию интерактивной системы 8с11аЪ, обладающую всеми необходимыми возможностями в области математических вычислений и программирования.

На четвертом этапе необходимо проверить гипотезу о согласованности эмпирических данных с теоретическими данными, рассчитанными на основе выбранного теоретического закона распределения. Данную проверку авторы проводили на основе применения критериев согласия [5].

Показательное (экспоненциальное) распределение

Непрерывная случайная величина Х распределена по показательному

(экспоненциальному) закону, если ее плотность распределения вероятностей имеет вид:

|0 х < 0

/х(х) = •

I Лв

-Лх

х > 0

Показательное распределение часто встречается в теории массового обслуживания (например, Х - время ожидания при техническом обслуживании) и в теории надежности (например, Х

- срок службы радиоэлектронной аппаратуры).

Графики плотности распределения показательного распределения для различных X приведены в [4].

Некоторые характеристики СВХ

Математическое ожидание М [ X ] = — .

Дисперсия £>[Х ] =

ЛЛ

Л

-Лх

Функция распределения Е(х) = 1 - в

Оценка параметра А методом максимального правдоподобия

-Л2 х‘Р‘

Ь(Л) = Лпв

т

Здесь т - число различных значений х, 2 pi = п .

2=1

Логарифмическая функция правдоподобия

т

Q(Л) = 1п(ЦЛ)) = п 1пЛ - Л^ х2р2

2=1

Для нахождения X имеем одно уравнение:

^(Л) _ п

дЛ Л

Отсюда

Л = -

где х

т

=- 2 х>р>

2=1'

Метод моментов

Используется эмпирический начальный момент первого порядка (оценка математического ожидания).

Имеем

т

— = — 2 х2р2 . Л п^ 11

Откуда

2=1'

Л =

1

Таким образом, оценки, полученные методом максимального правдоподобия и методом моментов совпадают и с точки зрения трудоемкости вычислений расчет оценок на основе применения указанных методов не вызывает сложностей.

Распределение Максвелла

Распределение Максвелла— распределение вероятностей, встречающееся в физике и химии. Оно лежит в основании кинетической теории газов, которая объясняет многие фундаментальные свойства газов, включая давление и диффузию.

Распределение Максвелла также применимо для электронных процессов переноса и других явлений. Распределение Максвелла применимо и к множеству свойств индивидуальных молекул в газе. Оно применяется при статистическом анализе качества технологических процессов.

Случайная величина имеет распределение Максвелла, если ее функция плотности имеет вид

[4]:

х2 ¡2

:-т1 Г

х > 0.

/ (х; а) = —г~1—в

а

Графики функции плотности распределения показаны на рис. 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

этого

Функция правдоподобия имеет вид:

2=1

1

х

х

2

х

Рис. 1 - Графики функций плотности

распределения Максвелла

Функция распределения

_ 1 * __ где р(2) = ¿— е 2 ; Ф^) = ____________________I е 2 & .

1 -~

л/К

Другие характеристики случайной величины [4]:

Математическое ожидание: М [X ] = 2ал/— . Мода Мо = 42а .

2 ( 8

Дисперсия £>[X] = а I 3---

I п

Коэффициент асимметрии

Я X ] = ^2(16-5.,) = 0,48б.

(3п- 8)

Коэффициент эксцесса

ЛX] = 160п2-12,2 - 384 = 0,108.

9п - 48п + 64

Оценка параметра распределения Максвелла Оценка методом максимального правдоподобия

Для простоты предположим, что все частоты р2 2 = 1, п равны единице.

Запишем функцию правдоподобия для закона Максвелла

Ь(а) =

=________е 2а і=і

к ) а3п

1п(Ь(а)) = 2 У 1п х. - 3п 1п а-—1п —-------Ух2

^ 2 к 2а

п

У х 2

д(1п Да)) =- 3— + £ 1 = 0

Переходя к статистическому ряду (не все р2 равны 1 2 = 1, п), получим уравнение для нахождения а

У р.х1 1=1

, 3п

Оценка методом моментов

Поскольку по выборке оценивается лишь один параметр, то для нахождения а используем оценку математического ожидания.

[2 т

М [X ] = х = 2а.— .

' к

где

1=1'

У р. =-

Г(х;а) = 2 ф( £ V £ рР - 1 , х > 0, Отсюда а = .

Р а) а Р а) V

іїх.

Распределение хи-квадрат

Гамма-распределение с параметрами v=n/2 (п

- натуральное число), Л=1/2 называется

2 2 распределением % (п). Распределение % (п)

играет большую роль в математической статистике при нахождении доверительных интервалов для дисперсии, при проверке статистических гипотез. Если Х подчиняется закону %2(п), то ее функция

плотности распределения вероятностей

записывается в виде:

їх(х) =

0

х < 0

х > о

п - число степеней свободы. С увеличением п распределение хи-квадрат медленно приближается к нормальному распределению.

Числовые характеристики распределения

% (п) можно рассчитать по формулам [7]: Математическое ожидание М[Х]=п.

Мода М0=п-2, п>2.

Дисперсия Б[Х]=2п.

3 2 2

Асимметрия Р[Х ] = -

4п

Эксцесс у[Х ] =

12

Графики плотности распределения хи-квадрат с 4 и 10 степенями свободы показаны на рис. 2.

да

аа

1=1

2

2

1

п

П

Рис. 2 - Графики функций плотности

распределения хи-квадрат

Оценка методом максимального правдоподобия

Функция правдоподобия для распределения хи-квадрат имеет вид:

1 т

-1 „ -тУ х‘р‘

(хР1 хР2 хРт ) Г-1 е

т (,) УЛ1 л2 ■■■ лт ) V 1 -1

= 2 ы [Г(? )]к

где t - неизвестный параметр, к - объем выборки, т-число различных значений, принимаемых

случайной величиной.

Логарифмическая функция правдоподобия имеет вид:

т 1 т

= о1 -1)2р,1пх2 --2х,р, -к 1п2 -

- к 1п[Г(1)]

1=1

Для нахождения параметра 1 вычислим частную производную от этого выражения и приравняем ее к нулю:

дьвсдо)=т_,_„ ,[г(1)]'

■ = У р1 1п хі - к 1п 2 - к

■ = 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[Г(0]

уравнение, находим

д1 , .

,=1

Решая полученное неизвестный параметр 1.

Метод моментов

Поскольку по выборке оценивается лишь один параметр п, то для его оценки можно использовать как оценку математического ожидания (первый начальный момент), так и оценку дисперсии (второй центральный момент).

Гамма-распределение

Гамма-распределение находит применение при решении задач об отказах сложных систем с резервированием, когда величина, характеризующая отказы отдельных элементов системы, подчиняется экспоненциальному закону с интенсивностью X, а отказ всего объекта наступает после возникновения V отказов отдельных элементов.

Гамма-распределение применяют при

решении статистических задачах стандартизации и управления качеством. Оно описывает широкий класс эмпирических распределений проницаемости и широко применяется в практике проектирования и анализа разработки нефтяных месторождений.

Говорят, что случайная величина имеет гамма-распределение, если функция плотности распределения вероятностей имеет вид:

/ (х,Л,у) =

хк-1е-ЛЛ Г (V)

х> 0, Л> 0, V > 0.

Графики плотности вероятности этого распределения при различных значениях V и X показаны на рис. 3.

Рис. 3 - Графики функций плотности гамма-распределения

Числовые характеристики гамма-

распределения расчитывают по формулам [8]:

V

Математическое ожидание М [X ] = —

Л

V -1

Мода Мо =---------, v> 1

Л

V

Дисперсия Б[Х ] = —

Л2

Коэффициент асимметрии р^ ] = 2 у 2 Эксцесс /[X ] = 3 + 6у-Оценка параметров гамма-распределения

Оценка методом максимального правдоподобия

Функция правдоподобия имеет вид:

к

-Л2 х,р,

Т(Л,V)=

( к Л

П хР1

Р 1=1 )

Ли

[(V)]

п = У Рг

1=1

где к - число различных значений случайной величины х.

Логарифмическая функция правдоподобия имеет вид:

Q(Л,v) = 1п(ЦЛ,у)) = к к

= (У -1)2 р, 1п х, - Л2 х, р, + у 1п Л - п 1п[Г(у)]

,=1 ,=1

Для нахождения неизвестных параметров находят частные производные от Q(Л, у) по X и V соответственно и приравнивают их к нулю. Получается система из двух уравнений с двумя неизвестными, решая которую находят X и V.

1=1

е

дО(Л^) ^ „ [Г(v)]

-V = У р11п х1+п 1пЛ-п

дО(Л,у) Л 1

------= -/ *іРі + ^г—

дЛ 11 Л

1=1

¿р, 1п х, + п 1п Л-. -М

[Г '(V)]

= 0

к 1

"У хгРг + Уn Л = О

УП V

;---------= =■, где X = -

х П

Выразив из второго уравнения X и подставив результат в первое уравнение, получим:

к

2 х^р^

Л Уп У _____________ X 1=1

Л = —------_ “ где х ■ —

2 х.р.

,■=1

Тогда первое уравнение будет зависеть только от одной переменной. Полученное уравнение можно решить численным методом.

В данной работе уравнение решалось в интерактивной среде 8сПаЪ с помощью функции /:о[ув(хо,/), где хо~ начальное приближение, / -

функция, описывающая левую часть уравнения

/(х)=0. Для вычисления Г(х) использовалась стандартная функция 8сПаЪ. Производная от Г(х) вычислялась с помощью стандартной функции пытсИ//. При вычислении гамма-функции можно воспользоваться известными аппроксимациями этой функции [9].

Если V не слишком мало, то можно воспользоваться приближением [4]:

—1п(Г + 1) И 1п( У + 11 +------—

ду 7 ^ 2) ( 1

Т +2

Полученное уравнение

( Л

У Рг 1п Хг + п 1п

Vп

к

У хгР.

Р 1=1 )

-n(1n(v - —) + 2

1

1 2

24(v - -)2

■) = 0

решалось методом деления отрезка пополам.

Метод моментов Для оценки неизвестных параметров рассмотрим оценки начального момента первого порядка (оценка математического ожидания):

V 1Л _

т=_У рх = х

Л п 1=

и центрального момента второго порядка (оценка дисперсии):

.2 2 х) = 5

Поделив первое уравнение на второе, получим X:

Л = 7-

Тогда V можно рассчитать по формуле:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

у = Лх .

Распределение Вейбулла

Распределением Вейбулла можно описать случайные величины, характеризующие наработку на отказ многих невосстанавливаемых электронных приборов (электронные лампы, полупроводниковые приборы, некоторые приборы СВЧ). Оно характеризуется разнообразием форм кривых распределения.

Случайная величина Х распределена по закону Вейбулла, если ее функция плотности распределения вероятностей имеет вид:

ї (XV, /) =

РРР

Графики плотности распределения Вейбулла ^=5, р=3) и ^=2, р=6) показаны на рис.4.

Рис. 4 - Графики функций плотности

распределения Вейбулла

Функция распределения вычисляется по формуле:

-Ґ-

Г(х) = 1 -е РР Числовые характеристики случайной величины Х [7] рассчитывают по формулам:

Математическое ожидание М[X] = /ГІ 1 + —

Мода Мо = Р| 1--------| , v> 1

Г| 1 + -]-Іг(і + -

Дисперсия Б[Х ] =

Оценка параметров распределения Вейбулла

Оценка методом максимального правдоподобия Предположим, что все частоты равны единице, тогда функция правдоподобия распределения Вейбулла имеет вид:

г=1

г=1

V

1/-1

х

е

1=1

2

V

V

L(v, P) =

Vn (*! X2...Xn У 1 ^ Ъ pv

Xj_

Ы IP

ln L(v, P) = n ln v + (v -1)Ъ ln xL - n у ln P - У

i=1 ,=1 V P -

Найдем частные производные по v и в и приравняем их нулю:

д ln L(v,P) n

dv

У ln xL - n ln P- У

tr L tripj vp

Xl 1 lnl Xl | = 0

д ln L(v, P) nv v

—+—УІ — I = о

p p 1=1 VpJ

Из последнего уравнения выразим в:

др

Ъ

,=1

P =

В случае, когда задан статистический ряд, формулы для нахождения параметров в и V приобретают вид:

m Ъ Р,ХЇ ln(xL )

Ъ Р, ln(x, ) - —--------------------- = 0

Ъ

Р,Х,

p=[-n ъ p,xv ]

n < 4

,=1

где т - количество интервалов, п - объем выборки. Метод моментов Для оценки неизвестных параметров используем оценку начального момента первого порядка (оценку математического ожидания):

1 ±рх = X = ргРі + 11

п г=1 Р V)

и центрального момента второго порядка (оценку дисперсии):

¡--1Ъ Р,(Х, - Х)2 = -s2 =p

Г| 1 + - ]-Іг(1 + -

Возведем первое уравнение в квадрат и поделим второе уравнение на первое. Получим уравнение относительно V:

г(1+v 1 2

Г 2 ^ Г ( 1 ^!21

ГІ1+ -МГІ1 + -I>

V v J [ V v JJ

Зная v, значение параметра в можно рассчитать по формуле:

X

p=-

Г| 1 +

Заключение

Для каждого из рассмотренных распределений было смоделировано по три выборки. На основе применения метода максимального правдоподобия и метода моментов были рассчитаны оценки параметров распределений и относительные погрешности каждого из методов (табл. 1).

Для получения оценок использован аппарат методов оптимизации, численных методов (численные методы решения уравнений, численное дифференцирование, аппроксимация) и

программирования (вычисление сумм и

произведений).

Согласно данным, приведенным в таблице 1, оба метода дают близкие результаты, однако расчеты, сделанные методом моментов, как правило, менее трудоемки.

Таблица 1 - Оценка относительных

погрешностей ММП и ММ (в случае оценки двух параметров указано максимальное значение погрешности)

Распределение Относительная погрешность оценки ММП Относительная погрешность оценки ММ

Распределение Максвелла 0,2% - 0,3% 0,2% - 0,3%

Распределение хи-квадрат 1% - 2% 0,3% - 3,5%

Гамма- распределение 1,1% - 6% 0,2% - 5%

Распределение Вейбулла 0,1% - 2,8% 0,1% - 3,1%

Литература

1. Нуриев Н.К., Старыгина С.Д. Проектирование smart -системы для поддержки обучения «двойной диплом» // Вестник Казанского государственного технологического университета. - 2012. - № 19. - С.253-257.

2. Орлов А.И. Прикладная статистика. - М.:

Издательство «Экзамен», 2004.- 656 с.

3. Тазиева Р.Ф. Параметры математических моделей питтинговой коррозии/ Р.Ф.Тазиева, С.С. Виноградова // Вестник Казанского технологического университета. -Казань, 2012. - №20. - С. 66-69.

4. Кобзарь А. И. Прикладная математическая статистика.

Для инженеров и научных работников. - М.:

ФИЗМАТЛИТ, 2006. - 816 с.

5. Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высшая школа, 2003. - 480 с.

6. Справочник по надежности. Т. 1 / Пер. с англ. — М.: Мир, 1969.- 340 с.

7. Инструментальные методы статистики. Энциклопедия статистических терминов в 8 томах. Том 2. Москва, 2011 Федеральная служба государственной статистики. - 474 с.

V

V

n

г=1

,=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

2

V

V

2

2

X

1

8. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. - М.: Изд-во

стандартов, 1984. - 53 с.

9. Буймов А. Г., Буймова Н. А. Об имитации и оценивании параметров гамма-распределения // Исследование корреляционно-экстремальных систем, Томск, 1987, С. 8—11.

© А. Н. Титов - канд. техн. наук, доц. каф. ИПМ КНИТУ, геііро8І1;іоп53@таі1.т; Н. К. Нуриев - д-р пед. наук, проф., зав. каф. ИПМ КНИТУ, пигіеупк@таі1.т; Р. Ф. Тазиева - ассистент каф. ИПМ КНИТУ, ram89_89@mai1.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.