УДК 519.2
А.И. Сайкин, Е.Ю. Журавлёва, А.А. Пошивалов
МЕТОД СОВПАДЕНИЙ ДЛЯ ОЦЕНКИ ГЕНЕРАЛЬНЫХ МОМЕНТОВ РАСПРЕДЕЛЕНИЙ ЗАДАННОГО ВИДА С УЧЁТОМ ИНТЕРВАЛОВ РАЗБРОСА ЗНАЧЕНИЙ ВЫБОРОЧНЫХ МОМЕНТОВ
Предлагается новый метод оценок генеральных моментов заданных распределений случайных непрерывных величин по малым выборкам, объёмом от двух значений и более. Интервалы изменения моментов заданных распределений не должны превышать 40% от среднего по интервалу значения. Дисперсия оценок предлагаемым способом существенно меньше, чем у прочих известных методов. Метод основан на решении уравнения интегральной функции распределения, параметры которой неизвестны, методом прямого перебора значений.
A.I. Saikin, E.Y. Zhuravleva, A.A. Poshivalov
COINCIDENCE METHOD FOR THE ESTIMATION OF THE GENERAL MOMENTS OF DEFINED DISTRIBUTIONS WITH SPREADING
OF VALUES OF SAMPLE MOMENTS
The new method of estimations of the general moments of the defined distributions of random continuous values of small samples, volume is two values and more are given here in this work. Intervals of change of the moments of the defined distributions should not exceed 40 % from an average on an interval of value. The dispersion of estimations in the offered way essentially is less, than at other known methods.
The method is based on the decision of the equation of integratedfunction of distribution which parameters are unknown, by a method of direct search of values.
1. Оценка генеральных моментов заданных распределений методом совпадений
Выборки большого объёма более 100 значений позволяют оценить частоты попадания значений случайной величины в заданные интервалы. Эмпирическое распределение, получаемое таким образом, задаётся не столько интервалами значений случайных величин, которые могут быть общими для разных распределений, сколько относительными частотами попадания в них.
В нашем случае объёмы выборок малы, не превосходят 20 значений. Поэтому приписывать значения некоторым интервалам бесперспективно. Мы исходим из того, что малая выборка уникальна не частотами, которые одинаковы для всех значений, если они не повторяются, а самими значениями случайной величины.
Рассмотрим процесс генерации случайных чисел, распределённых по заданному закону широко используемым [1] методом обратной функции. На рисунке представлена схема генерации случайных чисел с интегральной функцией распределения F(t).
Схема генерации случайных чисел с заданным законом распределения
Кривая на рисунке - интегральная функция некоторого распределения заданного вида. Значения Я генерируются генератором случайных чисел (ГСЧ), воспроизводящим закон равномерной плотности для интервала [0-1] по оси ординат. Значение случайной величины ґ, распределённой по закону Р(ґ), находится из уравнения
Р(ґ) = Р . (1)
Решение уравнения (1) требует нахождения обратной Р(ґ) функции.
Пусть теперь экспериментальным путём получена выборка объёмом N значений случайной величины Т - (ґ1, ґ2, ..., ґм). Будем полагать, что объём N достаточно мал. Для однопараметрических распределений это всего одно значение, для двухпараметрических распределений - два значения и т.д. Пусть теперь значения случайной величины воспроизводятся по методу обратной функции. Начиная с некоторого объёма N, распределение Р(ґ) воспроизведётся достаточно точно при генерации многих значений. При этом по оси абсцисс получится множество значений случайной величины, распределённой по заданному закону Р(ґ), а по оси ординат получатся вероятности, кратные 1/(1+М), поскольку заданное распределение получается при строгой равномерности вероятностей по оси ординат.
Рг = Р (ґг ). (2)
Но с другой стороны, случайные величины іг непрерывны, отсюда вероятности попадания в точки рг, кратные 1/(1+М), равны нулю. Поэтому рг попадут в окрестности £ значений, кратных 1/(1+М).
Выберем величины этих окрестностей 8, исходя из следующего. Вероятность случай-
ного попадания в окрестность рБ должно быть пренебрежимо мала. Для этого потребуем
р8 = (1 + М)8 << 1. (3)
С учётом того, что значений N, по схеме независимых испытаний Бернулли вероятность попадания ps(N) в хотя бы одну область хотя бы одного значения из N получим:
ps( N) = £ стр*п (1 - ps))‘
п=1
(4)
где п - число попаданий.
При этом вероятность ps(N) должна также быть пренебрежимо мала.
В то же время вероятность попадания в области - событие достоверное и, как показывает машинный эксперимент, близкое к единице. Это объясняется тем, что попадания обусловлены свойством модели генерации случайных чисел, распределённых по заданному закону. Это важное обстоятельство позволяет судить о принадлежности того или иного значений случайной величины Т к конкретному распределению на основании системы уравнений:
г /(1 + Ы) - 8 < Р(а1,а2,...,ак,іі) < г /(1 + Ы) + 8, (5)
і
где а - параметры распределения; к - число параметров распределения; г - целочисленная константа; I - значения случайной величины (/=1,...,^).
Эта система не имеет единственного решения относительно неизвестных параметров в силу того, что вероятности р; попадают в выделенные области 8 с некоторой вероятностью, меньшей единицы. Поэтому решение системы (5) может дать иные значения параметров в отличие от разыскиваемых. Если малая выборка объёмом Ы, то система (5) будет содержать N уравнений, каждое из которых может дать своё значение параметров. Поэтому решение можно полагать достоверным в том случае, если все, или, по крайней мере, к уравнений дадут совпадающие значения параметров и окажутся единственными для этого случая. Вероятность нахождения достоверного решения можно оценить статистическим путём.
2. Методика нахождения параметров распределений
Система (5) решается путём прямого перебора возможных значений а/, а также подбора констант N и г. Константы N и г достаточно подобрать один раз для конкретного вида распределения. Параметры распределения приходится подбирать всякий раз.
Константа г лежит в интервале от 1 до N+1 и изменяется с шагом 1. Её подбор в конкретном случае осуществляется прямым перечислением. Вдоль оси ординат (см. рисунок) выстраивается шкала с шагом й^^^^). Константа г, по сути, есть деления шкалы, с которыми должны совпадать вычисляемые по (5) значения р/. Значения N подбираются в машинном эксперименте, при котором оценивается минимум дисперсии погрешности математического ожидания и коэффициента вариации обобщённого распределения Эрланга по сравнению с известными значениями. В результате были выбраны 80 значений N от 20 до 100, что образует 80 шкал, с которыми поочерёдно сравниваются значенияр/ из системы (5).
Система может давать произвольные значения параметров в силу её вероятностного характера. Поэтому она решается для каждого значения случайной величины из выборки, и за истинное решение принимается то, которое получается большее число раз. Но эта методика требует варьирования параметрами заданного распределения. При варьировании случайным образом значения р/ могут попадать в области Б, создавая дополнительные помехи. Но в силу того, что интегральные функции рассматриваемых распределений существенно нелинейные, а значения р/ размещаются по оси ординат линейно, то случайные попадания будут касаться областей 8 поочередно, а не одновременно по всем значениям из выборки, что позволяет сохранить критерий выбора решений по наибольшему одновременному числу попадания р/ в выделенные области 8.
Для уменьшения влияния помех на величины области 8 накладывается дополнительное ограничение, то есть она должна быть ещё меньше. Размер области 8 регулируется константой q, которая подбиралась по критерию наименьшей дисперсии погрешности математического ожидания и коэффициента вариации заданного распределения. Таким образом, генеральные моменты заданного распределения с неизвестными параметрами оцениваются через подбор значений этих параметров. Такой подход полностью оправдал себя. В качестве примеров были рассмотрены экспоненциальное распределение, распределение Эрланга порядка к и обобщённое распределение Эрланга с непрерывно изменяющимся коэффициентом вариации. Наибольший интерес представляет обобщённое распределение Эрланга.
Пример. Интегральная функция для обобщённого распределения Эрланга имеет вид:
к-1
т=(1 - р) х р,-%,(<)+рк-%к (I) , (6)
/ =1
где р - вероятности переходов; к - порядок Эрланга; FЭК(t) - распределение Эрланга порядка К.
Пусть некоторая случайная величина распределена по обобщённому закону Эрланга, но параметры этого распределения нам неизвестны. Оценим генеральные моменты этого распределения по малой выборке значений случайной величины. Будем полагать, что иско-
мые математическое ожидание М и коэффициент вариации V лежат в пределах: 0,6<Ы<1,4 и
0,3<К<0,7, что составляет плюс-минус 40% от среднего значения интервалов поиска. Критерием решения задачи будем считать такой алгоритм, который даст наименьшую дисперсию погрешности оценок генеральных моментов. Задача решалась для выборок объёмом 2, 4, 8, 16 и 32 значения, которые дали однотипные результаты. Рассмотрим выборку объёмом восемь значений. Применяя метод совпадений и эмпирическим путём подбирая значений всех констант, получаем метод, настроенный для решения поставленной задачи для обобщённого распределения Эрланга. Так, для выборки объёмом восемь значений настроенный алгоритм даёт следующие дисперсии погрешностей (см. таблицу).
Дисперсии оценок генеральных моментов
м V ом OV ОвыбМ ОвыбМ Отеор
0,6 0,3 0,001882 0,000433 0,100648 0,023064 0,00405
0,6 0,5 0,001885 0,000434 0,100695 0,022974 0,01125
0,6 0,7 0,001882 0,000432 0,100845 0,02266 0,02205
1 0,3 0,001884 0,000433 0,100127 0,023064 0,01125
1 0,5 0,001883 0,000432 0,10017 0,022974 0,03125
1 0,7 0,001885 0,000432 0,100322 0,022966 0,06125
1,4 0,3 0,001881 0,000432 0,09993 0,023064 0,02205
1,4 0,5 0,001882 0,000432 0,09994 0,022974 0,06125
1,4 0,7 0,001882 0,000432 0,100016 0,022966 0,12005
Здесь БЫ - дисперсия погрешности математического ожидания по методу совпадений; DV - дисперсия погрешности коэффициента вариации по методу совпадений;
БвыбЫ - дисперсия погрешности выборочного математического ожидания;
DвыбV - дисперсия погрешности выборочного коэффициента вариации;
Бтеор - теоретически оцениваемая дисперсия погрешности ожидания, найденная как эффективная оценка.
Дисперсия погрешности дисперсии, оцениваемая теоретически, в таблице не представлена, но она имеет тот же порядок, что и дисперсия погрешности математического ожидания.
Данные получены для 1000 различных выборок объёмом 8. Дисперсия метода совпадений меньше выборочной дисперсии примерно в 100 раз для математического ожидания и в 50 раз для коэффициента вариации. Примечательно, что во всех случаях дисперсия метода совпадений меньше дисперсии эффективной оценки.
После того, когда алгоритм настроен, можно легко найти оценки генеральных моментов через выбранные с наименьшей дисперсией параметры обобщённого распределения.
ЛИТЕРАТУРА
1. Калинина В.Н. Математическая статистика / В.Н. Калинина, В.Ф. Панкин. М.: Высшая школа, 2001. 335 с.
Сайкин Александр Иванович -
кандидат технических наук, доцент кафедры «Программное обеспечение вычислительной техники и автоматизированных систем»
Саратовского государственного технического университета
Журавлева Елена Юрьевна -
аспирант кафедры «Программное обеспечение
вычислительной техники и автоматизированных систем»
Саратовского государственного технического университета
Пошивалов Алексей Александрович -
аспирант кафедры «Программное обеспечение вычислительной техники и автоматизированных систем»
Саратовского государственного технического университета
Статья поступила в редакцию 14.09.06, принята к опубликованию 14.11.06