Научная статья на тему 'Программная реализация исследования смесей вероятностных распределений'

Программная реализация исследования смесей вероятностных распределений Текст научной статьи по специальности «Математика»

CC BY
467
93
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЛУЧАЙНАЯ ВЕЛИЧИНА / СМЕСЬ РАСПРЕДЕЛЕНИЙ / ПЛОТНОСТЬ РАСПРЕДЕЛЕНИЯ / ГИСТОГРАММА / КРИТЕРИЙ СОГЛАСИЯ

Аннотация научной статьи по математике, автор научной работы — Токмачев М. С., Смирнов С. В.

Представлена методика исследования статистических показателей с распределениями нестандартного типа. В качестве модели теоретического распределения использована смесь непрерывных вероятностных распределений класса Майкснера. Программная реализация позволяет не только идентифицировать теоретическое распределение, но и осуществить разбиение выборки на составляющие, соответствующие компонентам в смеси.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Программная реализация исследования смесей вероятностных распределений»

УДК 519.2

ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ИССЛЕДОВАНИЯ СМЕСЕЙ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИЙ

М.С.Токмачев, С.В.Смирнов

Институт электронных и информационных систем НовГУ, tokm@mail.natm.ru

Представлена методика исследования статистических показателей с распределениями нестандартного типа. В качестве модели теоретического распределения использована смесь непрерывных вероятностных распределений класса Майкснера. Программная реализация позволяет не только идентифицировать теоретическое распределение, но и осуществить разбиение выборки на составляющие, соответствующие компонентам в смеси.

Ключевые слова: случайная величина, смесь распределений, плотность распределения, гистограмма, критерий согласия

The research method for finding statistical factors with distributions of irregular type is presented. The mixture of continuous probability distributions of Mikesner class is used as a model of theoretical distribution. Software implementation enables to identify probability distributions and to break the fetch apart on mixture components.

Keywords: random variable, mixture of distribution, density function, histogram, goodness-of-fit test

Введение

При исследовании реальных данных (в частности, многих статистических показателей медицины и здравоохранения) вероятностные распределения, как правило, не подчиняются классическим законам, а имеют более сложную структуру, что связано с неоднородностью объектов, носителей изучаемого признака, а также с множеством разнонаправленных причинно-следственных связей, воздействующих на формирование показателей. Указанные распределения могут иметь несколько вершин и значимое отличие от нуля коэффициентов асимметрии и эксцесса, что проявляется в гистограмме выборки. В частности, такая структура характерна для показателей, значения которых рассматриваются в зависимости от возраста (например, показатели заболеваемости по классам МКБ-10 и смертности населения). Их распределение может иметь несколько «всплесков», вызванных совокупностью факторов, различающихся при разных возрастах. Это объясняется тем, что в различных возрастах реакции на воздействующие факторы разные. Для таких показателей возникают проблемы при построении моделей корреляционно-регрессионного анализа.

В данной работе предлагается подобные выборочные распределения изучать с помощью теории смесей вероятностных распределений. Решаются следующие задачи:

— подбор по выборке теоретического распределения в виде распределения смеси двух составляющих с помощью модифицированного критерия согласия Пирсона, позволяющего не только проверять согласие распределений, но и осуществлять «подгонку» теоретического распределения по параметрам;

— вычисление параметров и численных характеристик составляющих;

— разбиение выборки различными способами в соответствии с компонентами смеси (т.е. восстановление составляющих выборки), с указанием точности отбора;

— проверка значимости сопутствующих идентифицирующих признаков изучаемого показателя.

Разработанная компьютерная программа не только производит разбиение исследуемого признака на составляющие, но и подводит к интерпретации результата разбиения в связи с факторами, формирующими значения показателя, устанавливает соответствующие количественные характеристики.

Основные результаты

Определимся с постановкой задачи. Пусть случайная величина X формируется под воздействием двух независимых комплексов условий. С комплексом условий I связана случайная величина Х1,

имеющая плотность распределения /1(х1), а с комплексом условий II — случайная величина Х2, имеющая плотность распределения /2(х2). Если в ходе

испытания реализуется комплекс условий I, то появляется одно из возможных значений случайной величины Х1. Аналогично и с комплексом условий II.

Предположим, что в бесконечной последовательности независимых испытаний комплексы условий I и II реализуются случайным образом с вероятностями а1

и а2 соответственно (а1 + а2 =1). Тогда в каждом испытании

(X, с вероятностью а,

X = (' ^ (1)

[X с вероятностью а2.

Плотность распределения случайной величины X связана соотношением

/ (х) = а/ (х) + а2/2 (х), (2)

где /1(х) и /2(х) — плотности распределения составляющих X и X2 соответственно. Распределение

случайной величины X с указанной структурой (1) принято называть смесью (дискретной, конечной смесью) распределений случайных величин X1 и X2 .

Функции f(x),f2(x) — компоненты смеси, а1,а2 —

соответствующие веса компонент. Каждое из распределений случайных величин X1,X2 и X имеет свои

числовые характеристики.

Задача состоит в разложении случайной величины X, рассматриваемой как дискретная смесь случайных величин Xp X2, и нахождении законов

распределения составляющих, исходя из выборочных данных, и как следствие — в разбиении выборки и идентификации выборочных данных. Отметим, что при произвольных законах распределения составляющих решение задачи не единственно. Указанная теория распространяется и на случай наличия более двух независимых комплексов условий, формирующих составляющие исследуемого показателя. В [1] рассмотрена смесь и приведены реальные примеры двух и трех нормальных составляющих. Отметим, что с ростом количества компонент смеси растет и число параметров, а следовательно, и минимально необходимый объем выборок.

В данной программной реализации (язык C++ Builder, объем программы 87 Кб) в качестве составляющих смеси задействованы три семейства распределений:

— нормальное с функцией плотности

f (x) =

1

(x-m)

2а2

(3)

— смещенное (трехпараметрическое) гамма-распределение с функцией плотности

/(х) =-----(х-с)а-1е-1(х-с) при х>с, 1 >0, а>0; (4)

Г(а)

— смещенное (четырехпараметрическое) распределение типа гиперболического косинуса [2] с функцией плотности

Ш(х+ц-а)

2т-2жвт-1 (в -/ц

f (x) =-

m

П(в2 + Ц2)2

в + ІЦ

2 2в 2 2в где / = •'/-1; В(р; q) — бета-функция; ц,в, т е R; т > 0, в Ф 0 . В данном случае в трехпараметрическое семейство распределений, известное в литературе также как распределение Майкснера, для большей применимости дополнительно введен параметр сдвига. Справедливость свойства безграничной делимости указанных распределений гарантирует их идентифицируемость [3].

Эти семейства абсолютно непрерывных распределений объединяет характеризационное свойство постоянства регрессии статистик [4], а также характеризационное свойство экспонентных распределений, у которых дисперсия является квадратичной функцией математического ожидания [5,6], в связи с чем они классифицируются, как распределения класса Майкснера. Заметим, что к данному классу также относятся дискретные распределения: пуассоновское, биномиальное и отрицательное биномиальное.

Сочетание пар, составленных из указанных распределений, позволяет с приемлемой точностью идентифицировать многие выборки реальных данных, в частности данные заболеваемости и смертности населения региона. При этом компоненты смеси могут относиться к разным семействам распределений. В целях получения более точного результата при проверке согласия в программе производится параметрическая подгонка теоретического распределения по выборке или статистическому ряду. Конечным итогом подгонки по параметрам служит минимизация значения %2набл Реализация процедуры подгонки позволяет не только осуществить проверку согласия выборочного и теоретического распределений, но и в смысле соответствия найти распределение «наилучшее из возможных». В результате подгонки уточняются как параметры составляющих /1(х), /2(х), так и сами семейства распределений составляющих, пересматриваются весовые коэффициенты а1, а2.

Пример. Выборка значений показателя заболеваемости класса МКБ-10 «Болезни костно-мышечной системы и соединительной ткани» мужского населения Новгородской области (2005 г.) задана в виде статистического ряда

Возраст 2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5

Частота 2 9 24 30 12 13 9 14

Возраст ,5 2, ,5 7, ,5 2, 5 ,5 7, 5 62,5 67,5 72,5 77,5

Частота 32 37 19 18 11 10 3 3

Классические распределения типа нормального и др. не соответствуют реальным данным: по полигону или гистограмме частот отчетливо прослеживаются два распределения «колоколообразной» формы. С помощью разработанного программного обеспечения подбираем функцию плотности /(х) теоретического

распределения в виде смеси двух распределений (2) рассматриваемых классов. В данном примере по результатам подгонки наилучшими составляющими оказались нормальные распределения. Гистограмма выборки и график функции плотности /(х) теоретического распределения представлены на рис.

Найденная функция согласуется со статистическими данными по критерию согласия Пирсона

на уровне значимости а = 0,05: У?набл = 15,235,

7?теоГ= 19,675. Параметры распределений случайных величин Х1, X 2 см. в табл.1.

e

Таблица 1

Плотность распределения /1(х) Л(х)

Мат. ожидание 15,613 48,010

Станд. отклонение 5,495 11,950

Значения а г 0,314 0,686

f (х) =

Функция плотности / (х) имеет вид

(х-15,613)2

0,3 1 4 - 60 396 0,686 -

+-

(х-48,010)2

285,626

72Л 5,495 л/2п 11,950 '

Приведем и функцию распределения генеральной совокупности X:

F (х) = 0,314 -Ф

;-15,613 А

х - 48,010 11,950

5,495

где Ф(...) — функция Лапласа.

Полученное распределение показателя заболеваемости характеризуется двумя пиками: при

М(Х1) = 15,613 лет и М(Х2) = 48,010 лет. Заметим, что среднее для показателя X, равное 37,837, по сути, является малоинформативным, поскольку не соответствует максимуму показателя, а носит некий уравновешивающий характер между двумя пиками значений (локальными максимумами). Обращает на себя внимание различие концентраций значений показателя около средних (т.е. различие стандартных отклонений составляющих), а также спад заболеваемости в возрастах 20-40 лет с точкой минимума 32,5 лет. Монотонное уменьшение значений показателя после пика в возрасте 48 лет, видимо, вызвано общим уменьшением населения в старших возрастах.

Каждая из двух случайных величин Х1 и Х2

формируется при своем комплексе условий. Очертить эти комплексы условий — дальнейшая задача специалистов. Для этого требуются дополнительные, целенаправленно собранные данные об исследуемых объектах. Отметим, что в результате разложения исходного показателя с нахождением всех возможных характеристик задача исследователя существенно упростилась: построена модель зависимости, в структуре которой учтены многие нюансы поведения показателя. Знание характеристик теоретического распределения показателя, включая экстремальные значения

и значения вероятностей а1 и а2, позволяет провести

качественное исследование заболеваемости данного класса, математически обосновать возможную интерпретацию результатов.

Из рассмотренного примера понятно, что в практических задачах после установления законов распределения компонент смеси должен быть следующий шаг: покомпонентное разбиение выборки. Разработанная программа позволяет это осуществить.

Приведем теоретическую основу разбиения выборки. Если статистические данные представлены в виде выборки объема N и для каждой варианты имеется значение альтернативного признака типа «да — нет» (формализованного как «1 — 0»), то программа в соответствии с компонентами смеси может разбить выборку на две подвыборки с указанием идентифицирующего значения этого признака. Задача — в каждом /-м интервале статистического ряда распределить N. значений между двумя составляющими согласно распределению (2). Пусть N. = п. + т., где п. — количество значений

из .-го интервала в 1-й выборке, т. — количество значений из .-го интервала во 2-й выборке. Тогда

п.

__г_.

Ж'

т.

___г_ _

N ~

г

=а | &(х)сь=) - ^(х-1)],

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Хг-1

хг

а21f2(x)dx = а2[^,(х) -^(х^)],

где х

граничные значения г-го интервала

статистического ряда; Fk (х) — функция распределения к-й составляющей, к = 1,2 . Соответственно ^п. = п , ^т. = т — объемы подвыборок,

п + т = N. Заметим, что в разработанной программе вычисляемые значения п. и т. округляются до целых.

Таким образом, в каждом интервале статистического ряда найдены значения п. и т.. Отбор конкретных п. вариант для 1-й подвыборки и т. вариант для

2-й подвыборки можно осуществить различными способами. В разработанной программе три реализации:

х

1-1

х

— случайным образом;

— в соответствии с альтернативным признаком, имеющимся у каждой варианты, в 1-ю подвыборку в каждом интервале отбирается максимально возможное количество элементов с 1-й альтернативой;

— в 1-ю подвыборку в каждом интервале отбирается максимально возможное количество элементов со 2-й альтернативой.

Оценим точность методики отбора. При получении выборки каждый ее элемент объективно является результатом реализации комплекса условий I или комплекса условий II, т.е. однозначно принадлежит какой-то из двух подвыборок. Перераспределяя варианты по подвыборкам, мы можем допустить ошибку: отправить элемент не в «свою» подвыборку. Оценим ошибку в каждом из интервалов статистического ряда. Пусть для определенности в і-м интервале п. > т.. Тогда «наихудший» вариант следующий: в меньшей из двух групп неправильно идентифицированы все т. элементов, соответственно и в большей

группе оказывается т. неправильно идентифицированных элементов. Оставшиеся п. - т. элементов гарантированно идентифицируются правильно. В общем случае \п. - т.| — гарантированное количество правильно идентифицированных элементов в І-м

интервале. Следовательно, X\п. -т.| — гарантиро-

І

ванное количество правильно идентифицированных элементов в выборке. Тогда точность разбиения выборки (доля правильно отобранных элементов в выборке при «наихудшем» варианте отбора) равна

N

(6)

Чем больше модули разностей |п. - т.|, тем

выше точность. Для смеси имеет место зависимость точности разбиения от соотношения компонент. Чем больше различаются компоненты смеси, тем выше точность разбиения. Точность повышается с ростом

|М(Х1) -М(Х2)|, с уменьшением D(X1), D(X2), с

ростом |а1 - а2|. Данная зависимость допускает и численную оценку.

Оценку точности также можно получить и для каждой подвыборки.

Если Х(д . - т.) — гарантированное количе-

г

п>т.

ство правильно идентифицированных элементов в 1-й подвыборке, а ^(т. - п.) — то же во 2-й подвыбор-

ке, то — Х(п - т.) — точность разбиения для 1-й

п г

п.>т.

подвыборки, — Х(тг- - пг) — точность разбиения

т г

т>п

для 2-й подвыборки.

В реальных задачах из трех реализованных способов разбиения «наиболее правильным» может оказаться любой, в зависимости от того, сколь точно сопутствующий альтернативный признак отражает связь с комплексами условий I и II.

Пример тестирования программы. Сгенерированы две выборки из нормальных генеральных совокупностей: X ~ N(10; 1); Y ~ N(13; 1). Объемы выборок: пх = 40; пу = 160. Таким образом, соотношение объемов определяет а = 0,2; а2 = 0,8. Естественно, выборочные данные оказались отличны от теоретических, в частности х = 9,967; у = 12,898. Совместную выборку рассматриваем, как выборку из смеси двух вышеуказанных нормальных распределений. Модифицированный критерий согласия по этим данным (при группировке значений объединенной выборки в 10 интервалов) в качестве теоретического распределения предлагает распределение смеси с плотностью вида (2)

/ (х) = О^х) + а2/2(х) =

= 0,178-0,473е~0,703(х-9,809)2 + 0,822 • 0,383е~0,460(х-12,855)2.

В соответствии с полученными значениями произведем пропорциональное, поинтервальное разбиение выборки случайным образом. Для сопоставления результатов числовые характеристики распределений занесем в табл. 2.

т>п

Таблица 2

X Y

Характеристика Исходные данные е ^ § * 1 еа рн О м е Н Данные после разбиения Отношение по модулю Характеристика Исходные данные Теоретические значения Данные после разбиения Отношение по модулю

п 40 36 36 1 т у 160 164 164 1

а1 0,2 0,178 0,178 1 а2 0,8 0,822 0,822 1

X 9,967 9,809 9,730 1,008 у 12,898 12,855 12,877 0,998

s X 0,980 0,844 0,747 1,130 s у 1,015 1,042 1,007 1,035

Статистическое согласие параметров подтверждается во всех случаях. Причины незначительных различий: отличие реальных данных от нормальных (неравенство нулю асимметрии и эксцесса), недостаточный объем первой подвыборки (для второй под-выборки результаты существенно точнее), ошибки при округлении значений п. и т. до целых, ошибки при переходе от выборки к статистическому ряду.

128

Точность разбиения выборки (6) ~^^ = 0,63 . При конкретном разбиении доля правильно идентифицированных элементов в выборках существенно выше.

Рассмотренный пример свидетельствует об эффективности использованных алгоритмов модифицированного критерия согласия и разбиения смеси на составляющие.

Приложения

Разработанная программа в исследовательских задачах позволяет разбивать исследуемые неоднородные показатели на составляющие и устанавливать соответствие с различными сопутствующими признаками. Например, по выборке показателя заболеваемости с теоретическим распределением смеси вида (2) в качестве альтернативного признака можно рассматривать различные медико-социальные, экономические, демографические и иные признаки: «мужчина

— женщина», «курит — не курит», сопутствующие заболевания «имеет — не имеет», возраст «меньше t0

— больше t0», уровень доходов «высокий — низкий», житель «городской — сельский» и т.д.

Кроме вышеуказанных действий после разбиения выборки программа позволяет сравнивать доли альтернативного признака в обеих подвыборках по критерию Фишера. Находится уровень значимости различий долей. Следовательно, реализована возможность из многих альтернатив выбрать наиболее существенные для показателя, и дальнейшее исследование проводить по более однородным группам. Ввиду безграничной делимости нормального распределения (3), гамма-распределения (4) и распределения типа гиперболического косинуса (5), реализованных в разработанной программе, не исключается вариант дальнейшего применения программы для этих сформированных групп. Последующее изучение однородных данных можно осуществлять классическими методами.

Заключение

Разложение вероятностных законов — один из специфических разделов теории вероятностей. Представление сложных распределений в виде смеси более простых служит весьма полезным инструментом при решении многих теоретиковероятностных задач. В данной статье наряду с модификацией критерия согласия для смеси вероятностных распределений трех типов представлены

практическая и программная реализации разделения распределений. Использование различных вероятностных распределений способствует улучшению качества разрабатываемых моделей. Тестирование программы и использование реальных данных свидетельствует о наибольшей встречаемости в смеси нормального распределения, однако достаточно часто появляются и два других распределения, что вполне оправдывает их включение в исследование. В программе вычисляются математические характеристики справедливости результатов: уровень значимости для согласия выборочного и теоретического распределений, точность разбиения выборок. Рассчитываются параметры и числовые характеристики всех полученных распределений.

Разбиение неоднородных совокупностей на составляющие кроме чисто научного интереса имеет важный прикладной аспект, в частности в исследовательских задачах медицины и здравоохранения. Ввиду универсальности приведенной методики ее реализация возможна и в иных областях знаний. Методика изучения смесей вероятностных распределений с программной реализацией исследования призвана внести в этот круг задач элементы систематизации и наметить математически обоснованные пути их решения.

1. Токмачев М.С. Некоторые статистические характеристики, зависимости и тенденции состояния здоровья населения // Сб. тр. Новг. науч. центра СЗО РАМН. Т.5. М.: Медицина, 2006. С.74-80.

2. Токмачев М.С. Прикладной аспект обобщенного распределения гиперболического косинуса // Вестник НовГУ. Сер.: Техн. науки. 2005. №34. С.96-99.

3. Королев В.Ю. ЕМ-алгоритм, его модификации и их применение к задаче разделения смесей вероятностных распределений: Теор. обзор. М.: ИПИ РАН, 2007. 94 с.

4. Токмачев М.С. Постоянство регрессии квадратичной статистики на линейную статистику // Вестник НовГУ. Сер.: Естеств. и техн. науки. 1995. №1. С.139-141.

5. Morris C.N. Natural exponential families with quadratic variance functions // Ann. Statist. 1982. V.10. P.65-80.

6. Lai C.D. Meixner classes and Meixner hypergeometric distributions // Aust. J. Stat. 1982. V.24. P.221-233.

Bibliography (Transliterated)

1. Tokmachev M.S. Nekotorye statisticheskie kharakteristiki, zavisimosti i tendencii sostojanija zdorov'ja naselenija // Sb. tr. Novg. nauch. centra SZO RAMN. T.5. M.: Medicina, 2006. S.74-80.

2. Tokmachev M.S. Prikladnojj aspekt obobshhennogo raspre-delenija giperbolicheskogo kosinusa // Vestnik NovGU. Ser.: Tekhn. nauki. 2005. №34. S.96-99.

3. Korolev V.Ju. EM-algoritm, ego modifikacii i ikh primenenie k zadache razdelenija smesejj verojatnostnykh raspredelenijj: Teor. obzor. M.: IPI RAN, 2007. 94 s.

4. Tokmachev M.S. Postojanstvo regressii kvadratichnojj sta-tistiki na linejjnuju statistiku // Vestnik NovGU. Ser.: Estestv. i tekhn. nauki. 1995. №1. S.139-141.

5. Morris C.N. Natural exponential families with quadratic variance functions // Ann. Statist. 1982. V.10. P.65-80.

6. Lai C.D. Meixner classes and Meixner hypergeometric distributions // Aust. J. Stat. 1982. V.24. P.221-233.

i Надоели баннеры? Вы всегда можете отключить рекламу.