Научная статья на тему 'Реконструкция функций плотности вероятности на модельных выборках. Регуляризация задачи'

Реконструкция функций плотности вероятности на модельных выборках. Регуляризация задачи Текст научной статьи по специальности «Математика»

CC BY
160
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИДЕНТИФИКАЦИЯ ЗАКОНОВ РАСПРЕДЕЛЕНИЯ / МОДЕЛЬНЫЕ ВЫБОРКИ / УРАВНЕНИЕ ФРЕДГОЛЬМА ПЕРВОГО РОДА / РЕГУЛЯРИЗАЦИЯ / IDENTIFICATION OF DISTRIBUTION LAWS / MODEL SELECTION / THE FREDHOLM EQUATION OF THE FIRST KIND / REGULARIZATION

Аннотация научной статьи по математике, автор научной работы — Куликов В. Б.

Идентифицируются функции плотности вероятности модельных выборок ограниченного объема. Задача верификации решается для оценки предложенного метода восстановления полимодальных плотностей. Выполняется регуляризация задачи. Подтверждается вывод о необходимости увеличенного числа гладких функций для восстановления сложных (Коши, экспоненциальное) распределений. Предложенный подход носит универсальный характер в сфере естествознания, медицине и технических приложениях.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RECONSTRUCTION OF PROBABILITY DENSITY FUNCTIONS USING MODEL SAMPLES AND TASK REGULARIZATION

The paper deals with identification of the probability density function for a set of model samples. The verification problem is solved to evaluate the proposed method of restoring multimodal distribution densities. Regularization of the problem is performed. The necessity for an increased number of smooth functions to recover complex (Cauchy and exponential) distributions is confirmed. The proposed approach is universal in the field of sciences, medicine and engineering.

Текст научной работы на тему «Реконструкция функций плотности вероятности на модельных выборках. Регуляризация задачи»

УДК 519.213

В.Б. Куликов

РЕКОНСТРУКЦИЯ ФУНКЦИЙ ПЛОТНОСТИ ВЕРОЯТНОСТИ НА МОДЕЛЬНЫХ ВЫБОРКАХ. РЕГУЛЯРИЗАЦИЯ ЗАДАЧИ

Идентифицируются функции плотности вероятности модельных выборок ограниченного объема. Задача верификации решается для оценки предложенного метода восстановления полимодальных плотностей. Выполняется регуляризация задачи. Подтверждается вывод о необходимости увеличенного числа гладких функций для восстановления сложных (Коши, экспоненциальное) распределений. Предложенный подход носит универсальный характер в сфере естествознания, медицине и технических приложениях.

Идентификация законов распределения, модельные выборки, уравнение Фредгольма первого рода, регуляризация

V.B. Kulikov

RECONSTRUCTION OF PROBABILITY DENSITY FUNCTIONS USING MODEL SAMPLES AND TASK REGULARIZATION

The paper deals with identification of the probability density function for a set of model samples. The verification problem is solved to evaluate the proposed method of restoring multimodal distribution densities. Regularization of the problem is performed. The necessity for an increased number of smooth functions to recover complex (Cauchy and exponential) distributions is confirmed. The proposed approach is universal in the field of sciences, medicine and engineering.

Identification of distribution laws, model selection, the Fredholm equation of the first kind, regularization

Проблема достоверной и надежной идентификации стохастических данных проявляется в таких сферах исследования, как естествознание, квантовая механика, медицина, геохимия. Здесь существует множество сложных по своей природе структур и процессов, при исследовании которых применяются различные методы идентификации законов, описывающих их стохастические или фрактальные характеристики. Этим задачам явления многофакторности, многоэкстремальности присущи в силу внутренней органичности.

Особенностью таких объектов изучения является наличие сингулярных и полимодальных, негауссовых распределений. Например, в иммунологии идентифицируются распределения с числом мод 2-3; в методах получения высокочистых веществ известны примесные распределения с 3-5 модами; в моделях, описываемых на основе решений уравнения Шрёдингера для квантовых систем их может быть значительное число. Сингулярные распределения вероятности характерны для диссипативных динамических систем с т.н. «странными аттракторами». При этом в прикладных задачах до сих пор широко используются методы построения гистограмм и проверки статистических гипотез.

Однако для идентификации законов распределения с указанной спецификой наиболее перспективными являются методы, основанные на решении обратных задач математической физики [1]. Закономерно, что наблюдается расширение сферы применения устойчивых алгоритмов и программого обеспечения для приближенного решения обратных задач стохастического анализа, основанных на интегральном уравнении Фредгольма I рода [2]. В ходе решения подынтегральная функция плотности вероятности p(x) является искомой величиной задачи, правая часть уравнения -соответствует эмпирической функции распределения F(x).

На примере решения задачи обработки экспериментальных данных в иммунологии автором делается вывод, что данный метод восстановления плотностей распределения в технических приложениях, медицине, биологии, агросфере, при получении высокочистых веществ, геохимии и в других сферах является наиболее перспективным.

Следует заметить, что предлагаемый подход принципиально отличается от классической схемы: не требует построения гистограмм, выбора числа и ширины интервалов группирования данных, аппроксимации построенной гистограммы и применения критериев согласия для проверки гипотез относительно закона распределения.

Приближенное решение уравнения Фредгольма по выборкам малого объема позволяет корректно (на основе алгоритмов регуляризации) сразу построить кривую плотности распределения изучаемой случайной величины, минуя этап построения гистограмм (рис. 1, 2 показывают функции плотности вероятности p(x)).

Оценка плотностй распределения показателей ищется в виде разложения по системе тригонометрических функций с ограничением количества членов разложения N в зависимости от объема L наблюдаемых данных минимизацией гарантированного риска. Накладываются регуляризационные ограничения на решения - непрерывность законов распределения изучаемых показателей, их сосредоточенность на некотором отрезке, гладкость формы плотности распределения.

Метод восстановления законов распределения в иммунологии [2] положительно зарекомендовал себя в плане вычислительной устойчивости, разрешающей способности по выделению и правильному позиционированию локальных особенностей. Однако для повышения верифицируемости предложенного метода выполнены исследования на «образцовых» выборках, моделирующих различные плотности распределения случайных величин.

Компьютерное моделирование выборок наиболее полно реализуется с помощью комплекса программ, разработанного в [3]. Используя отсчеты модельных случайных величин, относящихся к распределениям: Коши, гамма-распределению, экспоненциальному, нормальному, Вейбулла, реконструировались функции плотности вероятности по предложенному методу. Объем выборок имел диапазон 100-300 единиц. Выполнено также восстановление плотности смеси трех нормальных распределений при Ь = 600.

Результаты исследований подтверждают вывод [2] о наличии особенностей сложных (Коши, экспоненциальное) распределений, выражающихся в необходимости увеличенного числа гладких функций для восстановления приближенного решения: для Коши - примерно 20 гармоник, для экспоненциального 10-23. В последнем случае форма кривой распределения закономерно улучшается с увеличением объема выборки от 100 до 300 (рис. 1).

Объем выборки 1=100 Объем выборки 1=300

Рис. 1. Графики р(х) восстановленных экспоненциальных распределений

Вывод об улучшении формы с ростом объема выборки закономерен и для нормального закона (исчезает асимметрия и приподнятый «хвост»). Хотя в монографии [3] уже для Ь =100 критерии согласия типа х2 дают хорошее соответствие принадлежности выборки к распределению Гаусса.

Предлагаемый метод принципиально выделяет главное отличие для выборок, сгенерированных по нормальному типу (исследовались объемы с Ь = 100, 200, 300, 600) - число членов N восстановленного решения при достижении минимума критерия эмпирического риска мало - и находится в диапазоне: N=2-4. При этом коэффициенты разложения решения по системе тригонометрических функций для выборки в 200 единиц имеют, к примеру, значение: а = 0.01393; в = - 0.83330; у = - 0.50181.

На основании исследований можно заключить, что обнаружено особое статистическое свойство распределений нормального типа. «Колокольная» форма распределения Гаусса, правило «трех сигм», максимальное значение энтропийного коэффициента (к = 2.066) дополняются новым характерным признаком идентификации.

Особый интерес представляет анализ смеси трех выборок, каждая из которых смоделирована в [3] по нормальному закону. Первая выборка в 100 отсчетов изначально сосредоточена на отрезке (- 0.668; 2.296), вторая (200 отсчетов) - на отрезке (-3.997; 6.338), третья (300 отсчетов) - на отрезке (-5.185; 6.218). Реконструкция кривой распределения суммарной выборки в 600 единиц снова дает нормальное распределение.

Об этом свидетельствуют структура функции и число членов N восстановленного решения (N=4). Далее, зафиксировав первую и вторую выборки, сдвигаем вправо по оси значений третью, прибавлением к каждому ее отсчету «математических ожиданий» из ряда значений Д3 = 5.0, 7.0, 17.0, 37.0. Последовательно восстанавливаем по предложенному методу все четыре распределения, причем два последних варианта отражают существенное взаимное смещение локальных выборок по интервалу их значений.

Графики восстановленных р(х) «смесей» нормальных распределений приведены на рис. 2. Показано, что в этом случае возрастает «сложность» корректной реконструкции совокупной плотности вероятности с увеличением требуемых членов разложения с N=7-10 до N=13-23. Фигура f соответствует Д1 = - 5.0; Д3 = 37.0 - первая выборка смещена влево на пять единиц; третья - на 37 единиц, т.е. реконструируется трехмодальное распределение.

c - Лэ = 7.0 f - Лэ = 37.0; Ai = -5.0

Рис. 2. Графики p(x) восстановленных «смесей» нормальных распределений

Выводы

Выполненная идентификация эмпирических полимодальных распределений по выборкам малого объема изложенным способом позволяет считать его перспективным в области медицины, биологии и естествознании в целом. Результаты восстановления плотностей моделируемых распределений: гамма-распределение, Коши, экспоненциальное, нормальное, Вейбулла с ограниченным объемом выборок прикладного значения демонстрируют высокие возможности метода; его универсальность и эффективность. Способность метода давать новые знания о «тонкой» природе стохастических явлений предлагается широко использовать в теории вероятностей и прикладной математической статистике.

ЛИТЕРАТУРА

1. Тихонов А.Н. Методы решения некорректных задач / А.Н. Тихонов, В.Я. Арсенин. М.: Наука, 1986. 288 с.

2. Куликов В.Б. Идентификация одномерных многомодальных плотностей распределения вероятности при ограниченном объеме данных методом регуляризации / В.Б. Куликов // Вестник СГТУ. 2013. № 3 (72). С. 7-11.

3. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход: монография / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова. Новосибирск: Изд-во НГТУ, 2011. 888 с.

Куликов Владимир Борисович - Vladimir B. Kulikov -

аспирант Института радиоэлектроники Postgraduate

и информационных технологий Institute of Radioelectronics and Information

Нижегородского государственного Technology,

технического университета Ri. Alekseev Nizhny Novgorod State Technical

им. Р.Е. Алексеева University

Статья поступила в редакцию 03.02.15, принята к опубликованию 11.05.15

i Надоели баннеры? Вы всегда можете отключить рекламу.