Научная статья на тему 'Идентификация одномерных многомодальных плотностей распределения вероятности при ограниченном объеме данных методом регуляризации'

Идентификация одномерных многомодальных плотностей распределения вероятности при ограниченном объеме данных методом регуляризации Текст научной статьи по специальности «Математика»

CC BY
409
72
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОМОДАЛЬНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ / СЛУЧАЙНАЯ ВЕЛИЧИНА / ВЫБОРКИ ОГРАНИЧЕННОГО ОБЪЕМА / ИММУНОЛОГИЯ / ОБРАТНАЯ ЗАДАЧА / МЕТОД РЕГУЛЯРИЗАЦИИ ПО А.Н. ТИХОНОВУ / A.N. TIKHONOV REGULARIZATION METHOD / MULTIMODAL LAWS OF PROBABILITY DISTRIBUTIONS / THE RANDOM VARIABLE / THE SAMPLE OF THE LIMITED VOLUME / IMMUNOLOGY / INVERSE PROBLEM

Аннотация научной статьи по математике, автор научной работы — Куликов В. Б.

Рассматривается возможность оценки функций плотности вероятности иммунологических показателей пациентов по выборкам клинических анализов ограниченного объема. В качестве решения выбирается приближенное решение интегрального уравнения Фредгольма первого рода при регуляризации обратной задачи на семействе гладких функций. Предложенный подход позволяет успешно восстанавливать многомодальные плотности распределения и носит универсальный характер.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFICATION OF ONE-DIMENSIONAL MULTIMODAL PROBABILITY DENSITY WITH LIMITED DATA USING THE REGULARIZATION METHOD

The article discusses the possibility of estimating probability density functions for immunological parameters of patients using the samples of clinical analyses having a limited volume. To resolve the problem an approximate solution to the integral Fredholm equation of the first kind was selected by regularization of the inverse problem to a family of smooth functions. The proposed approach allows to successfully restore the multimodal distribution density, and possesses versatile characteristics.

Текст научной работы на тему «Идентификация одномерных многомодальных плотностей распределения вероятности при ограниченном объеме данных методом регуляризации»

МАТЕМАТИКА И МЕХАНИКА

УДК 519.213

В.Б. Куликов

ИДЕНТИФИКАЦИЯ ОДНОМЕРНЫХ МНОГОМОДАЛЬНЫХ ПЛОТНОСТЕЙ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТИ ПРИ ОГРАНИЧЕННОМ ОБЪЕМЕ ДАННЫХ

МЕТОДОМ РЕГУЛЯРИЗАЦИИ

Рассматривается возможность оценки функций плотности вероятности иммунологических показателей пациентов по выборкам клинических анализов ограниченного объема. В качестве решения выбирается приближенное решение интегрального уравнения Фредгольма первого рода при регуляризации обратной задачи на семействе гладких функций. Предложенный подход позволяет успешно восстанавливать многомодальные плотности распределения и носит универсальный характер.

Многомодальные законы распределения вероятностей, случайная величина, выборки ограниченного объема, иммунология, обратная задача, метод регуляризации по А.Н. Тихонову

V.B. Kulikov IDENTIFICATION OF ONE-DIMENSIONAL MULTIMODAL PROBABILITY DENSITY WITH LIMITED DATA USING THE REGULARIZATION METHOD

The article discusses the possibility of estimating probability density functions for immunological parameters ofpatients using the samples of clinical analyses having a limited volume. To resolve the problem an approximate solution to the integral Fredholm equation of the first kind was selected by regularization of the inverse problem to a family of smooth functions. The proposed approach allows to successfully restore the multimodal distribution density, and possesses versatile characteristics.

Multimodal laws of probability distributions, the random variable, the sample of the limited volume, immunology, inverse problem, A.N. Tikhonov regularization method

В публикации представлен подход к идентификации многомодальных плотностей вероятности значительного ряда показателей иммунной системы человека. Рассмотрены основные иммунологические характеристики пациентов, получавших курсы антибактериальной терапии с системных позиций вероятностно-статистического анализа.

Феномен иммунной системы человека при исследовании поведения частиц крови, лимфы, гормонов изучается на базе фундаментальных математических начал - полагается, что реакции организма человека на иммунологическом уровне подчиняются универсальным вероятностным законам, действующим в природе.

Данное обстоятельство отражает современные представления о принципах энергоинформационного обмена человека и внешней среды, саморегуляции его систем и органов, открытости функций организма в космобиоритмологическом плане, единства детерминированного и стохастического биологических начал.

В естествознании, технике, медицине имеется множество режимов, требующих при их исследовании «тонкой» идентификации сложных законов стохастического поведения. Например,

системы «среда-тело» в аэро- и гидродинамике, вероятностные закономерности нелинейных динамических структур, хаотические явления в зонах бифуркаций.

В иммунологии, в частности, обнаруживаются многомодальные распределения характеристик антител крови и лимфы при медикаментозном и полевом воздействии. В экспериментальной психологии при исследовании возможностей восприятия - сложные апперцепционные закономерности высшей нервной деятельности, обусловленные физиологией нейронов.

Изучение таких систем требует обоснованных методов выявления законов распределения описывающих их случайных величин (СВ). Однако на практике это не всегда выполняется. Часто превалируют упрощенные подходы, не обеспечивающие достаточной строгости. В биологии, медицине, например, распространено использование числовых точечных параметров СВ -выборочного среднего и дисперсии выборки, а также гистограмм. Для технических приложений ограничением являются значительные математические трудности анализа нелинейных случайных функций, стохастических дифференциальных уравнений.

В первом случае причиной подобного положения является то, что объем экспериментального материала, например, иммунологических или гормональных анализов, из-за сложности их выполнения, высокой стоимости недостаточен для обоснованного применения существующих методик проверки статистических гипотез, а необходимый объем выборки зависит от закона распределения.

Тщательное изучение показывает, что построение гистограмм является задачей оптимальной фильтрации случайных выбросов, когда число интервалов группирования и возможность воспроизведения огибающей гистограммы, без потери тонких элементов (необоснованного огрубления), зависит от вида распределения случайной величины и объема выборки. По существу это некорректная постановка задачи.

В математической статистике сейчас интенсивно развиваются методы компьютерной обработки данных. Эти методы позволяют обрабатывать стохастические показатели, оценивая формы закона распределения изучаемых характеристик по некоторым типичным классам: экспоненциальному, трапецеидальному, классу распределений Стьюдента, Пирсона, Джонсона и др.

Вычислительные алгоритмы последовательно соотносят имеющийся материал с указанными классами распределений и делают выбор по некоторому критерию точности приближения или решающему правилу. Однако, большинство известных программых продуктов и методов, заложенных в них, требует достаточно большой выборки (несколько сот и более элементов) и, кроме того, обладает малой устойчивостью к неоднородности исследуемых данных.

Кроме указанных способов оценки законов распределения стохастических показателей используется метод Парзена-Розенблатта. Это традиционный метод восстановления плотности распределения. В данном методе по эмпирическим данным на первом этапе вычисляется выборочная дисперсия и оптимальное значение «ширины окна» h. На втором шаге это значение подставляется в ряд с базовой «колоколообразной» функцией, например, кривой Гаусса и находится оценка плотности. В этом методе вся информация о случайной величине на этапе грубого оценивания содержится в оценке выборочной дисперсии.

В этом и состоит некорректность метода Парзена - Розенблатта, так как одно и то же значение дисперсии может быть получено как для одномодальных, так и для многомодальных распределений. Кроме того, данная оценка чувствительна к большим выбросам эмпирических данных и требует предварительной фильтрации.

Как показывают исследования, данный метод применим при выборках значительного объема -более тысячи, а при ограниченных объемах может приводить к неудовлетворительным результатам, пропуская значимые моды.

Важным обстоятельством является то, что в живой природе относительно много показателей имеют широкий интервал допустимых значений по норме. В этом отражается их зависимость от географического, временного фактора, генетических особенностей организмов. Так называемая «диффузность» - рассеяние изучаемых характеристик по диапазону значений проявляется фактически при анализе большинства представленных выборок в биологии.

Поэтому законы распределения указанных и других показателей в иммунологии имеют специфические особенности в виде значительных уровней дисперсии, сложных законов распределения - многомодальных, негауссовых, негладкого типа. При этом характерно, что выборки часто имеют малый объем (от нескольких десятков отсчетов до ста).

Отмеченные особенности требуют адекватных методов исследования. Основу подхода автора статьи составили методы восстановления плотностей распределения, заложенные школой академика 8

А.Н. Тихонова для обратных задач математической физики [1]. Обратные задачи, как правило, имеют некорректность в постановке: множественность «решения» и его чувствительность к погрешности исходных данных. Решение такого рода задач основано на методах регуляризации.

В работе данный метод решения некорректно поставленных задач был применен в области практической медицины. Ряд результатов указанной школы был реализован в виде программою обеспечения для приближенного решения интегрального уравнения Фредгольма I рода. Подынтегральная функция плотности вероятности является искомой величиной задачи. Правая часть уравнения соответствовала эмпирической функции распределения для каждого показателя, например: уровня лейкоцитов, В-лимфоцитов, иммуноглобулинов, фагоцитарных чисел и других антител. Всего учитывалось тридцать три иммунных показателя.

Использовались ограничения на решения - непрерывность законов распределения изучаемых иммунологических показателей, их сосредоточенность на некотором отрезке (по диапазону изменения), гладкость формы плотности распределения.

С учетом последнего фактора восстановление плотностей распределения всех иммунных показателей велось в классе тригонометрических функций с ограничением количества членов разложения N в зависимости от объема Ь наблюдаемых данных минимизацией гарантированного риска. Применение указанного подхода к обширному материалу иммунологических показателей позволило построить эмпирические законы распределения, классифицировать весь объем данных, и свести его к структурированной и строгой системе. В таблице представлены для примера некоторые данные, полученные в результате восстановления эмпирической плотности распределения для пациентов-мужчин. Рисунок в формате таблиц Ехсе1 демонстрирует графики восстановленных плотностей вероятности по классам.

Принцип «сложности» оценки плотности распределения: N=N1Ь) - получил наглядное выражение в количестве требуемых для решения гармоник - минимум (3-7) для колоколообразных функций, в том числе содержащих несколько локальных мод; максимум (20-25) - для компактно локализованных (малые уровни дисперсии).

Полученные численные значения восстановленных функций в дискретных точках (необходимого объема) используются для вычисления моментов любого порядка, а также энтропийных характеристик случайной величины, представляющей иммунологический параметр.

Для изучения функциональных состояний иммунной системы представляет интерес обнаружение многомодальных распределений у целого ряда показателей. В этом смысле статистическое (стохастическое по своей природе) поведение части иммунных тел после интенсивной антибактериальной терапии можно сравнить, в частности, с многоорбитальным (по энергиям) распределением возбужденных электронов в теории лазерных эффектов, многофотонных нелинейных процессов. Форма же распределения может ассоциироваться с волновыми функциями или распределением интенсивности освещенности для фраунгоферовой дифракционной картины, а также с другими фундаментальными физическими закономерностями.

В практическом плане сравнение известных оценок плотности вероятности иммунологических, гормональных и других показателей, исследование их трансформаций в состоянии здоровья и при терапевтических воздействиях позволят вести мониторинг методов лечения, анализировать закономерности и связи функций организма с воздействиями, а также выявлять глубинные отношения изучаемых явлений в клеточной биологии, микробиологии, клинической медицине с универсальными законами абиотического мира.

Кроме рассмотренного подхода, исходный объем лабораторно-клинических данных - матрица размером примерно 80 на 30 - «пациенты - иммунные показатели» подвергался корреляционному анализу, подтвердившему многотаксонный характер полей корреляции и многомодальность целого ряда зависимостей. В одном случае - «индекс нагрузки» (класс № 8 на рисунке) - обнаружено наличие «решения» негладкого типа. При этом два десятка членов не достигли аппроксимации на удовлетворительном уровне. Об этом же свидетельствует и артефакт графика функции.

Исследование возможностей математических методов для такого рода явлений в иммунологии и других биологических системах, а также в технике, технологических процессах и управлении представляет собой актуальную задачу. В частности, для ряда распределений, плотности вероятности которых описываются функциями, не имеющими производных (или имеют разрывы), перспективным представляется аппроксимация системами функций Хаара или Уолша при корректировке условий алгоритма регуляризации.

р(х) Класс распределений № 1

р(х) Класс распределений № 2

0,05

0,04

0,03

0,02

0,01

0

цД

МппНШтг

□ Ряд1

0,07

0,06

0,05

0,04

0,03

0,02

0,01

0

□ Ряд1

0 □ □ о о □ . □□□оО.Оп.

1 3 5 7 9 11 13 15 17 19 21 23 25

1 3 5 7 9 11 13 15 17 19 21 23 25

р(х) Класс распределений № 3

р(х) Класс распределений № 5

0,08

0,06

0,04

0,02

0

□ Ряд1

1 3 5 7 9 11 13 15 17 19 21 23 25

0,12

0,09 Н 0,06 0,03 0

□ □ □ □

□ Ряд1

1 3 5 7 9 11 13 15 17 19 21 23 25

р(х) Класс распределений № 8

2.5

2

1.5 1

0,5 0

1 3 5 7 9 11 13 15 17 19 21 23 25

□ Ряд1

р(х) Класс распределений № 9

1 3 5 7 9 11 13 15 17 19 21 23 25

Иммунологические показатели: примеры некоторых классов распределений, идентифицированных по выборкам малого объема методом регуляризации

Классификация законов распределения иммунологических показателей, восстановленных методом решения

обратных задач (пациенты - мужчины)

Иммунологические показатели ( мед. норма) Классификационные признаки и характеристики

Объем выбо- рки, 1. Класс распреде- ления Степень полимо- дально- сти Аппрок- симация норма- льным распреде- лением Число членов разложения для р (х) -N Центр распре- деления Вероятность попадания в интервал нормы

Лейкоциты, млн/л (4-9) 71 класс 7 1 да 4 8,7 0,65

Лимфоциты, % (19-37) 71 класс 1 2 нет 4 28,4 0,69

Лимфоциты, млн/л (0,7-3,8 ) 71 класс 7 1 да 4 2,43 0,91

Нейтрофилы п/я, % (1-5) 70 класс 1 * 2 нет 4 2,23 0,59

Нейтрофилы с/я, % (47-72) 71 класс 4* 1 нет 3 59,4 0,69

Эозинофилы, % (1-5) 70 класс 5 1 нет 2 2,46 0,42

Моноциты, % (2-10) 71 класс 3 1 нет 2 7,45 0,45

Т-лимфоциты, % (40-90) 40 класс 2* 3 нет 5 36,7 0,24

Т-лимфоциты, млн/л (0,5-3,0) 38 класс 7 1 нет 4 0,93 0,86

В-лимфоциты, % (2-30) 40 класс 4 1 нет 2 15,0 0,97

В-лимфоциты, млн/л (0,03-0,9) 38 класс 1 2 нет 5 0,40 0,97

Нулевые клетки, % (2-35) 40 класс 4 1 нет 2 48,1 0,06

Выводы

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Успешная идентификация эмпирических двух- и полимодальных распределений по выборкам малого объема предложенным методом позволяет считать такое восстановление плотностей вероятностей адекватным проблеме в области биологических наук и в сложных стохастических структурах. При этом исследование на модельных примерах показывает, что более простой альтернативный метод Парзена - Розенблатта по эффективности и разрешающей способности значительно уступает применяемому подходу.

ЛИТЕРАТУРА

1. Тихонов А.Н. Методы решения некорректных задач / А.Н. Тихонов, В.Я. Арсенин. М.: Наука, 1986. 288 с.

Куликов Владимир Борисович -

электроник 1 категории ИВЦ факультета экономики, менеджмента и инноваций Нижегородского государственного технического университета имени Р.Е. Алексеева

Vladimir B. Kulikov -

Electronics engineer (I qualification grade)

Faculty of Economics, Management and Innovations R^. Alekseev State Technical University of Nizhny Novgorod

Статья поступила в редакцию 17.08.13, принята к опубликованию 15.09.13

i Надоели баннеры? Вы всегда можете отключить рекламу.