Научная статья на тему 'Численно устойчивый вероятностный классификатор логистической регрессии'

Численно устойчивый вероятностный классификатор логистической регрессии Текст научной статьи по специальности «Математика»

CC BY
68
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — В. Л. Лукинов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Численно устойчивый вероятностный классификатор логистической регрессии»

156

Секция 9

Феномен прерывистой эволюции: математическая модель

В. А. Лихошвай, Т. М. Хлебодарова Институт цитологии и генетики СО РАН Email: tamara@bionet.nsc.ru DOI: 10.24411/9999-017A-2019-10315

Палеонтологическая летопись Земли, описывающая последние 500 млн лет ее эволюции, характеризуется прерывистостью эволюционного процесса и периодически возникающими глобальными "катастрофами" вымирания одних видов и замены их на новые, причины которых до сих пор не ясны. Опираясь на результаты моделирования, мы объясняем эти особенности палеонтологической летописи Земли действием внутренних законов функционирования динамической, саморазвивающейся системы, каковой является биота Земли. В основу модели эволюции этой системы заложено всего три фундаментальных закона функционирования живых систем. Это тип размножения, бесполый или половой, предполагающий необходимость встречи двух особей для воспроизводства потомства, зависимость эффективности воспроизводства и смертности индивидуумов от плотности биоты, а также мутационная изменчивость в процессе самовоспроизводства (ошибки репликации генома) и отбор наиболее приспособленных особей. Модель предсказывает, что прерывистость и неравномерность темпов эволюции является отражением возникновения в саморазвивающейся экосистеме Земли, двух различных устойчивых состояний (явление бистабильности). Причем переход из одного состояния в другое в каждый момент времени определялся стремлением системы к увеличению ее приспособленности к существующим условиям. Бистабильность оказалось характерной только для такой экосистемы, большая часть организмов которой размножается половым путем. Т.е., появление полового размножения в процессе эволюции живых организмов может быть одной из причин глобальных изменений структуры экосистемы Земли в последние 500 млн. лет ее эволюции.

Работа выполнена при финансовой поддержке программы фундаментальных исследований СО РАН (проект № 0324-2019-0040).

Численно устойчивый вероятностный классификатор логистической регрессии

В. Л. Лукинов

Институт вычислительной математики и математической геофизики СО РАН Сибирский государственный университет телекоммуникаций и информатики Email: vitaliy.lukinov@gmail.com DOI: 10.24411/9999-017A-2019-10316

Одним из наиболее распространенных и широко используемых в статистическом анализе больших данных является разработанный в прошлом веке метод логистической регрессии [1]. В биологии и медицине логистическая регрессия применяется в самых разных областях: выявлении и исследовании степени влияния предикторов заболеваний и послеоперационных осложнений, фундаментальном для ретроспективных групповых сравнительных исследований методе Propensity Score Matching, методах автоматического и полуавтоматического распознавания медицинских изображений, методах статистического кластерного анализа [2,3,4,5].

При обработке реальных данных методом логистической регрессии требуется определить и устранить негативное влияние на качество оценок коэффициентов модели, связанное с неполнотой данных, существованием "выбросов" в данных и особых ковариантов, коллинеарностью, критерием отбора ко-вариантов в многофакторную модель. В данной работе предложен и реализован алгоритм, позволяющий контролировать и устранить перечисленные выше негативные факторы.

Другой задачей является разработка параллельных алгоритмов расчета коэффициентов логистической регрессии и характеристик качества. При этом необходимо решить оптимизационную задачу, реализующую критерий максимального правдоподобия. Известный подход, основанный на итерационном методе Ньютона-Рафсона, является численно неустойчивым и может привести к неправильному нахождению коэффициентов регрессии [6]. В данной работе предлагается новый параллельный численно-устойчивый итерационный алгоритм решения задачи минимизации на основе случайного поиска. Проведено сравнение с базовым алгоритмом lm из языка статистической обработки данных R [7].

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (код проекта 19-29-01176).

Компьютерная биология

157

Список литературы

1. Cox D.R., "The regression analysis of binary sequences (with discussion)"// J Roy Stat Soc B. 20 (2): 215-242, 1958.

2. Walker S.H., Duncan D.B. "Estimation of the probability of an event as a function of several independent variables" // Biometrika. 54 (1/2): 167-178, 1967 DOI: 10.24411/9999-017A-2019-1000110.2307/2333860. JSTOR 2333860.

3. Truett J., Cornfield J., Kannel W, "A multivariate analysis of the risk of coronary heart disease in Framingham" // Journal of Chronic Diseases. 20 (7): 511-24, 1967 DOI: 10.24411/9999-017A-2019-1000110.1016/0021-9681(67)90082-3

4. Rosenbaum P.R., Rubin D.B."The Central Role of the Propensity Score in Observational Studies for Causal Effects" // Biometrika. 70 (1): 41-55, 1983 DOI: 10.24411/9999-017A-2019-1000110.1093/biomet/70.1.41

5. Venkatesan R., Meng J.E., "A novel progressive learning technique for multi-class classification" // Neurocomputing. 207: 310-321, 2016. DOI: 10.24411/9999-017A-2019-1000110.1016/j.neucom.2016.05.006

6. Н. П. Васильев, А. А. Егоров, "Опыт расчета параметров логистической регрессии методом Ньютона-Рафсона для оценки зимостойкости растений" // Матем. биология и биоинформ., 6:2 (2011), 190-199

7. https://www.r-project.org/about.html.

3D genome modeling by Hi-C and ChIA-PET data

Y. L. Orlov4 A. I. Dergilev1, S. S. Kovalev2, R. O. Babenko1, G. Li3

'Novosibirsk State University

2Institute of Cytology and Genetics SB RAS

3Huazhong Agricultural University, Wuhan, China

Email: orlov@bionet.nsc.ru

DOI: 10.24411/9999-017A-2019-10317

Chromatin interactions in cell nuclei play a critical role for gene expression regulation. Series of postgenome technologies have been developed to study the transcription regulation, such as ChIP-chip, ChIP-Seq [1]. Identification of genome-wide distal chromatin interactions provides novel insights into the problem. Hi-C and Chromatin Interaction Analysis with Paired-End-Tag sequencing (ChIA-PET) methods for such analysis requires development of specialized software. The aim of the work was to review existing computer tools for 3D genome structure data analysis and spatial topological domains.

References

1. Li G. et al. Chromatin Interaction Analysis with Paired-End Tag (ChIA-PET) sequencing technology and application. BMC Genomics. 2014. V. 15(Suppl 12), P. S11.

Проблемы суперкомпьютерного моделирования в биоинформатике

Ю. Л. Орлов1,2,3, В. Е. Жилицкий1, С. С. Ковалев2, А. Г. Галиева1, А. Н. Лузин1, Н. Л. Подколодный2

1Новосибирский государственный университет

2Институт цитологии и генетики СО РАН

3Первый МГМУ им. И. М. Сеченова

Email: orlov@bionet.nsc.ru

DOI: 10.24411/9999-017A-2019-10318

Естественные науки требуют разработки новых решений для суперкомпьютерного моделирования биологических систем и процессов, особенно актуальных в связи с бурным ростом данных, полученных с помощью современных технологий высокопроизводительного секвенирования ДНК [1]. Огромные объемы и сложность экспериментальных данных в современной генетике требуют использования современных суперкомпьютерных технологий, разработки эффективных математических методов анализа данных. Будут рассмотрены программы компьютерной геномики для анализа биомедицинских данных.

Работа выполнена при поддержке РФФИ и бюджетного проекта ИЦиГ СО РАН (0259-2019-0002). Список литературы

1. Tatarinova T. V., Chen M., Orlov Y. L. Bioinformatics research at BGRS-2018. BMC Bioinformatics. 2019. V. 20(Suppl 1). P.33.

i Надоели баннеры? Вы всегда можете отключить рекламу.