Сравнительный анализ эффективности методов машинного обучения при построении моделей классификации однонуклеотидных полиморфизмов в регуляторных и экзомных участках генетических последовательностей

В. Б. Бериков; С. Н. Постовалов

Методы машинного обучения и искусственного интеллекта

151

Секция 10. МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ И ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Сравнительный анализ эффективности методов машинного обучения при построении моделей классификации однонуклеотидных полиморфизмов в регуляторных и экзомных участках генетических последовательностей

В. Б. Бериков1,2 С. Н. Постовалов2,3

1Институт математики СО РАН

2Новосибирский государственный университет

3Новосибирский государственный технический университет

Email: berikov@math.nsc.ru

DOI: 10.24411/9999-017A-2020-10262

Регуляторные однонуклеотидные полиморфизмы (rSNP), участвующие в контроле уровня экспрессии генов, вносят существенный вклад в формирование предрасположенности к различным заболеваниям. При этом такие полиморфизмы остаются на сегодняшний день наименее изученными из-за трудности их обнаружения [1]. В то же время, благодаря прогрессу в технологиях секвенирования, число известных полиморфизмов в кодирующих (экзомных) участках последовательностей (cSNP) в геноме человека из года в год увеличивается.

В предлагаемой работе решается задача построения классификационных моделей зависимости между rSNP и cSNP с помощью методов машинного обучения. На примере 22 хромосомы человека проведен анализ данных 2504 человек (информация получена на основе проекта "1000 геномов"). В докладе сообщается о результатах проведенных исследований с использованием различных методов машинного обучения, в том числе основанных на ансамблевом сходстве [2].

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований, проект 18-29-09041.

Список литературы

1. E. E. Korbolina et al. Novel approach to functional SNPs discovery from genome-wide data reveals promising variants for colon cancer risk // Human Mutation. 2018. Vol. 39, no 6. Pp. 851-859.

2. V Berikov et al. Classification at Incomplete Training Information: Usage of Group Clustering to Improve Performance // J. of Theoretical and Applied Information Technology. 2019. Vol. 97. No. 19. P. 5048-5060.

Вычислительная сложность кластеризации с опорой на конкурентное сходство

И. А. Борисова

Институт математики им. С. Л. Соболева Новосибирский государственный университет Email: biamia@mail.ru DOI: 10.24411/9999-017A-2020-10263

Рассматривается формальная постановка задачи выбора подмножества типичных объектов из неклассифицированной выборки с помощью функции конкурентного сходства, используемой для оценки сходство между объектами в конкурентной среде при решении различных задач машинного обучения [1]. В дальнейшем полученное множество может использоваться для кластеризации или сжатия данных. При этом предполагается, что типичными являются те объекты выборки, на которые похожи объекты того же кластера и не похожи объекты конкурирующих кластеров. Для этой задачи доказывается, что она является NP-трудной в сильном смысле даже для частного случая, когда выбор типичных объектов осуществляется в метрическом пространстве. Для этого к рассматриваемой задаче сводится NP-трудная в сильном смысле задача 3-Matching [2]. Так как доказанная NP-трудность в сильном смысле предполагает невозможность построения точных полиномиальных и псевдо-полиномиальных алгоритмов решения поставленной задачи, для этих целей предлагается приближенный жадный алгоритм.

Работа выполнена при поддержке программы фундаментальных научных исследований СО РАН, проект № 0314-2019-0015.

Похожие темы научных работ по математике , автор научной работы — В. Б. Бериков, С. Н. Постовалов