Методы машинного обучения и искусственного интеллекта
151
Секция 10. МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ И ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Сравнительный анализ эффективности методов машинного обучения при построении моделей классификации однонуклеотидных полиморфизмов в регуляторных и экзомных участках генетических последовательностей
В. Б. Бериков1,2 С. Н. Постовалов2,3
1Институт математики СО РАН
2Новосибирский государственный университет
3Новосибирский государственный технический университет
Email: berikov@math.nsc.ru
DOI: 10.24411/9999-017A-2020-10262
Регуляторные однонуклеотидные полиморфизмы (rSNP), участвующие в контроле уровня экспрессии генов, вносят существенный вклад в формирование предрасположенности к различным заболеваниям. При этом такие полиморфизмы остаются на сегодняшний день наименее изученными из-за трудности их обнаружения [1]. В то же время, благодаря прогрессу в технологиях секвенирования, число известных полиморфизмов в кодирующих (экзомных) участках последовательностей (cSNP) в геноме человека из года в год увеличивается.
В предлагаемой работе решается задача построения классификационных моделей зависимости между rSNP и cSNP с помощью методов машинного обучения. На примере 22 хромосомы человека проведен анализ данных 2504 человек (информация получена на основе проекта "1000 геномов"). В докладе сообщается о результатах проведенных исследований с использованием различных методов машинного обучения, в том числе основанных на ансамблевом сходстве [2].
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований, проект 18-29-09041.
Список литературы
1. E. E. Korbolina et al. Novel approach to functional SNPs discovery from genome-wide data reveals promising variants for colon cancer risk // Human Mutation. 2018. Vol. 39, no 6. Pp. 851-859.
2. V Berikov et al. Classification at Incomplete Training Information: Usage of Group Clustering to Improve Performance // J. of Theoretical and Applied Information Technology. 2019. Vol. 97. No. 19. P. 5048-5060.
Вычислительная сложность кластеризации с опорой на конкурентное сходство
И. А. Борисова
Институт математики им. С. Л. Соболева Новосибирский государственный университет Email: biamia@mail.ru DOI: 10.24411/9999-017A-2020-10263
Рассматривается формальная постановка задачи выбора подмножества типичных объектов из неклассифицированной выборки с помощью функции конкурентного сходства, используемой для оценки сходство между объектами в конкурентной среде при решении различных задач машинного обучения [1]. В дальнейшем полученное множество может использоваться для кластеризации или сжатия данных. При этом предполагается, что типичными являются те объекты выборки, на которые похожи объекты того же кластера и не похожи объекты конкурирующих кластеров. Для этой задачи доказывается, что она является NP-трудной в сильном смысле даже для частного случая, когда выбор типичных объектов осуществляется в метрическом пространстве. Для этого к рассматриваемой задаче сводится NP-трудная в сильном смысле задача 3-Matching [2]. Так как доказанная NP-трудность в сильном смысле предполагает невозможность построения точных полиномиальных и псевдо-полиномиальных алгоритмов решения поставленной задачи, для этих целей предлагается приближенный жадный алгоритм.
Работа выполнена при поддержке программы фундаментальных научных исследований СО РАН, проект № 0314-2019-0015.