Вычислительная сложность кластеризации с опорой на конкурентное сходство

И. А. Борисова

Методы машинного обучения и искусственного интеллекта

151

Секция 10. МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ И ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Сравнительный анализ эффективности методов машинного обучения при построении моделей классификации однонуклеотидных полиморфизмов в регуляторных и экзомных участках генетических последовательностей

В. Б. Бериков1,2 С. Н. Постовалов2,3

1Институт математики СО РАН

2Новосибирский государственный университет

3Новосибирский государственный технический университет

Email: berikov@math.nsc.ru

DOI: 10.24411/9999-017A-2020-10262

Регуляторные однонуклеотидные полиморфизмы (rSNP), участвующие в контроле уровня экспрессии генов, вносят существенный вклад в формирование предрасположенности к различным заболеваниям. При этом такие полиморфизмы остаются на сегодняшний день наименее изученными из-за трудности их обнаружения [1]. В то же время, благодаря прогрессу в технологиях секвенирования, число известных полиморфизмов в кодирующих (экзомных) участках последовательностей (cSNP) в геноме человека из года в год увеличивается.

В предлагаемой работе решается задача построения классификационных моделей зависимости между rSNP и cSNP с помощью методов машинного обучения. На примере 22 хромосомы человека проведен анализ данных 2504 человек (информация получена на основе проекта "1000 геномов"). В докладе сообщается о результатах проведенных исследований с использованием различных методов машинного обучения, в том числе основанных на ансамблевом сходстве [2].

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований, проект 18-29-09041.

Список литературы

1. E. E. Korbolina et al. Novel approach to functional SNPs discovery from genome-wide data reveals promising variants for colon cancer risk // Human Mutation. 2018. Vol. 39, no 6. Pp. 851-859.

2. V Berikov et al. Classification at Incomplete Training Information: Usage of Group Clustering to Improve Performance // J. of Theoretical and Applied Information Technology. 2019. Vol. 97. No. 19. P. 5048-5060.

Вычислительная сложность кластеризации с опорой на конкурентное сходство

И. А. Борисова

Институт математики им. С. Л. Соболева Новосибирский государственный университет Email: biamia@mail.ru DOI: 10.24411/9999-017A-2020-10263

Рассматривается формальная постановка задачи выбора подмножества типичных объектов из неклассифицированной выборки с помощью функции конкурентного сходства, используемой для оценки сходство между объектами в конкурентной среде при решении различных задач машинного обучения [1]. В дальнейшем полученное множество может использоваться для кластеризации или сжатия данных. При этом предполагается, что типичными являются те объекты выборки, на которые похожи объекты того же кластера и не похожи объекты конкурирующих кластеров. Для этой задачи доказывается, что она является NP-трудной в сильном смысле даже для частного случая, когда выбор типичных объектов осуществляется в метрическом пространстве. Для этого к рассматриваемой задаче сводится NP-трудная в сильном смысле задача 3-Matching [2]. Так как доказанная NP-трудность в сильном смысле предполагает невозможность построения точных полиномиальных и псевдо-полиномиальных алгоритмов решения поставленной задачи, для этих целей предлагается приближенный жадный алгоритм.

Работа выполнена при поддержке программы фундаментальных научных исследований СО РАН, проект № 0314-2019-0015.

152

Секция 10

Список литературы

1. N. G. Zagoruiko, I.A. Borisova, V. V Dyubanov, О. А. Kutnenko. Methods of recognition based on the function of rival similarity // Pattern Recognition and Image Analysis. 2008. Vol. 18, № 1. P. 1-6.

2. Garey, M. and Johnson, D. Computers and Intractability: A Guide to the Theory of NP-Completeness. Freeman, New York, 1979.

Проблемы очистки данных в пространствах большой размерности

И. А. Борисова, О. А. Кутненко Институт математики им. С. Л. Соболева Email: biamia@mail.ru DOI: 10.24411/9999-017A-2020-10264

В анализе данных большая размерность задачи является фактором, накладывающим ряд ограничений на методы, пригодные для ее решения. С одной стороны, в число описывающих характеристик могут попадать нерелевантные, что приводит к усложнению поиска скрытых в этих данных закономерностей. С другой, многие метрические методы анализа данных в пространствах больших размерностей не работают. Помимо этого, часть алгоритмов имеет высокую трудоемкость, и их использование напрямую для задач большой размерности вызывает технические сложности.

В работе предлагается метод снятия части ограничений, накладываемых большой размерностью на задачу цензурирования (очистки) данных [1]. Для этого используется технология снижения размерности за счет выбора наиболее информативных признаков, основанная на использовании ансамблей. В результате исходная задача распадается на серию параллельно решаемых подзадач малой размерности. При этом цензурирование может осуществляться как в каждой подзадаче отдельно, так и после агрегирования результатов в общее решение, содержащее информацию как о признаках, наиболее релевантных для исходной задачи, так и об объектах, признанных выбросами. Предлагаемый подход использует функцию конкурентного сходства [2].

Работа выполнена при поддержке программы фундаментальных научных исследований СО РАН, проект № 0314-2019-0015.

Список литературы

1. Aggarwal C. C. Outlier analysis // Data Mining. Springer International Publishing. 2015. P. 237-263.

2. N. G. Zagoruiko, I.A. Borisova, V. V Dyubanov, О. A. Kutnenko. Methods of recognition based on the function of rival similarity // Pattern Recognition and Image Andysis. 2008. Vol. 18. № 1. P. 1-6.

Разработка системы распознавания жестового языка

Д. Г. Еникеев, С. А. Мустафина

Стерлитамакский филиал Башкирского государственного университета Email: cooldeepband@gmail.com DOI: 10.24411/9999-017A-2020-10265

В работе представлен обзор существующих методов распознавания жестовых языков. Исследованы аппаратные возможности сбора данных жестового языка: сенсорные перчатки, различные виды камер и специализированные видеоустройства. В качестве инструмента записи информации был выбран инфракрасный датчик движения рук Leap Motion [1], произведен обзор программного обеспечения и возможностей прибора. Создана архитектура нейронной сети распознавания дактильного жестового языка.

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований и Правительства Республики Башкортостан (код проекта 17-47-020068).

Список литературы

1. Сайт датчика движения Leap Motion Controller. [Электрон. ресурс]. URL: https://developer.leapmotion.com/ (дата обращения: 20.01.2020).

Вычислительная сложность кластеризации с опорой на конкурентное сходство Текст научной статьи по специальности «Математика»

Похожие темы научных работ по математике , автор научной работы — И. А. Борисова

Текст научной работы на тему «Вычислительная сложность кластеризации с опорой на конкурентное сходство»