Методы машинного обучения и искусственного интеллекта
151
Секция 10. МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ И ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Сравнительный анализ эффективности методов машинного обучения при построении моделей классификации однонуклеотидных полиморфизмов в регуляторных и экзомных участках генетических последовательностей
В. Б. Бериков1,2 С. Н. Постовалов2,3
1Институт математики СО РАН
2Новосибирский государственный университет
3Новосибирский государственный технический университет
Email: berikov@math.nsc.ru
DOI: 10.24411/9999-017A-2020-10262
Регуляторные однонуклеотидные полиморфизмы (rSNP), участвующие в контроле уровня экспрессии генов, вносят существенный вклад в формирование предрасположенности к различным заболеваниям. При этом такие полиморфизмы остаются на сегодняшний день наименее изученными из-за трудности их обнаружения [1]. В то же время, благодаря прогрессу в технологиях секвенирования, число известных полиморфизмов в кодирующих (экзомных) участках последовательностей (cSNP) в геноме человека из года в год увеличивается.
В предлагаемой работе решается задача построения классификационных моделей зависимости между rSNP и cSNP с помощью методов машинного обучения. На примере 22 хромосомы человека проведен анализ данных 2504 человек (информация получена на основе проекта "1000 геномов"). В докладе сообщается о результатах проведенных исследований с использованием различных методов машинного обучения, в том числе основанных на ансамблевом сходстве [2].
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований, проект 18-29-09041.
Список литературы
1. E. E. Korbolina et al. Novel approach to functional SNPs discovery from genome-wide data reveals promising variants for colon cancer risk // Human Mutation. 2018. Vol. 39, no 6. Pp. 851-859.
2. V Berikov et al. Classification at Incomplete Training Information: Usage of Group Clustering to Improve Performance // J. of Theoretical and Applied Information Technology. 2019. Vol. 97. No. 19. P. 5048-5060.
Вычислительная сложность кластеризации с опорой на конкурентное сходство
И. А. Борисова
Институт математики им. С. Л. Соболева Новосибирский государственный университет Email: biamia@mail.ru DOI: 10.24411/9999-017A-2020-10263
Рассматривается формальная постановка задачи выбора подмножества типичных объектов из неклассифицированной выборки с помощью функции конкурентного сходства, используемой для оценки сходство между объектами в конкурентной среде при решении различных задач машинного обучения [1]. В дальнейшем полученное множество может использоваться для кластеризации или сжатия данных. При этом предполагается, что типичными являются те объекты выборки, на которые похожи объекты того же кластера и не похожи объекты конкурирующих кластеров. Для этой задачи доказывается, что она является NP-трудной в сильном смысле даже для частного случая, когда выбор типичных объектов осуществляется в метрическом пространстве. Для этого к рассматриваемой задаче сводится NP-трудная в сильном смысле задача 3-Matching [2]. Так как доказанная NP-трудность в сильном смысле предполагает невозможность построения точных полиномиальных и псевдо-полиномиальных алгоритмов решения поставленной задачи, для этих целей предлагается приближенный жадный алгоритм.
Работа выполнена при поддержке программы фундаментальных научных исследований СО РАН, проект № 0314-2019-0015.
152
Секция 10
Список литературы
1. N. G. Zagoruiko, I.A. Borisova, V. V Dyubanov, О. А. Kutnenko. Methods of recognition based on the function of rival similarity // Pattern Recognition and Image Analysis. 2008. Vol. 18, № 1. P. 1-6.
2. Garey, M. and Johnson, D. Computers and Intractability: A Guide to the Theory of NP-Completeness. Freeman, New York, 1979.
Проблемы очистки данных в пространствах большой размерности
И. А. Борисова, О. А. Кутненко Институт математики им. С. Л. Соболева Email: biamia@mail.ru DOI: 10.24411/9999-017A-2020-10264
В анализе данных большая размерность задачи является фактором, накладывающим ряд ограничений на методы, пригодные для ее решения. С одной стороны, в число описывающих характеристик могут попадать нерелевантные, что приводит к усложнению поиска скрытых в этих данных закономерностей. С другой, многие метрические методы анализа данных в пространствах больших размерностей не работают. Помимо этого, часть алгоритмов имеет высокую трудоемкость, и их использование напрямую для задач большой размерности вызывает технические сложности.
В работе предлагается метод снятия части ограничений, накладываемых большой размерностью на задачу цензурирования (очистки) данных [1]. Для этого используется технология снижения размерности за счет выбора наиболее информативных признаков, основанная на использовании ансамблей. В результате исходная задача распадается на серию параллельно решаемых подзадач малой размерности. При этом цензурирование может осуществляться как в каждой подзадаче отдельно, так и после агрегирования результатов в общее решение, содержащее информацию как о признаках, наиболее релевантных для исходной задачи, так и об объектах, признанных выбросами. Предлагаемый подход использует функцию конкурентного сходства [2].
Работа выполнена при поддержке программы фундаментальных научных исследований СО РАН, проект № 0314-2019-0015.
Список литературы
1. Aggarwal C. C. Outlier analysis // Data Mining. Springer International Publishing. 2015. P. 237-263.
2. N. G. Zagoruiko, I.A. Borisova, V. V Dyubanov, О. A. Kutnenko. Methods of recognition based on the function of rival similarity // Pattern Recognition and Image Andysis. 2008. Vol. 18. № 1. P. 1-6.
Разработка системы распознавания жестового языка
Д. Г. Еникеев, С. А. Мустафина
Стерлитамакский филиал Башкирского государственного университета Email: cooldeepband@gmail.com DOI: 10.24411/9999-017A-2020-10265
В работе представлен обзор существующих методов распознавания жестовых языков. Исследованы аппаратные возможности сбора данных жестового языка: сенсорные перчатки, различные виды камер и специализированные видеоустройства. В качестве инструмента записи информации был выбран инфракрасный датчик движения рук Leap Motion [1], произведен обзор программного обеспечения и возможностей прибора. Создана архитектура нейронной сети распознавания дактильного жестового языка.
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований и Правительства Республики Башкортостан (код проекта 17-47-020068).
Список литературы
1. Сайт датчика движения Leap Motion Controller. [Электрон. ресурс]. URL: https://developer.leapmotion.com/ (дата обращения: 20.01.2020).