Научная статья на тему 'Ансамблевые метрики сходства в задачах машинного обучения'

Ансамблевые метрики сходства в задачах машинного обучения Текст научной статьи по специальности «Математика»

CC BY
89
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Ансамблевые метрики сходства в задачах машинного обучения»

Пленарная секция

9

ПЛЕНАРНАЯ СЕКЦИЯ

Ансамблевые метрики сходства в задачах машинного обучения

В. Б. Бериков

Институт математики им. С. Л. Соболева СО РАН Новосибирский государственный университет Email: berikov@math.nsc.ru DOI: 10.24412/cl-35065-2022-1-01-90

Понятие сходства объектов имеет фундаментальное значение в машинном обучении. Существует достаточно большое число способов введения метрик сходства. В задачах машинного обучения, особенно в случае большого объема данных, возникают проблемы, связанные с высокими затратами на хранение матриц попарного сходства и проведение операций с ними. Кроме того, при наличии сложных нелинейных структур данных (кластеров, многообразий), для определения степени сходства требуется учитывать принадлежность точек к этим структурам. Часть признаков, описывающих объекты, может быть малоинформативной или связано межпризнаковыми зависимостями. В этом случае, для улучшения обобщающей способности моделей, необходим отбор признаков или снижение размерности признакового пространства.

Для решения задач машинного обучения, при наличии указанных особенностей, был предложен подход, основанный на сочетании ансамблевого кластерного анализа, ядерного и глубокого обучения, малоранговых матричных декомпозиций [1-3]. На основе развиваемого подхода разработаны методы частично- и слабо-контролируемого обучения (semi-supervised, weakly supervised learning) в задачах классификации и прогнозирования. Разработанные методы применены в практических приложениях, в частности, при анализе томографических медицинских изображений, мониторинге техногенных выбросов. В докладе сообщается об основных результатах, полученных в данном направлении.

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (код проекта 19-29- 01175) и государственного контракта ИМ СО РАН (код проекта FWNF-2022-0015).

Список литературы

1. Berikov V., Pestunov I. Ensemble clustering based on weighted co-association matrices: Error bound and convergence properties // Pattern Recognition. 2017. V. 63. P. 427-436.

2. Berikov V. Autoencoder-based Low-Rank Spectral Ensemble Clustering of Biological Data // 2020 Cognitive Sciences, Genomics and Bioinformatics (CSGB) - IEEE. 2020. P. 43-46.

3. Berikov V., Litvinenko A. Weakly supervised regression using manifold regularization and low-rank matrix representation // Lecture Notes in Computer Science. 2021. V. 12755. P. 447-461.

О проблеме разделения матричного спектра относительно заданной кривой

Э. А. Бибердорф12, Л. Ван2 1Институт математики СО РАН 2Новосибирский государственный университет Email: biberdorf@ngs.ru DOI: 10.24412/cl-35065-2022-1-00-04

Решение многих прикладных задач сводится к спектральной проблеме линейной алгебры. При этом, как правило, требуется информация о локализации групп собственных значений относительно заданной кривой (например, нейтральной кривой в задачах устойчивости) и их чувствительности к возмущениям

i Надоели баннеры? Вы всегда можете отключить рекламу.