Научная статья на тему 'Анализ эффективности методов решения задачи слабо-контролируемого обучения (в задаче классификации)'

Анализ эффективности методов решения задачи слабо-контролируемого обучения (в задаче классификации) Текст научной статьи по специальности «Математика»

CC BY
17
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Анализ эффективности методов решения задачи слабо-контролируемого обучения (в задаче классификации)»

Секция 9 137

дерево решений [2]. При распознавании модель сравнивает части изображения с визуальными словами и использует степень сходства для принятия решения.

Тестирование на двух общедоступных наборах данных показало конкурентное качество распознавания метода по сравнению с классическими сверточными сетями, но с интерпретацией предсказаний.

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (код проекта 19-29-01175).

Список литературы

1. Chen C. et al. This looks like that: deep learning for interpretable image recognition // Advances in neural information processing systems. 2019. Т. 32.

2. Frosst N., Hinton G. Distilling a neural network into a soft decision tree // arXiv preprint arXiv:1711.09784. 2017.

Вычислительная сложность двух задач анализа данных

О. А. Кутненко

Институт математики им. С. Л. Соболева СО РАН Новосибирский государственный университет Email: olga@math.nsc.ru DOI: 10.24412/cl-35065-2022-1-01-97

Доказана NP-трудность в сильном смысле двух задач когнитивного анализа данных: задачи таксономии (кластеризации) - разбиения неклассифицированной выборки объектов на непересекающиеся подмножества, и задачи выбора подмножества типичных представителей классифицированной выборки, состоящей из объектов двух образов. Первая задача может рассматриваться как частный случай второй при условии, что один из образов состоит из единственного объекта. Для количественной оценки качества множества выбранных типичных представителей выборки используется функция конкурентного сходства - FRiS-функция (function of rival similarity) [1], с помощью которой оценивается сходство объекта с ближайшим типичным объектом. Доказательство NP-трудности выполнено сведением известной NP-пол-ной задачи о вершинном покрытии графа [2] к задаче выбора подмножества, на котором достигается согласно заданным критериям максимум оценки качества выбранных прототипов.

Работа выполнена в рамках государственного задания ИМ СО РАН (проект № FWNF-2022-0015). Список литературы

1. N. G. Zagoruiko, I.A. Borisova, V. V. Dyubanov, О. А. Kutnenko. Methods of recognition based on the function of rival similarity // Pattern Recognition and Image Anаlysis. 2008. V. 18, № 1. P. 1-6.

2. М. Гэри, Д. Джонсон. Вычислительные машины и труднорешаемые задачи. М: Мир, 1982.

Анализ эффективности методов решения задачи слабо-контролируемого обучения (в задаче классификации)

О. А. Кутненко1,2, В. Б. Бериков1,2

1Институт математики им. С. Л. Соболева СО РАН

2Новосибирский государственный университет

Email: olga@math.nsc.ru

DOI: 10.24412/cl-35065-2022-1-01-98

Задача классификации данных в постановке слабо-контролируемого обучения актуальна для многих приложений, в которых имеются большие объемы данных, полученные с помощью автоматического измерения. Разметка и анализ таких данных часто являются дополнительной высоко затратной процедурой или требуют проведения классификации на множестве прототипов, часть из которых размечена неточно. В работе рассматривается задача определения степени поражения участка головного мозга при инсульте.

138 Методы искусственного интеллекта и машинного обучения

Выборка представлена 8043 объектами (участками головного мозга 24 пациентов со степенью поражения от 0 % до 100 %), описанными в 31-мерном признаковом пространстве. Рассмотрены два критерия выбора наиболее информативного признакового пространства, опирающиеся на гипотезу локальной компактности [1]: в первом критерии, основанном на использовании функции конкурентного сходства [2], максимизируется качество разделения выборки на два класса в зависимости от наличия поражения; во втором - минимизируется средняя ошибка определения степени поражения участков, задающих обучающую выборку. В докладе приведены результаты данных исследований.

Работа выполнена при финансовой поддержке Российского научного фонда (код проекта 22-21-00261). Список литературы

1. Аркадьев А. Г. Браверман Э. М. Обучение машины распознаванию образов. М: Наука, 1964.

2. N. G. Zagoruiko, I.A. Borisova, V. V. Dyubanov, О. А. Kutnenko. Methods of recognition based on the function of rival similarity // Pattern Recognition and Image Anаlysis. 2008. V. 18, № 1. P. 1-6.

Вычислительная сложность задачи цензурирования данных с опорой на конкурентное сходство

О. А. Кутненко1,2, А. В. Плясунов1,2

1Институт математики им. С. Л. Соболева СО РАН

2Новосибирский государственный университет

Email: olga@math.nsc.ru

DOI: 10.24412/cl-35065-2022-1-01-99

Проблема цензурирования данных (Data filtering, Data cleaning) актуальна при решении самых разных задач. Рассматривается задача очистки обучающей выборки, представленной объектами двух классов, от шумовых объектов только одного класса. Такие задачи возникают, в частности, при анализе биомедицинских данных, требующем полного сохранения данных одного из образов. Исключение из обучающей выборки неверно классифицированных объектов (или объектов-выбросов) осуществляется на основе анализа локального окружения объектов. Количественная характеристика локальной компактности образа оценивается с помощью функции конкурентного сходства, успешно используемой в когнитивном анализе данных при решении различных прикладных задач [1]. Доказательство NP-трудности в сильном смысле задачи цензурирования данных выполнено сведением известной NP-полной задачи о вершинном покрытии графа [2] к задаче выбора подмножества, на котором компактность образа максимальна.

Работа выполнена в рамках государственного задания ИМ СО РАН (проекты № FWNF-2022-0015, № FWNF-2022-0019).

Список литературы

1. Загоруйко Н. Г., Борисова И. А., Дюбанов В. В., Кутненко О. А. Количественная мера компактности и сходства в конкурентном пространстве // Сибирский Журнал Индустриальной Математики. 2010. Т 13, № 1. С. 59-71.

2. М. Гэри, Д. Джонсон. Вычислительные машины и труднорешаемые задачи. М: Мир, 1982.

Основанное на данных развитие модели турбулентности для течений в каналах с выступами

Х. Ли1, С. Н. Яковенко2

1Новосибирский государственный университет

2Институт теоретической и прикладной механики им. С. А. Христиановича СО РАН

Email: s.yakovenko@mail.ru

DOI: 10.24412/cl-35065-2022-1-02-00

Рассматривается применение различных методов машинного обучения (в частности, нейронная сеть с тензорным базисом, TBNN [1], методы GEP [2], UIML [3]) для аппроксимации напряжений Рейнольдса в

i Надоели баннеры? Вы всегда можете отключить рекламу.