Вычислительная сложность задачи цензурирования данных с опорой на конкурентное сходство

О.А. Кутненко; А.В.Плясунов

138 Методы искусственного интеллекта и машинного обучения

Выборка представлена 8043 объектами (участками головного мозга 24 пациентов со степенью поражения от 0 % до 100 %), описанными в 31-мерном признаковом пространстве. Рассмотрены два критерия выбора наиболее информативного признакового пространства, опирающиеся на гипотезу локальной компактности [1]: в первом критерии, основанном на использовании функции конкурентного сходства [2], максимизируется качество разделения выборки на два класса в зависимости от наличия поражения; во втором - минимизируется средняя ошибка определения степени поражения участков, задающих обучающую выборку. В докладе приведены результаты данных исследований.

Работа выполнена при финансовой поддержке Российского научного фонда (код проекта 22-21-00261). Список литературы

1. Аркадьев А. Г. Браверман Э. М. Обучение машины распознаванию образов. М: Наука, 1964.

2. N. G. Zagoruiko, I.A. Borisova, V. V. Dyubanov, О. А. Kutnenko. Methods of recognition based on the function of rival similarity // Pattern Recognition and Image Anаlysis. 2008. V. 18, № 1. P. 1-6.

Вычислительная сложность задачи цензурирования данных с опорой на конкурентное сходство

О. А. Кутненко1,2, А. В. Плясунов1,2

1Институт математики им. С. Л. Соболева СО РАН

2Новосибирский государственный университет

Email: olga@math.nsc.ru

DOI: 10.24412/cl-35065-2022-1-01-99

Проблема цензурирования данных (Data filtering, Data cleaning) актуальна при решении самых разных задач. Рассматривается задача очистки обучающей выборки, представленной объектами двух классов, от шумовых объектов только одного класса. Такие задачи возникают, в частности, при анализе биомедицинских данных, требующем полного сохранения данных одного из образов. Исключение из обучающей выборки неверно классифицированных объектов (или объектов-выбросов) осуществляется на основе анализа локального окружения объектов. Количественная характеристика локальной компактности образа оценивается с помощью функции конкурентного сходства, успешно используемой в когнитивном анализе данных при решении различных прикладных задач [1]. Доказательство NP-трудности в сильном смысле задачи цензурирования данных выполнено сведением известной NP-полной задачи о вершинном покрытии графа [2] к задаче выбора подмножества, на котором компактность образа максимальна.

Работа выполнена в рамках государственного задания ИМ СО РАН (проекты № FWNF-2022-0015, № FWNF-2022-0019).

Список литературы

1. Загоруйко Н. Г., Борисова И. А., Дюбанов В. В., Кутненко О. А. Количественная мера компактности и сходства в конкурентном пространстве // Сибирский Журнал Индустриальной Математики. 2010. Т 13, № 1. С. 59-71.

2. М. Гэри, Д. Джонсон. Вычислительные машины и труднорешаемые задачи. М: Мир, 1982.

Основанное на данных развитие модели турбулентности для течений в каналах с выступами

Х. Ли1, С. Н. Яковенко2

1Новосибирский государственный университет

2Институт теоретической и прикладной механики им. С. А. Христиановича СО РАН

Email: s.yakovenko@mail.ru

DOI: 10.24412/cl-35065-2022-1-02-00

Рассматривается применение различных методов машинного обучения (в частности, нейронная сеть с тензорным базисом, TBNN [1], методы GEP [2], UIML [3]) для аппроксимации напряжений Рейнольдса в

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — О.А. Кутненко, А.В.Плясунов

Текст научной работы на тему «Вычислительная сложность задачи цензурирования данных с опорой на конкурентное сходство»