УДК 004.023
doi: 10.21685/2072-3059-2024-2-3
Обзор и анализ подходов к классификации объектов с гетерогенным набором информационных признаков
А. С. Бождай1, Л. Н. Горшенин2
1,2Пензенский государственный университет, Пенза, Россия 1bozhday@yandex.ru, 2gorshenin.lev@gmail.com
Аннотация. Актуальность и цели. Классификация данных - важная часть обработки данных. В современном мире объекты, которые нужно классифицировать, часто разнородны, т.е. имеют информационные признаки разного типа: числовые, текстовые, графические, графовые, мультимедиа. Проведен анализ существующих методов классификации объектов с гетерогенным пространством информационных признаков. Предложен собственный оригинальный подход на основе генерации растровых графо-хроматических карт. Материалы и методы. Сформулирована задача нейросете-вой классификации объектов с гетерогенным пространством информационных признаков с учетом возможности управления их количественными и качественными параметрами без необходимости переобучения нейросети. Рассмотрены современные методы классификации и проведен анализ их особенностей. Результаты и выводы. Выявлены основные недостатки существующих методов классификации гетерогенных объектов и предложен новый подход, основанный на генерации универсального графического кода, с помощью которого гетерогенные признаки будут сводиться к единому графическому представлению для дальнейшей нейросетевой классификации.
Ключевые слова: классификация, методы классификации, гетерогенные данные, машинное обучение, нейронные сети, графо-хроматическая карта
Для цитирования: Бождай А. С., Горшенин Л. Н. Обзор и анализ подходов к классификации объектов с гетерогенным набором информационных признаков // Известия высших учебных заведений. Поволжский регион. Технические науки. 2024. № 2. С. 47-57. doi: 10.21685/2072-3059-2024-2-3
Overview and analysis approaches for classifying objects with a heterogeneous set of information features
A.S. Bozhday1, L.N. Gorshenin2
12Penza State University, Penza, Russia 1bozhday@yandex.ru, 2gorshenin.lev@gmail.com
Abstract. Background. Data classification is an important part of data processing. In the modern world, objects that need to be classified are often heterogeneous - they have information features of different types: numeric, textual, graphical, graph, multimedia. This study is devoted to the review and analysis of a number of existing methods for classification of objects with heterogeneous space of information features. Original approach based on the generation of raster grapho-chromatic maps was proposed. Materials and methods. In this study, the problem of neural network classification of objects with a heterogeneous space of information features is formulated, taking into account the possibility of controlling their quantitative and qualitative parameters without the need to retrain the neural network. Modern classification methods were considered and their features were analyzed.
© Бождай А. С., Горшенин Л. Н., 2024. Контент доступен по лицензии Creative Commons Attribution 4.0 License / This work is licensed under a Creative Commons Attribution 4.0 License.
Results and conclusions. The main cons of existing methods for classifying heterogeneous objects were identified and a new approach was proposed, based on the generation of a universal graphic code, with the help of which heterogeneous features will be reduced to a single graphic representation for further neural network classification. Keywords: classification, methods of classification, heterogeneous data, machine learning, neural networks, graph-chromatic map
For citation: Bozhday A.S., Gorshenin L.N. Overview and analysis approaches for classifying objects with a heterogeneous set of information features. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki = University proceedings. Volga region. Engineering sciences. 2024;(2):47-57. (In Russ.). doi: 10.21685/2072-3059-2024-2-3
Введение
В современном мире человечество ежедневно создает огромное количество информации. Объем произведенной информации измеряется уже в Зеттабайтах [1, 2]. Самые разнообразные сферы деятельности требуют обработки большого количества информации: маркетинг, логистика, здравоохранение, банкинг, прогнозирование погоды [3]. Одним из видов обработки информации является классификация.
Классификация - это процесс распределения данных по категориям (классам) в соответствии с определенными информационными признаками и критериями [4]. Различают бинарную и мультиклассовую классификации [5]. В случае бинарной классификации данные разделяются по двум категориям, в случае мультиклассовой - по нескольким.
Задача классификации формулируется следующим образом: дано множество описаний объектов X и конечное множество классов Y. Существует отображение, значения которого известны только для объектов из конечного множества объектов обучающей выборки. Требуется найти алгоритм a:X^Y, который может для каждого объекта из множества X по множеству признаков объекта определить его класс [4].
На практике объекты часто имеют разнородные признаки. Для примера можно взять задачу отнесения пользователей социальной сети к нескольким классам. У такого объекта, как пользователь, могут быть признаки самого разного (гетерогенного) характера: численные - возраст, число друзей, число постов; категориальные - пол, уровень образования; текстовые - никнейм, статус, тексты постов; графические - аватар, коллекция фотографий со страницы; ссылочные - url-адреса в профиле, мультимедиа профиля; графовые -социальный граф пользователя. При проведении нейросетевой классификации было бы удобно иметь возможность изменять значимость тех или иных признаков для классификации или возможность проводить классификацию по разным комбинациям признаков без необходимости дообучения нейронной сети.
Для решения задачи классификации традиционно используется машинное обучение - раздел компьютерной науки, фокусирующийся на использовании данных и алгоритмов для имитации человеческого обучения с постепенным улучшением результата [5, 6]. На сегодня разработано множество классификаторов: специально обученные искусственные нейронные сети, метод k-ближайших соседей, деревья решений, Байесовский классификатор, метод опорных векторов, дискриминантный анализ, классификаторы, основанные на нечеткой логике [7]. Классификация гетерогенных объектов
осложнена тем, что многие методы работают только с определённым типом признаков, а те, что работают с разными типами, требуют высоких вычислительных затрат на обучение нейросети.
Одним из популярных подходов к классификации является M3DN, представляющий собой мультимодальную глубокую нейронную сеть для классификации сложных объектов, представленных изображениями и текстом (например, статей). Она предложена Янг Юнгом и соавторами в работе [8] по классификации сложных объектов. Эта нейросеть состоит из двух параллельных глубоких нейронных сетей, результаты которых объединяются особым образом. Для обработки изображений используется сверточная нейросеть [9], а для текста - полносвязная.
Нейросеть принимает на вход ряд параграфов текста и набор изображений (к примеру - из одной статьи), при этом параграфы и изображения рассматриваются независимо. Результатом классификации отдельного параграфа или изображения является вектор значений меток классов. По мере классификации каждого параграфа и изображения нейросетью формируются два набора результатов. Затем в каждом наборе для каждой метки класса определяется максимальное значение. После чего значения разных наборов объединяются взятием среднего арифметического. В результате получается итоговый вектор значений меток. При обучении этой нейросети для оценки качества предсказания в числе прочих используется метрика Вассерштейна [10] и алгоритм Синкхорна [8].
M3DN показывает отличные результаты на наборах обучающих данных FLICKR25K, ЬА^ ТС-12, NUS-WIDE [8]. Процесс классификации может быть расширен для работы с любым числом модальностей [8], но при этом серьезно возрастет размер нейросети и затраты на ее обучение, что можно считать существенным недостатком. В большинстве случаев, если нужно провести классификацию объекта по различным комбинациям признаков, нейросеть потребует дообучения.
Другим популярным методом классификации является метод к-бли-жайших соседей [11], который работает только с численными признаками, но существуют его модификации [12-15], позволяющие работать с другими типами признаков.
Одна из модификаций основана на приведении признаков к численному типу. Однако проблема в том, что при приведении типов схожесть объектов по измененному признаку может измениться вследствие того, что оригинальный признак и полученный численный имеют разную природу, особенно когда преобразование было не полностью обратимо. Об этом упоминают в своей работе Найят Али и др. [14].
Другой подход заключается во введении отдельных мер для признаков разных типов. При этом расстояние между объектами в целом определяется агрегированием расстояний (к примеру - взятием взвешенной суммы, как в работе [13] Цезаря Лимы Перейры и др.), определенных по признакам разного типа:
Материалы и методы
(1)
(2)
(3)
d У ) = Z
\xi- УА
i|xi| + | yi
(4)
Для численных признаков могут использоваться такие меры, как расстояние Минковского с разными степенями (Манхэттенское расстояние (1), Евклидово расстояние (2) и т.п.); мера сходства косинусов - (3) и т.п.; расстояние Канберры (4). Для определения схожести объектов по бинарным признакам в работе [14] использовались «мера перекрытия» - отношение числа одинаковых значений к общему числу значений и расстояние Жаккара. Для определения сходства по категориальным признакам может использоваться метрика VDM, основанная на корреляции значений признаков по результатам классификации, и множество ее производных. Также существуют меры, работающие сразу с несколькими типами: HEOM, SHEOM, HVDM [13].
Метод имеет высокие вычислительные затраты (необходимо хранить все объекты обучающей выборки и считать расстояние до каждого из них), а также требует дополнительных усовершенствований для работы со сложными графическими и атрибутивными признаками. Кроме того, возникает необходимость решения задачи подбора оптимального коэффициента k (при слишком больших значениях области классов в пространстве признаков будут слишком «сглажены», при слишком маленьких - возникнет эффект переобучения) [11].
Еще один известный классификатор - дерево решений [16], строится на основе решающих правил, упорядоченных в древовидную структуру. Данная структура создается и уточняется в процессе работы обучающего алгоритма. В качестве исходных данных берется обучающая выборка объектов. Далее последовательно начиная с корня дерева определяются правила, которые наилучшим образом распределяют объекты из выборки по узлам следующего уровня. Если новый узел содержит объекты преимущественно из одного класса, то из него формируется лист. Если построить слишком большое дерево, то оно потеряет способность к обобщению и будет точно решать задачу только на обучающей выборке данных.
Существует несколько алгоритмических модификаций построения деревьев решений [16]:
1. Метод ID3 использует энтропию и прирост информации как показатель качества распределения объектов по узлам.
2. Метод С4.5 - усовершенствованная версия ID3, позволяющая работать с числовыми атрибутами и неполными обучающими выборками.
3. Метод CART основан на бинарном дереве решений и позволяет работать с дискретными и непрерывными целевыми переменными.
Деревья решений в целом имеют ряд недостатков: склонность к переобучению, высокую вычислительную стоимость построения дерева. Для повышения точности вычислений и уменьшения склонности к переобучению
используются методы, строящие ансамбли деревьев решений. Основные из них: бэггинг деревьев решений (к примеру, построение случайного леса [17]) и бустинг деревьев решений [18, 19]. Разница между этими методами в том, что при бэггинге деревья строятся параллельно, а при бустинге - последовательно. У обоих методов возрастают вычислительные затраты в связи с необходимостью построения нескольких деревьев [19]. Классификация по различным комбинациям признаков потребует полного перестроения дерева решений.
Существуют классификаторы, основанные на теории вероятностей [20], например - «наивный» байесовский классификатор. Этот классификатор основывается на теореме Байеса [21]:
(5)
где Р(Л\Е) - вероятность наступления события Л, при наступлении события В.
Формула (5) применяется в классификаторе для определения вероятностей того, что объект относится к тому или иному классу при заданных признаках объекта. Формула после некоторых преобразований и при условии, что признаки не зависят друг от друга, приобретает следующий вид:
(С г г Л Р(С)П>¡Р^С) (6)
Левая часть уравнения - вероятность того, что объект с признаками Г принадлежит к классу С. При обучении классификатора из данных обучающей выборки определяются вероятности появления каждого значения каждого признака в объектах каждого класса, а также вероятности принадлежности случайно выбранного объекта к каждому классу и вероятности значений в признаках в целом. При классификации объекта на основе полученных данных, по уравнению (6), определяются вероятности каждого класса при заданных признаках объекта.
Оригинальный «наивный» байесовский классификатор может работать только с категориальными признаками. Расширенный байесовский классификатор использует распределение Гаусса [21]:
1 /
-1| Х-Ц 4
/(Х) = -]=е 2 ^ ° ' , (7)
Су/ 2п
может работать и с численными признаками.
При обучении для каждого численного признака объектов каждого класса вычисляются параметры распределения Гаусса: среднее арифметическое значение и среднее квадратичное отклонение. Зная параметры распределения значений признака среди объектов определенного класса, можно найти условную вероятность того, что численный признак будет равен определенному значению среди объектов определенного класса, подставив это значение в функцию распределения Гаусса с известными параметрами.
В работе [22] было показано, что на наборах данных Australian Credit Approval и Hepatitis метод имеет результаты лучше, чем метод, основанный на деревьях решений, и многослойный персептрон. Недостатком таких методов является требование независимости признаков, а также то, что не все численные признаки можно адекватно представить в виде распределения Гаусса.
Также существуют классификаторы, основанные на нечеткой логике [23]. Они представляют собой набор правил вида [20, 24]:
Пь если xi есть Аи и ... xn есть А^, то y = Bi
П,: если xi есть А,1 и ... xn есть А,™, то y = Bm, где x и y - нечеткие входные (признаки объекта) и входная переменные (значение принадлежности к классам), а A и B - соответствующие функции принадлежности. Для каждого класса определяется максимально соответствующее правило. К классу с максимальным значением и будет принадлежать классифицируемый объект.
Один из методов построения таких классификаторов - NEFClass [25]. Метод использует трехслойный персептрон для представления базы правил. Нейроны первого слоя представляют собой признаки, по которым должна выполняться классификация объектов. Нейроны второго слоя - правила в базе. Нейроны последнего слоя - метки классов. На выходе нейронов первого слоя - нечеткие значения признаков, второго слоя - результаты соответствия объекта правилам, последнего слоя - нечеткое множество принадлежности объекта к классам. Значения весов связей первого и второго слоев соответствуют значениям из A, второго и третьего слоев - значениям из B. Значения весов корректируются в процессе обучения.
Такого рода классификаторы могут работать как с численными, так и с категориальными данными, как показано в работе [26]. При этом возникает проблема определения оптимального набора правил для классификации. Результаты анализа существующих методов сведены в табл. 1.
Таблица 1
Результаты анализа существующих методов
Метод Признаки, по которым возможна классификация Классификация по различным комбинациям признаков
M3DN Любые Требует дообучения
Extended k-NN Численные, категориальные Возможна
Случайный лес Численные, категориальные Требует перестроения
Бустинг деревьев решений Численные, категориальные Требует перестроения
Extended Naive Bayes Численные, категориальные Возможна
NEFClass Численные, категориальные Требует дообучения
Можно видеть, что классификация по различным комбинациям признаков в большинстве случаев потребует дообучения нейросети.
Результаты и обсуждение
Таким образом, основной трудностью при решении задач классификации объектов с гетерогенными признаками является приведение разнородных признаков объекта к одному универсальному типу. Однородность признаков позволит создать единый нейросетевой классификатор, позволяющий рабо-
тать с объектами любых предметных областей без необходимости дообучения сети. В качестве такого универсального представления предлагается использовать абстрактный графический код, состоящий из совокупности графических примитивов с варьируемой плотностью расположения, цветов, штриховок и заливок, в целом образующих единое растровое изображение (по аналогии с QR-кодами). Назовем такое изображение графо-хроматичес-кой картой (ГХК). При этом преобразование должно быть обратимым и не искажать пространство признаков. Общая схема метода представлена на рис. 1.
! Класс объекта
Рис. 1. Схема метода классификации на основе ГХК
ГХК генерируется автоматически по данным объекта. В конечном счете вся разнородная информация об объекте представляется одним изображением. В результате процесс классификации значительно упрощается как с точки зрения обучения сети, так и с точки зрения ее последующего применения, так как алгоритм классификации оперирует данными одной природы -растровым графическим представлением.
Предлагаемый подход имеет несколько особенностей, выгодно отличающих его от аналогов:
1. Изменение набора признаков объекта потребует лишь перегенерации ГХК, но не переобучения нейронной сети.
2. Благодаря унифицированному представлению информации об объекте классификатор (в данном случае - нейросеть) значительно упрощается. На текущий момент существует достаточное количество свободно-распространяемых нейронных сетей различной архитектуры, специально обученных выделению признаков из графического растрового изображения. Для практической реализации предлагаемого подхода достаточно дообучить готовую нейросеть на выборке ГХК, которая может быть сгенерирована автоматически в достаточном объеме и разнообразии.
3. Метод может работать с самыми разными типами данных, достаточно иметь алгоритм преобразования данных этого типа в графический формат.
4. Классифицируемые объекты могут отличаться друг от друга не только типами признаков, но и их количественным составом, позволяя применять данный подход в условиях низкого качества данных (пропуски данных, «мусорные» значения и т.п.).
Ограниченный объем статьи не позволяет здесь детально рассмотреть алгоритм генерации ГХК и архитектуру классифицирующей нейронной сети (блоки «Преобразование набора данных в ГКХ» и «Нейросетевая классификация ГКХ»). Это будет предметом нескольких последующих публикаций.
Ни один из известных методов не предоставляет возможности регулирования важности отдельных признаков для классификации. Предложенная в статье концепция может дать такую возможность без необходимости переобучения. Для регулирования важности тех или иных признаков классификации достаточно настроить управляющие характеристики алгоритма генерации ГХК (например: размер, цвет и плотность графических элементов ГХК), получить растровое изображение ГКХ и подать его на вход уже обученной нейросети. При этом размер (и, следовательно, вычислительные затраты на обучение) нейросети не будут зависеть напрямую от числа типов признаков, как в методе M3DN.
Заключение
В ходе работы сформулирована задача классификации объектов с гетерогенным пространством информационных признаков, проведен обзор методов классификации таких объектов: M3DN, расширенный метод k-ближай-ших соседей, случайный лес, метод бустинга деревьев решений, расширенный наивный Байесовский классификатор, NEFClass. Приведена оценка их применимости к сформулированной задаче классификации и выявлена основная проблема, связанная с необходимостью приведения разнородных признаков объекта к одному универсальному типу. Был предложен подход к решению этой проблемы, основанный на преобразовании гетерогенных признаков к унифицированному растровому (графическому) виду с последующей нейросетевой классификацией. К настоящему моменту существует достаточно много свободно распространяемых, обученных нейронных сетей, хорошо справляющихся с решением задачи классификации за счет выделения графических признаков в растровых изображениях. По этой причине не потребуется специальной разработки и обучения такой сети. Детализированное описание алгоритма генерации ГХК и особенности его программной реализации будут представлены в последующих статьях.
Перспективы практического применения предложенного подхода обширны как с точки зрения предметных областей, так и с точки зрения решаемых задач. Например, поиск объектов со сложным набором признаков по заданной эталонной ГХК: мониторинг состояния объектов (переход из одного класса в другой); построение путей в больших социальных графах, состоящих из объектов с заданными признаками и многое другое.
Список литературы
1. Examples of data volumes // University of Delaware. URL: https://www.eecis.udel.edu/ ~amer/Table-Kilo-Mega-Giga—YottaBytes.html (дата обращения: 05.12.2023).
2. Blend Berisha, Endrit Mëziu. Big Data Analytics in Cloud Computing: An overview // Journal of cloud computing. 2022. № 11 (24). doi: 10.1186/s13677-022-00301-w
3. Botelho B., Bigelow S. J. What is Big Data and Why is it Important? // TechTarget. URL: https://www.techtarget.com/searchdatamanagement/definition/big-data (дата обращения: 09.12.2023).
4. Lim J. What is data classification? // Alation. URL: https://www.alation.com/blog/what-is-data-classification/ (дата обращения: 12.12.2023).
5. Getting started with Classification // GeeksForGeeks. URL: https://www. geeksforgeeks.org/getting-started-with-classification/ (дата обращения: 12.12.2023).
6. What is machine learning? // IBM. URL: https://www.ibm.com/topics/machine-learning (дата обращения: 15.12.2023).
7. Алексеева В. А. Использование методов машинного обучения в задачах бинарной классификации // Автоматизация процессов управления. 2015. № 3 (41). С. 58-63. EDN: ULGFVB
8. Yang, Yi-Feng Wu, De-Chuan Zhan, Zhi-Bin Liu, Yuan Jiang. Complex object classification: A multi-modal multi-instance multi-label deep network with optimal transport // Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018. P. 2594-2603.
9. How do convolutional neural networks work? // IBM. URL: https://www.ibm.com/ topics/convolutional-neural-networks (дата обращения: 14.12.2023).
10. Optimal Transport and Wasserstein Distance // Carnegie Mellon University: Statistics & Data Science. URL: https://www.stat.cmu.edu/~larry/=sml/Opt.pdf (дата обращения:
25.12.2023).
11. What is the k-nearest neighbors algorithm? // IBM. URL: https://www.ibm.com/ topics/knn (дата обращения: 28.12.2023).
12. Ali N., Neagu D., Trundle P. Classification of Heterogeneous Data Based on Data Type Impact on Similarity // Advances in Computational Intelligence Systems. Springer: Chain, 2019. P. 252-263. doi: 10.1007/978-3-319-97982-3_21
13. Cesar Lima Pereira, George D. C. Cavalcanti, Tsang Ing Ren. A New Heterogeneous Dissimilarity Measure for Data Classification // 22nd IEEE International Conference on Tools with Artificial Intelligence. 2010. P. 373-374. doi: 10.1109/ICTAI.2010.132
14. Ali N., Neagu D., Trundle P. Evaluation of k-nearest neighbour classifier performance for heterogeneous data sets // SN Applied Sciences. 2019. № 1 (1559). doi: 10.1007/s42452-019-1356-9
15. Li-Yu Hu, Min-Wei Huang, Shih-Wen Ke, Chih-Fong Tsai. The distance function effect on k-nearest neighbor classification for medical datasets // SpringerPlus. 2016. № 5 (1304). doi: 10.1186/s40064-016-2941-7
16. What is a Decision Tree? // IBM. URL: https://www.ibm.com/topics/decision-trees (дата обращения: 10.01.2024).
17. What is Random Forest? // IBM. URL: https://www.ibm.com/topics/random-forest (дата обращения: 10.01.2024).
18. What is boosting? // IBM. URL: https://www.ibm.com/topics/boosting (дата обращения: 11.01.2024).
19. Что такое бустинг? // Amazon. URL: https://aws.amazon.com/ru/what-is/boosting/ (дата обращения: 11.01.2024).
20. Du C.-J., He H.-J. Object classification methods // Computer Vision Technology for Food Quality Evaluation. 2016. P. 87-110. doi: 10.1016/B978-0-12-802232-0.00004-9
21. Naive Bayes for machine learning // Machine Learning Mastery. URL: https:// machinelearningmastery.com/naive-bayes-for-machine-learning/ (дата обращения:
25.01.2024).
22. Chung-Chian Hsu, Yan-Ping Huang, Keng-Wei Chang. Extended Naive Bayes classifier for mixed data // Expert Systems with Applications. 2008. № 3. P. 1080-1083. doi: 10.1016/j.eswa.2007.08.031
23. Fuzzy logic: Introduction // GeeksForGeeks. URL: https://www.geeksforgeeks.org/ fuzzy-logic-introduction/ (дата обращения: 27.01.2024).
24. Штовба С. Д., Панкевич О. Д., Нагорная А. В. Анализ критериев обучения нечеткого классификатора // Автоматика и вычислительная техника. 2015. № 3. С. 5-16.
25. Nauck Detlauf, Rudolf Kruse. NEFCLASS - a neuro-fuzzy approach for the classification of data // Proceedings of the 1995 ACM symposium on applied computing. 1995. P. 461-465.
26. Sun Y., Karray F., Al-sharhan S. Hybrid soft computing techniques for heterogeneous data classification // 2002 IEEE World Congress on Computational Intelligence. 2002 IEEE International Conference on Fuzzy Systems. FUZZ-IEEE'02. Proceedings. 2002. Vol. 2. P. 1511-1516. doi: 10.1109/FUZZ.2002.1006730
References
1. Examples of data volumes. University of Delaware. Available at: https://www.eeds. udel.edu/~amer/Table-Kilo-Mega-Giga---YottaBytes.html (accessed 05.12.2023).
2. Blend Berisha, Endrit Meziu. Big Data Analytics in Cloud Computing: An overview. Journal of cloud computing. 2022;11. doi: 10.1186/s13677-022-00301-w
3. Botelho B., Bigelow S.J. What is Big Data and Why is it Important? TechTarget. Available at: https://www.techtarget.com/searchdatamanagement/definition/big-data (accessed 09.12.2023).
4. Lim J. What is data classification? Alation. Available at: https://www.alation.com/ blog/what-is-data-classification/ (accessed 12.12.2023).
5. Getting started with Classification. GeeksForGeeks. Available at: https://www. geeksforgeeks.org/getting-started-with-classification/ (accessed 12.12.2023).
6. What is machine learning? IBM. Available at: https://www.ibm.com/topics/machine-learning (accessed 15.12.2023).
7. Alekseeva V.A. Using machine learning methods in binary classification problems. Avtomatizatsiya protsessov upravleniya = Automation of management processes. 2015;(3):58-63. (In Russ.). EDN: ULGFVB
8. Yang Yang, Yi-Feng Wu, De-Chuan Zhan, Zhi-Bin Liu, Yuan Jiang. Complex object classification: A multi-modal multi-instance multi-label deep network with optimal transport. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018:2594-2603.
9. How do convolutional neural networks work? IBM. Available at: https://www.ibm.com/ topics/convolutional-neural-networks (accessed 14.12.2023).
10. Optimal Transport and Wasserstein Distance. Carnegie Mellon University: Statistics & Data Science. Available at: https://www.stat.cmu.edu/~larry/=sml/Opt.pdf (accessed 25.12.2023).
11. What is the k-nearest neighbors algorithm? IBM. Available at: https://www.ibm.com/ topics/knn (accessed 28.12.2023).
12. Ali N., Neagu D., Trundle P. Classification of Heterogeneous Data Based on Data Type Impact on Similarity. Advances in Computational Intelligence Systems. Springer: Chain, 2019:252-263. doi: 10.1007/978-3-319-97982-3_21
13. Cesar Lima Pereira, George D.C. Cavalcanti, Tsang Ing Ren. A New Heterogeneous Dissimilarity Measure for Data Classification. 22nd IEEE International Conference on Tools with Artificial Intelligence. 2010:373-374. doi: 10.1109/ICTAI.2010.132
14. Ali N., Neagu D., Trundle P. Evaluation of k-nearest neighbour classifier performance for heterogeneous data sets. SN Applied Sciences. 2019;(1). doi: 10.1007/s42452-019-1356-9
15. Li-Yu Hu, Min-Wei Huang, Shih-Wen Ke, Chih-Fong Tsai. The distance function effect on k-nearest neighbor classification for medical datasets. SpringerPlus. 2016;(5). doi: 10.1186/s40064-016-2941-7
16. What is a Decision Tree? IBM. Available at: https://www.ibm.com/topics/decision-trees (accessed 10.01.2024).
17. What is Random Forest? IBM. Available at: https://www.ibm.com/topics/random-forest (accessed 10.01.2024).
18. What is boosting? IBM. Available at: https://www.ibm.com/topics/boosting (accessed 11.01.2024).
19. What is boosting?Amazon. Available at: https://aws.amazon.com/ru/what-is/boosting/ (accessed 11.01.2024).
20. Du C.-J., He H.-J. Object classification methods. Computer Vision Technology for Food Quality Evaluation. 2016:87-110. doi: 10.1016/B978-0-12-802232-0.00004-9
21. Naive Bayes for machine learning. Machine Learning Mastery. Available at: https://machinelearningmastery.com/naive-bayes-for-machine-learning/ (accessed 25.01.2024).
22. Chung-Chian Hsu, Yan-Ping Huang, Keng-Wei Chang. Extended Naive Bayes classifier for mixed data. Expert Systems with Applications. 2008;(3): 1080-1083. doi: 10.1016/j.eswa.2007.08.031
23. Fuzzy logic: Introduction. GeeksForGeeks. Available at: https://www.geeksforgeeks. org/fuzzy-logic-introduction/ (accessed 27.01.2024).
24. Shtovba S.D., Pankevich O.D., Nagornaya A.V. Analysis of the learning criteria of a fuzzy classifier. Avtomatika i vychislitel'naya tekhnika = Automation and computing technology. 2015;(3):5-16. (In Russ.)
25. Nauck Detlauf, Rudolf Kruse. NEFCLASS - a neuro-fuzzy approach for the classification of data. Proceedings of the 1995 ACM symposium on applied computing. 1995:461-465.
26. Sun Y., Karray F., Al-sharhan S. Hybrid soft computing techniques for heterogeneous data classification. 2002 IEEE World Congress on Computational Intelligence. 2002 IEEE International Conference on Fuzzy Systems. FUZZ-IEEE'02. Proceedings. 2002;2:1511-1516. doi: 10.1109/FUZZ.2002.1006730
E-mail: gorshenin.lev@gmail.com
Авторы заявляют об отсутствии конфликта интересов / The authors declare no conflicts of interests.
Поступила в редакцию / Received 18.03.2024
Поступила после рецензирования и доработки / Revised 12.04.2024 Принята к публикации / Accepted 10.05.2024
Информация об авторах / Information about the authors
Александр Сергеевич Бождай доктор технических наук, профессор, профессор кафедры систем автоматизированного проектирования, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)
E-mail: bozhday@yandex.ru
Aleksandr S. Bozhday Doctor of engineering sciences, professor, professor of the sub-department of computer aided design systems, Penza State Univesity (40 Krasnaya street, Penza, Russia)
Лев Николаевич Горшенин
аспирант, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)
Lev N. Gorshenin Postgraduate student, Penza State University (40 Krasnaya street, Penza, Russia)