Применение неконтролируемой кластеризации выборок для повышения качественных показателей многоуровневых моделей обработки данных

Илья Сергеевич Лебедев

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2024 Управление, вычислительная техника и информатика № 66

Tomsk: State University Journal of Control and Computer Science

Научная статья УДК 621.396

doi: 10.17223/19988605/66/5

Применение неконтролируемой кластеризации выборок для повышения качественных показателей многоуровневых моделей обработки данных

Илья Сергеевич Лебедев

Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербург, Россия, isl_box@mail.ru

Аннотация. Рассматривается задача повышения качественных показателей моделей обработки данных за счет сегментации выборок. Предлагается многоуровневая архитектура, позволяющая определять текущие свойства данных в сегментах и назначать лучшие по достигаемым качественным показателям модели. Приведено формальное описание архитектуры. Предложенное решение направлено на снижение затрат на переобучение моделей в случае трансформации свойств данных. Проведены экспериментальные исследования на ряде датасетов, которые показывают повышение качественных показателей обработки. Модель может быть рассмотрена как совершенствование ансамблевых методов обработки.

Ключевые слова: машинное обучение; модель обработки данных; сегментация выборки.

Для цитирования: Лебедев И.С. Применение неконтролируемой кластеризации выборок для повышения качественных показателей многоуровневых моделей обработки данных // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2024. № 66. С. 44-54. doi: 10.17223/19988605/66/5

Original article

doi: 10.17223/19988605/66/5

Uncontrolled dataset clustering to improve the quality indicators of multilevel data processing models

Ilya S. Lebedev

Saint Petersburg Federal Research Center of the Russian Academy of Sciences, Saint Petersburg, Russian Federation,

isl_box@mail. ru

Abstract. The problem of improving the quality indicators of data processing models by segmenting data samples is considered. A multi-level data processing architecture is proposed, which allows determining the current properties of data in segments and assigning the best models according to the achieved quality indicators. A formal description of the architecture is given. The proposed solution is aimed at reducing the cost of retraining models in the case of transformation of data properties. Experimental studies have been carried out on a number of data sets that show an increase in the quality of processing indicators. The model can be considered as an improvement of ensemble methods of processing data samples.

Keywords: machine learning; data processing model; sample segmentation.

For citation: Lebedev, I.S. (2024) Uncontrolled dataset clustering to improve the quality indicators of multilevel data processing models. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitelnaja tehnika i informa-tika - Tomsk State University Journal of Control and Computer Science. 66. pp. 44-54. doi: 10.17223/19988605/66/5

Введение

Постоянно возникающая потребность повышения качественных показателей при решении задач классификации, регрессии, прогнозирования, вызывает необходимость совершенствования методов обработки данных. Построение адекватной модели зависит от свойств ограниченной обучающей выборки, которая должна повторять свойства генеральной совокупности. Для достижения высоких показателей качества требуется большой объем объектов наблюдения, что не всегда возможно. Возникающие внешние и внутренние события в системе могут приводить к изменению свойств и характеристик анализируемых данных. Вследствие этого возникает задача оценки адекватности модели и необходимости переобучения. При этом обучение многих моделей является уникальным процессом, требующим значительных ресурсов, времени, определенных исследований и опыта.

На сегодняшний день одним из основных направлений повышения качества обрабатываемой информации является объединение моделей в различные ансамбли. Интерес к таким методам не угасает, несмотря на преобладание нейросетвого подхода [1]. Это связано с тем, что в целях повышения показателей качества при обработке данных возникает необходимость реализации гибридных моделей, где применяется сочетание методов глубокого обучения с классическими алгоритмами классификации [2]. Такой симбиоз для отдельных задач позволяет достичь значительного улучшения показателей качества [3-5]. Постоянно осуществляются исследования агрегации моделей обработки данных. Рассматриваются «выборочные» ансамбли, применяющие различные функции взвешенного, выборочного голосования, каскады простых алгоритмов и глубоких нейронных сетей [6, 7]. Все эти методы позволяют улучшить отдельные качественные показатели, однако основными их недостатками являются ресурсоемкость и увеличение времени работы алгоритма.

Другое направление повышения показателей качества обработки данных связано с формированием выборок. Современный подход к методам машинного обучения определяется парадигмой «модель плюс данные», для него и модель, и данные обладают одинаковой важностью. В целях повышения качественных показателей обработки и оптимизации процессов обучения используются методы разделения данных.

Разделение выборок для моделей обработки рассматривается как вспомогательный элемент ансамблевых методов. Оно заключается в том, чтобы сначала сгруппировать данные, а затем независимо обучить алгоритмы на подвыборках. Однако вопросы формирования сегментов, оптимизированных для повышения производительности моделей, обученных на них, обычно не рассматриваются.

Многие наборы данных имеют сложные базовые структуры. При применении, например, различных алгоритмов классификации ко всей выборке целиком могут возникнуть ситуации, влияющие на достижение заданных качественных показателей. Линейные классификаторы будут терять полноту и точность в случае нелинейного распределения данных. Нелинейные классификаторы, нейронные сети потребуют больших наборов обучающих данных, ресурсов для достижения качественных показателей результатов. Однако если в данных обнаруживаются сегменты, то известно, что использование такой информации во многих случаях позволят повысить качество обработки как для линейных, так и для нелинейных классификаторов [8, 9].

Применение глубокого анализа для разделения выборок часто позволяет обнаружить в сегментах относительно однородные характеристики, которые обеспечивают преимущества при построении моделей обработки [10-12]. В работах [7, 10] были исследованы различные аспекты вертикально разделенных данных, предложены технологии, базовые алгоритмы и комбинированные стратегии, направленные на выбор объектов наблюдения, позволяющих получить основные характеристики последовательностей и выборок, исключить из рассмотрения значения, приводящие к искажению свойств [11-16]. В [17] исследовалось влияние кластеризации на качество прогнозов классификатора SVM. Были сделаны выводы о связи между количеством кластеров и качеством классификации.

Однако использование описываемых методов требует значительных затрат на анализ обрабатываемых данных. В случае их неконтролируемого применения могут возникать ситуации, когда вместо повышения качественных показателей будет происходить ухудшение результатов обработки [18-21].

Таким образом, необходимо разрабатывать новые и адаптировать существующие стратегии, дающие возможность проводить точное и надежное обучение в рамках разделения функций и выборок. Данные становятся важным компонентом, влияющим на качество моделей в рамках рассматриваемой парадигмы. Данные и их свойства являются основополагающими при выборе модели, формировании ансамбля.

В статье предложен один из способов повышения качественных показателей: рассматривается использование многоуровневых моделей для решения задач классификации и регрессии.

1. Предлагаемая модель

1.1. Формулировка проблемы

На сегодняшний день большинство методов машинного обучения является сильно зависимым от свойств обрабатываемых данных. Каждая модель оптимизируется для достижения высоких качественных показателей на обучающих выборках, которые состоят из заранее определенной совокупности объектов наблюдения. В случае смещения диапазонов предикторов и целевых переменных, изменения распределений в информационных последовательностях показатели качества обработки могут снижаться. Это приводит к тому, что возникает необходимость в повторном применении методов обучения.

Процессы переобучения модели требуют большого количества времени и ресурсов. При возникновения таких явлений, как дрейф концепции, возможны ситуации, когда к моменту переобучения модель обработки может потерять свою актуальность.

В связи с этим рассматривается решение, основанное на разделении, сегментировании выборок, на которых в зависимости от свойств данных происходит выбор модели с лучшими качественными показателями. Это реализуется формированием моделей обработки данных, состоящих из нескольких уровней. На каждом из них решаются заранее определенные задачи: анализ и сегментирование поступающих информационных потоков, обучение заранее заданных моделей, назначение модели, имеющей лучшие качественные показатели на текущем сегменте. На рис. 1 представлена трехуровневая модель обработки.

Рис. 1. Трехуровневая модель обработки данных Fig. 1. Three-level data processing model

На нижнем уровне осуществляется решение задач, например, прогнозирования или классификации. На среднем уровне решаются задачи, возникающие вследствие изменений свойств поступающих данных, связанных с нахождением точек разладки для временных рядов, обнаружения дрейфа концепции. На верхнем уровне происходит отслеживание показателей качества, осуществляется общее управление.

Во многих системах, обрабатывающих информационные потоки, вследствие внешних и внутренних воздействий свойства данных могут изменяться окончательно либо через определенные вре-

менные интервалы возвращаться в исходное состояние. В связи с этим возникает необходимость отслеживать поступающие последовательности, разбивать их на сегменты с учетом влияющих факторов. Цель разделения выборки состоит в том, чтобы получить подгруппы данных, между классами которых возможно построение относительно несложных разделяющих поверхностей, обеспечивающих минимум количества ошибок. При этом желательно добиваться, чтобы вычислительная сложность, ресурсоемкость были минимальными. Решением обозначенных задач занимаются модели среднего уровня, которые передают информацию об изменении характеристик на верхний уровень. Далее модели верхнего уровня, исходя из текущих свойств обрабатываемых данных, принимают решение о назначении, дообучении и настройке моделей нижнего уровня.

1.2. Формализованное описание предлагаемой модели

Описание предлагаемой модели может быть представлено следующим образом.

Дана обучающая выборкаX, отражающая свойства генеральной совокупности. Имеется заранее определенный набор моделей обработки данных ai, ..., a„. МножествоXподается на функцию разделения p.: X ^ {1,..., M} , которая формирует сегменты Xi, ..., Хм. Формирование сегментов может осуществляться различными алгоритмами и методами, например поиска точек разладки для временных последовательностей, определения дрейфа концепции, кластеризации выборки.

Совокупности объектов наблюдений в полученных сегментах могут обладать различными свойствами. Поэтому каждый алгоритм обработки данных сегмента имеет свои качественные показатели, отличные от другого.

Определим значение функционала качества q = Q(aj (x), Xi) для модели ai (x) на данных сегмента Xi. Тогда для сегментов Xi, полученных с помощью функции разделения ц, возможно сформировать таблицу значений функционала качества для каждой модели обработки данных:

X1 — XM ai qi1 ••• qiM

an qn1 ••• qnM

Таблица показывает значения выбранного функционала качества для модели обработки данных на каждом сегменте.

В случае приблизительного равенства мощностей множеств Xi, ..., Xm возникает возможность

выбора значений q = max q... Это позволяет назначить модель ai (x) на каждый сегмент, где с наи-

i j 1

большим функционалом качества

aj (x) = arg max Q(a} (x), X ) . (1)

aj eA

Такой подход (1) имеет ряд недостатков. Во-первых, обычно частота появления объектов наблюдения в сегментах может существенно изменяться. Во-вторых, разные способы разделения выборки могут формировать сегменты с разными свойствами данных. Поэтому возможна оценка качественных показателей алгоритмов обработки данных сегментов, полученных при различных функциях, Ц1, ..., разделения выборки, для каждой функцией p : X ^ {1Ц } , разбивающей выборку X

на M количество сегментов. Полагая „ - количество обучающих примеров всей выборки, „ - коли-

чество обучающих примеров в 7-м сегменте, возможно определить усредненное значение показателя

д* =£ тах( — ) . (2)

качества qпри сегментации:

i=1

Полученное значение (2) можно сравнить со значением функционала качества на всей выборке и принять решение о сегментировании, выборе функции разделения данных. Применяя различные функции Ц1, ..., получаем разные разбиения множества X и значения функционала качества. Вычислив максимальное значение = шах{д№,..., } , мы можем выбрать функцию разделения цг- и назначить модели и алгоритмы обработки данных ар (х) с лучшими качественными показателями.

Для выбранной функции разделения цг- на полученных с ее применением сегментах X* е X можно определить модели обработки а* (х), которые достигают лучших результатов:

(3)

a* (x) = arg max Q(a* (x), X* ).

a* eA,* e*

Выражение (3) позволяет учитывать различные способы разделения выборки данных.

1.3. Реализация модели

Фреймворк реализации представлен на рис. 2. На подготовительном этапе происходит формирование обучающего множества. Затем выполняется выбор метрики, определяющей качественные показатели обработки, определяются множество алгоритмов разделения выборки на сегменты (кластеризации) и множество исследуемых моделей обработки данных.

Рис. 2. Фреймворк реализации модели обработки данных Fig. 2. Data processing model implementation framework

Обучающая выборка подвергается обработке алгоритмами кластеризации, имеющими различные параметры, определяющими количество кластеров и типы расстояний между ними. Для каждого алгоритма кластеризации формируются наборы сегментов, которые рассматриваются по отдельности. Каждый сегмент набора подается на вход модели, и на нем происходит обучение, определяются достигаемые качественные показатели. Далее для каждого метода разделения происходит анализ достигнутых показателей качества и на основании (2) осуществляется выбор лучшего метода разбиения выборки. Выражение (3) используется для назначения модели обработки нижнего уровня на конкретный сегмент.

2. Эксперимент 2.1. Модельные данные

Данные, поступающие от источников, часто представляют трудно разделимые последовательности. Они могут содержать множество классов, неоднородность областей, различные диапазоны значений. Рассматриваемый пример модельных данных приведен на рис. 3.

Y 200

180 160 140 120 100 80 60

0 20 40 60 80 100 120 140 160 180 200

X

Рис. 3. Модельный ряд данных значенийX, Y для двух классов Fig. 3. Model range of data values X, Y for two classes

При проведении эксперимента в качестве функций разделения цг- была выбрана кластеризация с различными мерами расстояния, для анализа качественного показателя осуществлялась оценка доли правильных ответов (accuracy). В целях реализации предполагаемой модели первым шагом является разделение набора на отдельные кластеры. Полученные кластеры должны удовлетворять функционалу качества (3). В эксперименте количество сегментов определяется достигаемыми показателями качества моделей обработки данных. В рассматриваемом примере каждая модель (наивный байесовский классификатор NB, линейный дискриминант LD, метод опорных векторов SVM, деревья решений DT, K-ближайших соседей KNN, ансамблевая модель всех классификаторов Ens) обучалась на всей последовательности целиком и на полученных в результате кластеризации подмножествах данных с использованием евклидова расстояния.

На рис. 4 показаны показатели accuracy при увеличении количества кластеров, разделяющих выборку, от 2 до 70 для каждого классификатора.

Графики рис. 4 показывают, что на достигаемые значения показателя accuracy оказывает влияние количество кластеров. На примере доли правильных ответов видно, что до определенного момента чем больше кластеров создается, тем выше значения качественных показателей. После этого качественные показатели модели выходят на плато и дальнейшее увеличение количества кластеров, сегментов к существенному улучшению качества классификации не приводят. В отдельных случаях деление на кластеры приводит к ухудшению показателей моделей обработки. Это связано с тем, что при неконтролируемой кластеризации кластеры могут иметь различные распределения данных. И, например, «деревья решений» получают недостаточно информации, чтобы определить распределение данных. На достигаемые показатели моделей обработки способна оказывать влияние и форма кластеров, определяемая мерой расстояния между точками, затрудняющая построение эффективной разделяющей поверхности.

Кроме того, при неограниченном разрастании кластеров происходит ситуация, когда появляются «микрокластеры», содержащие объекты наблюдения только одного класса. При применении решающего правила по соотнесению нового объекта на основании близости к центру ближайшего кластера в «микрокластере», где содержатся объекты только одного класса, ему будет просто присваиваться класс. А это, исходя из объема обучающей выборки, не всегда является корректным.

Предложенное решение позволяет использовать кластеры, получая дополнительную информацию для обучения модели. Однако кластеры зачастую неоднородны. На одних сегментах могут лучше показывать себя одни алгоритмы, на других - другие. Разделив модели рассматриваемого примера на две группы: «сильных» алгоритмов классификации, где значение accuracy близко к 1, и «слабых»,

• • •

• •

% %•

• 1

2

• — % а

7 <•»,

* •

• •

_|_1_

выдающих результаты в промежутке 0,5-0,7, можно увидеть улучшение качественных показателей при обработке данных по сегментам по сравнению со всей выборкой.

Acc

0,62 0,6 0,58 0,56 0,54 0,52 0,5

NB

20 40 60 80

Количество кластеров

Acc

1,002 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,998 0,996 0,994 0,992 0,99 0,988

KNN

20 40 60 80 Количество кластеров

LD

Acc

0,62 0,6 0,58 0,56 0,54 0,52 0,5

20 40 60

Количество кластеров

80

Acc

0,86 0,85 0,84 0,83 0,82 0,81

DT

20 40 60 80 Количество кластеров

SVM

ENS

Acc

0,6 0,58 0,56 0,54 0,52 0,5 0,48

20 40 60 80

Количество кластеров

Acc

1,02 1

0,98 0,96 0,94 0,92 0,9 0,88

20 40 60 80 Количество кластеров

0

Рис. 4. Результаты работы моделей обработки данных (красная линия - при обработке всей выборки целиком, синяя -формирование кластеров с использованием евклидовой меры расстояния, желтая -с использованием меры расстояния «городских кварталов», серая -с использованием меры на основе коэффициента корреляции, оранжевая - с использованием «косинусной меры»

Fig. 4. Results of data processing models (red line is processing the entire sample, blue is cluster formation using the Euclidean distance measure, yellow is using the distance measure of "city blocks", gray - using a measure based on the correlation

coefficient, orange is using the "cosine" measure

На рис. 4 и 5 показаны значения accuracy для различных групп («сильных» и «слабых») классификаторов в случае разбиения выборки на 14 сегментов.

Гистограмма рис. 4 показывает, что на данной выборке сегментирование обычно позволяет получить выигрыш для каждой модели при анализе классификатором сегмента по отдельности по сравнению со всей выборкой целиком.

На рис. 5 рассматриваются три «слабые» модели обработки (NB, линейный дискриминант LD, линейный SVM). В случае деления выборки на 14 кластеров на каждый сегмент можно назначить

классификатор с лучшими показателями, что позволяет улучшить результаты по сравнению с обработкой всей выборки.

Acc 1

0,95 0,9 0,85 0,8 0,75 0,7

S'V'b N«3

Р

IDT KNN I Ens

Номера сегментов

Рис. 4. Результаты работы «сильных» моделей обработки данных на различных кластерах Fig. 4. Results of the work of "strong" data processing models on various clusters

Рис.5. Результаты работы «слабых» моделей обработки данных на различных кластерах Fig.5. Results of "weak" data processing models on various clusters

Каждый сегмент может по-разному влиять на алгоритм: как улучшать его показатели, так и ухудшать. Форма кластеров, получаемая в результате применения различных расстояний, может влиять на качественные показатели моделей обработки данных. В случае одной меры возможен один набор алгоритмов, другой меры - другой. В рассматриваемом случае, назначая алгоритм обработки, имеющий лучшие качественные показатели, на каждый сегмент, можно получить выигрыш в показателе по сравнению с обработкой всей выборки одной моделью.

2.2. Результаты обработки реальных данных

Следующим этапом эксперимента был рассмотрен ряд доступных наборов. Они обрабатывались моделями обработки данных, количество классов в наборах данных от 2 до 24, количество кластеров до 70. При формировании кластеров использовалась евклидова метрика расстояния. Для обучающей выборки использовалось около 60% записей. В таблице показаны результаты доли правильных ответов моделей обработки данных на 50 выделенных сегментах и на всей выборке целиком, когда модели достигают предела значений качественного показателя accuracy.

Характеристики наборов данных и результаты accuracy моделей обработки

Dataset 150 26 280 26 280 30 000 30 000

Количество записей 5 3 3 17 17

Количество атрибутов 3 2 24 24 24

Количество классов

NB accuracy 50 кл / accuracy всей выборки 0,84 / 0,80 0,86 / 0,79 0,76 / 0,70 0,73 / 0,67 0,71 / 0,64

LD accuracy 50 кл / accuracy всей выборки 0,84 / 0,79 0,85 / 0,78 0,77 / 0,69 0,75 / 0,68 0,72 / 0,64

SVM accuracy 50 кл / accuracy всей выборки 0,83 / 0,78 0,84 / 0,78 0,75 / 0,70 0,72 / 0,65 0,70 / 0,66

KNN accuracy 50 кл / accuracy всей выборки 0,87 / 0,80 0,92 / 0,88 0,82 / 0,77 0,77 / 0,70 0,79 / 0,73

DT accuracy 50 кл / accuracy всей выборки 0,87 / 0,82 0,90 / 0,86 0,82 / 0,79 0,75 / 0,73 0,77 / 0,75

Ens accuracy 50 кл / accuracy всей выборки 0,91 / 0,88 0,93 / 0,92 0,86 / 0,83 0,79 / 0,76 0,81 / 0,79

Результаты, отраженные в таблице, показывают для выбранных датасетов повышение accuracy для различных размерностей данных и разного количества классов.

Заключение

В статье рассмотрена многоуровневая модель обработки данных, использующая сегментацию выборки. Разделение данных позволяет повысить качественные показатели обработки за счет уменьшения разброса параметров внутри отдельных сегментов. Обучение моделей на сегментах дает возможность оценить получаемые качественные показатели и выбрать для каждого сегмента модель, имеющую лучшие качественные показатели. Назначение алгоритмов с лучшими качественными показателями на сегменты позволяет повысить качественные показатели обработки выборки по сравнению с отдельным классификатором от 1 до 8%.

Предлагаемое решение является расширением ансамблевых методов обработки данных. В отличие от общепринятых подходов формирования ансамблевых моделей, в рассматриваемой модели не требуется наличия сложных функций агрегации и вычислительных ресурсов для параллельной работы классифицирующих алгоритмов. Модель может быть выбрана в качестве дальнейшего усовершенствования гибридных классификаторов.

Список источников

1. Zhang Y., Liu J., Shen W. A Review of Ensemble Learning Algorithms Used in Remote Sensing Applications // Applied Sciences.

2022. V. 12 (12). P. 54-86.

2. Trevizan B., Chamby-Diaz J., Bazzan A.L.C., Recamonde-Mendoza M. A comparative evaluation of aggregation methods for

machine learning over vertically partitioned data // Expert Systems with Applications. 2020. V. 152. P. 113-126.

3. Schuster M., Paliwal K.K. Bidirectional recurrent neural networks // IEEE transactions on Signal Processing. 1997. V. 45 (11).

P. 2673-2681.

4. Wang S., Zhou W., Jiang C. A survey of word embeddings based on deep learning // Computing. 2020. V. 102 (3). P. 717-740.

5. Кульневич А.Д., Кошечкин А.А., Карев С.В., Замятин А.В. Подход к распознаванию именованных сущностей на примере

технологических терминов в условиях ограниченной обучающей выборки // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2022. № 58. С. 71-81. doi: 10.17223/19988605/58/7

6. Sun L., Mu W.S., Qi B. A new privacy-preserving proximal support vector machine for classification of vertically partitioned data //

International Journal of Machine Learning and Cybernetics. 2015. V. 3 (6). P. 109-118.

7. Zhou Z.-H., Feng J. Deep forest // National Science Review. 2019. V. 6 (1). P. 74-86.

8. Lu J., Liu A., Dong F., Gu F., Gama J., Zhang G. Learning under concept drift: a review // IEEE Transactions on Knowledge and

Data Engineering. 2019. V. 31 (12). P. 2346-2363.

9. Salehi H., Burgueno R. Emerging artificial intelligence methods in structural engineering // Engineering Structures. 2018. V. 171.

P. 170-189.

10. Takacs A., Toledano-Ayala M., Dominguez-Gonzalez A., Pastrana-Palma A., Velazquez D.T., Ramos J.M., Rivas-Araiza A.E. Descriptor generation and optimization for a specific outdoor environment // IEEE Access. 2020. V. 8. P. 2169-2216.

11. Liu J., Li Y., Song S., Xing J., Lan C., Zeng W. Multi-modality multi-task recurrent neural network for online action detection // IEEE Transactions on Circuits and Systems for Video Technology. 2018. V. 29 (9). P. 2667-2682.

12. Di Franco G., Santurro M. Machine learning, artificial neural networks and social research // Qual Quant. 2021. V. 5. P. 1007-1025.

13. Zhang X., Wang M. Weighted Random Forest Algorithm Based on Bayesian Algorithm // Journal of Physics: Conference Series. 2021. V. 1924. P. 1-6.

14. Piernik M., Morzy T. A study on using data clustering for feature extraction to improve the quality of classification // Knowledge and Information Systems. 2021. V. 63 (7), P. 1771-1805.

15. Герасимова Д.С., Саяпин А.В., Палухин А.А., Кацура А.В. Bootstrap-метод для оценки статистических характеристик малых выборок авиационных агрегатов // Сибирский журнал науки и технологий. 2018. Т. 19, № 3. С. 482-488.

16. Доронина Ю.В., Скатков А.В. Многокритериальный анализ статистической устойчивости системных характеристик информационно-телекоммуникационных каналов // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2022. № 60. С. 59-72. doi: 10.17223/19988605/60/7

17. Lebedev I.S., Sukhoparov M.E. Adaptive Learning and Integrated Use of Information Flow Forecasting Methods // Emerging Science Journal. 2023. V. 7 (3). P. 704-723

18. Scanagatta M., Corani G., Zaffalon M., Yoo J., Kang U. Efficient learning of bounded-treewidth Bayesian networks from complete and incomplete data sets // International Journal of Approximate Reasoning. 2019. V. 95. P. 152-166.

19. Kheyreddine D., Kadda B.-B., Abdenour A. A new adaptive sampling algorithm for big data classification // Journal of Computational Science. 2022. V. 61. P. 101-116.

20. Sugita I., Matsuyama S., Dobashi H., Komura D., Ishikawa S. Viola: a structural variant signature extractor with user-defined classifications // Bioinformatics. 2022. V. 38. P. 540-542.

21. Лебедев И.С. Сегментирование множества данных с учетом информации воздействующих факторов // Информационно-управляющие системы. 2021. № 3. C. 29-38.

References

1. Zhang, Y., Liu, J. & Shen, W. (2022) A Review of Ensemble Learning Algorithms Used in Remote Sensing Applications. Applied

Sciences. 68(12). pp. 54-86.

2. Trevizan, B., Chamby-Diaz, J., Bazzan, A.L.C. & Recamonde-Mendoza, M. (2020) A comparative evaluation of aggregation

methods for machine learning over vertically partitioned data. Expert Systems with Applications. 152(2). pp. 113-126.

3. Schuster, M. & Paliwal, K.K. (1997) Bidirectional recurrent neural networks. IEEE transactions on Signal Processing. 45(11).

pp. 2673-2681.

4. Wang, S., Zhou, W. & Jiang, C. (2020) A survey of word embeddings based on deep learning. Computing. 102(3). pp. 717-740.

5. Kulnevich, A.D., Koshechkin, A.A., Karev, S.V. & Zamyatin, A.V. (2022) An approach to recognizing named entities using the

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

example of technological terms in a limited training sample. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitelnaya tekhnika i informatika - Tomsk State University Journal of Control and Computer Science. 58. pp. 71-81. DOI: 10.17223/19988605/58/7

6. Sun, L., Mu, W.S. & Qi, B. (2015) A new privacy-preserving proximal support vector machine for classification of vertically

partitioned data. International Journal of Machine Learning and Cybernetics. 3(6). pp. 109-118.

7. Zhou, Z.-H. & Feng, J. (2019) Deep Forest. National Science Review. 6(1). pp. 74-86.

8. Lu, J., Liu, A., Dong, F., Gu, F., Gama, J. & Zhang, G. (2019) Learning under concept drift: a review. IEEE Transactions

on Knowledge and Data Engineering. 31(12). pp. 2346-2363.

9. Salehi, H. & Burgueno, R. (2018) Emerging artificial intelligence methods in structural engineering. Engineering Structures. 171.

pp. 170-189.

10. Takacs, A., Toledano-Ayala, M., Dominguez-Gonzalez, A., Pastrana-Palma, A., Velazquez, D.T., Ramos, J.M. & Rivas-Araiza, A.E. (2020) Descriptor generation and optimization for a specific outdoor environment. IEEE Access. 8. pp. 2169-2216.

11. Liu, J., Li, Y., Song, S., Xing, J., Lan, C. & Zeng, W. (2018) Multi-modality multi-task recurrent neural network for online action detection. IEEE Transactions on Circuits and Systems for Video Technology. 29(9). pp. 2667-2682.

12. Di Franco, G. & Santurro, M. (2021) Machine learning, artificial neural networks and social research. Qual Quant. 5. pp. 10071025.

13. Zhang, X. & Wang, M. (2021) Weighted Random Forest Algorithm Based on Bayesian Algorithm. Journal of Physics: Conference Series. 1924. pp. 1-6.

14. Piernik M. & Morzy, T. (2021) A study on using data clustering for feature extraction to improve the quality of classification. Knowledge and Information Systems. 63(7). pp. 1771-1805.

15. Gerasimova, D.S., Sayapin, A.V., Palukhin, A.A. & Katsura, A.V. (2018) Application of the bootstrap method for statistical characteristics assessment of aircraft components' small samples. Sibirskiy zhurnal nauki i tekhnologiy - The Siberian Aerospace Journal. 19(3). pp. 482-488.

16. Doronina, Yu.V. & Skatkov, A.V. (2022) Multicriteria analysis of statistical stability of system characteristics of information and telecommunication channels. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitelnaya tekhnika i informatika - Tomsk State University Journal of Control and Computer Science. 60. pp. 59-72. DOI: 10.17223/19988605/60/7

17. Lebedev, I.S. & Sukhoparov, M.E. (2023) Adaptive Learning and Integrated Use of Information Flow Forecasting Methods. Emerging Science Journal. 7(3). pp.704-723

18. Scanagatta, M., Corani, G., Zaffalon, M., Yoo, J. & Kang, U. (2019) Efficient learning of bounded-treewidth Bayesian networks from complete and incomplete data sets. International Journal of Approximate Reasoning. vol. 95. pp.152-166.

19. Kheyreddine, D., Kadda, B.-B. & Abdenour, A. (2022) A new adaptive sampling algorithm for big data classification. Journal of Computational Science. 61. pp. 101 -116.

20. Sugita, I., Matsuyama, S., Dobashi, H., Komura, D. & Ishikawa, S. (2022) Viola: a structural variant signature extractor with user-defined classifications. Bioinformatics. 38. pp. 540-542.

21. Lebedev, I.S. (2021) Segmentirovanie mnozhestva dannykh s uchetom informatsii vozdeystvuyushchikh faktorov [Dataset segmentation considering the information about impact factors]. Informatsionno-upravlyayushchie sistemy - Information and Control Systems. 3. pp. 29-38.

Информация об авторе:

Лебедев Илья Сергеевич - профессор, доктор технических наук, главный научный сотрудник лаборатории интеллектуальных систем Санкт-Петербургского Федерального исследовательского центра Российской академии наук, (Санкт-Петербург, Россия). E-mail: isl_box@mail.ru

Автор заявляет об отсутствии конфликта интересов. Information about the author:

Lebedev Ilya S. (Doctor of Technical Sciences, Professor, Saint Petersburg Federal Research Center of the Russian Academy of Sciences, Saint Petersburg, Russian Federation). E-mail: isl_box@mail.ru

The author declares no conflicts of interests.

Поступила в редакцию 05.10.2023; принята к публикации 05.03.2024 Received 05.10.2023; accepted for publication 05.03.2024

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Илья Сергеевич Лебедев

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Илья Сергеевич Лебедев

Uncontrolled dataset clustering to improve the quality indicators of multilevel data processing models