Научная статья на тему 'ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНОЙ РЕАЛИЗАЦИИ МЕТОДА СРЕДНЕГО РЕШАЮЩЕГО ПРАВИЛА С УМНЫМИ ВЫБОРКАМИ'

ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНОЙ РЕАЛИЗАЦИИ МЕТОДА СРЕДНЕГО РЕШАЮЩЕГО ПРАВИЛА С УМНЫМИ ВЫБОРКАМИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
25
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИНАРНАЯ КЛАССИФИКАЦИЯ / БОЛЬШАЯ ОБУЧАЮЩАЯ СОВОКУПНОСТЬ / ВЫСОКОПРОИЗВОДИТЕЛЬНЫЕ ВЫЧИСЛЕНИЯ / SVM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Курбаков Михаил Юрьевич

В работе представлено экспериментальное исследование ранее разработанной высокопроизводительной реализации метода среднего решающего правила с умными выборками (HP-SS-KMDR) в условиях большого числа объектов. Показано, что такой подход может эффективно использоваться при работе с крупными обучающими совокупностями и позволяет существенно повысить скорость вычислений по сравнению с традиционными методами, при этом не уступая им в качестве.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Курбаков Михаил Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EXPERIMENTAL STUDY OF A HIGH-PERFORMANCE IMPLEMENTATION OF THE MEAN DECISION METHOD WITH SMART SAMPLES

The paper presents an experimental study of a previously developed high-performance implementation of the mean decision rule method with smart samples (HP-SS-KMDR) under conditions of a large number of objects. It is shown that such an approach can be effectively used when working with large training sets and can significantly increase the computational speed compared to traditional methods, while not inferior to them in quality.

Текст научной работы на тему «ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНОЙ РЕАЛИЗАЦИИ МЕТОДА СРЕДНЕГО РЕШАЮЩЕГО ПРАВИЛА С УМНЫМИ ВЫБОРКАМИ»

УДК 004.93

DOI: 10.24412/2071-6168-2022-12-391-397

ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНОЙ РЕАЛИЗАЦИИ

МЕТОДА СРЕДНЕГО РЕШАЮЩЕГО ПРАВИЛА С УМНЫМИ ВЫБОРКАМИ

М.Ю. Курбаков

В работе представлено экспериментальное исследование ранее разработанной высокопроизводительной реализации метода среднего решающего правила с умными выборками (HP-SS-KMDR) в условиях большого числа объектов. Показано, что такой подход может эффективно использоваться при работе с крупными обучающими совокупностями и позволяет существенно повысить скорость вычислений по сравнению с традиционными методами, при этом не уступая им в качестве.

Ключевые слова: бинарная классификация, большая обучающая совокупность, высокопроизводительные вычисления, SVM.

Введение. Задача двухклассового распознавания является одной из наиболее распространенных задач анализа данных. Массовыми источниками таких задач являются такие важные области, как молекулярная биология, горнодобывающая и нефтяная промышленности, медицинские системы и системы видеонаблюдения, маркетинг и многие другие.

В настоящее время известно множество подходов к решению задачи двухклассвого распознавания, например, метод опорных векторов (Support Vector Machines, SVM) [1], который является одним из наиболее удобных и точных методов решения данной задачи и широко используется во многих приложениях. Однако, при решении крупных задач SVM возникают проблемы высокой вычислительной сложности, нехватки памяти для единовременного хранения исходной обучающей совокупности и отсутствие эффективного метода работы с разреженными данными в традиционном формате «libsvm».

Практически все существующие методы, детальный обзор которых приведен в [2], направлены на решение только некоторой части из указанных проблем, а также, как правило, имеют и другие недостатки, наиболее важными из которых является отсутствие возможности введения нелинейности и итерационная природа с многочисленными зависимостями по данным.

Решение всех вышеупомянутых проблем может быть достигнуто за счёт использования высокопроизводительной реализации метода среднего решающего правила с «умными» выборками, предложенной в [3], которая позволяет быстро найти приближенное, но не сильно отличающееся от точного, решение задачи sVm.

В данной работе представлено детальное экспериментальное исследование эффективности и ускорения времени обучения реализации НР-SS-KMDR [3], а также сравнение с другими известными реализациями обучения по методу SVM в условиях данных большого объёма.

Постановка задачи обучения двухклассовому распознаванию. В математических терминах задача обучения двухклассовому распознаванию может быть сформулирована следующим образом.

Пусть П - множество всех возможных объектов произвольной природы. Предполагает-

ся, что на множестве П определена скрытая функция принадлежности объектов к одному из двух классов: у(ш):Л ^ {+1; -1}.

Пусть Л* ={cHj,j = 1 ,...,N] Е П - конечная обучающая совокупность объектов, для которых известна объективная классовая принадлежность jj =y(fi>j) Е{+1; —1}.

Требуется построить решающее правило отнесения любого объекта к одному из двух классов: = ±1.

Метод среднего решающего правила для обучения по методу SVM. Метод среднего решающего правила, предложенный в [2], является быстрым приближенным методом нахождения решения двухклассовой задачи, возникающей в методе опорных векторов (SVM), согласно которому решение ищется в виде оптимальной линейной разделяющей гиперплоскости, призванной как можно лучше разделить объекты двух классов [1].

Основная идея такого подхода заключается в формировании небольших обучающих подвыбо-рок, независимом обучении по каждой из них и последующем объединении частных решений в одно общее. В [2] показано, что и в пространстве признаков (MDR), и в пространстве, порожденном потенциальной функцией (KMDR), объединение может быть осуществлено путем усреднения, но необходимо специфическое понимание усреднения для каждого из этих случаев.

В отличие от традиционных для выборочных методов случайных обучающих подвыборок предлагается использовать специально сформированные выборки, составленные из объектов, расположенных вблизи разделяющей гиперплоскости, а именно, опорных объектов, полученных при обучении по небольшим случайным подвыборкам. Такой подход, получивший название метода среднего решающего правила с «умными» выборками (SS-KMDR), обладает большей скоростью сходимости и позволяет достичь наилучшего качества за наименьшее время. Более того, за счёт высокой степени параллелизма по данным в [3] была предложена высокопроизводительная реализация обучения по методу среднего решающего правила с «умными» выборками (HP-SS-KMDR) как в линейном признаковом пространстве, так и пространстве, порождённом потенциальной функцией.

Описание платформ тестирования. Экспериментальные исследования проводились как на персональном компьютере, так и на суперкомпьютерном комплексе МГУ имени М.В. Ломоносова [4] в рамках раздела «test». Характеристики каждой из платформ приведены в табл. 1 и 2.

Таблица 1

Характеристики одного узла раздела «test» вычислительного комплекса «Ломоносов-2»_

Наименование характеристики Значение

Центральный процессор Intel Haswell-EP E5-2697v3

Частота процессора 2.6 ГГц

Число процессов / потоков 14/28

Объем оперативной памяти 64 Гб

Операционная система CentOS 7

Хранилище рабочих файлов 50 Гб

Таблица 2 Характеристики персонального компьютера

Наименование характеристики Значение

Центральный процессор Intel Core i7-9700k

Частота процессора (базовая / максимальная) 3.8 ГГц / 5.1 ГГц

Число ядер/потоков 8/8

Оперативная память 16 Гб

Операционная система Windows 10 Home x64

Объем дисковой памяти 2 Тб

Описание наборов данных. В рамках данной работы экспериментальное исследование осуществлялось на четырёх общедоступных наборах данных из репозитория LibSVM [5], основные характеристики которых представлены в табл. 3.

Набор данных mnist-784 происходит из набора данных MNIST, созданного для распознавания рукописных цифр, путём предварительного центрирования каждого цифрового изображения в окне 28^28, сглаживания с маской 3*3 (центральный элемент 1/2, остальные 1/16) и нормализации каждого шаблона так, что его скалярное произведение всегда находится в пределах [0, 1]. Исходная 10-ти классовая задача сводится к задаче 2-х классов, путём отделения цифры «8» от остальных.

Набор данных «HIGGS» основан на задаче классификации, которая состоит в том, чтобы различить сигнальный процесс, в котором образуются новые теоретические бозоны Хиггса, и фоновый процесс с идентичными продуктами распада, но с различными кинематическими характеристиками. Последние 500 000 объектов в наборе используются для тестирования, а остальные - для обучения.

Набор данных «epsilon» представлен в рамках соревнования «PASCAL Challenge 2008», которое связано с масштабируемостью и эффективностью существующих подходов машинного обучения в отношении вычислительных ресурсов, ресурсов памяти или связи. Набор необработанных данных (epsilon_train) масштабируется до единичной длины и разделяется на две части: 4/5 для обучения и 1/5 для тестирования. Обучающая часть стандартизируется, т.е. имеет нулевое математическое ожидание и единичную дисперсию по каждому признаку, а затем масштабируется по экземплярам до единичной длины. Используя коэффициенты масштабирования и стандартизации обучающего набора, тестовая часть обрабатывается аналогичным образом.

Набор данных «SUSY» основан на задаче классификации, которая состоит в том, чтобы различать процесс, в котором образуются новые суперсимметричные частицы, ведущий к конечному состоянию, в котором одни частицы обнаруживаются, а другие невидимы для экспериментального устройства, и фоновый процесс с такими же обнаруживаемыми частицами, но меньшим количеством невидимых частиц и более четкими кинематическими характеристиками. Последние 500 000 объектов в наборе используются для тестирования, а остальные - для обучения.

Таблица3

Характеристики реальных наборов данных __

Название набора mnist-784 SUSY HIGGS epsilon

Объектов на обучении 60 000 4 500 000 10 500 000 400 000

Образцы классов (обучение) +1 54 149 2 058 398 5 564616 199 832

-1 5 851 2 441602 4 935 384 200 177

Число признаков 784 18 28 2 000

% не нулевых признаков (обучение) 61,73 98,82 92,11 100,00

Объектов на контроле 10 000 500 000 500 000 100 000

Образцы классов (контроль) +1 9 026 229 429 264 507 49 955

-1 974 270 571 235 493 50 045

Примерный объём дискового пространства (обучение / контроль) 420 / 70 Мб 2,2 / 0,2 Гб 6,5 / 0,3 Гб 12 / 3 Гб

Критерии оценки качества классификатора. Оценки качества классификатора в рамках данной работы опирается на стандартные численные метрики. Основой для описания этих метрик в терминах ошибок классификации является матрица сопряжённости, которая содержит следующую информацию: TP (true positive) - классификатор верно отнёс объект к рассматриваемому классу; TN (true negative) - классификатор верно утверждает, что объект не принадлежит к рассматриваемому классу; FP (false positive) - классификатор неверно отнёс объект к рассматриваемому классу; FN (false negative) - классификатор неверно утверждает, что объект не принадлежит к рассматриваемому классу.

Accuracy [6] - самая простая оценка классификации, определяющая долю правильно распознанных объектов от общего числа объектов выборки:

асс =--(1)

Однако, данная оценка присваивает всем объектам одинаковый вес, и в случаях, когда число объектов одного класса превышает число объектов другого, оценка смещается и не может считаться адекватной. Таким образом, подобная оценка работает плохо при высокой априорной вероятности одного из классов, и распознавание может дать высокое значение асс, равное этой априорной вероятности

АиС [6] - оценивается как площадь, ограниченная ROC-кривой и осью ложных положительных классификаций (FPR). ROC-кривая или кривая ошибок отражает соотношение чувствительности алгоритма (TPR), и его специфичности (FPR).

ТРИ =-1^. • (2)

FPR =

TP+FN FP

(3)

FP+TN

Исследование эффективности, ускорения времени обучения. Экспериментальное исследование эффективности и ускорения осуществлялось на вычислительном комплексе «Ломоносов-2» [4] и строилось следующим образом: для параллельной реализации обучения по методу среднего решающего правила с умными выборками, предложенной в [3], был реализован трёхкратный запуск задачи обучения в пространстве, порожденном потенциальной функцией. Целью экспериментов является сравнение времени полного обучения (формирование умных выборок, обучение по ним и усреднение частных результатов) при изменении числа процессов и потоков в условиях данных большого объёма. Дополнительную оценку производительности параллельного алгоритма можно сделать на основе таких характеристик как ускорение (S) и эффективность (E).

Ускорение показывает отношение времени выполнения лучшего последовательного алгоритма ко времени выполнения параллельного алгоритма (для фиксированного числа процессов) и вычисляется по формуле:

5 = TJTp, (4)

где 7\ - время работы последовательного алгоритма, Тр - время работы параллельного алгоритма на p процессах (потоках).

Другой важной характеристикой параллельного вычислительного процесса является эффективность. Она показывает отношение ускорения к соответствующему количеству процессов:

Е = S/p, (5)

где S - ускорение работы параллельного алгоритма для p процессов.

Эффективность может принимать значения от 0 до 1. Идеальным значением эффективности является Е = 1, означающее, что все процессоры на протяжении всего вычислительного процесса загружены полностью.

В качестве исходной обучающей совокупности в данных экспериментах был выбран набор «epsilon», как самый крупный относительно остальных исследуемых наборов с точки зрения требуемого объема дискового пространства. Параметры обучения: потенциальная функция - RBF, С = 10, у = 0,25, число умных выборок nss = 8, размер одной умной выборки sss = 5000, размер одной случайно подвы-борки srs = 200.

Время полного обучения (Ttr) и этапа формирования умных выборок (Tstr) для различного количества процессов (p) и потоков (n) представлено в табл. 4. Графики зависимости времени полного обучения от количества процессов представлены на рис. 1.

Время полного обучения для разного количества процессов и потоков

Таблица 4

Ttr / Tsr сек

V\ Р n 1 2 4 8

1 742,6 / 190,4 373,2/95,7 188,5 /48,5 95,4 / 25,0

2 642,0 / 101,3 323,1 /51,2 162,9/25,6 83,6 / 13,1

4 595,7 / 54,40 299,4 / 27,4 151,5/14,0 77,1 / 6,80

-1 поток 2 потока * 4 потока

\ \

• \ \ \\ 1

44 \ \ \\

4\

* x

12 4 8

Количество процессов

Рис. 1. Зависимость времени полного обучения от количества процессов и потоков

Ускорение (5) и эффективность (Е этапа полного обучения для различного количества процессов представлены в табл. 5. Графики зависимости ускорения и эффективности этапа полного обучения представлены на рис. 2.

Таблица 5

Ускорение и эффективность этапа полного обучения _

1 2 4 8

1 1 1,991 3,940 7,784

s 2 1 1,987 3,941 7,679

4 1 1,990 3,932 7,726

1 1 0,995 0,985 0,973

E 2 1 0,994 0,985 0,960

4 1 0,995 0,983 0,966

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 2. Зависимость ускорения (слева) и эффективности (справа) этапа полного обучения

от количества процессов и потоков

По результатам, представленным в табл. 5 и рис. 2, очевидно, что двухкратное увеличение количества процессов приводит к почти идентичному увеличению ускорения на этапе полного обучения для любого фиксированного числа потоков. Это в свою очередь свидетельствует о высокой эффективности параллельного алгоритма.

Ускорение и эффективность этапа формирования умных выборок для различного количества потоков представлены в табл. 6.

Не трудно заметить, что для этапа формирования умных выборок также наблюдается высокое значение эффективности, однако меньшее, чем для этапа полного обучения или распознавания. Это связано с относительно небольшой вычислительной сложностью данного этапа, поскольку размер одной случайной подвыборки невелик (200 объектов) и обучение по ней происходит очень быстро.

В целом для набора данных «epsilon» и заданных параметров обучения наблюдается достаточно высокое качество классификации: acc = 85,36; AUC = 89,48, при относительно небольшом времени полного обучения.

Таблица 6

Ускорение и эффективность этапа формирования умных выборок_

""s. n P 1 2 4

1 1 1,88 3,50

S 2 1 1,87 3,49

4 1 1,89 3,46

8 1 1,91 3,47

1 1 0,94 0,88

E 2 1 0,93 0,88

4 1 0,95 0,86

8 1 0,95 0,87

Сравнение с другими реализациями обучения по методу SVM. Основная концепция бэггин-га (bagging) очень схожа с идеей метода среднего решающего правила, и их сравнение напрашивается само собой. В качестве существующей реализации бэгинга [7] было использовано решение для python из пакета scikit-learn. В экспериментах учавствовали ансамбли из 1, 2 и 5 классификаторов (Bagging-1, Bagging-2 и Bagging-5 соответственно). Все остальные параметры используемой реализации были установлены по умолчанию.

В качестве классических подходов к решению задачи SVM были выбраны такие библиотеки как LibSVM [8] (являющейся эталоном качества в рамках работы) и ее параллельной версии PiSVM [8]. А также эвристические подходы, основанные на стохастических методах: SGD [9] и ASGD [9].

Во всех экспериментах параметры обучения SVM были следующие: C=10; ядро RBF и степень радиальности у=0.25 (кроме SGD, ASGD, где использовалось линейное ядро в силу особенностей реализации).

В табл. 7 приведены результаты точности и времени обучения различных подходов решения задачи SVM. Результаты для метода SS-KMDR и HP-SS-KMDR приведены для нескольких наборов зна-

чений параметров, указанных в скобках в следующем формате: (<число умных выборок> / <число процессов>; <размер умной выборки>). Размер случайной выборки везде был принят равным 300.

Как видно из результатов, представленных в табл. 7, решения LibSVM и PiSVM позволяют достичь высокого качества распознавания, но время работы (или даже возможность использования) существенно зависит от количества объектов в обучающей совокупности.

Реализация bagging на python позволяет получить наилучшую точность, но требует наибольших временных затрат в большинстве случаев.

Эвристические подходы SGD и ASGD существенно быстрее, но достигнутая точность значительно меньше, чем у других методов. В частности, это связано с невозможностью использовать другие ядра, кроме линейного.

Таблица 7

Результаты сравнения НР-SS-KMDR с другими методами обучения SVM_

Набор данных

Метод mnist-784 SUSY HIGGS

время (сек) 1 точность время (сек) \ точность время (сек) \ точность

LibSVM 387 99,15 > 86 400 - > 86 400 -

PiSVM 302 99,15 нехватка памяти нехватка памяти

Bagging-1 157 99,47 > 86 400 - > 86 400 -

Bagging-2 305 99,52 > 86 400 - > 86 400 -

Bagging-5 775 99,49 > 86 400 - > 86 400 -

SGD 18,48 94,39 97,11 77,14 419,9 62,55

ASGD 18,53 94,47 91,81 78,10 333,9 63,62

SS-KMDR (1/1; 5000) 18,00 98,89 10,229 77,37 22,65 61,45

HP-SS-KMDR (8/1; 5000) 137,98 99,00 38,35 79,86 71,43 65,24

SS-KMDR (8/8; 5000) 21,96 99,00 16,092 79,85 30,19 65,25

HP-SS-KMDR (32/1; 5000) 546,10 99,01 142,76 80,07 245,92 67,17

HP-SS-KMDR (32/32; 5000) 32,27 98,99 15,761 80,07 35,43 67,17

HP-SS-KMDR (32/32; 10000) 79,73 99,13 40,85 80,11 255,03 68,40

Подход НР-SS-KMDR демонстрирует повышение качества распознавания по сравнению с SS-KMDR и сокращает отставание по точности от других классических методов, имея значительный выигрыш по времени обучения, что даёт возможность балансировки между качеством классификации и временными затратами на обучение.

Исследование в условиях нехватки объёма оперативной памяти. Основная часть рассмотренных выше реализаций решения задачи SVM (LibSVM, PiSVM, bagging из пакета scikit-leam, SGD и ASGD) не подходят для обучения в условиях, когда обучающая совокупность не помещается единовременно в оперативной памяти. Однако методы SS-KMDR и HP-SS-KMDR не имеют вышеупомянутой проблемы и могут легко эксплуатироваться в условиях нехватки оперативной памяти. В свою очередь существуют и другие методы решения указанной проблемы, например, метод BLOCK-L, который является расширенной версией liblinear для работы с данными, которые не могут поместиться в памяти целиком [10].

В рамках экспериментального исследования на персональном компьютере в качестве данных, не помещающихся в память, использовался набор epsilon.

Надо отметить, что метод BLOCK-L требует предварительного разделения данных на ряд отдельных файлов. Следуя [10], количество файлов (блоков) было выбрано равным 30. Метод BLOCK-L тестировался для трех различных значений количество итераций (L=1, L=2 и L=3), которые влияют на время обучения и точность.

Значения параметров для метода SS-KMDR и HP-SS-KMDR: число умных выборок - 2, 4, 8; размер умной выборки - 5000; размер случайной подвыборки - 200.

Результаты решения задачи SVM (точность и время обучения с учётом предварительной обработки обучающей совокупности) методами SS-KMDR, HP-SS-KMDR и BLOCK-L с различными значениями параметров в условиях нехватки оперативной памяти представлены в табл. 8.

Таблица8

Результаты решения задачи SVM в условиях нехватки оперативной памяти_

Метод Время обучения, сек AUC

BLOCK-1 1 476 89,53

BLOCK-2 2 690 89,80

BLOCK-3 4 091 89,81

SS-KMDR (2/1; 5000) 276 87,24

SS-KMDR (4/1; 5000) 463 88,78

SS-KMDR (8/1; 5000) 861 89,52

HP-SS-KMDR (2/2; 5000) 213 87,26

HP-SS-KMDR (4/4; 5000) 228 88,77

HP-SS-KMDR (8/8; 5000) 241 89,50

По результатам из табл. 8 не трудно заметить, что реализация HP-SS-KMDR позволяет примерно на порядок сократить время обучения по сравнению с методом BLOCK-L и практически не влияет на точность распознавания.

Заключение. Экспериментальное исследование высокопроизводительного программного средства (HP-SS-KMDR) показывает, что квазилинейное ускорение этапа полного обучения и этапа формирования умных выборок позволяет значительно сократить временные затраты на обучение распознаванию по сравнению с традиционными подходами. При этом наблюдается высокое значение показателя эффективности на этапе обучения, что свидетельствует о соответствующем уровне производительности.

Кроме того, сравнительный анализ HP-SS-KMDR с другими подходами к решению задачи SVM в условиях большого объёма данных показал, что классические LibSVM, его параллельная версия PiSVM, а также Бэггинг не позволяют получить решение для большинства рассмотренных наборов данных из-за ограничений по времени или памяти, при этом быстрые методы SGD и ASGD не допускают введение нелинейности, поэтому проигрывают по качеству.

В результате исследования, представленного в работе, можно сделать вывод, что главная особенность HP-SS-KMDR заключается в отсутствии практических ограничений по количеству объектов исходной обучающей совокупности, в условиях использования небольшого объёма оперативной памяти.

Работа выполнена при финансовой поддержке Министерства науки и высшего образования РФ в рамках государственного задания FEWG-2021-0012 c использованием оборудования Центра коллективного пользования сверхвысокопроизводительными вычислительными ресурсами МГУ имени М.В. Ломоносова [4].

Список литературы

1. Vapnik V. Statistical Learning Theory, John-Wiley&Sons Inc., 1998.

2. Makarova A., Kurbakov M. and Sulimova V. Mean Decision Rules Method with Smart Sampling for Fast Large-Scale Binary SVM Classification. ICPR, 2021. P. 8212-8219. DOI: 10.1109/ICPR48806.2021.9412232.

3. Kurbakov M., Kopylov A., Seredin O., Sulimova V. High-Performing Training Large-Scale Binary Nonlinear SVMs Using Mean Decision Rule Method with Smart Sampling // VIII International Conference on Information Technology and Nanotechnology (ITNT), 2022. P. 1-7. DOI: 10.1109/ITNT55410.2022.9848549.

4. Voevodin V.l., Antonov A., Nikitenko D., Shvets P., Sobolev S., Sidorov I., Stefanov K., Voevodin Vad., Zhumatiy S. Supercomputer Lomonosov-2: Large Scale, Deep Monitoring and Fine Analytics for the User Community // Supercomputing Frontiers and Innovations, 2019. Vol. 6. No. 2. P. 4-11. DOI: 10.14529/jsfi190201.

5. Репозиторий наборов данных LibSVM. [Электронный ресурс] URL: https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets (дата обращения: 09.09.2022).

6. Powers D.M. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation, 2011.

7. Breiman L. Bagging predictors, 1996. ML. Vol. 24. P. 123-140.

8. Chang E.Y., Zhu K., Wang H., Bai H., Li J., Qiu Z., Cui H. Psvm: Parallelizing support vector machines on distributed computers, NIPS, 2007. Vol. 20.

9. Bottou L. Stochastic Learning // Advanced Lect. on ML, 2004. P. 146-168.

10. Yu H.-F., Hsieh C.-J., Chang K.-W., Lin C.-J. Large Linear Classification When Data Cannot Fit In Memory // ACM Trans. Knowl. Discov. Data, 2011. P. 1-23. DOI: 10.1145/2086737.2086743.

Курбаков Михаил Юрьевич, аспирант, muwsik@mail.ru, Россия, Тула, Тульский государственный университет,

Научный руководитель - Сулимова Валентина Вячеславовна, канд. физ.-мат. наук, доцент, vsulimova@yandex. ru, Россия, Тула, Тульский государственный университет

EXPERIMENTAL STUDY OF A HIGH-PERFORMANCE IMPLEMENTATION OF THE MEAN DECISION METHOD WITH SMART SAMPLES

M.U. Kurbakov

The paper presents an experimental study of a previously developed high-performance implementation of the mean decision rule method with smart samples (HP-SS-KMDR) under conditions of a large number of objects. It is shown that such an approach can be effectively used when working with large training sets and can significantly increase the computational speed compared to traditional methods, while not inferior to them in quality.

Key words: binary classification, large training set, high performance computing, SVM.

Kurbakov Mikhail Yurievich, postgraduate, muwsik@mail.ru, Russia, Tula, Tula State University,

Scientific supervisor - Sulimova Valentina, candidate of physics and mathematical sciences, docent, vsuliova@yandex.ru, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.