Научная статья на тему 'МОДИФИЦИРОВАННЫЙ КРИТЕРИЙ ДЛЯ ОПИСАНИЯ ДАННЫХ ГИПЕРСФЕРОЙ С УЧЕТОМ НЕТИПИЧНЫХ ОБЪЕКТОВ'

МОДИФИЦИРОВАННЫЙ КРИТЕРИЙ ДЛЯ ОПИСАНИЯ ДАННЫХ ГИПЕРСФЕРОЙ С УЧЕТОМ НЕТИПИЧНЫХ ОБЪЕКТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
76
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННОЕ ОБУЧЕНИЕ / ОДНОКЛАССОВАЯ КЛАССИФИКАЦИЯ / ОПИСАНИЕ ДАННЫХ ОПОРНЫМИ ВЕКТОРАМИ / НЕТИПИЧНЫЕ ОБЪЕКТЫ / OUTLIERS / MACHINE LEARNING / ONE-CLASS CLASSIFICATION / SUPPORT VECTOR DATA DESCRIPTION / ANOMALY DETECTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ларин Александр Олегович, Середин Олег Сергеевич, Копылов Андрей Валериевич

В данной работе предлагается модифицированная версия описания данных гиперсферой в спрямляющем пространстве на основе одноклассового классификатора Д. Тэкса. Особенностью предлагаемого критерия машинного обучения является корректный учет влияния нетипичных объектов на итоговое решающее правило.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ларин Александр Олегович, Середин Олег Сергеевич, Копылов Андрей Валериевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODIFIED CRITERION FOR DESCRIPTION OF DATA WITH A HYPERSPHERE TAKING INTO A CCOUNT OUTLIERS

In this paper, we propose a modified version of the description of data by a hypersphere in a rectifying space based on the one-class classifier of D. Tax. An advantage of the proposed machine learning criterion is the correct accounting for the influence of outliers on the final decision rule.

Текст научной работы на тему «МОДИФИЦИРОВАННЫЙ КРИТЕРИЙ ДЛЯ ОПИСАНИЯ ДАННЫХ ГИПЕРСФЕРОЙ С УЧЕТОМ НЕТИПИЧНЫХ ОБЪЕКТОВ»

УДК 004.93

МОДИФИЦИРОВАННЫЙ КРИТЕРИЙ ДЛЯ ОПИСАНИЯ ДАННЫХ ГИПЕРСФЕРОЙ С УЧЕТОМ НЕТИПИЧНЫХ ОБЪЕКТОВ

А. О. Ларин, О. С. Середин, А.В. Копылов

В данной работе предлагается модифицированная версия описания данных гиперсферой в спрямляющем пространстве на основе одноклассового классификатора Д. Тэкса. Особенностью предлагаемого критерия машинного обучения является корректный учет влияния нетипичных объектов на итоговое решающее правило.

Ключевые слова: машинное обучение, одноклассовая классификация, описание данных опорными векторами, нетипичные объекты, outliers.

Введение. Классическая постановка задачи обучения распознаванию образов представляет собой способ построения разделяющей границы для двух классов объектов реального мира юе W, каждый из которых представлен вектором числовых признаков как точка в линейном пространстве x(w) е Rn, где n - количество признаков, доступных для наблюдения. Для определения принадлежности объекта к одному из двух классов y = ±1 обычно используется некоторое решающее правило (decision

rule/function), заданное функцией d(x | a,b) = aTx + b:Rn ® R, знак которой укажет

класс объекта интереса sign (aTx + b). Очевидно, что в данном случае функция

d(x | a,b) является математическим описанием гиперплоскости - разделяющей границы двух классов.

Однако существуют задачи классификации, когда обучающая выборка представлена только лишь объектами единственного класса, и необходимо разделить линейное пространство на две непересекающиеся области с не слишком «сложной» границей, так, чтобы обучающая совокупность, в основном, содержалась в одной из них. Такая задача получила название одноклассовой классификации [1]. В таком случае решающее правило одноклассового распознавания определяет, принадлежит ли объект реального мира заданному классу или нет и финальное решение представлено двух-классовым индексом. Данная работа посвящена рассмотрению именно такой задачи.

Близко к задаче одноклассовой классификации стоит задача обучения по частично размеченным данным, в случае, когда размеченные данные относятся только к одному классу, который часто называется положительным. Такая задача обучения по положительно размеченным и неразмеченным данным получила название PU-Learning (от англ. "Positive" и "Unlabeled"). Обзор современных методов решения такой задачи можно найти в работе [2]. К этой задаче также примыкают методы, когда неразмеченная часть обучающей выборки представлена неявно, в виде заранее обученного на некоторых данных нейросетевого автокодировщика, который используется для получения признакового описания объектов распознавания [3]. Поскольку эти методы все же относятся к двухклассовой задаче, мы оставляем их рассмотрение за рамками данной статьи.

Наиболее широко одноклассовая классификация применяется на начальных этапах решения задач интеллектуального анализа данных как инструмент поиска аномалий и нетипичных объектов (outliers) в экспериментальных наборах данных [4], хотя имеются примеры применения этого инструмента для решения прикладных задач, например, при сегментации цветных изображений [5-7].

В настоящее время существует большое количество методов для решения задачи одноклассовой классификации [8]. Обычно среди них выделяют три группы - вероятностные методы, метрические методы и методы границ.

231

Вероятностные методы [9] основаны на оценке плотности распределения обучающей совокупности и выборе пороговой величины, отсекающей объекты, не принадлежащие к данному классу. Используемые плотности распределения, с одной стороны должны быть достаточно гибкими для описания данных, а с другой стороны оценивание их параметров не должно приводить к трудоемким вычислительным процедурам. Наиболее распространенными видами распределений на практике являются смесь нормальных распределений (англ. Gaussian mixture model, GMM) [10] и распределение Парзена [11].

Метрические методы эксплуатируют различные виды парных отношений между объектами включая как относительно простые методы ближайший соседей или ближайших центров, так и более алгоритмически сложные методы на основе минимальных остовных деревьев [12].

Методы границ, строящие на основе анализа обучающей совокупности некоторую границу, которая отделяет объекты целевого класса от внешних объектов, в целом позволяют формировать более простые классификаторы, чем вероятностные, на меньших наборах данных. Такое свойство этой группы методов объясняется тем, что в случае существенной ограниченности обучающей совокупности, решение более общей проблемы (вероятностные методы) вместо решения существующей частной приводит к избыточной сложности и, возможно, переобученности классификатора [13]. Наиболее распространенным представителем методов данной группы является метод одноклас-сового SVM (англ. One-class SVM), предложенный в работе [14]. Суть его состоит в построении границы, обеспечивающей максимальный зазор между объектами обучающей совокупности и нулевой точкой признакового пространства. Использование метода потенциальных функций позволяет при этом строить границу заданной сложности.

В 1999 г. Д. Тэксом и Р.Дьюином был предложен метод решения одноклассо-вых задач распознавания образов, получивший название Support Vector Data Description (SVDD, метод описания данных опорными векторами) [15], имеющий аналогию с методом опорных векторов В. Н. Вапника [13]. Моделью описания данных в этом методе является гиперсфера, представляющая собой ближайшую внешнюю границу вокруг целевого набора данных. Хотя в работе [16] показано, что при использовании радиальной базисной функции Гаусса (RBF) методы SVDD и One-class SVM эквивалентны, SVDD имеет интуитивно более понятную формулировку и геометрическую интерпретацию.

Тем не менее, хотя оба метода используются для обнаружения аномалий в данных и нетипичных объектов, наличие таких объектов способно сильно смещать границу принятия решений. В данной работе предлагается версия критерия SVDD, позволяющая устранить этот недостаток.

Метод описания данных опорными векторами. Основной идеей описания

набора данных, представленных n числовыми признаками х. е Rn, i = 1,...,N методом SVDD [15] является построение внешней границы вокруг данных в виде гиперсферы. Параметрами, задающими гиперсферу, являются ее центр a е Rn и радиус R е R . Гиперсфера подбирается таким образом, чтобы ее радиус был минимален, но при этом большая часть объектов обучающей совокупности не выходила за ее пределы (рис. 1). Объекты, попадающие за границу гиперсферы, должны быть оштрафованы.

Таким образом, необходимо минимизировать структурную ошибку модели:

N

R2 + CУ 5. ® min

' п2 „ S

i=1 ||2

R2,a,51,K,5/ (1)

||хг - a|| < R +5., 5. > 0, i = 1,..., N. Двойственная задача по отношению к (1) имеет вид:

232

N N N

Е1 (х< • х<)- ЕЕ] (х •х ]) ® ^

г=1

N

;=1 /=1

г=1

где 11, к, 1 - множители Лагранжа.

Е1 = 1,0 <1 < С, I = 1,..., N,

(2)

Рис. 1. Сферическая модель описания данных

Для описания всей обучающей совокупности Д. Тэкс предлагает использовать только опорные объекты, лежащие на границе гиперсферы, т.е. объекты, для которых множители Лагранжа е (0, С), I = 1, ..., N.

Новый объект г считается принадлежащим классу интереса, когда расстояние от него до центра гиперсферы меньше или равно ее радиусу. Таким образом, функция

одноклассового решающего правила распознавания й(г ;Я2,1Х,...,'kN) будет иметь вид индикаторной функции:

' " ' (3)

(4)

(5)

й(г) = I(||г - а||2 < Я2),

N„7 N„

¡г -а 2=(г • г) -2 е 1 (г •х)+ЕЕ11 у (х ■х у),

1=1 1=1 /=1

N1,

1=1 /=1

N.1, N1,

Я2 = (х* • х*) - 2 Е1. (х* • х.) + ЕЕ 11 / (х. • х/),

г=1 1=1 /=1

где - количество опорных объектов; х* - любой опорный объект.

Для возможности описания данных более «гибкой формой», нежели сфера, Д. Тэкс использовал идею метода потенциальных функций, предложенную В. Вапником, для перехода в спрямляющее пространство признаков большей размерности. Наиболее часто используемыми потенциальными функциями являются полиномиальная:

К(х., х/) = (1 + х. • х/)' и радиальная базисная функция Гаусса

К (х., х /) = ехр (-у

Таким образом, чтобы получить улучшенную модель описания данных по ме тоду Тэкса, необходимо заменить в (2), (4) и (5) операцию вычисления скалярного про изведения двух векторов вычислением значения потенциальной функции двух аргу ментов.

х - х

(6)

Применение потенциальных функций, позволяет использовать метод од-ноклассовой классификации и в задачах беспризнакового распознавания образов [17,18], в которых явно не доступен вектор признаков объектов, но определена функция парного отношения между объектами.

Позднее в работе [19] предлагались другие постановки, которые отличаются использованием штрафов на расстояния от объектов, расположенных во внешней области гиперсферы до ее границы:

N

R + CУ 5 ® _ min

^ ' R ,aA,..,6N

x,.

- а < R + 5,, 5> о, i = 1,

N

R + с У 5?

_ min

R ,a,51,.,5N

x.

- a < R + 5 , 5, > 0, i = 1,

, N,

, N,

(7)

(8)

где R = R2. К сожалению, готовых программных реализаций оптимизационных процедур для критериев (7) и (8) найти не удалось.

Еще одной постановкой задачи одноклассовой классификации является метод одноклассового SVM (One-class SVM) [14], который стремится к построению границы, обеспечивающей максимальный зазор между объектами обучающей совокупности и нулевой точкой признакового пространства. Критерий One-class SVM имеет следующий вид:

1 2 ^

—||w|| + CУ 52 - b ® min , _

« 211 11 t! ' wASi,...,5w (9)

(w -Ф(хг)) > b + 5г, 5г > 0, i = 1.....N,

где w и b - параметры гиперплоскости, обеспечивающей максимальный зазор между данными целевого класса и началом координат, Ф(-) - отображение пространства признаков в спрямляющее гильбертово пространство.

Главной проблемой описываемых выше формулировок задачи одноклассовой классификации является серьезное допущение в их математической постановке, связанное со стратегией штрафования нетипичных объектов.

Исходная постановка задачи не является геометрически верной, т.к. величина штрафа допустимого выхода объектов обучающей выборки за пределы описывающей гиперсферы является несоизмеримой с расстоянием до её центра в оптимизационной задаче. Приведенные далее в работе экспериментальные исследования показали, что это не существенно влияет на качество работы метода в случае отсутствия аномалий в обучающей выборке и позволяет сильно упростить решение исходной задачи, но в случае наличия нетипичных объектов в обучающей совокупности качество работы метода сильно ухудшается.

Модифицированный критерий описания данных опорными векторами. В

данной работе, чтобы решить проблему, связанную с наличием нетипичных объектов в обучающей выборке, мы предлагаем модифицировать постановку задачи одноклассо-вой классификации (1) и ее решающее правило (3) следующим образом:

N

R + C У 5® min ,

j! i RM-->Sn p(xi,a)<R + 5i, 5i >0, i = 1,...: d (z ) = I (p( Xi, a) < R), где p(xi, a) - мера расстояния между двумя объектами в Rn.

N,

(10)

max

Можно показать, что требование неотрицательности R в данной постановке является избыточным и может быть опущено.

Теорема 1. Критерий (10) полностью эквивалентен следующему критерию без ограничений:

N

R + C £ max (0, р( хг, a)-Rmin. (12)

i=1 ,a

Доказательство. Пусть задача (10) решена, и (R,a,81,...,8N) - ее решение. В соответствие с (10) возможны два случая:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Если р(х.,a) <R, то 8. = 0;

2. Если р(хг,a) >R, то 8. =р(хг,a)-R.

Таким образом, 8. = max 0, (р (х.,a) — R) , и это равенство можно рассматривать как дополнительное ограничение в задаче (10):

8. = max 0, (р(х., a) — R)l i = 1,..., N. (13)

В таком случае задача (10) примет следующий вид:

N

R + C£ max [0, (р( х., a) — R) ® min(R, a),

i=1 (14)

р(х.,a) < R + max[ 0, (р(х.,a) — R)], i = 1,...,N.

Покажем, что ограничения-неравенства выполняются всегда при условии (13). Действительно, если выполняется условие р( х., a )< R, 8 = 0, то

0, (р(х..,a) — R) = 0, и ограничение-неравенство для критерия (14) выполняется всегда. Если же выполняется условие р(х..,a)> R, 8. =р(х..,a) — R, то max 0, (р(х.,a) — R) = =р(х..,a) — R, то ограничение-неравенство эквивалентно неравенству р( х.., a )< R + р( х.., a) — R, которое является тождеством.

Таким образом, в критерии (14) ограничение-неравенство является избыточным, и мы получаем критерий (12). Теорема доказана.

Приведенные в следующем разделе экспериментальные результаты показывают преимущество предлагаемой постановки (10) по сравнению со стандартным критерием (1) при наличии нетипичных объектов в обучающей выборке.

Экспериментальные исследования предлагаемой постановки задачи од-ноклассовой классификации. Для экспериментальных исследований был сгенерирован модельный набор данных на плоскости (рис. 2), позволяющий исследовать свойства критериев при линейной потенциальной функции. Набор представляет собой совокупность объектов, моделирующих форму круга. В отличие от наборов данных, традиционно используемых для демонстрации работы детекторов аномалий, в которых нетипичные объекты как правило равномерно расположены вокруг основной совокупности [20], что не позволяет оценить смещение решающего правила, в наших наборах нетипичные объекты моделируют случайный выброс в одном направлении.

Кроме того, в реальных задачах количество объектов обучающей выборки как правило достаточно мало по сравнению с размерностью признакового представления данных. В связи с этим, модельные данные на рис. 2, а, содержат избыточное количество объектов.

Применяемые в данной работе наборы данных содержат 20 объектов, из которых два нетипичных.

В качестве реализации метода SVDD, использующего критерий (1), была использована библиотека LIBSVM [21], в дополнение исследования проводились и для метода One-class SVM (критерий (9)), который эквивалентен (1) при использовании радиальной базисной функции Гаусса (RBF). Эксперименты с One-class SVM для имитации линейной потенциальной функции проводились при малом значении параметра g =0.001 в (6). Полученные результаты показали, что данного значения достаточно для приемлемой точности совпадения результатов обучения.

а б

Рис. 2. Экспериментальные наборы данных с нетипичными объектами: а — стандартный набор из [20]; б — набор данных, моделирующих форму круга

Для количественной оценки устойчивости классификаторов к наличию нетипичных объектов в обучающей выборке предложен метод, основанный на вычислении меры Жаккара [22]

& П &

J S, St) =

(15)

S0 и St

между областью, ограниченной решающим правилом при обучении с нетипичными объектами So и без них St. Чем больше значение данной меры, тем меньше проявляется влияние аномалий на решающее правило. При значении равном единице области принятия решений о принадлежности объектов к целевому классу полностью совпадают.

Для оптимизации предложенного в данной работе критерия (12) использовался полный перебор по сетке параметров. Результаты экспериментов представлены на рис. 3. Значения варьируемого параметра «С», характеризующего штраф на выход объектов за пределы гиперсферы минимального радиуса, и количественная оценка качества классификатора «J» в виде меры Жаккара показаны на рис. 3 для каждого эксперимента.

Результаты обучения для SVDD и One-class SVM показывают, что влияние нетипичных объектов не позволяет сформировать устойчивое решающее правило путем подбора параметра штрафа C. При малых значениях параметра смещение, возникающее из-за требования минимизации квадрата радиуса гиперсферы, оставляет часть целевых объектов за пределами границы принятия положительного решения. При увеличении параметра C , происходит чрезмерное увеличение радиуса гиперсферы вместе со смещением ее центра в сторону нетипичных объектов. Решение задачи на основе предлагаемого критерия (12) напротив демонстрирует устойчивость границы целевого класса и смещение центра гиперсферы с увеличением ее радиуса возникает при достаточно больших значениях C .

При значении параметра C = 0.18 и использовании в качестве классификатора предлагаемой в работе постановки (12) получено максимальное совпадение областей при отсутствии нетипичных объектов и их наличии, значение меры Жаккара в этом

случае получено равным 0.762. Лучшее решение, полученное традиционными методами, обеспечило значение этой меры на уровне 0.536 (С = 0.10). Как можно видеть на рис. 3, такое решение неудовлетворительно, поскольку достаточно большое количество объектов находится вне зоны принятия решения о целевом классе.

С=0.10 ]=0.629

C=0.14 J=0.740

С=0.18 ]=0.762

С=0.22 J=0.594

С=0.26 J=0.208

С=0.10 J=0.532

С=0.14 ]=0.485

С=0.18 ]=0.362

С=0.22 ]=0.260

С=0.26 J=0.208

С=0.10 ]=0.536

С=0.14 ]=0.497

С=0.18 ]=0.369

С=0.22 ]=0.263

С=0.26 J=0.211

a б в

Рис. 3. Результаты обучения одноклассовых классификаторов при линейной потенциальной функции: a - предлагаемый в данной работе критерий (12);

б - SVDD; в) One-class SVM

Заключение. В данной работе описана новая постановка задачи одноклассовой классификации, позволяющая устранить геометрические несоответствия штрафов на выход объектов обучающей выборки за пределы описывающей гиперсферы и расстояние до её центра. Предложен критерий оптимизации и его эквивалентная форма. В ре-

зультате удалось получить более устойчивое решающее правило по отношению к наличию аномальных объектов, чем при традиционных постановках, что подтверждается результатами модельных экспериментов. Для количественной оценки устойчивости классификаторов к наличию нетипичных объектов в обучающей выборке предложен метод, основанный на вычислении меры Жаккара между областями принятия решения в пользу целевого класса при наличии и отсутствии нетипичных объектов.

Работа поддержана грантами РФФИ № 18-07-00942, 20-07-00441.

Список литературы

1. Moya M.M., Koch M.W., Hostetler L.D. One-Class Classifier Networks for Target Recognition Applications // Proc. WCNN'93, World Congress on Neural Networks. 1993. Vol. III. P. 797-801.

2. Bekker J., Davis J. Learning from positive and unlabeled data: a survey // Machine Learning. Springer US, 2020. Vol. 109. № 4. P. 719-760 p.

3. Xu D. et al. Learning Deep Representations of Appearance and Motion for Anomalous Event Detection // Procedings of the British Machine Vision Conference 2015. British Machine Vision Association, 2015. P. 8.1-8.12.

4. Chandola V., Banerjee A., Kumar V. Anomaly Detection: A Survey // ACM Comput. Surv. 2009. Vol. 41. № 3. P. 1-58.

5. Larin A. et al. Parametric Representation of Objects in Color Space Using One-Class Classifiers // Machine Learning and Data Mining in Pattern Recognition: 10th International Conference, MLDM 2014, St. Petersburg, Russia, July 21-24, 2014. Proceedings / ed. Perner P. Cham: Springer International Publishing, 2014. Vol. 8556 LNAI. P. 300314.

6. Shi L.-F.F. et al. Removing haze particles from single image via exponential inference with support vector data description // IEEE Trans. Multimed. 2018. Vol. 20, № 9. P. 2503-2512.

7. Kopylov A. et al. Background-invariant robust hand detection based on probabilistic one-class color segmentation and skeleton matching // ICPRAM 2018 -Proceedings of the 7th International Conference on Pattern Recognition Applications and Methods. SCITEPRESS - Science and Technology Publications, 2018. Vol. 2018-Janua. P. 503-510.

8. Khan S.S., Hoey J. Review of fall detection techniques: A data availability perspective // Med. Eng. Phys. Elsevier Ltd, 2017. Vol. 39. P. 12-22.

9. Tarassenko L. et al. Novelty detection for the identification of masses in mammograms // IEE Conference Publication. IEE, 1995. № 409. P. 442-447.

10. Дуда Р.О., Харт П.Е. Распознавание образов и анализ сцен. Москва: Наука, 1976. 507 c.

11. Parzen E. On Estimation of a Probability Density Function and Mode // Ann. Math. Stat. 1962. Vol. 33. № 3. P. 1065-1076.

12. Juszczak P. et al. Minimum spanning tree based one-class classifier // Neurocomputing. 2009. Vol. 72, № 7-9. P. 1859-1869.

13. Vapnik V.N. Statistical Learning Theory // Interpreting / ed. Haykin S. Wiley-Interscience, 1998. Vol. 2. № 4. 736 p.

14. Schölkopf B. et al. Estimating the support of a high-dimensional distribution. // Neural Comput. MIT Press 238 Main St., Suite 500, Cambridge, MA 02142-1046 USA journals-info@mit.edu, 2001. Vol. 13, № 7. P. 1443-1471.

15. Tax D.M.J. One-class classification. Concept-learning in the absence of counterexamples. Delft University of Technology, 2001. 202 p.

16. Gornitz N. et al. Support Vector Data Descriptions and k-Means Clustering: One Class? // IEEE Trans. Neural Networks Learn. Syst. 2018. Vol. 29, № 9. P. 3994-4006.

17. Середин О.С. Линейные методы распознавания образов на множествах объектов произвольной природы, представленных попарными сравнениями. Общий случай // Известия Тульского государственного университета. Естественные науки, 2012. Вып. 1. Ч. 1. P. 141-152.

18. Абрамов В.И., Середин О.С., Моттль В.В. Обучение распознаванию образов в евклидовых метрических пространствах по методу опорных объектов // Известия Тульского государственного университета. Естественные науки, 2013. Вып. 2. Ч. 1. P. 119-136.

19. Chang W., Lee C., Lin C. A Revisit to Support Vector Data Description (SVDD) // W.Csie.Org. 2013. № 1. P. 1-20.

20. Gramfort A., Thomas A. Comparing anomaly detection algorithms for outlier detection on toy datasets // Scikit-learn 0.20.3 documentation. 2019. P. 2-5.

21. Chang C.C., Lin C.J. LIBSVM: A Library for support vector machines // ACM Trans. Intell. Syst. Technol. 2011. Vol. 2. № 3. P. 1-27.

22. Jaccard P. Etude comparative de la distribution florale dans une portion des Alpes et des Jura // Bull Soc Vaudoise Sci Nat. 1901. Vol. 37. P. 547-579.

Ларин Александр Олегович, ассистент, ekzehoxagmail.com, Россия, Тула, Тульский государственный университет,

Середин Олег Сергеевич, канд. физ.-мат. наук, доцент, oseredin@yandex. ru, Россия, Тула, Тульский государственный университет,

Копылов Андрей Валериевич, канд. техн. наук, доцент, and.kopylov@gmail.com, Россия, Тула, Тульский государственный университет

MODIFIED CRITERION FOR DESCRIPTION OF DATA WITH A HYPERSPHERE TAKING

INTO ACCOUNT OUTLIERS

A.O. Latin, O.S. Seredin, A.V. Kopylov

In this paper, we propose a modified version of the description of data hy a hy-persphere in a rectifying space based on the one-class classifier of D. Tаx. An advantage of the proposed machine learning criterion is the correct accounting for the influence of outliers on the f.nal dec.s.on rule.

Key words: machme learnmg, one-class classification, support vector data description, anomaly detection, outliers.

Larin Aleksandr Olegovych, assistant, ekzehoxagmail. com, Russia, Tula, Tula State University,

Seredin Oleg Sergeevich, candidate of physics and mathematical science, docent, oseredin'a yandex. ru, Russia, Tula, Tula State University,

Kopylov Andrey Valerievich, candidate of technical science, docent, and.kopylovagmail.com, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.