Научная статья на тему 'Проблема выбора ядра в одноклассовом методе опорных векторов'

Проблема выбора ядра в одноклассовом методе опорных векторов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
505
59
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ / CLASSIFICATION / МЕТОД ОПОРНЫХ ВЕКТОРОВ / ЯДРО / KERNEL / ЭНТРОПИЯ / ENTROPY / SVM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Будынков Алексей Николаевич, Масолкин Станислав Ильич

Рассмотрен вариант одноклассового метода опорных векторов, который применяется в случаях, когда недоступен достаточный объем данных для классификации аномальных режимов работы технических объектов. Исследованы три процедуры оценки параметра специальной функции, называемой ядром, две из которых известны: функция перекрестной проверки и функция максимума дисперсии, а третья предложена авторами как модификация последней процедуры, когда минимизируется функционал энтропии для матрицы ядра. Показано, что предложенная процедура позволяет получить сравнимое с первой качество классификации без учёта числа выбросов в обучающей последовательности и обеспечить меньшее значение параметра ядра.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Будынков Алексей Николаевич, Масолкин Станислав Ильич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article presents a review of one-class support vector machine (1-SVM) used when there is not enough data for abnormal technological object’s behavior detection. Investigated are three procedures of the SVM’s kernel parameter evaluation. Two of them are known in literature as the cross validation method and the maximum dispersion method, and the third one is an author-suggested modification of the maximum dispersion method, minimizing the kernel matrix’s entropy. It is shown that for classification without counting training data set ejections the suggested procedure provides the classification’s quality equal to the first one, and with less value of the kernel parameter.

Текст научной работы на тему «Проблема выбора ядра в одноклассовом методе опорных векторов»

И нформационные технологии в управлении

УДК 621.039:681.5

ПРОБЛЕМА ВЫБОРА ЯДРА В ОДНОКЛАССОВОМ МЕТОДЕ ОПОРНЫХ ВЕКТОРОВ

А.Н. Будынков, С.И. Масолкин

Рассмотрен вариант одноклассового метода опорных векторов, который применяется в случаях, когда недоступен достаточный объем данных для классификации аномальных режимов работы технических объектов. Исследованы три процедуры оценки параметра специальной функции, называемой ядром, две из которых известны: функция перекрестной проверки и функция максимума дисперсии, а третья предложена авторами как модификация последней процедуры, когда минимизируется функционал энтропии для матрицы ядра. Показано, что предложенная процедура позволяет получить сравнимое с первой качество классификации без учета числа выбросов в обучающей последовательности и обеспечить меньшее значение параметра ядра.

Ключевые слова: классификация, метод опорных векторов, ядро, энтропия.

ВВЕДЕНИЕ

Для многих современных технических объектов, например, авиационных двигателей, актуальна проблема оценки их состояния и выявление аномалий в работе. В большинстве случаев достаточно факта обнаружения аномальности, вне зависимости от причины, что позволяет избежать разрушения объекта и сохранить его для анализа причины аномального поведения. Оценка состояния объекта всегда основана на сравнении текущего состояния объекта с эталонным, установленным по некоторой модели. При испытании опытных образцов и уникальных объектов прямое представление знаний об объекте испытаний в виде формальной модели или экспертных заключений не всегда возможно. Препятствиями могут быть сложность и недостаточная изученность объекта испытаний, недоступность информации о его конфигурации и технических характеристиках в силу ее конфиденциальности. В таких случаях применяют информационно-ориентированные методы, с помощью которых синтезируют модель на основе данных, собранных в процессе эталонной работы и используемых в качестве обучающей последовательности, на которой и строится модель, служащая для проведения диагностики объекта в про-

цессе его функционирования. Обзор и анализ таких алгоритмов можно найти в работах [1—4] и др.

В настоящей работе рассмотрен вариант метода опорных векторов (support vector machine — SVM) [1], который применяется, когда не доступен достаточный объем данных для классификации аномальных режимов работы. Для построения модели поведения используется обучающая последовательность, большинство точек из которой полагаются нормальными, за исключением некоторого числа точек, называемых выбросами (в случае одноклассового метода опорных векторов 1-SVM).

Характерная черта метода 1-SVM состоит в применении специальной функции, называемой ядром, для преобразования обучающей последовательности данных из исходного пространства в более многомерное или, возможно, бесконечномерное пространство признаков и построения линейной модели (разделяющей гиперплоскости) в этом пространстве признаков, что позволяет практически всем нормальным данным находиться с одной стороны гиперплоскости и быть отделенными от аномальных данных, если такие имеются. Метод 1-SVM чувствителен как к выбору ядра, используемого при построении классификатора в случае, если ядро каким-то образом уже известно, так и к выбору параметров функции ядра, если функция задана с точностью до параметра. Выбор ядра зависит от входных данных и знания доли выбросов

в обучающей последовательности. В работе рассмотрены аспекты выбора ядра, исследуются три конкретные процедуры по выбору параметров. Процедуры были верифицированы на тестовых данных, традиционно используемых для оценки качества классификации, а также на отрезке реальных данных, полученных с объекта испытаний. Алгоритм метода опорных векторов реализован с использованием библиотеки [5], которая уже ранее применялась для решения аналогичной задачи диагностики сложных экспериментальных объектов [6, 7].

1. ОДНОКЛАССОВЫИ МЕТОД ОПОРНЫХ ВЕКТОРОВ

Рис. 1. Геометрическая иллюстрация метода Х-ЗУЫ

Пусть обучающая последовательность имеет вид: {(хр у^, (х,, у.), ..., (х;, у;)}, где векторы х. е Яп и у. — метка, которая принимает значение 1 или —1 в зависимости от того, принадлежит или нет точка классу.

Основная задача заключается в построении классификатора Яп ^ Я, сопоставляющего класс у произвольному вектору х (задача таксономии).

Решение задачи сводится к оптимизации функционала [8]:

шт

(1 т I

1 юТю - р + С X ^

2 I = 1

(1)

при условии ю ф(х;) > р — где ю — обобщенный портрет, > 0 веса, характеризующие значение ошибки для {х1, ..., хг, ..., х;}, I — число точек в обучающей последовательности, С — константа регуляризации, обычно С = 1/у/, где V — максимальная доля точек в обучающей последовательности, которые могут быть выбросами [9], ф(х;):

Яп ^ Ят — функция отображения вектора х, в расширенное пространство Ят, где обеспечивается линейная разделимость классов, р — параметр метода. На рис. 1 приведена графическая иллюстрация метода. Светлыми точками показаны векторы в обучающей последовательности, не использованные при построении разделяющей плоскости; темные точки означают опорные векторы; звездочками обозначены векторы в обучающей последовательности, которые классифицировались как выбросы, не принадлежащие классу. Величина р/||ю|| определяет расстояние по нормали ю/||ю|| от точки начала отсчета О, которая для метода 1-SVM является единственной точкой изначально не принадлежащей классу, до разделительной гиперплоскости ©.

Соответствующая задаче (1) двойственная задача оптимизации имеет вид:

(1 т шт I - а0 а

а 12

(2)

где 0 — положительно определенная центро-

симметричная матрица ядра с элементами 0. . =

1

т

= К(х., х.) = ф(х.) ф(х.), а. — множители Лагранжа,

^ } I } I

1 1

К(х,, х.) — ядро, при условии X а,- = 1, и 0 < а,- < —,. 1 I = 1 VI

Методу 1-SVM соответствует решающее правило:

( 1

?(х*, а) = 8§п X а,К(х*, х,) -1

I, = 1

2. ПОСТАНОВКА ЗАДАЧИ ВЫБОРА ЯДРА И ЕГО ПАРАМЕТРА

От выбора ядра К(х,, х.) существенно зависит результат классификации. Существует множество процедур выбора ядра, все они основаны на некоторых эмпирических предпосылках, что приводит к субъективному характеру получаемых результатов, следовательно, имеется трудность в выборе ядра для метода 1-SVM. Нами поставлены задачи отбора и валидации методов выбора ядра.

В работе [10] введено понятие выравнивания ядра как меры сходства между двумя ядрами или между ядром и целевой функцией, которая может быть использована для выбора ядра.

Выравнивание между ядрами К1 и К2 определяется как косинус угла между центросимметричны-ми матрицами ядра О1 и 02:

¿(*1, Кг) :=

_ < 01, 02>

№ 021 /

(3)

El Oi Bi AOEi i i UA 6A6i i Ё1 AEE A 01 ВААЁА EE

где (Qv Q2)p := £ К\(х, x.)K2(x., x.) и

i, j = 1

1/2

!!О!!в := (О, О)в скалярное произведение и норма Фробениуса соответственно. Выравнивание (3) может быть использовано как для сравнения ядер, так и для выбора оптимальных параметров для заданного ядра [11].

Обычно в качестве матрицы О2 используется

т

идеальная матрица ядра О2 = уу , где вектор меток

{у, }, = х имеет значение из множества У = {—1, 1}. Тогда выравнивание измеряет степень пригодности ядра для классификации образцов {х,, у1}1 = х. Фактически при выборе ядра стремятся обеспечить

условие К(х, Xj) I > К(х, Xj) I . Однако дан-у1 = у) у1ф у) ная процедура мало пригодна для метода 1-8"УМ, где в наличии имеется только обучающая последовательность, принадлежащая одному классу. Несколько облегчает ситуацию то, что в большинстве случаев [5] можно ограничиться в качестве ядра радиальной базисной функцией Гаусса (RBF)

K(Xi, xj) = e

_ X- j

(4)

где у — параметр ядра. Функция (4) широко применяется для классификации методом опорных векторов и имеет ряд преимуществ [12], но даже если зафиксировать вид функции, тогда остается проблема выбора параметра ядра у. В работе [13] отмечено, что большие значения у приводят к переобучению, т. е. классификатор теряет способность распознавать образцы за пределами обучающей последовательности. Малые значения у препятствуют способности классификатора обнаруживать образцы, не принадлежащие классу, так как ядро постепенно сводится к постоянной функции. В работе [14] показано, что если параметр у велик и К(1, у) ^ 0, I ^ у, то оптимальным решением а в задаче оптимизации (2) служит а,. = 1/1, и значение целевой функции будет равно 1/1. Если же у слишком мало и К(1, у) ^ 1, то оптимальное решение для задачи (2) принадлежит всему допустимому множеству для а, а значение целевой функции будет стремиться к единице. Выбор у существенно влияет на положение решения в границах [1/1, 1].

3. МЕТОДЫ ВЫБОРА ПАРАМЕТРА ЯДРА

Первым из рассмотренных методов выбора параметра у для ядра был метод перекрестной проверки. Для выбора значения параметра у может

быть применена оптимизационная процедура перекрестной проверки [15], когда исходная обучающая последовательность разбивается на несколько выборок меньшего размера, которые используются для обучения и контрольной классификации. Оптимизация проводится для фиксированного набора значений у и выбирается наименьшее у такое, что назначенная доля v точек классифицируется как выбросы.

Данная процедура была успешно применена, однако она, очевидно, чувствительна к параметру v. Доля выбросов параметра v не всегда может быть оценена, исходя из условий эксперимента, в частности, это затруднительно для данных, представляющих собой параметры, меняющиеся во времени, когда каждый вектор xi является временным срезом диагностируемого процесса.

Далее был рассмотрен метод максимума дисперсии. Для случая, когда ядро задано в виде RBF и значение v не известно, в работе [14] предложена другая процедура выбора параметра у. В качестве индикатора оптимальности выбора параметра у

служит значение выборочной дисперсии s2 недиагональных элементов ядра K(i, j)\i ^ j для матрицы

Q, нормированной на среднее значение Q . Оптимальным считается ядро, при котором достигается

max s2/Q. Этот подход использует преимущество

Y

поведения метода 1-SVM с ядром в виде RBF.

Было показано, что для ядер с большей выборочной дисперсией получаются лучшие результаты по классификации. Можно предположить, что результаты являются следствием того, что вектору а с большим числом нулевых элементов (более разреженному), который отвечает матрице ядра Q с большей выборочной дисперсией, соответствует меньшее число точек обучающей последовательности, отобранных в качестве опорных векторов, что, как следствие, улучшает качество классификации.

Наконец, был рассмотрен метод максимума энтропии. В дополнение к процедуре [14] предложена эвристическая процедура, основанная на сходных предпосылках о необходимости обеспечения разреженности вектора а. В качестве меры рассеяния матрицы ядра Q используется энтропия функции ядра H = — hp. log2p. [16], и решается задача оптимизации:

max E.

Y

(5)

Решение задачи (5) для у существует и единственно, так как О — положительно определенная матрица и Е — выпуклая функция.

4. ЭКСПЕРИМЕНТЫ: РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Некоторые результаты моделирования приведены на рис. 2 и 3 для трех процедур: 1 — перекрестной проверки, 2 — максимума дисперсии и 3 — максимума энтропии. Расчеты проводились с использованием библиотеки опорных векторов [5]. В табл. 1 приведены данные по тестовым примерам, использованным при моделировании. Данные тесты часто применяются для сравнения классификаторов.

Моделирование проводилось для двух случаев: первый — когда доля выбросов V в обучающей последовательности известна; второй — когда доля выбросов не известна и задается произвольно, часто ее значение

V = 1/и

(6)

устанавливается по умолчанию [5].

Качество классификации для сравнения процедур рассчитывалось по формулам:

асс =

а + й

а + Ь + с + й

ай

(а + Ь)(с + й)

100 %,

100 %,

(7)

(8)

где а, Ь, с и й — элементы матрицы ошибок (табл. 2).

Таблица 1

Параметры тестовых примеров

Номер примера Источник Объем данных Размерность вектора данных (и)

1 [17] 580 2

2 [18] 862 2

Таблица 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Элементы матрицы ошибок

Действительное значение Результат классификации

Образец не принадлежит классу Образец принадлежит классу

Образец не принадлежит а Ь

классу

Образец принадлежит с d

классу

Рис. 2. Зависимость качества классификации от доли выбросов в обучающей последовательности. Пример 1: а — при известном V; б — при фиксированном V = 1/и

Рис. 3. Зависимость качества классификации от доли выбросов в обучающей последовательности: а — при известном V (пример 2); б — при фиксированном V = 1/и (пример 1)

Формула (7) традиционно применяется для расчета качества классификации, но ее недостаток в том, что при существенном дисбалансе числа принадлежащих и не принадлежащих классу образцов (выбросов) результат расчета по ней имеет тенденцию сдвигать оценку качества классификации в сторону классификатора, наиболее точно классифицирующего наибольшую часть массива тестовых векторов. Для тестовых примеров со значительным дисбалансом лучше использовать для оценки качества классификации формулу геометрического среднего (8) [19]. В тестовых примерах доля принадлежащих и не принадлежащих классу образцов варьировалась в широких пределах (0,01—0,8), поэтому нами приведено сравнение качества классификации по двум формулам.

На рис. 2 и 3 приведена зависимость качества классификации для примеров (табл. 1 примеры 1 и 2 соответственно). Для рис. 2, а и 3, а доля выбросов V в обучающей последовательности считалась известной, для рис. 2, б и 3, б параметр V считался неизвестным и задавался по формуле (6). Обозначения кривых на рис. 2 и 3 приведены в табл. 3.

Проведенное тестирование позволяет сделать только качественные выводы по оценке классификации, что закономерно, если учитывать разнообразие тестовых примеров. Выводы сохраняют свое значение для большинства примеров, с которыми мы работали, но не представленные в статье.

Когда доля выбросов V в обучающей последовательности известна (см. рис. 2, а и 3, а), процедуры 1 и 3 обеспечивали сравнимое качество классификации по формуле (7) (в среднем более 60 %), и в процедуре 3 достигалась несколько лучшая оценка по формуле (8). В тестовых примерах, как для случая известного V (см. рис. 2, а и 3, а), так и для случая фиксированного V (см. рис. 2, б и 3, б)

Таблица 3

Обозначения на рис.2 и 3

наблюдалось спорадически проявляющееся резкое изменение качества классификации при незначительном изменении числа выбросов в обучающей последовательности, это характерно для процедуры 2 и в меньшей степени для процедуры 1.

Для фиксированного V (см. рис. 2, б и 3, б), очевидно ухудшение качества классификации для всех процедур оценки, особенно это заметно для оценки по формуле (8) из-за неточного выбора константы регуляризации С для процедур 1—3 и дополнительно параметра у для процедуры 1. Процедура 3, на наш взгляд здесь более предпочтительна из-за относительной стабильности качества классификации при изменении тестовой последовательности, при несколько лучшем в среднем качестве классификации по сравнению с процедурой 1. Процедура 2 показывает значительный разброс точности классификации. Оценка у процедуры 2 имела тенденцию к переобучению (большие значения параметра у), процедура 3 наоборот, обеспечивала меньшее значение параметра у.

ЗАКЛЮЧЕНИЕ

Метод опорных векторов показал свою практическую пригодность для оценки состояния объекта и обнаружения изменения характера процесса. Однако он чувствителен как к выбору ядра, так и к выбору его параметров. Во многих практических случаях можно использовать в качестве ядра радиальную базисную функцию Гаусса, однако остается проблема выбора параметров ядра.

Нами исследовались три процедуры оценки параметра, две процедуры известные по литературе: перекрестной проверки; максимума дисперсии и также предложенная нами модификация последней процедуры, когда минимизировался функционал энтропии матрицы ядра.

Проведены эксперименты как на модельных данных, так и данных реальных объектов (использовались записи параметров авиационных двигателей), которые укладываются в следующую картину. Качество классификации зависит от возможности оценить значение доли выбросов в обучающей последовательности и, если это возможно, то все процедуры обеспечивали хорошее качество классификации. Однако для процедуры 2 и в меньшей степени для процедуры 1 характерно резкое изменение качества классификации при незначительном изменении входных параметров, процедура 3 в этом свете предпочтительнее благодаря стабильности качества классификации при изменении доли выбросов в обучающей последовательности.

Обозначение Формула для расчета Процедура

gCros 1

gVar (8) 2

gEnt 3

accCrosVar 1

ас^аг (7) 2

ассЕП; 3

Если нет возможности оценить долю выбросов в обучающей последовательности, то при сохранении общих соотношений для исследуемых процедур качество классификации ухудшается, особенно это заметно для оценки качества, рассчитанного как геометрическое среднее и отражающее баланс ошибок в классификации как выбросов, так и данных принадлежащих классу.

Оценка по максимуму дисперсии имела тенденцию к переобучению, процедура оценки по максимуму энтропии, наоборот, обеспечивала меньшее значение параметра ядра RBF и была более близкой по качеству классификации к процедуре перекрестной проверки.

ЛИТЕРАТУРА

1. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. — М.: Наука, 1974.

2. Chandola V., Banerjee A., Kumar V. Anomaly Detection: A Survey // ACM Computing Surveys. — 2009. — Vol. 41, iss. 3.

3. Markou M., Singh S. Novelty Detection: A Review. Part 1: Statistical Approaches // Signal Processing. — 2003. — Vol. 83. — P. 2481—2497. doi: 10.1016/j.sigpro.2003.07.018.

4. Markou M., Singh S. Novelty Detection: A Review. Part 2: Neural Network Based Approaches // Signal Processing. — 2003. — Vol. 83. — P. 2499—2521.

5. Chang C., Lin C. LIBSVM: a Library for Support Vector Machines. — URL: https://www.csie.ntu.edu.tw/~cjlin/libsvm/ (дата обращения 26.10.2015).

6. Iverson D., Martin R, Schwabacher M, et al. General Purpose Data-Driven System Monitoring for Space Operations // AIAA Infotech@Aerospace Conference, AIAA, Washington, DC, 2009, AIAA paper 2009-1909.

7. Schwabacher Mark, Oza Nikunj, Matthews Bryan. Journal of Aerospace Computing, Information, and Communication. — July 2009. — Vol. 6. Unsupervised Anomaly Detection for Liquid-Fueled Rocket Propulsion Health Monitoring.

8. Scholkopf B., Smola A.J. Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. — Cambridge: MIT Press, 2002.

9. Scholkopf B., Smola A., Williamson R.C., Bartlett P.L. New support vector algorithms. — URL: http://www.stat.purdue.

edu/~yuzhu/stat598m3/Papers/NewSVM.pdf (дата обращения 02.09.2015).

10. Cristianini N, Shawe-Taylor J., Elissee A, Kandola J. On kernel-target alignment / In Dietterich, T.G., Becker, S., and Ghahramani, Z., eds, Advances in Neural Information Processing Systems 14. MIT Press, 2002.

11. Gert R.G., Lanckriet Nello Cristianini, Peter Bartlett, et. al. // Journal of Machine Learning Research — 2004. —Vol. 5. — P. 27—72.

12. Lin H.-T, Lin. C.-J. A study on sigmoid kernels for SVM and the training of non-PSD kernels by SMO-type methods // Technical report, Department of Computer Science, National Taiwan University, 2003.

13. Shawe T.J, Nello C.N. Kernel Methods for Pattern Analysis // Cambridge University Press, 2004.

14. Evangelistal P.F., Embrechts M.J., Szymanski B.K. Proceedings International conference on Artifical Neural; Networks ICANN07 / Portugal /, lecture notes in Computer Sciences — September 2007. — Springer, Germany. — Vol. 466. — Part 1. — P. 269—278.

15. Runarsson R.T., Unnthorsson R., Johnson T.M. Model Selection in One Class Nu-SVMS using RBF Kernels // 16th Conference on Condition Monitoring and Diagnostic Engineering Management, 2003.

16. Smylie D., Clarke G, Ulrych T. Analysis of irregularities in the Erath's rotation. Methods in Computational Physics. R. Alder, et. al. Academic Press Inc., N.-Y., 1973. — Vol. 13. — P. 391—430.

17. Chessboard. — URL: http://pages.cs.wisc.edu/~olvi/data/ check1.txt (дата обращения 26.10.2015).

18. URL: http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/ binary.html#fourclass (дата обращения 23.10.2015).

19. Kubat M, Holte R., Matwin S. Learning when Negative Example Abound // Proc. of the 9-th Europen Conference on Machine Learning, ECML 97, Prague, 1997.

Статья представлена к публикации членом редколлегии

А.И. Михальским.

Будынков Алексей Николаевич — инженер-программист,

Н [email protected],

Масолкин Станислав Ильич — научный сотрудник,

Н [email protected],

Институт проблем управления им. В.А. Трапезникова РАН,

г. Москва.

Не забудьте подписаться!

Подписку на журнал «Проблемы управления» можно оформить в любом почтовом отделении (подписной индекс 81708 в каталоге Роспечати или 38006 в объединенном каталоге «Пресса России»), а также через редакцию с любого месяца, при этом почтовые расходы редакция берет на себя. Отдельные номера редакция высылает по первому требованию.

W

i Надоели баннеры? Вы всегда можете отключить рекламу.