Научная статья на тему 'Алгоритм стохастического усредненного градиента на базе агрегирующих функции'

Алгоритм стохастического усредненного градиента на базе агрегирующих функции Текст научной статьи по специальности «Математика»

CC BY
423
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭМПИРИЧЕСКИЙ РИСК / ЗАДАЧА КЛАССИФИКАЦИИ / УСРЕДНЯЮЩАЯ АГРЕГИРУЮЩАЯ ФУНКЦИЯ / ГРАДИЕНТНАЯ СХЕМА / EMPIRICAL RISK / CLASSIFICATION PROBLEM / AVERAGING AGGREGATION FUNCTION / GRADIENT BASED ALGORITHM

Аннотация научной статьи по математике, автор научной работы — Шибзухов З. М., Казаков М. А.

В работе предлагается новая градиентная схема для решения задачи минимизации усредненных потерь. Она является аналогом схемы, применяемой в алгоритме SAG в случае, когда риск вычисляется при помощи среднего арифметического. Приведен иллюстративный пример построения робастной классификации на основе максимизации суррогата медианы от отступов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Шибзухов З. М., Казаков М. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STOCHASTIC GRADIENT ALGORITHM BASED ON THE AVERAGE AGGREGATE FUNCTIONS

The paper proposes a new scheme for the gradient solution to minimize losses averaged problem. It is an analog circuit used in the SAG algorithm in the case when the risk is calculated using the arithmetic mean. An illustrative example of the construction of robust classification based on the maximization of the surrogate median indentation.

Текст научной работы на тему «Алгоритм стохастического усредненного градиента на базе агрегирующих функции»

Вестник КРАУНЦ. Физ.-мат. науки. 2016. № 4-1(16). C. 112-125. ISSN 2079-6641

DOI: 10.18454/2079-6641-2016-16-4-1-112-125

УДК 519.7

АЛГОРИТМ СТОХАСТИЧЕСКОГО УСРЕДНЕННОГО ГРАДИЕНТА НА БАЗЕ АГРЕГИРУЮЩИХ

ФУНКЦИИ *

З.М. Шибзухов, М.А. Казаков

Институт прикладной математики и автоматизации, 36000, г. Нальчик, ул. Шорта-нова, 89а

E-mail: [email protected], [email protected]

В работе предлагается новая градиентная схема для решения задачи минимизации усредненных потерь. Она является аналогом схемы, применяемой в алгоритме SAG в случае, когда риск вычисляется при помощи среднего арифметического. Приведен иллюстративный пример построения робастной классификации на основе максимизации суррогата медианы от отступов.

Ключевые слова: Эмпирический риск, задача классификации, усредняющая агрегирующая функция, градиентная схема.

@ Шибзухов З.М., Казаков М.А., 2016

MSC 68T27

STOCHASTIC GRADIENT ALGORITHM BASED ON THE AVERAGE AGGREGATE FUNCTIONS

Z.M. Shibzukhov, M.A. Kazakov

Institute of Applied Mathematics and Automation, 360000, KBR, Nalchik, st. Shortanova 89a, Russia

E-mail: [email protected], [email protected]

The paper proposes a new scheme for the gradient solution to minimize losses averaged problem. It is an analog circuit used in the SAG algorithm in the case when the risk is calculated using the arithmetic mean. An illustrative example of the construction of robust classification based on the maximization of the surrogate median indentation.

Key words: Empirical risk, classification problem, averaging aggregation function, gradient based algorithm.

© Shibzukhov Z.M. , Kazakov M.A., 2016

*Работа выполнена при поддержке гранта РФФИ 15-01-03381 и гранта ОНИТ РАН

Введение

Метод минимизации эмпирического риска [1] является признанным методом решения задач параметрической классификации. Эмпирический риск обычно вычисляется как среднее арифметическое от значений параметрической функции потерь. Эмпирическая оценка средних потерь, как среднее арифметическое, адекватна со статистической точки зрения если потери распределены по нормальному закону. Однако даже для нормального закона среднее арифметическое не является робастной оценкой. В то время, как медиана позволяет оценивать эмпирическое среднее при наличии выбросов. Поэтому для построения параметрических регрессионных зависимостей также используется эмпирические оценки среднего при помощи медианы, несмотря на то, что использование медианы делает делает процедуру настройки параметров регрессионной зависимости более сложной с вычислительной точки зрения. В условиях выбросов также используют оценки квантилей, когда искажения в распределении потерь составляют меньше 50%. Это позволяет при настройке параметров при помощи медианы не терять полезную часть распределения потерь, которая расположена выше значения медианы, разделяющей упорядоченный по возрастанию набор потерь на две равные части.

Среднее арифметическое, медиана и квантили являются примерами усредняющих агрегирующих функций, к которым относятся практически все известные функции вычисления среднего значения. В настоящей работе рассматривается подход, когда для оценки средних потерь может использоваться произвольная усредняющая агрегирующая функция и рассматривается метод стохастически усредненного градиента для настройки параметров искомой зависимости на основе эмпирических оценок средних потерь, вычисляемых в этих условиях. Этот метод здесь применяется в случае, когда для вычисления приближенного значения медианы или квантиля используются агрегирующие функции, которые в определенном смысле апроксимируют медиану или квантиль и являются дифференцируемыми функциями, что позволяет в принципе использовать градиентные методы поиска параметров искомой зависимости для решения задачи классификации.

Классический метод эмпирического риска в задачах классификации

Задача поиска параметрического закона у = К оА(х,') для разбиения на классы между входами х и скалярным выходом у является одной из классических задач машинного обучения. Здесь А: X х W ^ и с жт - это преобразование, которое вычисляет скалярную или векторную оценку. По ней при помощи решающего правила К: и ^ У находится ответ. В случае задачи классификации на 2 класса или идентификации класса У = {0,1} или У = {—1,0,1} преобразование А является скалярной функцией. В случае задачи класификации на несколько классов У = {1,...,q} или У = {0,1,...,д} преобразование А, как правило, является векторным, т.е. А = (А1,...,Ад), А^ вычисляет оценку «за класс ». Имеется конечный набор входов X = {х£: к = 1..^} и набор известных значений на выходе: У = {ук: к = 1..Ы}. Требуется найти такой набор параметров '*, что преобразование КоА*(х) = КоА(х,'*) адекватно относит элементы множества X к соответствующим классам.

В качестве меры адекватности зависимости часто используют эмпирический риск (empirical risk). Набор параметров w*, задающий адекватную параметрическую зависимость, должен минимизировать величину эмпирического риска.

Эмпирический риск обычно вычисляется как среднее арифметическое от значений параметрической функции потерь (loss function):

1

N

Q(w) = N I 4(w),

(1)

k=1

где £k(w) = £(jUk(w)), где £: R ^ R+ - функция потерь, /k(w) = /(A(xk, w),yk) - функция отступа (margin function) k-го примера из обучающего множества. Она вычисляет степень «удаленности» примера от неверных классов или, наоборот, степени «погруженности» в верный класс.

В случае 2-х классов /(w) = yA(x,w). Величина потерь вычисляется при помощи функции L: R ^ R - монотонно невозрастающая функция потерь, така что lim L1 (v) = 0.

V—У ж

В случае q классов

(Ui — U2,..., Ui — Uq),

если y = 1

/ (w) = ^ (uy — и1,..., Uy — Uy—1, Uy — Uy+1,..., uq), если 1 < y < q

Uq — U1,..., Uq — Uq— 1), если y = q,

где uj = Aj(хк,w). Величина потерь вычисляется при помощи функция L(vi,..., v9_i) -монотонно невозрастающая функция, такая что

1) если v1 ^ 0,..., vq-1 ^ 0, то L(v1,..., vq-1) ^ 0;

2) если v1 > 0,...,vq-1 > 0, то L(v1,...,vq-1) > 0.

Например,

q-1

L(v1,..., vq-1) = £ L(vj).

j=1

Функция потерь - это неотрицательная невозрастающая функция, которая имеет единственный минимум, такой что lim L(r) = minL(r) = 0. Например, функция

Г—У

Хинжа: L(r) = (1 — r)+.

Со статистической точки зрения потерь при помощи среднего арифметического является адекватной, если потери распределены по нормальному закону. Однако, если в действительности потери распределены по другому закону, то оценка средних потерь должна осуществляться другим способом. Но даже в случае нормально распределенных потерь среднее арифметическое не является устойчивой по отношению к выбросам в распределении. В этом случае существенно более адекватной оценкой является, например, медиана.

Среднее арифметическое и медиана являются примерами усредняющей агрегирующей функции (averaged aggregation function). Поэтому в общем случае средние потери можно вычислять при помощи усредняющих агрегирующих функций.

Усредняющие агрегирующие функции

Пусть I с R - сегмент R, I* - множество всех конечных последовательностей {zi,...,zn} с I, т.е.

I* = у in .

N=1

Агрегирующая функция (aggregation function) это отображение M: I* ^ I, которое удовлетворяет следующим требованиям:

• M{z} = z;

• если zi ^ z?,...,zN ^ zN, то M{zi,...,zN} ^ M^',...,z^}.

Последнее требование - требование монотонности агрегирующей функции. Агрегирующая функция M - симметричная, если

l^b..^ zn } = M{zn (1),..., zn (N)}

для любой перестановки п ряда чисел 1,...,N.

Усредняющие агрегирующие функции (averaging aggregation function), по определению, удовлетворяют дополнительному требованию:

min{zi,..., zn } ^ M{zi,..., zn } ^ max{zi,..., zn }.

Подробное изложение основных понятий и основных свойств агрегирующих функций можно найти в [4, 5, 6].

Существует универсальный способ определения усредняющих агрегирующих функций [7]. Для их определения используются штрафные функции (penalty function).

Функция P(z?,...,zN,u) является штрафной функцией, если она удовлетворяет следующим требованиям:

• P(zi,...,zn,u) ^ 0 для всех u и zi,...,zn;

• P(z? ,...,zN, u) = 0 только если z? = ■ ■ ■ = zN = u;

• для всех zb...,zN множество

MZ1,...,ZN = {u : P(zi,..., zn , u) = Pmin(zi,..., zn )},

где

Pmin(zi,...,zn) = minP(zi,... ,zn,u),

u

является синглетоном или связным сегментом.

Всякую усредняющую агрегирующую функцию можно определить на основе некоторой штрафной функции P следующим образом:

Mp{zi,..., zn} = argminP(zi,..., zn, u),

u

если Mzi,...,zN - синглетон и

.. r a + b

Mp{zi,...,zn} = ,

если Mzi,...,zN - сегмент с концами a и b. Заметим, что формально в последнем случае можно было бы выбрать любое значение из интервала (a, b) или некоторое значение из (a, b), зависящее от P.

Далее рассмотрим разновидность штрафных функций, которые являются суммами функций несходства:

N

p(zi,..., zn , u) = Y p(u, zk), (2)

k=i

где p(u,z) - функция несходства (dissimilarity function). Функция несходства определяется следующим образом.

Функция p(z,u) явлется функцией несходства, если она удовлетворяет следующим условиям:

• p(u,z) = 0 ^^ u = z;

• p(u,zi) ^ p(u,z2), когда zi ^ z2 ^ u или zi ^ z2 ^ u.

Агрегирующую функцию, определенную на базе штрафной функции вида (2) будем обозначать Mp.

Статистическая интерпретация Mp{zi,...,zn} на основе принципа максимума правдоподобия следующая: если случайная величина z распределена по вероятностному закону где z - среднее значение, то MP{z?,...,zN} является эмпирической

оценкой z.

Уникальность минимума Pzi,...,zN(u) = P(z?,...,zN,u) и монотонность Mp{z?,...,zN} гарантированы, когда

p(u,z)= G(h(u) - h(z)), (3)

где G: R ^ R - непрерывная неотрицательная выпуклая функция, h(u) - обратимая монотонная функция [7, 6].

Приведем примеры известных усредняющих агрегирующих функций, которые можно определить таким образом.

• Среднее арифметическое получается при p(u,z) = (u — z)2:

N

M{zi,...,zn} = argmin Y (u — zk)2.

u k=i

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• Медиана

,r -i fz(k), если N = 2k + 1

med{zi,...,zn} = < ,

[(z(k)+ z(k+1))/2, если N = 2k

получается при p(u,zk) = |u — zk|:

N

med{zi,...,zn} = argmin Y |u — zk|

u k=i

где z(?),...,z(N) - множество z?,...,zN, упорядоченное в порядке неубывания.

а-квантиль Qa[ц,...,zN} получается при p(u,z) = |u — z|a:

N

где

а-экспектиль

Qa[zi,...,ZN} = argmin У |u — zk|а,

u k=1

I | . а|u|, если u ^ 0

(i — а)|u|, если u < 0.

N

Еа [zi,..., zn } = argmin У |u — zk |а, u k=i

где

NO* =

Среднее по Колмогорову

2 i аu2, если u ^ 0

а ' (i — а)u2, если u < 0.

/ i n x Mg[zi,...,zn} = g—i(- У g(zk);

Nk=i

получается при p(u,zk) = (g(u) — g(zk))2:

N

Mg[zi,...,zn} = argmin У (g(u) — g(zk))2.

u k=i

Масштабированная медиана

medg[zi,...,zn} = g—i(med[g(zk): k = i,...,N}) получается при p(u,zk) = |g(u) — g(zk)|:

N

medg[zi,...,zn} = argmin У |g(u) — g(zk)|.

° и **

- и

и к=1

Приведенные агрегирующие функции являются примерами усреднения величин, которые более устойчивы по отношению к выбросам.

Поиск значения Мр{г1,...,ZN} можно осуществлять методом полного градиента или методом Ньютона. В первом случае на каждом шаге текущая оценка искомого значения обновляется по следующему правилу:

иг+1 = и - (иг, Z1,..., ZN),

где

N

К(и, Z1,..., ZN ) = У р'и(иг, Zk). к=1

Во втором случае обновление осуществляется по следующему правилу:

^ии (иг, Z1,..., ZN)

ui+i = u — ht

pu/u(ut, zl,..., zn Г 117

где

N

P ("t, Z1,..., ZN) k=1

L pU(ut, zk)

P»u('"-,-,zN) , a)'

k=1

Параметр темпа обучения в этих методах может быть постоянным или выбираться при помощи одного из методов поиска типа line search.

При больших N удобнее применять стохастические варианты этих алгоритмов. Например, такие алгоритмы, в основе которых лежит такая же схема, как и в основе SAG [10, 11].

В первом случае обновление будет осуществляться по правилу:

ut+i = M - ,

где

1

N

gt = n L gt ,k,

k=1

где к(г) - номер случайно выбранного значения из гь...,на шаге г. При этом,

рЦ(ц,гк), если к = к(г)

gt+1,k =

gt,k,

иначе.

Среднее значение производной можно обновлять на каждом шаге по простому правилу:

п - — п ^ ^ (Ри(

Во втором случае обновление осуществляется по следующему правилу:

gt+1 = gt + N (PM(ut, Zk) - gt ,k).

ь Gt

Mt+1 = Mt - ht —,

где

N

Gt = L Gt ,k k=1

N

При этом,

Gt+1,k =

Ht+1,k =

Ht = L Ht ,k. k=1

p'u(ut,zk), если k = k(t) Gt,k, иначе,

pKu,zk), если k = k(t)

Н иначе.

Значение отношения /Нг обновляется на каждом шаге по простому правилу:

^+1 = + рЦ(ц, гк) - ^

Яг+1 Н + рЦ/ц(цг, гк) - Яг ,к.

и

а

Algorithm 1 Алгоритм типа SAG для вычисления значения Mp{zi,...,zn}.

Инициализировать мо gk ^р'(мо,Zk), k = 1,...,N Gk ^рМ(мо,Zk), k = 1,...,N G^ Gi + ••• + gn

if используется схема Ньютона then Hk ^Р^МьZk), k = N H ^Hi + • •• + hn end if t ^ 0 repeat k ^ k(t)

G ^ G + p'M("t,Zk) - Gk

Gk ^ pU(ut, Zk)

if используется схема Ньютона then

H ^ H + pl(Mt, Zk) - Hk

Hk ^ Pl(ut, Zk) G

g = H else

g ^ G/N

end if

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Mt+i ^ Mt - htg t ^ t + 1

until значение Mt не стабилизируется

От эмпирического риска к агрегированному риску

Усредняющие агрегирующие функции уже использовались для построения функционалов потерь в [8, 9] в контексте задачи построения операций над алгоритмами классификации и регрессии, которые сохраняют свойство корректности алгоритмов. Применим их теперь для оценки средних потерь:

Qp(w) = M p {4 (w): k = i,..., N},

где усредняющая агрегирующая функция Mp определяется на основе штрафной функции вида (2):

N

Mp { 4 (w),..., £n (w)} = arg min £ p (u, 4(w)).

u k=i

Оптимальный набор параметров w* доставляет минимум Qp(w):

Qp(w*) = min Qp(w).

w

Если p(z,u) имеет частные производные до второго порядка включительно, то

дMp[Zl,...,zn} = _ P^fezk) д zk LN=i Рг/u (z, zk),

где г = Мр[ц,...,}. Тогда

N

I -рЦЦгАИ)И р[£! И,..., ^И} = ^-N-, (4)

ЕРшСгЛ (w))

к=1

где г = Мр(w)}.

Поиск оптимального набора w можно осуществлять при помощи следующего варианта процедуры полного градиента. Правило обновления вектора параметров имеет вид:

wг+1 ^ wг - р[^1 ^),... К)}.

Обновление вектора параметров осуществляется до тех пор, пока значения wг и Мр[£1 ^+1),...,^^+1)} не стабилизируются.

Заметим, что если р(и,г) = — г) - частный случай (3), то

N

р{¿1И,...,^И} = I акИи,

к=1

где

О" (г — 4И)

ak (w) =

G"(z - 4 (w)) + ■ ■ ■ + G"(z - ¿W(w))'

причем +-----+ о^(w) = 1.

Нетрудно увидеть, что в этом случае процедура градиентного спуска похожа на процедуру поиска минимума взвешенного среднего от потерь с числовыми весами. Однако, в данном случае веса являются функциями от г — 4^),...,г — ^-отклонений между агрегированным средним от потерь и текущими потерями. Если

— г) = (и — г)2/2, то ак^) = —, что соответствует среднему арифметическому от потерь или значению эмпирического риска.

Псевдокод алгоритма настройки параметров w на основе метода полного градиента - Алгоритм 2. Приведенный алгоритм не является оптимальным с вычислительной точки зрения, так как на каждом шаге итерации необходимо решать задачу на поиск минимума функции для вычисления значения агрегированного среднего значения. Поэтому построим другой итерационный алгоритм, который ищет значения w* и Мр[4 ... ^*)} одновременно.

Алгоритм стохастически усредненного градиента на базе агрегирующей функции

Поскольку градиент (4) является взвешенной суммой градиентов от соответствующих потерь, то можно применить метод, который лежит в основе алгоритма SAG (Stochastic Average Gradient) [10, 11]. Построим на основе этого метода алгоритм PBSAG - Penalty Based Stochastic Average Gradient - стохастически усредненного

Algorithm 2 Алгоритм полного градиента на базе агрегирующей функции.

t ^ 0

Инициализировать wo мо ^ Mp{£i(wo),...,^N(wo)} repeat

wt+i ^ wt -htgradM(wt),... (wt)} Mt+i ^ Mp{£i(wt+i),...,£n(wt+i)} t ^ t + i

until {Mt} и {wt} не стабилизируется

градиента на базе усредняющей верной агрегирующей функции. Схема адаптации параметров w и и имеет вид:

= - -, и+1 = и - ,

где

N

Е --,г - = к=1 - = N •

Е

-=1

Значение для поиска значения усредняющей агрегирующей функции может обновляться в соответствии с одним из следующих правил

_ 1 N

ь = N Е ь-/ ^ -=1

или

N

Е 4/м

_ ¿=1 ь = —

Е £-,*

-=1

в зависимости от того используется метод градиентного спуска или метод Ньютона для поиска минимального значения усредняющей агрегирующей функции Мр. Векторы из набора |--,г: - = 1,N} обновляются по следующему правилу:

/-р'4(и,))^), если - = -(?)

--,г+1 =

--/, иначе.

Значения из наборов : - = 1, N} и : - = 1,N} обновляются по следующим правилам:

/рЦиЛЙ, если - = -(0

£-,г+1 = ^

, иначе,

_/рЦи,4('г)), если - = -(¿) ь-,г+1 = ^

[<?-/, иначе.

Algorithm 3 Алгоритм стохастически усредненного градиента на базе усредняющей агрегирующей функции.

t ^ 0

Инициализировать wo for k е {1,..., N} do

Gk ^ pLz("o,4(wo))grad4(wo)

Hk ^ Puu{uo^k(wo)) Qk ^ p'M(wo,4(wo)) end for

G ^ Gi + ••• + Gn

H ^Hi + ... + Hn

Q^ Qi + ••• + Qn repeat

k = k(t)

G ^ G- Gk + Puz(u)t,4K))grad4(wt) Gk ^ pUz("t,4(wt))grad£k(w)t)

H ^ H-Hk + pUUut,4(wt))

Hk ^ pU«("t ,4 (wt)) Q ^ Q-Qk + pU("t ,4 (wt)) Qk ^ pU("t ,4 (wt)) _ Gi

g = G

wt+1 ^ wt - ht g

if используется схема Ньютона then

q ^ Q/G2 else

q ^ Q/n

end if

ut+i ^ ut - Ttq t ^ t + i

until {ut} и {wt} не стабилизируется

Алгоритму PBSAG на каждом шаге необходимо хранить по одному градиентному вектору и два значения на каждый пример из обучающего набора данных, т.е. N(m+ 2) вещественных чисел, где m - ранг вектора параметров w. Поэтому его следует применять, если есть память для хранения такого объема данных.

Нетрудно заметить, что если p(u,z) = (u - z)2/2, то схема алгоритма PBSAG редуцируется к схеме алгоритма SAG:

wt+i = wt - ht gt,

где

gk,t+i =

1 N

= n £ gk,t'

k=i

!grad4(wt), если k = k(t) gk,t, иначе.

Таким образом схема алгоритма PBSAG является естественным обобщением схемы алгоритма SAG [10, 11], когда для вычисления средних потерь используется усредняющая агрегирующая функция, основанная на штрафной, вместо среднего арифметического.

Примеры применения PBSAG

Рассмотрим применение PBSAG с использованием «апроксимированного» варианта медианы для построения робастного аналога SVM для решения задачи в условиях выбросов. Напомним, что

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

N

тей{г1,..., ZN } = а^шт Е |и - г-1.

и -=1

Непосредственно PBSAG применить нельзя. Однако ее можно заменить на суррогат медианы, который в определенном смысле эквивалентен ей.

ра(г — и) определяет суррогат медианы, ассимптотически эквивалентный медиане, если для некоторого а*:

• lim pa (и - z) = |и - z|; a ^a *

• lim Pa(и-z) = sign(u-z); a ^a *

• iim pa(u - z) = s(и - z).

a^ a*

Рассмотрим пример:

ра(и - г) = |и - г| - а1п( а+ |и - г|) + а1па. (5)

При а = 0 суррогат медианы совпадает с обычной медианой. Заметим, что

Ра(и - г) = , и, г ,, р'а(и - г)= а

а+ |и - г|' (а+ |и - г|)2'

Рассматриваем линейное разделение на 2 класса при помощи линейной функции А(х,по правилу:

{1, если А(х,> й 0, если |А(х,^ й -1, если А(х,< -й.

В случае полного разделения А(х-,> 0 для всех точек Х1,...,с заданными метками классов у1,...,(у- € {-1,1})).

Для разделения на 2 класса используем функции потерь как в методе SVM: 4(') = (1 - т- ('))+, где т- (') = А (х-, ,

/з, если £ > 0

(£)+ = Ь

0, иначе.

svm ^-median

• 6 •

- 4

- 2

о о о о >—---о О о о о о о 0

- О

*

-2

—4

■ 0 . . 1 . . . . i . . . . i . . . . 1 . . . , L . . I . -6 ■ О . . . . ■—■—1—■—■ —.—1—.—1— ■—■—1—■— —■—■—1—■—■ . . 1 . ■

._1_._._._._1_._._._._1_._._._._1_._._._._I_._._._._1_._._._._1_J L_I_._._._._1_._._._._I_._._._._1_._._._._1_,_._._._J_._._,_._l_

-3-2-10123 -3-2-10123

Рисунок. Примеры восстановления линейной разделяющей линии между двумя классами, содержащими выбросы: svm - при помощи SVM; е-median - при помощи PBSAG.

Поиск по методу SVM здесь сводим к решению задачи минимизации функции:

1 N

E(w) = N £ (1 - mk(w))+. N k=1

Для сравнения рассматриваем задачу поиска разделяющей линии на базе минимизации функции:

E(w) = med а{(1 -mk(w))+ : k = 1..N}

при помощи алгоритма PBSAG при а = 0.01. Результаты представлены на рисунке.

Данный пример демонстрирует робастность процедуры поиска путем минимизации med от потерь и способность алгоритма PBSAG находить решение.

Приведенный пример показывает способность метода минимизации среднего риска на базе усредняющего агрегирующего функционала, апроксимирующего медиану, и алгоритма PBSAG по разделению двух классов в случае, когда исходные данные содержат выбросы, которые не может преодолеть метод классификации на основе стандартного SVM.

Список литературы/References

[1] Vapnik V., The Nature of Statistical Learning Theory. Information Science and Statistics, Springer-Verlag, 2000.

[2] Rousseeuw P. J., "Least Median of Squares Regression", Journal of the American Statistical Association, 1984, №79, 871-880.

[3] Rousseeuw P. J., Leroy A.M., Robust Regression and Outlier Detection, John Wiley and Sons, New York, 1987.

[4] Mesiar R., Komornikova M., Kolesarova A., Calvo T., "Aggregation functions", Fuzzy Sets and Their Extensions: Representation, Aggregation and Models, eds. H. Bustince, F. Herrera, J. Montero, Springer, Berlin, Heidelberg, 2008.

[5] Grabich M., Marichal J.-L., Pap E., Aggregation Functions., Series: Encyclopedia of Mathematics and its Applications,. V. 127, Cambridge University Press, 2009.

[6] Beliakov G. , Sola H., Calvo T. A, Practical Guide to Averaging Functions, Springer, 2016, 329 pp.

[7] Calvo T., Beliakov G., "Aggregation functions based on penalties", Fuzzy Sets and Systems, 161:10 (2010), 1420-1436

[8] Shibzukhov Z.M., "Correct Aggregate Operations with Algorithms", Pattern Recognition and Image Analysis, 24:3 (2014), 377-382.

[9] Shibzukhov Z. M., "Aggregation correct operations on algorithms", Doklady Mathematics, 91:3 (2015), 391-393.

[10] Le Roux N., Schmidt M., Bach F. A, "Stochastic Gradient Method with an Exponential Convergence Rate for Finite Training Sets", 2012, arXiv: abs/1202.6258.

[11] Schmidt M., Le Roux N., Bach F., "Minimizing Finite Sums with the Stochastic Average Gradient", 2013, arXiv: abs/1309.2388.

[12] Shalev-Shwartz, Zhang T. Stochastic dual coordin ate ascent methods for regularized loss minimization, Journal of Machine Learning Research, 2013, № 14. 2013, 567-599.

Список литературы (ГОСТ)

[1] Vapnik V. The Nature of Statistical Learning Theory. Information Science and Statistics. 2000. Springer-Verlag.

[2] Rousseeuw P.J. Least Median of Squares Regression // Journal of the American Statistical Association. 1984. No.79. PP.871-880.

[3] Rousseeuw P.J., Leroy A.M. Robust Regression and Outlier Detection. New York:John Wiley and Sons, 1987.

[4] Mesiar R., Komornikova M., Kolesarova A., Calvo T. Aggregation functions: A revision. In H. Bustince, F. Herrera, J. Montero, editors, Fuzzy Sets and Their Extensions: Representation, Aggregation and Models. Springer, Berlin, Heidelberg, 2008.

[5] Grabich M., Marichal J.-L., Pap E. Aggregation Functions. Series: Encyclopedia of Mathematics and its Applications, No.127. Cambridge University Press. 2009.

[6] Beliakov G. , Sola H., Calvo T. A Practical Guide to Averaging Functions. 2016. Springer. 329 p.

[7] Calvo T., Beliakov G. Aggregation functions based on penalties // Fuzzy Sets and Systems. 2010. Vol.161, No.10, PP.1420-1436.

[8] Shibzukhov Z.M. Correct Aggregate Operations with Algorithms // Pattern Recognition and Image Analysis. 2014. Vol.24. No.3. PP. 377-382.

[9] Shibzukhov Z.M. Aggregation correct operations on algorithms // Doklady Mathematics. 2015. Vol.91. No.3. PP. 391-393.

[10] Le Roux N., Schmidt M., Bach F. A Stochastic Gradient Method with an Exponential Convergence Rate for Finite Training Sets. nips.org, 2012. http://arxiv.org/abs/1202.6258

[11] Schmidt M., Le Roux N., Bach F. Minimizing Finite Sums with the Stochastic Average Gradient. arXiv.org, 2013. http://arxiv.org/abs/1309.2388

[12] Shalev-Shwartz and T. Zhang. Stochastic dual coordin ate ascent methods for regularized loss minimization // Journal of Machine Learning Research 14. 2013. PP. 567-599.

Для цитирования: Шибзухов З.М., Казаков М. А. Алгоритм стохастического усредненного градиента на базе агрегирующих функции // Вестник КРАУНЦ. Физ.-мат. науки. 2016. №4-1(16). C. 112-125. DOI: 10.18454/2079-6641-2016-16-4-1-112-125

For citation: Shibzukhov Z. M., Kazakov M. A. Stochastic gradient algorithm based on the average aggregate functions, Vestnik KRAUNC. Fiz.-mat. nauki. 2016, 16: 4-1, 112-125. DOI: 10.18454/2079-6641-2016-16-4-1-112-125

Поступила в редакцию / Original article submitted: 15.11.2016

i Надоели баннеры? Вы всегда можете отключить рекламу.