Принцип минимизации эмпирического риска на основе агрегирующих функций средних потерь для решения задач регрессии

З. М. Шибзухов; Д. П. Димитриченко; М. А. Казаков

УДК 519.7 Дата подачи статьи: 06.10.16

Б01: 10.15827/0236-235Х.030.2.180-186 2017. Т. 30. № 2. С. 180-186

ПРИНЦИП МИНИМИЗАЦИИ ЭМПИРИЧЕСКОГО РИСКА НА ОСНОВЕ АГРЕГИРУЮЩИХ ФУНКЦИЙ СРЕДНИХ ПОТЕРЬ ДЛЯ РЕШЕНИЯ ЗАДАЧ РЕГРЕССИИ

З.М. Шибзухов, д.ф.-м..н., ведущий научный сотрудник, [email protected]; Д.П. Димитриченко, к.т.н., старший научный сотрудник, [email protected]; М.А. Казаков, младший научный сотрудник, [email protected] (Институт прикладной математики и автоматизации, ул. Шортанова, 89а, г. Нальчик, 360000, Россия)

В настоящей работе предлагается расширенный вариант принципа минимизации эмпирического риска для решения задачи регрессии.

Он строится на основе применения усредняющих агрегирующих функций для вычисления эмпирического риска вместо среднего арифметического. Это оправданно, если распределение потерь имеет выбросы или существенно искажено, отчего оценка риска как средних потерь с самого начала является смещенной. Поэтому в таких случаях при оптимизации параметров в задаче регрессии изначально следует использовать робастную оценку среднего риска.

Подобные оценки среднего риска можно построить, используя усредняющие агрегирующие функции, которые являются решением задачи минимизации штрафной функции за отклонение от своего среднего значения. Такой подход для представления агрегирующих функций среднего позволяет, с одной стороны, определить значительно более широкий класс функций среднего, а с другой, определить дифференцируемые функции среднего, которые аппроксимируют недифференцируемые функции среднего, такие как медиана или квантиль. В результате появляется возможность построить градиентные методы решения задачи регрессии, в определенном смысле аппроксимирующие робастные методы, такие как Least Median и Least Quantile.

В настоящей работе предлагается новая градиентная схема для решения задачи минимизации среднего риска. Она является аналогом схемы, применяемой в алгоритме SAG в случае, когда риск вычисляется при помощи среднего арифметического.

Приведен иллюстративный пример построения робастной процедуры оценки параметров в задаче линейной регрессии на базе использования усредняющей функции среднего, аппроксимирующей медиану.

Ключевые слова: агрегирующая функция, агрегирующая операция, эмпирический риск, регрессия, штрафная функция, процедура градиентного спуска.

Метод минимизации эмпирического риска [1] является признанным методом решения задач параметрической регрессии.

Эмпирический риск обычно вычисляется как среднее арифметическое от значений параметрической функции потерь. Эмпирическая оценка средних потерь как среднее арифметическое адекватна со статистической точки зрения, если потери распределены по нормальному закону. Однако даже для нормального закона среднее арифметическое не является робастной оценкой среднего значения, в то время как медиана позволяет оценивать эмпирическое среднее при наличии выбросов. Поэтому для построения параметрических регрессионных зависимостей также используются эмпирические оценки среднего при помощи медианы, несмотря на то, что использование медианы делает процедуру настройки параметров регрессионной зависимости более медленной.

В условиях выбросов также используют оценки квантилей, когда искажения в распределении потерь составляют меньше 50 %. Это позволяет при настройке параметров при помощи медианы не терять полезную часть распределения потерь, которая расположена выше значения медианы, разделяющей упорядоченный по возрастанию набор потерь на две равные части.

Классический метод эмпирического риска

Задача поиска параметрической регрессионной зависимости y = fx, w) между входами x и скалярным выходом y является одной из классических задач машинного обучения. Имеются конечный набор входов X = : k = 1,..., N} и набор известных

значений на выходе: Y = {ук: к = 1, ..., N}. Требуется найти такой набор параметров w*, при котором функция f (х) = f х. w*) адекватно представляет зависимость между у и х на множестве X.

В качестве меры адекватности f часто используют эмпирический риск. Набор параметров w*, задающий адекватную параметрическую зависимость, должен минимизировать величину эмпирического риска.

Эмпирический риск обычно вычисляется как среднее арифметическое от значений параметриче-

1 N

ской функции потерь Q(w) = — У(\v ). где

Ni=i

4(w) = 4(a(w)), где f(r) - функция потерь;

rk (w ) = r (f ( *t -") - У к) - функция невязки между

значением функции f и ожидаемым значением в k-й точке. Например:

• разность: r (w ) = f (x, w)- у;

абсолютная разность: r(w)=|f (x,w)-y| ; несимметричная абсолютная разность:

\f ( x, w )-

y\ , где r =

ar, если r > 0, (а-1)r, если r < 0;

разность: r(w) = |^|f(x,w)--

• относительная

при условии, что значения у отделены от нуля, или ( w ) = -

r ( w f ( x,w )-.

1 + ,-,

Функция потерь - это неотрицательная функция, которая имеет единственный минимум, так что €(0) = min £(г) = 0. Например:

• абсолютная: I (V) = |г|;

• квадратичная: t (г) = г2;

. Хьюбера: /(г ) = И 21Н " С) I Н > С' г , если г < с;

• Тьюки (для простоты приведена производная функции):

1<{г) =

1 -

если г < с,

0, если I r > с;

несимметричная абсолютная:

/(г) = {

а г, если г > с, (а-1)г, если г < с;

несимметричная квадратичная:

1{г) =

а г , если г > с, (l-a)r2, еслиг < с.

Здесь с > 0, 0 < а < 1.

Со статистической точки зрения оценка потерь при помощи среднего арифметического является адекватной, если потери распределены по нормальному закону. Однако если в действительности потери распределены по другому закону, оценка средних потерь должна осуществляться другим способом. Но даже в случае нормально распределенных потерь среднее арифметическое не является устойчивым по отношению к выбросам в эмпирическом распределении. В этом случае существенно более адекватной оценкой является, например, медиана или квантили.

Среднее арифметическое, медиана и квантили -примеры усредняющей агрегирующей функции, поэтому в общем случае средние потери можно вычислять при помощи усредняющих агрегирующих функций.

Усредняющие агрегирующие функции

Пусть 1сК - сегмент К ; I* - множество всех конечных последовательностей ..., 2\. | £ I.

Определение. Агрегирующая функция - это отображение М: I*—»1, которое удовлетворяет следующим требованиям:

• М {г} = 2;

м {

< M f

если zt < zt,

• ,zn

zn < zn ,

то

Последнее требование - требование монотонности агрегирующей функции.

Агрегирующая функция M симметричная, если M{zi, ..., zn}= M{z^(i), ..., z^(N)} для любой перестановки п ряда чисел 1, ..., N.

Усредняющие агрегирующие функции, по определению, удовлетворяют дополнительному требованию min{z1, ..., zn} < M{z1, ..., zn} < max{z1, ., z N}.

Основные понятия и основные свойства агрегирующих функций подробно описаны в [2-4].

Существует универсальный способ определения усредняющих агрегирующих функций [5]. Для их определения используются штрафные функции.

Определение. Функция P{z1, ..., zN, u} является штрафной, если удовлетворяет следующим требованиям:

• P{z1, ..., zN, u} > 0 для всех u и z1, ..., zN;

• P{z1, ..., zN, u} = 0, только если z1 = ... = = zN =u ;

• для всех z1, ..., zN множество Mzi, ..., zN = = {u: P(z1, ..., zn, u) = Pmin(z 1, ..., zn)}, где Pmin(z1, ..., zn) = minP(' ,u), является синглетоном или

u

связным сегментом.

Всякую усредняющую агрегирующую функцию можно определить на основе некоторой штрафной функции P следующим образом: Mp{z1, ..., zn} = arg min P ('...,zN ,u), если Mzi, ..., zN - син-

глетон и Mp{zi, ..., zn} =

a + b

2

, если Mzi

, zN - сег-

мент с концами а и Ь. Заметим, что формально в последнем случае можно было бы выбрать любое значение из интервала (а, Ъ) или некоторое значение из (а, Ъ), зависящее от P.

Далее рассмотрим разновидность штрафных функций, которые являются суммами функций несходства:

P(z1, zn, u) = Xp(zk,u),

(1)

где p(z, и) - функция несходства (dissimilarity function). Функция несходства определяется следующим образом.

Определение. Функция p(z, и) является функцией несходства, если удовлетворяет следующим условиям:

• p(z, и) = 0 » z = и;

• p(zi, и) > p(z2, и), когда z\ > z2 > u или

Z\ < Z2 < u.

9

2

k=1

Агрегирующую функцию, определенную на базе штрафной функции вида (1), будем обозначать Мр.

Статистическая интерпретация Мр^, ..., гк} на основе принципа максимума правдоподобия следующая: если случайная величина г распределена по вероятностному закону е ^'2 2 '. где г -среднее значение, то М|,{2|. ..., г\| является эмпирической оценкой г.

Уникальность минимума Рг1, ..., 2тя(и) = Р^, ..., гк, и) и монотонность Мр{г1, ..., гк} гарантированы, когда

р{г,и) = С{Ь{г)-Ь{и)\ (2)

где в: К ^ К - непрерывная строго выпуклая функция; к(и) - строго монотонная функция [4, 5].

Приведем примеры известных усредняющих агрегирующих функций, которые можно определить таким образом.

• Среднее арифметическое получается при

n 2

р(г, и) = (гк-и)2: М{г1, ..., ¿к} = argmax £ (2к - и) .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и к=1

• Медиана

med{zj, ..., zN} =

z^, если N = 2k +1,

z(k ) + z(k+i)

2

, если N = 2k,

получается при р(гк - и) = \гк - и \:

n

теё..., Zn} = argmlnZk -и|,

и к=1

где ¿(1), ..., г^) - множество 21, ..., гк, упорядоченное в порядке неубывания.

• Квантиль а ..., получается при

р(г, и) = \ 2к - и \

N

Ра {Z1, ZN } = а^т1п Zk - и I ,

и к =1

а и , если и > 0, где \и\ = < . .. .

1(1 - а) и , если и < 0.

• Экспектиль а

N 2

Еа {Z1ZN } = а^т1п ^ ^к - и |а , и к=1

, 12 [аи2, если и > 0, где \и\ = \ , ч 2

1(1 - а) и , если и < 0.

• Среднее по Колмогорову

мя {^ ... , ^^} = я-1 ^£я (Zk) получается

v n к=1 )

при р(и, гк) = (^(и) - g(zk))2:

n 2

Мв {} = ^т1пЯ(^)-Я(и)) .

и к =1

• Масштабированная медиана

теа^ {z1,.. zN} = я 1 (теа{я(:к =1 получается при р(и, гк) = \ g(u) - g(zk) \:

n I I

теёв {^ zn} = argт1п ^(zk)-Я (и)| .

Поиск значения Мр{г1, ..., можно осуществлять методом полного градиента или методом Ньютона. В первом случае на каждом шаге текущая оценка искомого значения обновляется по следующему правилу: и1+1 = и1 -к1 Р'и (и1, z1, ..., zN),

n

где Р„(и,, ^..., zn ) = !>„(zk, и).

к=1

Во втором случае обновление осуществляется по правилу

Ри (и,, z1, )

и1+1 = и - п.

где

' ' PUu (U', Z1, .,ZN )'

Pu (U, Z1, .,ZN ) ZN=P (Zk , U )

PUu (Ut, Z1, * * * , ZN ) S 1=P'uu (Zk , Ut ) ' Параметр темпа обучения ht в этих методах может быть постпостоянным или выбираться при помощи одного из методов поиска типа line search.

При больших N удобнее применять стохастические варианты этих алгоритмов. Например, такие алгоритмы, в основе которых лежит такая же схема, как и в основе SAG [6, 7].

В первом случае обновление будет осуществ-

_ - 1 n ляться по правилу Uf+1 = Ut - htgt, где gt = — Sg,,k,

N k=i '

k(t) - номер случайно выбранного значения из z1, ..., zN на шаге t. При этом

= JРи (Zk , Ut ) ,если k = k (t) ,

gt+1,k {gt,k иначе.

Среднее значение производной gt можно обновлять на каждом шаге по простому правилу

S,+i = S, + 1 (Ри ( Zk , U, )-g,,k ) •

Во втором случае обновление осуществляется

Q

по следующему правилу: и(+1 = и( - ht—-, где

H t

N n

Gt =SGt,k и Hг =SHг,k.

k=1 k=1

_ J Ри ( Zk , U, ,) , если k = k (t) ,

При этом G

Gtk иначе,

„н =J Ри и (Zk, Ut),если k = k (t),

а Ht+1k =|на иначе.

Значение отношения Gt/Ht обновляется на каждом шаге по простому правилу:

G G, + p (z, ,и,)-G,,

t +1 t г и \ k ^ t f t ,k

^^ H + Р' (^,и,)- H,,

t+1 t uu k t t,k

Псевдокод алгоритма - Алг. 1. Algorithm 1. Алгоритм типа SAG для вычисления значения Mg(z1, ..., zN}. Инициализировать u0

gk p'(Zk^c ) , k = 1, N

Gk ^ Ри (Zk ,0) , ^ = 1, N

G^Gi+ ...+ Gn

If используется схема Ньютона then

H k ^ Puu ( Zk . u0 ) , k = 1 N,

H^H\+ ...+ Hn end if

repeat

k ^ k(t)

g ^ g + p'u (zk,ut)-gk

G k ^ Pu ( Zk . U ) If используется схема Ньютона then

H ^ H + Puu (Zk. ut)-Hk

Hk Puu (Zk , )

_ G

g = H

else

_ G g = N

end if

-u, - h,g

t ^ t + \

until значение ut не стабилизируется.

От эмпирического риска к агрегированному

Усредняющие агрегирующие функции уже использовались в [8, 9] для построения функционалов потерь в контексте задачи построения операций над алгоритмами классификации и регрессии, которые сохраняют свойство корректности алгоритмов. Применим их теперь для оценки средних потерь: Qp (w) = {Ск (w): к = 1,..., N}, где усредняющая агрегирующая функция Mp определяется на основе штрафной функции вида (1):

n

Ч, {Л (w), (w)} = argmin?j>(tk (те),«).

" к= 1

Оптимальный набор параметров w* доставляет минимум Qp (w) : Qp (те*) = minQp (w).

Если p(z, u) имеет частные производные до второго порядка включительно, то

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5Mp {Zi. •••. Z„ } p! (Zk, Z )

82 к Е 1;Рии ( > 2 )

где 2 = мр {2; = . > } .

Тогда gradMí,{í1(w),...,íN(w)} = - Рш {1к Ы > *) Ы

где г (*),...Л И}.

Поиск оптимального набора w можно осуществлять при помощи следующего варианта про-

цедуры полного градиента. Правило обновления вектора параметров имеет вид

те,+1 <- те, - /г, Бгаё М, {£, (те,),... ,£м (те,)}.

Обновления вектора параметров осуществляются до тех пор, пока значения те( и

)' \ (^, ) | нс стабилизируются.

Если p(z, u) = G(z - ы) - частный случай (2), то

n

ёгаё (те), (те)} = (те),

где a (w ) = —

причем a\(w) + ...+ aN(w) = \.

Нетрудно заметить, что в этом случае процедура градиентного спуска похожа на процедуру поиска минимума взвешенного среднего от потерь с числовыми весами. Однако в данном случае веса являются функциями от £1 (те) - z,..., £N (те) - z -

отклонений между агрегированным средним от потерь и текущими потерями. Если G(z-u) = (z-u)2/2, то ak(w) = \/N, что соответствует среднему арифметическому от потерь или значению эмпирического риска.

Псевдокод алгоритма настройки параметров w на основе метода полного градиента - алгоритм PBFG. Приведенный алгоритм не является оптимальным с вычислительной точки зрения, так как на каждом шаге итерации необходимо решать задачу поиска минимума функции для вычисления значения агрегированного среднего значения. Поэтому рассмотрим другой итерационный алгоритм, который ищет значения w* и Mp{l\(w*), ..., In(w*)} одновременно.

Algorithm PBFG. Алгоритм полного градиентного спуска на базе агрегирующей функции t ^ 0

Инициализировать тео repeat

w,,, ^ w

t - h, grad Mf (w,),...(w,)}

t ^ t+1

until {u} и {wt} не стабилизируется.

Алгоритм стохастического усредненного градиента на базе агрегирующих функций

Поскольку данный усредненный градиент является взвешенной суммой градиентов от соответствующих потерь, можно применить метод, лежащий в основе алгоритма SAG (Stochastic Average Gradient) [6, 7]. Построим на основе этого метода алгоритм PBSAG (Penalty Based Stochastic Average Gradient) стохастически усредненного градиента

u

на базе усредняющей верной агрегирующей функции. Схема адаптации параметров w и и имеет вид

^+1 = ^ - К1,, и,+1 = и, ,

ZN

k=1g k ,t

где gt = -.

S k=1gk ,t

Значение qt для поиска минимального значения усредняющей агрегирующей функции Mp может обновляться в соответствии с одним из следу-

yN

— 1 Д — S k=1qk ,t

ющих правил: qt = — Sq < или qt = —-- в за-

N k=1 ' S N=1gk ,t

висимости от используемого метода: градиентного спуска или Ньютона. Векторы из набора

\gk t : k = 1, n| обновляются по следующему правилу:

-Рш (£ t(w, X и,) grad£ t(w,),

если k = k (t), gk,t иначе.

Значения из наборов jgi( : k = 1,n| и

jqkt : k = 1,N| обновляются по следующим правилам:

„ i^„(MW< )>"<)> ecjink=k(t),

6к,1+1 1

[ gk,t инaче,

„ )>"')> еслиk = k{t)>

4kj+\ ~ 1

К,, иначе.

Algorithm PBSAG. Алгоритм стохастически усредненного градиента на базе усредняющей функции t ^ 0

Инициализировать w0 for£e{l, ..., N} do

Gi <- Рш (^(Wo)=Mo)grad£t(Wo)

Q* a (Mwo)>Mo) end for

G ^ G1 + ... +gn H ^ Hi + ... + Hn Q ^ Qi + ... + Qn repeat к = k{t)

G* ^Kz(MWo)'M<)gradMW<)

Ht ^ Рш (MWo)'M<)

Q<-Q-Q*+À(£*(wo)>«,)

Q*<-pÙ(£*(wo)>u,)

g = ^

g g2

wt+1 ^ wt- htg if используется схема Ньютона then q ^ Q/G2

else

q ^ Q/N end if

v U,+1 ^ U, v t ^ t + 1 until {ut} и {wt} не стабилизируются

Алгоритму PBSAG на каждом шаге необходимо хранить по одному градиентному вектору и по два значения на каждый пример из обучающего набора данных, то есть N(m + 2) вещественных чисел, где m - ранг вектора параметров w. Поэтому его следует применять, если есть память для хранения такого объема данных.

Нетрудно заметить, что при p(z, u) = (z-u)2/2 схема алгоритма PBSAG редуцируется к схеме ал-

1 N

горигма SAG: w,+1 = W, - \gt, где gt =—Egk,t,

N k=i

g k

gradft (wt)5 если к = k(t),

[gkJ иначе.

Таким образом, схема алгоритма PBSAG является естественным обобщением схемы алгоритма SAG [6, 7], когда для вычисления средних потерь используется усредняющая агрегирующая функция, основанная на штрафной, вместо среднего арифметического.

Примеры применения PBSAG

Рассмотрим применение PBSAG с использованием аппроксимированного варианта LMS [10, 11] для поиска линейной регрессии в условиях выбросов. В стандартном алгоритме LMS ищется минимум медианы квадрата ошибки:

£(w)=med{(/(x,;w)-yt)2:k = l;...;Nj.

PBSAG нельзя применить, когда M является медианой. Однако ее можно заменить на суррогат медианы, который асимптотически эквивалентен ей.

Определение. pa(z - u) определяет суррогат медианы, асимптотически эквивалентный медиане, *

если для некоторого а

lim ра (z - u) = |z - u|,

а^а

lim pa (z - u ) = sign (z - u ) .

а^а

Рассмотрим пример:

Ра (Z - U )=4

z — и ) = »/а2 + |z — и|2 — а,

где а*=0,

Stars CYG dataset

Phones dataset

-0,5

-1,5

• • ,

0, 2 0, 4 0, 6 0 8 1,2

■ LMedS ■ LMS • Data

Animals dataset

50 45 40 35 30 25 20 15 10 5 0

5 10 15 20 25

■LMedS ■ LMS • Data

Artificial dataset

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-4 LMedS

• Data

5

LMedS

15 20

• Data

Примеры восстановления линейной регрессии при помощи методов LMS и LMedSa (а = 0,001) The examples of linear regression recovery using LMS and LMedSa (а = 0,001) methods

Pa ( z - u ) =

/ 2,1 p\/2 (a + z-u| )

Pa (U - Z ) = ■

/21 1^/2 la + |z-u| I

Соответствующую ей усредняющую агрегирующую функцию будем называть a-медианой:

meda {z„ ..., zN } = arg min £ ^a2 + \zk - u|2 - a |

Другой пример суррогата можно построить на основе следующей функции несходства:

ра (г - и) = - и| -а 1п (а + - и |) + а 1п а . (3)

На рисунке представлены примеры применения алгоритма РБ8Лв. Они показывают способность метода и алгоритма РБ8Лв на базе усредняющего верного агрегирующего функционала, аппроксимирующего медиану (3), восстановливать линейную регрессионную зависимость в случае, когда исходные данные содержат выбросы.

Заключение

В данной работе эти функции используются для оценки средних потерь, где усредняющая агрегиру-

ющая функция определяется на основе штрафной функции. В результате процедура градиентного спуска становится аналогичной процедуре поиска минимума взвешенного среднего от потерь с числовыми весами. Это позволяет построить алгоритм PBSAG - стохастически усредненного градиента на базе усредняющей верной агрегирующей функции. Предложенный алгоритм, реализующий метод минимизации эмпирического риска, позволяет справляться с задачей восстановления линейной регрессионной зависимости в случае, когда исходные данные содержат выбросы. Данное свойство алгоритма продемонстрировано на соответствующих примерах.

(Работа выполнена при поддержке гранта РФФИ № 15-01-03381 и гранта ОНИТ РАН).

Литература

1. Vapnik V. The nature of statistical learning theory (Information Science and Statistics). Springer-Verlag. NY, 2000, 314 p.

2. Mesiar R., Komornikova M., Kolesarova A., Calvo T. Aggregation functions: a revision. In H. Bustince, F. Herrera, J. Montera, eds. (Fuzzy Sets and Their Extensions: Representation, Aggregation and Models). Springer, Berlin, Heidelberg, 2008.

3. Grabich M., Marichal J.-L., Pap E. Aggregation functions (Encyclopedia of Mathematics and its Applications), Cambridge Univ. Press, 2009, no. 127.

4. Beliakov G., Sola H., Calvo T. A practical guide to averaging functions. Springer, 2016, 329 p.

,5

25

l

20

0,5

5

0

5

0

10

5

0

2

a

5. Calvo T., Beliakov G. Aggregation functions based on penalties. Fuzzy Sets and Systems. 2010, vol. 161, no. 10, pp. 1420-1436.

6. Le Roux N., Schmidt M., Bach F. A stochastic gradient method with an exponential convergence rate for finite training sets. 2012. URL: http://arxiv.org/abs/1202.6258 (дата обращения: 05.10.2016).

7. Schmidt M., Le Roux N., Bach F. Minimizing finite sums with the stochastic average gradient. 2013. URL: http://arxiv.org/ abs/1309.2388 (дата обращения: 05.10.2016).

8. Shibzukhov Z.M. Correct aggregate operations with algorithms, Pattern Recognition and Image Analysis, 2014, vol. 24, no. 3, pp. 377-382.

9. Shibzukhov Z.M. Aggregation correct operations on algorithms. Dokl. Math. 2015, vol. 91, no. 3, pp. 391-393.

10. Rousseeuw P.J. Least median of squares regression. Jour. of the American Statistical Association, 1984, no. 79, pp. 871-880.

11. Rousseeuw P.J., Leroy A.M. Robust regression and outlier detection. NY, John Wiley and Sons, 1987.

Software & Systems Received 06.10.16

DOI: 10.15827/0236-235X.030.2.180-186 2017, vol. 30, no. 2, pp. 180-186

THE EMPIRICAL RISK MINIMIZATION PRINCIPLE BASED ON AVERAGE LOSS AGGREGATING

FUNCTIONS FOR REGRESSION PROBLEMS

Z.M. Shibzukhov l, Dr.Sc. (Physics and Mathematics), Leading Researcher, [email protected] D.P. Dimitrichenko l, Ph.D. (Engineering), Senior Researcher, [email protected] M.A. Kazakov 1, Junior Researcher, [email protected])

1 Institute of Applied Mathematics and Automation, Shortanova St. 89a, Nalchik, 360000, Russian Federation

Abstract. The paper proposes an extended principle of empirical risk minimization to solve the regression problem. It is based on using aggregate functions instead of arithmetic mean to calculate risk. This can be justified if the loss distribution of emissions is significant or distorted, causing a shift in the risk assessment of the average loss from the very beginning. Therefore, in such cases, when optimizing characteristics in the regression problem the robust estimate of average value-at-risk should be initially used.

Such intermediate risk assessment can be constructed using avg functions, which are the solution to the problem of penalty function minimization in case of mean deviation. This approach allows, on one hand, to determine a much broader class of secondary functions, and, on the other hand, to determine the average differentiable functions that approximate the average non-differentiable functions, such as a median or quintile. As a result, it is possible to construct gradient methods for solving the regression problem that, in a sense, can approximate robust techniques such as Least Median and Least Quantile.

This paper proposes a new gradient scheme for solving the minimization problem of the intermediate risk. It is an analog of the used in the SAG algorithm circuit when the risk is calculated by arithmetic mean. An illustrative example presents the construction of robust procedures for characteristics assessment in a linear regression based on the use of the avg function, which approximates the median.

Keywords: aggregation function/operation, empirical risk, regression, penalty function, gradient descent procedure.

Acknowledgements. This work is supported by RFBR grant no. 15-01-03381 and RAS Onita grant.

References

1. Vapnik V. The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag Publ., 2000.

2. Mesiar R., Komornikova M., Kolesarova A., Calvo T. Aggregation functions: A revision. H. Bustince, F. Herrera, J. Montero (Eds.). Fuzzy Sets and Their Extensions: Representation, Aggregation and Models. Springer, Berlin, Heidelberg Publ., 2008.

3. Grabich M., Marichal J.-L., Pap E. Aggregation Functions. Series: Encyclopedia of Mathematics and its Applications. Cambridge Univ. Press, 2009, no. 127.

4. Beliakov G., Sola H., Calvo T. A Practical Guide to Averaging Functions. 2016, Springer Publ., 329 p.

5. Calvo T., Beliakov G. Aggregation functions based on penalties. Fuzzy Sets and Systems. 2010, vol. 161, no. 10, pp. 1420-1436.

6. Le Roux N., Schmidt M., Bach F. A Stochastic Gradient Method with an Exponential Convergence Rate for Finite Training Sets. nips.org, 2012. Available at: http://arxiv.org/abs/1202.6258 (accessed October 5, 2016).

7. Schmidt M., Le Roux N., Bach F. Minimizing Finite Sums with the Stochastic Average Gradient. arXiv.org, 2013. Available at: http://arxiv.org/abs/1309.2388 (accessed October 5, 2016).

8. Shibzukhov Z.M. Correct Aggregate Operations with Algorithms. Pattern Recognition and Image Analysis. 2014, vol. 24, no. 3, pp. 377-382.

9. Shibzukhov Z.M. Aggregation correct operations on algorithms. Dokl. Math. 2015, vol. 91, no. 3, pp. 391-393.

10. Rousseeuw P.J. Least Median of Squares Regression. Jour. of the American Statistical Association. 1984, no. 79, pp. 871 -880.

11. Rousseeuw P.J., Leroy A.M. Robust Regression and Outlier Detection. NY, John Wiley and Sons Publ., 1987.

Аннотация научной статьи по математике, автор научной работы — З М. Шибзухов, Д П. Димитриченко, М А. Казаков

Похожие темы научных работ по математике , автор научной работы — З М. Шибзухов, Д П. Димитриченко, М А. Казаков

THE EMPIRICAL RISK MINIMIZATION PRINCIPLE BASED ON AVERAGE LOSS AGGREGATING FUNCTIONS FOR REGRESSION PROBLEMS

Текст научной работы на тему «Принцип минимизации эмпирического риска на основе агрегирующих функций средних потерь для решения задач регрессии»