Научная статья на тему 'О нетривиальности быстрых (ускоренных) рандомизированных методов'

О нетривиальности быстрых (ускоренных) рандомизированных методов Текст научной статьи по специальности «Математика»

CC BY
166
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАНДОМИЗИРОВАННЫЕ ПОКОМПОНЕНТНЫЕ МЕТОДЫ / БЫСТРЫЙ ГРАДИЕНТНЫЙ МЕТОД / РАНДОМИЗАЦИЯ СУММЫ

Аннотация научной статьи по математике, автор научной работы — Гасников А.В., Двуреченский П.Е., Усманова И.Н.

В данной работе предлагаются способы получения ускоренных и неускоренных вариантов рандомизированных покомпонентных методов и неускоренных вариантов методов рандомизации суммы, исходя из оптимальных методов для общих задач (стохастической) выпуклой оптимизации. В работе подчеркивается нетривиальность оценок, полученных для соответствующих ускоренных вариантов этих методов, которые выводятся в статье с помощью недавно предложенной техники каплинга. В отличие от многих других ситуаций, в данном случае не удается «вытащить», не погружаясь в детали доказательства (должным образом корректируя его), оптимальные методы (оценки) для рандомизированных покомпонентных методов и методов с рандомизацией суммы исходя из оптимальных методов (оценок), применимых к общим задачам стохастической оптимизации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Гасников А.В., Двуреченский П.Е., Усманова И.Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О нетривиальности быстрых (ускоренных) рандомизированных методов»

УДК 519.688

А. В. Гасников1'2'4, П. Е. Двуреченский2'3, И.Н. Усманова1'2

1 Лаборатория структурных методов анализа данных в предсказательном моделировании(ПреМоЛаб), МФТИ(ГУ) 2Институт проблем передачи информации РАН 3Weierstrass Institute for Applied Analysis and Stochastics, Berlin 4Московский физико-технический институт (государственный университет)

О нетривиальности быстрых (ускоренных) рандомизированных методов

В данной работе предлагаются способы получения ускоренных и неускоренных вариантов рандомизированных покомпонентных методов и неускоренных вариантов методов рандомизации суммы, исходя из оптимальных методов для общих задач (стохастической) выпуклой оптимизации. В работе подчеркивается нетривиальность оценок, полученных для соответствующих ускоренных вариантов этих методов, которые выводятся в статье с помощью недавно предложенной техники каплинга. В отличие от многих других ситуаций, в данном случае не удается «вытащить», не погружаясь в детали доказательства (должным образом корректируя его), оптимальные методы (оценки) для рандомизированных покомпонентных методов и методов с рандомизацией суммы исходя из оптимальных методов (оценок), применимых к общим задачам стохастической оптимизации.

Ключевые слова: рандомизированные покомпонентные методы, быстрый градиентный метод, рандомизация суммы.

A. V. Gasnikov1'2'4 P. E. Dvurechensky2'3 I. N. Usmanova1'2

laboratory of Structural Methods of Data Analysis in Predictive Modeling(PreMoLab), MIPT) 2Institute for Information transmission problems RAS 3Weierstrass Institute for Applied Analysis and Stochastics, Berlin 4Department of Mathematical Foundations of Control, DCAM MIPT

On accelerated randomized methods

We show how one can obtain nonaccelerated randomized coordinate descent method (Yu. Nesterov, 2010) and nonaccelerated method of randomization of a sum-type functional (Le Roux-Schmidt-Bach, 2012) from the optimal method for the stochastic optimization problem (SIGMA, Devolder-Glineur-Nesterov-Dvurechensky-Gasnikov, 2014). The main trick is a special restart technique. We consider this trick to be useful in other context. We consider the strongly convex case only. We show that accelerated versions of these methods seem to be nontrivial ones in this context. That is, it is difficult (perhaps impossible) to obtain accelerated versions using the same trick. We also propose a new approach to accelerated coordinate descent methods. This approach is based on the coupling technique (Allen-Zhu-Orrechia, 2015) and allows us: to generalize accelerated coordinate descent methods for conditional optimization problems, obtain the dual solution due to the primal-dual nature, extend the universal method (Yu. Nesterov, 2013) to accelerated coordinate descent methods etc.

Ключевые слова: Accelerated randomized methods, fast gradient method, randomization of sum-type functional.

1. Введение

Для быстрого первоначального погружения в описываемую далее проблематику можно

рекомендовать пп. 6.2-6.5 обзора [1].

В данной работе мы хотим подчеркнуть нетривиальность таких методов, как, например, ускоренный (быстрый) покомпонентный метод Ю.Е. Нестерова [2], метод APPROX или ALPHA [3], [4], которые, в частности, являются покомпонентными вариантами быстрого градиентного метода (БГМ) [1] — эту ссылку можно также рекомендовать с точки зрения интересной подборки ссылок на работы, в которых объясняется, что такое БГМ. Нетривиальность в том, что этим методы являются рандомизированными и при этом ускоренными. Число необходимых итераций (как функция от желаемой точности) для таких ускоренных покомпонентных методов увеличивается в число раз п, равное размерности пространства, по сравнению с классическим БГМ, что и не удивительно, поскольку вместо всех n ^ 1 компонент градиента на каждой итерации используется только одна. Также нетривиальность в том, что если полный расчет градиента, скажем, требовал полного умножения разреженной матрицы на вектор - sn операций, то пересчет (важно, что именно пересчет, а не расчет) компоненты градиента в определенных ситуациях требует всего s операций (см. с. 16-17 [3] и пп. 4, 5). Таким образом, увеличение числа итераций в п раз компенсируется уменьшением стоимости одной итерации в п раз (в неразреженном случае оговорка об «определенных ситуациях» существенно ослабляется, см. пп. 4, 5). Но выгода от использования покомпонентных методов, как правило, есть из-за того, что в таких методах вместо константы Липшица градиента по худшему направлению (максимального собственного значения матрицы Гессе функционала) в оценки числа итераций входит «средняя» константа Липшица (оценивающаяся сверху средним арифметическим суммы диагональных элементов (следа) матрицы Гессе, т.е. средним арифметическим всех собственных чисел матрицы Гессе). Разница в этих константах для матриц Гессе, состоящих из элементов одного порядка, может равняться по порядку п (см. пример 2 п. 5). На данный момент известно довольного много примеров применения покомпонентных методов для решения задач огромных размеров, в частности, приложений для задач моделирования сетей больших размеров и анализе данных [5].

В пп. 2, 3 мы демонстрируем те сложности, которые возникают при попытках получить ускоренные покомпонентные методы из оптимальных методов для задач стохастической оптимизации без погружения в вопрос о том, как устроены эти оптимальные методы. Мы не ставили себе в этих пунктах цель получить и подробно исследовать какие-то новые эффективные методы, поэтому изложение в этих пунктах ведется на «физическом» уровне строгости. В п. 4 мы приводим новое доказательство оценки скорости сходимости ускоренного покомпонентного метода, базирующееся на конструкции линейного каплинга [6]: БГМ = «выпуклая комбинация» прямого градиентного метода (ПГМ) и метода зеркального спуска (МЗС). Основная идея получения ускоренного покомпонентного метода: заменить в таком представлении БГМ в методах ПГМ и МЗС градиенты на соответствующие несмещенные оценки градиентов, полученные на основе покомпонентной рандомизации. Несмотря на то, что основной результат п. 4 (теорема 2 о сходимости предложенного метода и замечания к ней) не есть полностью новый результат, подобные оценки (в различных частных случаях) ранее уже встречались в литературе, тем не менее, способ их получения (и его универсальность) представляется новым и весьма перспективным с точки зрения возможных последующих обобщений и приложений (некоторые примеры таких приложений и обобщений приведены в пп. 4, 5). Описанный способ также позволяет устанавливать различные новые факты об ускоренных покомпонентных методах. Наброски приведены в цикле замечаний к теореме 2 в п. 4 и в примерах п. 5. Однако этому планируется посвятить также и отдельную работу(-ы). В п. 6 кратко резюмируются результаты работы, приводятся заключительные замечания.

2. Нетривиальность ускоренных покомпонентных методов

Рассматривается задача гладкой выпуклой оптимизации

f (х) ^ min .

x£Q

Мы постараемся сначала пояснить, как получить в неускоренном случае для данной задачи оценки для покомпонентных спусков из оценок рандомизированных методов решения этой задачи. Оказывается, это можно довольно изящно сделать. К сожалению, при этом даже из оптимальных рандомизированных методов не удается «вытащить» оценки для ускоренных покомпонентных методов. В этом-то и заключается нетривиальность ускоренных покомпонентных методов.

Для простоты считаем, что везде в дальнейшем (в пп. 2, 3) мы говорим о 2-норме и евклидовой прокс-структуре (интересно было бы понять, как все, что далее будет написано, распространяется на более общие нормы/прокс-структуры [9]). Считаем, что функция / (ж) имеет липшицев градиент с константой Ь, является ^-сильно выпуклой, а множество Q имеет диаметр К, при этом в точке минимума V/ (ж*) = 0. Последнее предположение -обременительное для задач условной оптимизации. К сожалению, мы пока не знаем, как от него отказаться.

Будем считать, что на каждой итерации оракул выдает нам несмещенную оценку градиента с дисперсией И. Определим зависимость N (е) для изучаемого итерационного процесса: N (е) - наименьшее N такое, что (/* = / (ж*), где ж* - решение задачи):

Е [/ (хм)] - /* < ^

Теорема 1. Существуют такие неускоренные методы (см., например, п. 6.2 [1]), которые работают по оценкам: (А/0 = / (жо) — /*)

« = (£ + JW) ° (-"£) + £)}.

Существуют такие ускоренные методы (например, линейки SIGMA, см., например, [7] - [9]), которые работают по следующим неулучшаемым оценкам:

—(£+) - {-" ё))} ■

Будем говорить о сильно выпуклом случае, если минимум в этих формулах достигается на втором аргументе.

Далее заметим, что если мы вместо обычного градиента используем его аппроксимации, возникающие в безградиентных и покомпонентных подходах [9] (когда оракул может на каждой итерации выдавать только значение функции в двух точках или производную по указанному нами направлению):

п

9т (ж, s) = - (/ (ж + тs) - f (ж)) s или g (ж, s ) = п (V/ (ж), s) s,

где s - случайный вектор, равномерно распределенный на (1) - единичной сфере в 2-норме в пространстве Rra, то имеет место следующий простой факт, являющийся следствием явления концентрации равномерной меры на сфере вокруг экватора [10] - [12] (северный полюс задается градиентом).

Утверждение 1. Имеют место следующие формулы (см. [9] - [11])

Еа

II9г (ж, s)||2 < 4п ||Vf (ж) ||2 + L2T2n

Ея

Цд (ж, s)||2 =п || V/ (ж) ||

Далее заметим, что, если мы вместо обычного градиента используем его аппроксимации, возникающие в безградиентных и покомпонентных подходах [9] (когда оракул может на каждой итерации выдавать только значение функции в двух точках или производную по указанному нами направлению):

д(х, в) = п (V/ (х),

получается за счет другого выбора случайного вектора в. Мы считаем, что в принимает равновероятно одно из п направлений соответствующих единичных ортов. В таком случае также имеет место соотношение

Ея

\\д (х, в)||2 =п ¡V/ (х)||

2 •

Попробуем теперь исходя из полученных оценок и теоремы 1 в сильно выпуклом случае с V / (х*) = 0 получить оценку

" й = о (п^ Ш (А/°))

для спусков по направлению. Итак, мы считаем, что вместо градиента оракул на каждой итерации (в точке хк) может нам выдавать только производную по указанному нами направлению. Тогда мы имеем несмещенную оценку градиента с дисперсией (приводимая ниже оценка является неулучшаемой с точностью до мультипликативной константы)

Б = О (п ¡V/ (х*)\\2

Используя тот факт, что для любой гладкой выпуклой функции (в предположении, что V / (х*) = 0; для последнего неравенства еще нужно потребовать, чтобы к не был слишком маленьким)

IV/ (хк)\\2 < 2Ь ■ ( / (хк) - /*) < 2ЬА/°, получаем из теоремы 1, что после N = О (пЬ//л) итераций

/ ^) - /* < О (А/°ехр (-^) + ^^) < О (1 А/°)

и, тем более,

/ (х,) - /* <О (а/°ехр (-N+ ^) =О (2 А/°)

Тут также можно пользоваться методами, которые работают по оценкам [13] - [15]

£ = О (М2/(^)) ,

где

М2 = Еч

т,6 (хк, 8 )\2 =О п \\V/ (хк )\\

что не удивительно, поскольку мы фактически при данном подходе и работаем с М2, а не с Б < М2. В любом случае при таком способе рассуждений возникает неаккуратность, связанная с тем, что мы лишь обеспечили

1

(2а/

/(хм)-/* <О( -

В действительности, тут нужно аккуратно выписывать константы, которые в итоге увеличат константу «5» в ожидаемой сейчас формуле N = ЬпЬ/ц в несколько раз. Наконец, необходимо проводить рассуждения с оценками вероятностей больших уклонений (здесь помогают самые грубые неравенства типа Буля, поскольку имеются субгауссовские хвосты, а точнее, вообще финитный носитель у стохастического градиента). Далее мы уже

2

2

не будем делать такие оговорки, поскольку в этом и следующем пункте мы преследуем цель - продемонстрировать нетривиальность ускоренных рандомизированных методов, а не точного выписывания методов, которые получаются по ходу рассуждений. Эти методы не очень интересны, поскольку заведомо не являются оптимальными.

Делая log2 (A f°/£) таких перезапусков (стартуем в новом цикле с той точки, на которой остановились на прошлом цикле) с N = О (nL/fjJ) итерациями на каждом перезапуске (цикле), в итоге получим оценку общего числа итераций:

N <'-> = ° (nL ь (АГ! ))•

Здесь можно «поиграться» на так называемом штьЪа1с]:1'инге (см., например, п. 6.2 [1]), для этого нужна уже формула с дисперсией, то есть е = О (М2/(jN)) не подходит.

Тем не менее даже при использовании неулучшаемых (с точностью до мультипликативной константы) рандомизированных методов из теоремы 1 мы не смогли получить оценки работ [2]-[4], для ускоренных покомпонентных методов

N С)=О WL - ( АР )) •

Строго говоря, в работах [3], [4] таких оценок для покомпонентных методов (в сильно выпуклом случае) мы и не видели (отметим при этом, что такая оценка есть для метода из работы [2] и для безградиентного метода из работы [16]), однако в [3], [4] есть аналогичные «ускоренные» оценки в несильно выпуклом случае. Кроме того, Питер Рихтарик [17] сообщил нам, что он умеет устанавливать эти оценки (для ускоренных покомпонентных методов и в сильно выпуклом случае), и сейчас готовит статью на эту тему (свой способ получения таких оценок мы изложим в п. 4). Проблема тут в том, что мы пользовались правым неравенством (считаем V f (х*) = 0)

2 J • ( f (хк) - /*) < I I V f (хк) 11 2 < 2 L • ( f (хк) - /*) •

Мы специально здесь написали и левое неравенство. Отсюда видно, что в принципе при использовании правого неравенства мы можем потерять L/j. Неудивительно, что в итоге мы, действительно, теряем л/L/j ^ L/j. К сожалению, такого рода рассуждения не позволяют никак «вытащить» оценки оптимального (ускоренного) покомпонентного метода из соответствующих оптимальных полных градиентных методов, не погружаясь в детальный анализ доказательства их сходимости. Нетривиально то, что это один из тех редких примеров (другой см. ниже в п. 3), когда такая философия переноса не сработала. Обычно все удается перенести без особых погружений в детали доказательства. То есть работает принцип: оптимальный метод порождает оптимальный.1

3. Нетривиальность ускоренных методов рандомизации суммы

Рассмотрим теперь в задаче п. 2 случай, когда (этот случай разбирается, например, в п. 6.3 [1] и работах [18] - [21])

т

/(х) = - £л (х),

к= 1

где все функции гладкие с константой Липшица градиента L. Так же, как и раньше, считаем f (х) j-сильно выпуклой. В качестве несмещенной оценки градиента будем брать вектор (по поводу определения SIGMA см. [8])

V f (х10 = VД (х?) - VД (уs) + V f (уs), ys = х*-1,

хХорошо известные примеры тут: 1) регуляризация [2], позволяющая переносить оптимальные методы, работающие в сильно выпуклом случае, на просто выпуклый случай; 2) техника рестартов [6], [14] (см. также п. 4 далее), позволяющая из оптимального метода для выпуклой задачи получить оптимальный метод для сильно выпуклой задачи.

ж?+1 = SIGMA (ж?, V/ (ж?, О), t = 0,..., N - 1,

где случайная величина £ принимает равновероятно одно из значений 1,..., т; параметр N будет выбран позже как N = О (L/j). Здесь по t идет внутренний цикл, а по s - внешний.

Приведенный метод (как и метод из п. 6.3 [1]) можно обобщить (с сохранением всех последующих оценок и способов их получения) на стохастический случай, когда Д (ж) := Ev [ Д (ж; щ)], где Д (ж; щ) - выпуклые по ж функции с равномерно (по ^) ограниченными (числом L) константами Липшица градиентов. При этом (случайная величина имеет такое же распределение, как и щ; также считаем, что ни от чего не зависит,

в частности, от других |и от £)

V / (ж?, £; r?f) = V Д (ж?; r?f ) - VД (у*; r?f ) + V / (у*). Это очевидно для случая, когда

1 1

fk (ж) := Ev [fk (ж; щ)] = у ^ Д (ж; г),

г=1

поскольку все сводится к исходной постановке с т := ml. Далее мы ограничимся рассмотрением только детерминированного случая.

Утверждение 2. Имеет место следующая оценка (АД = f (уs) - Д):

= Е

| | V f (ж?) - Е [V/ (ж?)] 112 = O (L ■ (/ (у-) - Д) + L ■ (/ (ж?) - Д)) = O (LA/')

Для доказательства утверждения 2 в случае V f (ж*) = 0 см., например, формулу (6.3) и лемму 6.1 [1] и цитированную в п. 6.3 [1] литературу (в частности, [18] - [20]). Причем это утверждение можно формулировать с точными константами вместо О (), чтобы ей можно было далее практически воспользоваться (однако мы здесь не будем этого делать). В случае V / (ж*) = 0 доказательство утверждения 2 нам неизвестно (неизвестно даже, останется ли оно верным).

Возьмем теперь в теореме 1 N = О (4Ь/^) и воспользуемся утверждением 2:

1 И

А/«+1 =О (А/• exp(+ JN) ■

JN = o(LAf) =О ( 1A/•). А/"exp (-N TD =О (4 A; •)

Получим

A f Э+1 < О ( ±A/^ .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Здесь можно «поиграться» на штьЪа^Ь'инге [21], вычисляя вместо V f (ж|, £) агрегат

1 г у

г=1

V f (ж?, 6).

Таким образом, если у нас есть возможность параллельно на одной итерации вычислять градиенты V (ж|), то (поскольку дисперсия этого агрегата будет О (ЬА/3/г)) можно выбирать г = О (выбрать г большим нельзя) и, соответственно, сократить число

итераций на цикле до N = О . Далее так же, как и раньше, делаем (А/0/е)

перезапусков (циклов), на каждом из которых вначале надо посчитать полный градиент (это стоит т вычислений градиентов слагаемых), а потом еще сделать N итераций, на

каждой из которых дополнительно требуется рассчитывать в новой точке градиент одного (или нескольких, если используется ттьЪа^Ь'инг) слагаемого. Таким образом, общая сложность (измеряемая на этот раз не в итерациях, а числе вычислений градиентов слагаемых в сумме в представлении /(х), при этом мы считаем, что сложность вычисления разных слагаемых одинакова в категориях О ()) будет

что соответствует части нижней оценки в классе детерминированных методов (см. [22])

Шалевым-Шварцем и Зангом был поставлен вопрос (см., например, п. 6.3 [1]): возможно ли достичь такой (нижней) оценки в целом каким-нибудь методом? То есть речь опять (как и раньше) на самом деле о том, можно ли сохранить ускоренность метода? Только пока, наверное, не очень понятно, причем здесь (ускоренные) рандомизированные покомпонентные методы. Ситуация проясняется, если мы выделим строго выпуклое слагаемое из / (х) в отдельный композит д(х) (см., например, п. 5.1 [1]):

и построим специальную двойственную задачу (см. замечание 5 [5], а также пример 4 п. 5 ниже). Тогда (при некоторых дополнительных предположениях [5], [23], [24]) удается показать, что в некотором смысле выписанная нижняя оценка действительно достигается на ускоренном покомпонентном методе для двойственной задачи. Только для сопоставления потребуется перейти от анализа числа вычислений слагаемых к общему числу арифметических операций (см. пример 4 п. 5 ниже). Собственно, Шалев-Шварц и Занг в работе [23] сами таким образом (правда, не подчеркивая, что, по сути, используют для двойственной задачи ускоренный покомпонентный спуск) и привели пример достижимости (опять оговоримся, что в некотором смысле) нижней оценки.

В связи со сказанным выше отметим, что приведенные в этом разделе оценки (подобно оценкам для покомпонентных методов, см., например, п. 4) можно рассматривать в случае неравномерной рандомизации (выбора слагаемых), а также в случае разных свойств гладкости у разных функций. Сейчас в оценки методов, описанных в этом пункте, входит худшая (по всем слагаемым) константа Липшица градиентов (мы выбрали все константы Липшица градиентов слагаемых для наглядности одинаковыми). В действительности, можно перейти к некоторым их средним вариантам. Однако мы не будем здесь этого делать, поскольку, как уже отмечалось, природа описанных рандомизированных методов вскрывается применением покомпонентных методов к двойственной задаче, для которых все эти нюансы хорошо проработаны.

В этом примере мы опять видим, что попытка из оптимального метода для задач стохастической оптимизации SIGMA (см. теорему 1) вытащить оптимальные оценки для задачи со специальной (скрытой, через двойственную задачу, покомпонентной) структурой не привела к успеху (на штьЪа^И'инг не стоит обращать внимание, он просто позволяет параллелить вычисления, не более того). Таким образом, это лишний раз подчеркивает некоторую самостоятельность и важность отдельного изучения ускоренных покомпонентных методов. Именно такого типа методы (например, APPROX, ALPHA [3], [4]) позволяют получать наилучшие оценки. И оценки скорости сходимости этих методов представляют отдельный интерес (в смысле их получения). Насколько нам известно (лучше всего следить за этой областью по работам П. Рихтарика [17] и Т. Занга [25] и цитированной ими

литературы), сейчас для таких методов используется только евклидова прокс-структура, используются только простые ограничения (сепарабельные), которые обычно зашивают в композитный член [3]. Интересно также было бы понять (охарактеризовать) класс задач, в которых возможно эффективно организовать пересчет компоненты градиента для ускоренных покомпонентных методов. Кое-что на эту тему имеется в [3, с. 16-17], [26], слайды 6-9 [27]. Подробнее все это будет рассмотрено далее.

4. Получение ускоренных покомпонентных методов с помощью каплинга неускоренных прямых покомпонентных методов и покомпонентного метода зеркального спуска

Как уже отмечалось, на текущий момент не до конца ясно, насколько все, что сейчас известно для методов, в которых доступен полный градиент, имеет свои аналоги и в (блочно -) покомпонентных методах. Скажем, не все понятно с тем, как можно играть на выборе прокс-функции в ускоренных (блочно -) покомпонентных методах, не до конца ясно: можно ли (если можно, то каким образом) использовать ускоренные покомпонентные методы, если рассматривается задача условной минимизации с множеством специальной простой структуры (в смысле прокс-проектирования, а точнее (блочно -) покомпонентной версии этой операции), но, вообще говоря, не сепарабельной структуры — в частности, в таких задачах V / (х*) = 0 [2], [3]; есть ли аналог универсального метода Ю.Е. Нестерова [28] в покомпонентном варианте; имеют ли покомпонентные методы прямо-двойственную структуру [5]; как перенести на покомпонентные методы концепцию неточного оракула Деволдера-Глинера-Нестерова (см., например, [7] - [9]); верно ли, что для ускоренного покомпонентного метода расстояние от любой точки итерационного процесса до решения всегда ограничено некоторой универсальной небольшой константой (меньшей 10), умноженной на расстояние от точки старта до решения, как это имеет место для БГМ (замечание 4 [9])? Список можно продолжить, однако мы здесь остановимся и сформулируем общий тезис: все, что сейчас известно для методов первого порядка, в которых доступен полный градиент, имеет (с оговорками, о возможности перенесения результатов на несепарабельные множества) свои аналоги и в (блочно-) покомпонентных методах; более того, константы (Липшица градиента), фигурирующие в обычных градиентных методах, рассчитанные на худший случай (худшее направление), в покомпонентных методах заменяются «средними» значениями, что в определенных ситуациях может давать ускорение в корень из размерности пространства 'раз (не говоря о том, что покомпонентные методы при этом могут еще и хорошо параллелиться) [3], [5], [27], [29].

К сожалению, исходя из всех известных нам опубликованных на данный момент способов вывода (доказательства сходимости) покомпонентных методов (наиболее, конечно, интересны тут ускоренные варианты) сформулированный выше тезис (гипотеза) совсем не кажется очевидным. Однако совсем недавно, в работе [6], был предложен изящный и перспективный во многих отношениях2 способ получения БГМ с помощью выпуклого каплинга (комбинации) обычного (неускоренного) прямого градиентного метода3 (ПГМ) и метода зеркального спуска (МЗС). Ряд «хороших» свойств (например, прямо-двойственность) «наследуется» при таком представлении от зеркального спуска. Естественно, возникает идея попробовать использовать соответствующие легко исследуемые в отдельности покомпонентные аналоги этих двух структурных блоков, чтобы получить ускоренный покомпо-

2В том числе в отношении более простого обоснования отмеченной выше возможности перенесения свойств с полноградиентных методов на покомпонентные.

3Использование в БГМ в качестве одного из структурных блоков именно ПГМ (это заметно упрощает рассуждения в случае ^ = К" по сравнению с другими возможными вариантами) не является обязательным атрибутом. По-видимому, можно построить (в схожем ключе) аналог БГМ (с аналогичными оценками скорости сходимости) на базе МЗС (или его «сходящегося» варианта [30]) и прямого проксимального градиентного метода (ППГМ) и (или) двойственного градиентного метода [7], который будет лишен отмеченных недостатков.

нентный метод. Оказывается, что это, действительно, можно сделать. Далее, основываясь на результатах работы [6], мы приведем соответствующие выкладки.

Исходя из написанного в предыдущих пунктах, можно сказать, что для получения ускоренных покомпонентных методов требуется более тонкая игра (на каждой итерации) на правильном сочетании базовых методов со специальным выбором параметров. Оптимальный метод порождается выпуклой комбинацией неоптимальных методов для класса гладких задач, и именно из этого стоит исходить (распространяя конструкцию на покомпонентные методы), чтобы получить ускоренный покомпонентный метод. Этот тезис нам также представляется полезным, поскольку он подтверждает, что оптимальные методы порождают оптимальные, просто в ряде случаев требуется заглядывание в структуру (базис) метода, чтобы иметь возможность из него породить что-то новое оптимальное.

Сначала мы постараемся в максимально упрощенной ситуации пояснить, как можно получить ускоренный покомпонентный метод, исходя из конструкции п. 3 работы [6]. Все, что далее будет написано, допускает серьезные обобщения, о которых мы упомянем ближе к концу этого пункта.

Итак, рассмотрим задачу

/ (ж) ^ min .

Введем необходимые в дальнейшем обозначения/определения:

d = (0, ... 0,1, 0,... , 0);

г

|9 / (ж + Л,ег)/<9жг — 9/ (ж)/dxi| < Ljh для всех ж G Rn и h е Д;

п п

11x112 = £ L,x?, ||V/ (ж) 112 = Е L-1 (9/ (ж)/9жг)2 ;

г=1 г=1

d (ж) = 2 ||ж||2 , (у) = d (у) — (Vd (ж), у — ж) — d (ж) = 1 ||у — ж||2 ; Vif (ж) = (0, ..., 0,9/ (ж)/9ж„ 0,... , 0);

• i G [1,..., n] — означает, что Р (г = j) = n-1, j = 1, ...,n;

• Ei [G (г)] — математическое ожидание по г е [1, ...,n] ;

• Eifc+1 [G (гi,..., ¿fc+i)| ¿1,..., ik] = g (гi,..., ik) — условное математическое ожидание по гG [1, ...,n] ;

• Eii ,...,ik [Eifc+i [G (г 1,..., îfc+1)| ¿1,..., îfc ]] = E [G (г 1,..., îfc+1)] —

полное математическое ожидание по всему набору г1,..., гk+1 G [1, ...,n] ;

• Grad (ж) = argminieQ { (Vi /(ж) ,ж — ж) + 2 ||ж — ж||2} = ж — -ц Vif (ж) ;

• Мггг = argminyeQ {({^ — + ^ (у)} = ({^ — ¿7&} ).

Приведенные формулы специально были записаны таким образом, чтобы их легко было перенести на случай, когда выбирается не одна компонента г, а целый блок компонент и

Q = Rra.

Опишем костяк покомпонетного ускоренного метода (Accelerated by Coupling Randomized Coordinate Descent - ACRCD) на базе специального каплинга покомпонентных вариантов ПГМ (Grad) и МЗС (Mirr) (жо = Уо = ^о)

ЛСИСБ ( а, г; в, х0, f (хо) - /* < Л)

1. хк+1 = тгк + (1 — т) ук, т € [0,1] - будет выбрано позже;

2. гк+1 € [1, ...,п] - независимо от предыдущих розыгрышей;

3. Ук+1 = (хк+1);

4. хк+1 = М1гг^ (апУг + / (хк+0) ,а> 0 - будет выбрано позже.

Поскольку

Ег [пУг / (х)] = V/ (х),

то шаг 4 (согласно формуле (3.1) [6]; в евклидовом случае можно ограничиться более простыми рассуждениями - см., например, с. 223 [31]; другой способ получить оценки для МЗС, показывающий дополнительную связь МЗС и проксимального ПГМ (ППГМ), - воспользоваться оценками для метода ППГМ с неточным оракулом из [7], [28]) влечет4

а2п2 и 2

ап(Vík+l /(хк+1), гк —и) ||^+1 /(хк+1)||* + У2к (и) — Угк+1 (и) =

аП | ,2 шаг 3

= ттг-г / (хк+1) /дх1к+11 + У2к (и) — У,к+1 (и) <

2ЬЪк+1

шаг 3

< а п2 (/ (хк+1) — / (Ук+1)) + ^ (и) — ^к+1 (и). Возьмем от этого неравенства условное математическое ожидание Е^к+1 [ ■ 111,..., 1к] :

а (V/ (хк+1), гк — и) <

< а2п2 (/(хк+1) —Е^+1 [/(Ук+1)| гl,..., %к 0 + У2к (и) — Ег,+1 ^^ъ..^ гк ] .

Согласно формуле (3.2) [6], которая используется в совершенно таком же виде, как ив [6], из последнего неравенства при

1 — 2 -= ап2

получаем

а (V/ (хк+1), хк+1 — и) <

< а2п2 (/(ук) — Е1к+1 [/(Ук+1)| Ч гк]) + У2к (и) — Е^+1 [у^ (u)|il,..., 1к ] .

Положим и = х* и возьмем математическое ожидание Ег1,...,гк [ ■ ] (если к > 1) от каждого такого неравенства, и просуммируем5 то, что получается по к = 0,..., К — 1:

к

аК (Е [/ (хк)] — /*) < а £ Е [(V/ (хк), хк — х*)] <

к=1

< а2п2 (/ (хо) — Е [/ (ук)]) + ^ (х*) — У2К (х*) < а2п2 (/ (хо) — /*) + (х*),

4Отметим, что первое неравенство специально записано таким образом (в достаточно общем виде), чтобы была видна возможность рассмотрения прокс-структур, отличных от евклидовой. По-видимому, для покомпонентных методов в подавляющем большинстве приложений можно ограничиться рассмотрением только евклидовой прокс-структуры. Нюансы могут возникать, когда вместо одной компоненты разрешается сразу случайно выбирать целый блок компонент (необязательно постоянного размера) [2] - [4], что для евклидовой прокс-структуры можно также понимать как штьЬа^Ь'инг [1]. Иногда в приложениях это (использовать сразу блок случайно выбранных компонент, причем в понятие «случайно» тут можно много что вкладывать) бывает полезно [32].

5Из этого неравенства устанавливается прямо-двойственная природа метода ЛСИСБ [33]. Прямо-двойственность ускоренных покомпонентных методов требуется в ряде приложений, см., например, [5]. Впрочем, в сильно выпуклом случае (к которому все можно сводить за дополнительную логарифмическую плату, см. далее) прямо-двойственность оказывается уже не нужна (см., например, главу 3 [7]).

Пусть

Выбирая

получим

1 к

жк = Хк (жо) = .

к=1

(ж*) < в, / (жо) - /* < d.

т = —^-, a = —\/в, К = К (d) = 8т/в,

an2 + 1 n V d V d

„г,,- м , . 2n\/ed d Е [/(жк)] - /* < К < 4.

Для получения сходимости по вероятности, воспользуемся следующим приемом [9], о котором мы узнали от А.С. Немировского. Из

Е [/ (хек)] - /* < d/4

по неравенству Маркова

X = /(ж*) - /* > 0, Р (X > i) <Е [Xj/i, i = d/2,

имеем

Р (/(хек) - /* > d/2) < 1/2.

Отсюда следует, что если мы независимо (можно параллельно) запустим [log2 (а-1)] траекторий ACRCD ( a, т; в, ж0, d) (определив тот Хк, для которого значение / (Хк) будет наименьшим), то с вероятностью > 1 - а хотя бы на одной траектории будем иметь

/ (ХК) - /* < d/2.

К сожалению, это требует расчета в [log2 (а-1)] точках значения функции / (ж). Расчет функции в точке / (ж) может быть заметно дороже стоимости одной итерации метода ACRCD. Однако это все равно не изменит по порядку оценку общего числа арифметических операций.

Итак, пусть ACRCD (a, i^e^^d) выдал такое ж^(d) (жо), что с вероятностью > 1 - а имеет место неравенство

/ (хк (жо)) - /* < d/2. Важно заметить, что при этом с вероятностью > 1 - а

VXK(d)(xo) (ж*) < max {Vx (ж*): / (ж) - /* < d/2} < max {Vx (ж*): /(ж) - /* < d} .

При этом выписанная оценка не запрещает, например, что VsK(d)(£0) (ж*) ^ в. В этой связи для правильной работы описываемой далее процедуры перезапусков, к сожалению, необходимо переопределить в следующим образом (все это может существенно ухудшить итоговую оценку,6 однако впоследствии с помощью регуляризации исходной постановки задачи мы покажем, как можно практически полностью нивелировать эту проблему)

max {Vx (ж*) : / (ж) - /* < d} < в.

xeQ

Например, для выпуклой квадратичной функции (безобидной, с первого взгляда, в виду равномерной

п — 1

ограниченности всех коэффициентов), о которой нам сообщил Ю.Е. Нестеров: / (х) = х1 + ^ (жк+1 — 2жк) ,

к=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

множества Лебега оказываются сильно сплющенными (плохо обусловленными). Также эту функцию интересно прооптимизировать с помощью ПГМ-методов с неевклидовой нормой [6]. Эти методы релаксационные (то есть значение функции монотонно убывает на итерациях), но при этом точки, генерируемые методами, по ходу итерационного процесса могут уходить намного дальше от решения, чем точка старта.

Запустим далее ЛСИСБ (а, т; в, хк (х0), Л/2), получим такой хк(а/2) (хк (х0)), что с вероятностью > 1 — 2а (воспользовались неравенством Буля) имеет место неравенство

/ (хк(<*/2) (хк (хо))) — /* < Л/4.

Процесс можно продолжать... Для достижения по функции точности е с вероятностью

> 1 — [1о§2 №)1 а

будет достаточно |"^2 ((1/е)1 таких итераций (перезапусков). Требуемое при этом общее число итераций (число обращений к компонентам вектора градиента) оценивается сверху следующим образом:7

N < 8п\!в (1 + 2-1/2 + 2-1 + 2-3/2 + ...) log2 (а-1) < ЗОп^ log2 (а-1) .

Теорема 2. После ((1/е)1 описанных выше рестартов метод ЛСЕСБ выдает такой хм, что с вероятностью > 1 — а имеет место неравенство

Цхм) — и < е.

При этом методу требуется для этого сделать

N = N (,) = 27nyflog2 (lQg2 f£))

а

итераций.

Замечание 1 (достоинства и недостатки ACRCD). Из описанной конструкции ACRCD, как уже отмечалось ранее, следует его прямо-двойственность [33]. Заметив, что ПГМ и МЗС (Grad и Mirr) легко могут быть обобщены на композитные постановки задач [34] (к этому случаю, в частности, можно свести и минимизацию на параллелепипеде), с помощью описанной выше конструкции можно получить соответствующий композитный вариант ACRCD для задач с сепарабельным композитом (см. также [3]). К сожалению, ряд других свойств ACRCD уже не так просто «вытащить» (и не всегда понятно даже, возможно ли это в принципе, и имеют ли вообще нужные свойства место здесь). В частности, например, непонятно, как можно адаптивно (по ходу итерационного процесса) подбирать константы Липшица по разным направлениям, подобно п. 6.1 работы [2]. Непонятно, как можно «бороться» с проблемой неизвестности одновременно двух параметров В и d, нужных методу для работы.8 Описанный нами вариант метода ACRCD работает в предположении Q = Rra и не гарантирует свойство равномерной ограниченности (в вероятностях категориях [9], [32]) последовательности расстояний от решения до точек, генерируемых методом, значением этого расстояния в начальный момент, умноженным не небольшую универсальную константу (в частности, не зависящую от свойств функционала задачи). Эти плохие свойства ACRCD9 «унаследовал» от БГМ, описанного в п. 3 [6]. В п. 4 [6] описан вариант немного другой вариант БГМ, который лишен этих недостатков. Оказывается, можно распространить и его на покомпонентный случай, что далее будет сделано (см. замечание 2).

Выбирая К = 9 n^/ojd, можно уменьшить константу 30 до 27, последняя константа - уже не улучшаемая при таком способе рассуждений.

8 Стандартные приемы рестартартов по неизвестному параметру разработаны сейчас только для случая одного неизвестного параметра [9], формальная попытка перенесения на случай двух и более неизвестных параметров (без дополнительных предположений [32]) приводит к резкому увеличению сложности процедуры.

9 Вместе с уже отмеченной ранее проблемой вхождения © в итоговую оценку (числа итераций N (е)) вместо VX0 (х*), как это можно было ожидать [3].

Уже отмеченные свойства (прямо-двойственность, обобщение на композитные задачи) и все далее изложенные свойства (обобщения) ЛСИСБ допускают всевозможные сочетания друг с другом. Детали мы вынуждены опустить (планируется посвятить этому отдельную работу), но в большинстве случаев все это является довольно простыми фактами (впрочем, как правило, требующими для аккуратного доказательства довольно громоздких, но вполне стандартных рассуждений). Можно сказать по-другому: далее приводится «базис» для всевозможных последующих обобщений.

Замечание 2 (ЛСКСЮ*). Используемая при построении ЛСИСБ техника рестартов позволила довольно просто получить оценки вероятностей больших уклонений. Однако эта же техника создала ряд проблем (см. замечание 1), многие из которых, в первую очередь, связаны с некоторым запаздыванием в обновлении параметров и а. Они обновляются только на новом рестарте. Основная идея (см. п. 4 [6]) - сделать эти параметры зависящими от шага. Тогда удастся избавиться от рестартов и приобрести ряд хороших свойств. Далее описывается соответствующая модификация метода ЛСИСБ. Предварительно определим две числовые последовательности

1

ai = —2 , п2

22 ak п

ak+in2 -ak+i, тк

1

ak+in

2 •

Можно написать явные формулы. Также можно, следуя [6], брать близкие последовательности (теоретически немного проще исследовать первый вариант, но второй вариант более нагляден, а итоговые оценки скорости сходимости практически идентичны)

ak+i

к + 2

1

2

п

k

ak+in

2

к + 2

ACRCD * (хо = уо = zq)

1. хк+i = TkZk + (1 - тк) ук;

2. гk+i € [1,..., п] - независимо от предыдущих розыгрышей;

3. yk+i = Grad»k+1 (xk+i);

4. Zk+i = MirrZk (ak+inVjfc+i / (xk+i)).

Оценка скорости сходимости такого метода

N m = 0("V!ln (а )) •

где

В = VXo (x*)

Получается эта оценка из следующей формулы (см. последнюю формулу в доказательстве леммы 4.3 [6]):

ак+1 пЕгк+1 [/ (Ук+1) 1 ^] — {ак+1п — ак+1) / (Ук) <

< ак+1 {/(хк+1) + (V/ (хк+1) ,и — хк+1)} + Угк (и) — Егк+1 [Угк+1 (и) к,..., 1к] .

Взяв математическое ожидание Е^..,^ [ ■ ] (если к > 1) от каждого такого неравенства и просуммировав то, что получается по к = 0,...,N — 1, получим

a%n2EyN [f(yN)] <

[Угм (и)П -

{М -1 £

к=0

Е а*+1 \Й=0 /

- + (ж*) - (ж*)] • \й=0 /

Из последнего неравенства получается нужная оценка N (е) (только для сходимости в среднем, для получения оценки вероятностей больших уклонений необходимо использовать10 неравенство концентрации Азума-Хефдинга для последовательностей мартингал-разностей, см., например, главу 7 [7]). Приведенное неравенство сразу показывает прямо-двойственность метода [31], [33], что это означает (и какая от этого польза), хорошо можно продемонстрировать конкретными примерами [5], [32], [35], [36] (см. также пример 3 ниже). Вместе с тем приведенной оценки следует, что

Е*к

1 2 2II ^ -ж*11

= Е,к [^ (®*)] - Е^ 1 (ж*)] - ••• - Е,к—1 [^ (ж*)] - У20 (ж*)

11

Можно привести и более точные вероятностные оценки на субмартингал

IIж* ||2 •

Аналогичными субмартингальными свойствами обладают и последовательности

Цук -ж*||2 , Цжк -ж*||2 ,

что доказывается по индукции, исходя из пп. 1, 3 в определении ЛСИСБ*, выпуклости квадрата нормы и неравенства Йенсена. Детали мы вынуждены здесь опустить. В качестве «сухого остатка» можно сформулировать следующий результат (см. также [9], [32]): с вероятностью > 1 — а

к=

где

тах {||Ук - ж*||2 , ||гк - ж*||2 , Цжк - ж*||2} - В2

Д2 = С^ (ж*)ln(N/а)

а С < 100 - некоторая универсальная константа. По-сути, это означает, что если заранее знать Уго (ж*), то, например, константы Липшица можно определять не на всем Q (если Q не ограничено, то и константы могут быть не ограничены), а на пересечении Q с «шаром» в ||||-норме с центром в точке жо и радиуса В. Вместе с прямо-двойственностью это оказывается полезным инструментом для использования покомпонентных методов при решении двойственных задач [5] (см. также пример 3 ниже). Из описания ЛСИСБ* также следует, что метод позволяет адаптивно подбирать константы Липшица по разным направлениям, подобно п. 6.1 работы [2].12 Теперь уже нет проблемы с завышенной оценкой параметра В, входящего в оценку N (е), ввиду В = УХо (ж*). И из двух потенциально неизвестных априорно параметров В и с? теперь остается только один В.

Можно показать, что в выписанной формуле для N (е) константа в О () не больше, чем в теореме 2. Используя эту явную формулу для N (е), подобно п. 5 работы [6], с помощью техники рестартов (по расстоянию от текущей точки до решения) можно перенести

10Впрочем, можно получить неравенства на вероятности больших уклонений с помощью неравенства Маркова подобно тому, как это было описано выше в п. 4 для ЛСИСБ.

11При доказательстве этого факта существенно используется евклидовость нормы, к сожалению, для неевклидовых норм похоже, что результат перестает быть верным (см., например, приложение В.1 в [6]), если по-прежнему исходить из ПГМ в представлении БГМ (не пытаясь заменить его, например, на ППГМ).

12Чтобы сохранить дешевизну итерации (эффективность метода) для композитных постановок или в случае, когда множество ^ непараллелепипедного типа, здесь требуются некоторые оговорки (подобные сделанным в замечаниях 7, 8 ниже) о возможности эффективно пересчитывать значения функции.

полученные результаты на случай ^-сильно выпуклой в норме |||| функции (заметим, что при таком перенесении можно сохранить возможность метода адаптивно настраиваться на константы Липшица). Соответствующая оценка числа итераций будет иметь следующий вид (для евклидовой нормы ||||, для неевклидовой под корнем может возникнуть дополнительный логарифмический по п множитель [9])

„м = 0 ь. (£)) .

Замечание 3 (обобщение на блочно-компонентные методы и на более общие прокс-структуры и множества). Описанный метод допускает следующее обобщение.13 Пусть (см. также теорему14 5 [2])

п

X = (Х1,...,Хп) , Я =

г=1

Каждый Хг € Яг, в свою очередь, является вектором (размерности у этих векторов могут быть разными). Пусть в соответствующих подпространствах (отвечающих различным блокам) введены нормы {у^ЦхгЦг}*=! и соответствующие этим нормам «расстояния» Брегмана {V*. (уг)}П=1 (см., например, [7], [9]). Положим

п п п

i2 = Elii®4, iv/ии* = El-1 (х)112,*, v*(v) = E^

i=1 i=1 i=1

Будем считать, что для всех х,х + hei G Q

||grad:ci/ (х + hei) - grad,./(х)||м < Lih piJi! ,

где вектор ei имеет все нули в компонентах, не соответствующих г-му блоку. Введенные обозначения позволяют переписать сам метод (см. также [6]). При этом оценки будут иметь точно такой же вид, меняется только интерпретация параметров, норм (расстояний) в этих оценках. Заметим, что в приложениях к поиску равновесий в популяционных играх загрузок с большим числом популяций (в частности, задачах поиска равновесного распределения потоков по путям в графе транспортной сети [32], [35], [36]) часто возникают множества, имеющие вид прямого произведения симплексов. До настоящего момента было непонятно, можно ли (а если можно, то как) применять к таким задачам покомпонентные методы.

Замечание 4 (обобщение на задачи стохастической оптимизации).

Предположим, что исходная задача имеет вид

Щ [/ (х; О] ^ min.

xEQ

Если f (х; £) - выпуклая по х функция (при всех £) с константами Липшица (равномерно не только по х, х + hei G Q, но и по £):

||gradx,-/(х + hei;0 -grad^/to^L < LihyteliiL,

13Мы не будем подробно пояснять все используемые далее обозначения - они стандартны и должны быть понятны из контекста, детали см., например, в [2], [3].

14Отметим также, что везде в этой теореме можно вместо Н^ (х0) писать 2 ||жо — что немного улуч-

шает оценку теоремы.

где вектор а имеет все нули в компонентах, не соответствующих i-му блоку. Введем

D = max {e? [||V/ (ж; £) - E? [V/ (ж; £)] Ц^Н .

x£Q 1 L J J

Тогда если вместо Vif (ж;£) можно рассчитывать только на Vif (ж;£):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Eg [Vtf (ж; О] [/(ж; О] ,

то оценка в теореме 2 изменится следующим образом (см. также [9]):

N (е) := О ^max |N (е), nD^ ln }) ' в случае ^-сильно выпуклой в норме |||| функции

N М := О (max {n (г) ,nD ln (1П<Ш>)}) .

Замечание 5 (учет ошибок в вычислении компонент градиента). Немного специфицируя концепцию неточного оракула ( £ > 0 - уровень шума) из главы 4 [7], введем следующее предположение (векторы ёг, Уг/$,Ьг (ж) имеют все нули в компонентах, не соответствующих г-му блоку): для любого ж € Q существуют такие Д,^ (ж) и Уífs,Li (ж), что для всех у = ж + € Q выполняется

0 - / (у) - и,ьг (ж) + <Угд^ (ж), У - ж> - - ||[у - ж]Л? + г,

т.е.

Г ^2

0 - / (ж + Ыг) - иМ (ж) + Л <У иМ (ж) , ёг> - -2- || [ег]г|2 + £

При 5 = 0 отсюда получаем определение констант Липшица — в блочно-покомпонентном методе из замечания 3. Полезными следствиями введенного определения являются следующие неравенства:

0 - /(ж) - им (ж) - 5, 2 ||У/«№ (ж)||2 - / (ж) - / (Огаё* (ж)) + 5,

где

Grad- (ж) = arg min { (V fs,Li (ж) , Ж - ж) + 1 ||Ж - ж||2 1 = ж - -1 V» (ж)

ikGQ ^ 2 J Li

здесь для наглядности мы ограничились случаем евклидовой нормы и Q = И"". С помощью этих неравенств можно скорректировать (см. также [9]) оценку теоремы 2 (и различные ее обобщения) на случай, когда мы можем вычислять вместо «честных» компонент градиента У г / (ж) только их приближенные (в указанном выше смысле) аналоги Уifs,Li (ж):

/ (жм(£)) -д - е + О ^ (е)5) •

Вообще эта формула типична для всех известных нам ускоренных методов (полноградиентных, покомпонентных, прямых). И это соответствует самому худшему (быстрому) варианту накопления ошибки. Для неускоренных методов О ^¿) ^ 0(5), что соответствует самому лучшему варианту накопления ошибки (то есть когда такое накопление отсутствует). Подобно полноградиентным методам для покомпонентных методов (и прямых) можно предложить так называемые промежуточные методы (см., например, [7] - [9]) с накоплением ошибки О (^¿), р € [0,1]. Из этого замечания (а также замечания 2)

возникает гипотеза о возможности создания универсального покомпонентного метода [28].

Интересно было бы объединить замечания 4, 5 с целью получения покомпонентной версии результатов главы 7 [7] и [8].

Замечание 6 (обобщение на взвешенную рандомизацию). Предположим, что вместо одной компоненты можно выбирать блок компонент (всего п блоков), причем, вообще говоря, с разными вероятностями: выбираем блок компонент г с вероятностью15

и

¡з

Рг =

г = 1,..., п,

3 = 1

где параметр степени Р £ [0,1]. При этом необходимо будет переопределить норму

и2 = ии2,

г=1

г=1

а, соответственно, также прокс-функцию и параметр В. При этом во всех приведенных выше формулах, которые определяют метод, в частности, для АСИСБ это

1 1 В „ В

т =—^Г, а = ~\ 1, К = 8пу -г, ап2 + 1 п V а V а

N = 27пу В 1о§2

необходимо будет сделать замену

п

Еи?.

г=1

Выше в этом пункте мы рассматривали случай Р = 0 (в другом ключе этот случай также рассматривался в [2]). Можно ожидать, что на практике этот вариант предпочтительнее. Заметим, что ранее уже рассматривались отдельно случаи Р = 1/2 [27] и Р = 1 [26].

В связи с замечанием 6 возникает вопрос: существуют ли еще более общие способы (с большим числом степеней свободы) сочетания выбора рандомизации и нормы? Положительный ответ более-менее очевиден (см. также [4]), но интересно было бы предложить такие способы, которые в определенных ситуациях позволяли бы еще более ускориться по сравнению с методом, порожденным замечаниями 2, 6.

Замечание 7 (стоимость итерации: неразреженный случай). Рассмотрим, следуя Ю.Е. Нестерову (см. слайд 7 [27]), следующий случай:

/ (ж) = Е (Аж, ж), ж £ Ип, у = Аж £ И™.

Будем считать, что значение Е (у,ж) (а следовательно, и градиент [38]) можно посчитать за О (т + п). Пусть верно хотя бы одно из следующих условий: 1) п = О (т); 2) расчет gradyF (у, ж) стоит О (т), а (у,ж)/<9ж^ - О (т).16 Тогда амортизационная (средняя) сложность одной итерации будет О (т). Обоснование этого факта можно получить как

15Приготовление памяти для генерирования из описанного распределения стоит О (те). Это делается один раз (строится соответствующее двоичное дерево Л.В. Канторовича [2]). Случайные разыгрывания г при наличии правильно подготовленной памяти будут стоить О (1с^2 те) - каждое.

16

В ряде приложений посчитать одну компоненту градиента оказывается в те раз дешевле, чем сам градиент. Например, это так для / (х) = хтАх. Но все же верно это далеко не всегда. Например, для функции (см. пример 3 п. 5 ниже)

/ (х) = 1п ^^ ехр (ж*)^

стоимость расчета самой функции, ее градиента и любой компоненты градиента одинаковы по порядку.

простое следствие более общих рассуждений, проводимых в следующем замечании.

Замечание 8 (стоимость итерации: разреженный случай). Из первого пункта описания алгоритма ЛСИСБ кажется, что всегда один шаг этого алгоритма будет требовать, как минимум > п арифметических операций. Однако замечание 7 показывает (при т ^ п), что это совсем не обязательно. Естественно возникает вопрос: а можно ли получить еще больше (еще более дешевую итерацию)? В определенных (разреженных задачах специальной структуры) ответ оказывается положительным. Пояснению этого тезиса и будет посвящена оставшаяся часть данного замечания. Оказывается, что при наличии у задачи определенной структуры (например, в случае f (х) = хТАх или / (х) = НАх — Ь||2) нет необходимости выполнять первый пункт честно (в полном объеме). Далее мы описываем идею, заимствованную из работ [3], [26], [27]. Предварительно перепишем алгоритм ЛСИСБ в рассматриваемом нами случае (рассматривается задача безусловной оптимизации) следующим (эквивалентным) образом (хо = и0 = у0):

ACRCD' (а, т; в, xq, f (xq) - /* < d)

1. xfc+i = (1 - r)fc+1 vk +uk;

2. гk+i G [1, ...,n] - независимо от предыдущих розыгрышей;

3. Vk+i = Vk + ¿.!+i (1-nT-1+i Vifc+1 f (xk+i);

4. Uk+1 = Uk - J^- Vfc+i f (Xk+i).

гк +1

5. если к = N — 1 , то выдаем

Ум = yk+i = Gradifc+i (Xk+i ) = Gradiw (xn ).

Предположим, что

m

/(x) = Е vr (arx)'

r=i

где функции vr - простой структуры, т.е. дифференцируемые за О (1) каждая, причем А = ||ai ... am||T - разреженная матрица (число ненулевых элементов sn, т.е. в каждом столбце в среднем s ^ m ненулевых элементов). Тогда подобно [3] один шаг метода ACRCD' (кроме самого первого шага, который может стоить О (n)) может быть осуществлен в среднем за О (s) (амортизационная сложность). Действительно, пункт 2 ACRCD' можно осуществить за О (lnn) (считаем lnn = О (s)). Пункты 3, 4 за О (s). Такая стоимость этих пунктов обусловлена необходимостью пересчета df (xk+i)/dxi. Осуществлять этот пересчет необходимо, используя пункт 1. Покажем, как можно это эффективно делать. Прежде всего заметим, что если мы уже посчитали ajvk и ajuk, то посчитать дополнительно ajxk+i будет стоить О (1). Также заметим, что если мы уже посчитали Avk и Au,k, то посчитать дополнительно Avk+i и Auk+i будет стоить О (s). Чтобы посчитать df (xk+i)/dxi, нужно вычислить частные производные (по xi) в среднем у s слагаемых в сумме. Каждая такая частная производная (по предположению о простоте структуры функций vr) рассчитывается за О (1) в предположении известности всех аргументов этих функций. Учитывая, что на пересчет всех аргументов уйдет О ( ) (см. выше), то в среднем общие трудозатраты будут О (s) + O (s) = О (s). Таким образом, один шаг метода будет стоить О (s). Чтобы посчитать выход алгоритма:

1 К 1 к к / _ i(i_ )К \

xK=«^r=* £ K=k I ^ ^- чVi''(xk'=

ЕК 1 / ап — 11 — т / ,К-к\ "п ,-гг 1 -Л ^ , ч

^ К ("дТ — I1 — (1 — т) ) — I" (к — ^ + ^ ^ 7(я*

достаточно О (К) арифметических операций. Все написанное выше переносится и на ЛСИСБ*.

ACRCD* (ж° = и° = = w°)

1. Xk+i

{n(1— ,)}

k

Uk + Vk + < E

Wk

П (1 -n)

l=1

2. гG [1, ...,n] - независимо от предыдущих розыгрышей;

k

3. Uk+i = Uk + E — Vifc+i / (жк+i);

•fc+i n (i-n)

4. Vk+i = Vk - -г:

1

1

fc+1 П (1-Tj ) j=1

5. Wk+i = Wk - Vifc+i / (Xk+i); 2fc + 1

V fc+i / (xk+i);

6. если k = X — 1, то выдаем

yN = yk+i = Gradifc+1 (xk+i) = GradiN (xN).

Были проведены численные эксперименты с методами типа ACRCD, подтвердившие основные полученные в статье теоретические оценки, На практике оказалось, что метод ACRCD без рестартов сходится почти точно также как метод ACRCD с рестартами, а метод ACRCD* (на задачах больших размеров) сходится приблизительно также как ACRCD.

5. Примеры применения ускоренных покомпонентных методов

Начнем этот пункт с очень простого примера, демонстрирующего, что покомпонентные методы (в том числе неускоренные), вообще говоря, не применимы к произвольной задаче выпуклой оптимизации.

Пример 1. Рассмотрим выпуклую задачу

/ (ж) = (ж1 - 2)2 + (ж2 - 1)2 ^ min,

xeQ

Q = {ж = (ж1, Ж2) > 0 : Ж1 + Ж2 < 2} . Предположим, что покомпонентный метод стартует с точки

ж0 = (1, 1) G Q.

Тогда метод (если в методе жестко прописано оптимизировать по выбранному направлению - у нас это не так) не сдвинется с места по обоим направлениям, задаваемым ортами и проходящим через ж0 (поскольку / (ж) внутри Q имеет минимум в ж0 по этим направлениям), в то время как в точке

ж* = (0.5, 1.5) G Q

/ (ж) достигает минимума на Q:

i=1

/ (ж*) = 0.5 < 1 = /(ж°)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Если в методе жестко прописано оптимизировать по выбранному направлению (в подавляющем большинстве существующих вариантов покомпонентных методов именно так и сделано), то для возможности рассмотрения случая Я = Мп нужно дополнительно потребовать, чтобы для любого г = 1, ..,п имело место условие: для любого х = (х1, ..,хп) € Я выполняется

Если множество Я = ЛП=1[а&, ^] - сепарабельно, то это условие, очевидно, выполняется. В п. 4 мы предложили такое описание покомпонентных методов, которое, в частности, может использоваться для описанного примера. Однако при этом теряется (в общем случае аналогично) основное хорошее свойство метода - дешевизна итерации. □

Перейдем теперь непосредственно к приложениям покомпонентных методов. За более подробной информацией о покомпонентных методах и примерах их приложений можно рекомендовать обратиться к [17], [25], [39].

Пример 2. Возьмем функцию (в изложении этого примера мы во многом следуем Ю.Е. Нестерову, см. слайд 8 [27])

где 5 - симметричная матрица, все элементы которой числа от 1 до 2. Возьмем метод ЛСИСБ* в варианте замечания 6 с @ = 1/2. Выберем евклидову норму. Константа Липшица этой функции по определению есть

При этом покомпонентный метод дает константы Липшица Ь = Бц < 2. Таким образом, получаем ускорение приблизительно в у/п раз. Действительно (см. замечание 6),

поэтому оценка числа итераций соответствующего покомпонентного быстрого градиентного метода (ПБГМ) будет

Для обычного (непокомпонентного) БГМ соответствующая оценка числа итераций имеет вид (отметим, что при выборе @ = 1/2 можно считать В в обеих формулах одинаковым)

(х1, хг— 1, х*г, хг+1, хп) € Я.

а стоимость одной итерации О (п). Итого

Зато одна итерация стоит О (п2). Итого

В более общем случае полезно иметь в виду следующие неравенства:

1 1 п

-1* ( 5) <Атах (5) < 1г (5), -V л/Ёг <

п п —'

П П

г=1

\

1 п п

= \ Пtr(S).

П П

г=1

Таким образом (здесь мы опустили логарифмический множитель в оценке ^бгм, поэтому вместо О () ввели О ()):

Тпбгм = О < О Ы™^ = Тбгм.

В разреженном случае, согласно замечанию 8, пропорции сохраняются:

^ / /(tr ( S )/п)*\^„( /Лтах (S)Q^ Тпбгм = О I sny--- I < О I 8П\1--- I = ТБГМ.

Обратим внимание, что выгода приблизительно в у/П раз является максимально возможной. Достигается она в ситуациях, когда Лтах (S) и tr (S) одного порядка. Скажем, если собственные значения матрицы S: (1,..., п}, то Лтах (S) = п, при этом tr (S) ~ п2, т.е. нужна большая (более резкая) асимметрия. Если под матрицей S понимать гессиан функционала задачи в «худшей» (с точки зрения рассматриваемых оценок) точке, то выписанные формулы не изменятся. Однако в разреженном случае потребуются большие оговорки, чтобы можно было сполна учесть разреженность в стоимости итерации. Поскольку в приложениях довольно типично выполнение неравенства

-tr (S) < Л тах (S),

то из приведенных оценок следует, что во многих случаях получается ускорить вычисления за счет использования ПБГМ вместо БГМ (не говоря уже о возможности распараллеливания [3], [4]). Как уже отмечалось, в ряде случаев это выгода может достигать ~ у/П раз. Другие примеры, когда похожие пропорции имеют место, можно посмотреть в работах [5], [32].

Пример 3. Рассмотрим следующую задачу энтропийно-линейного программирования (см., например, слайд 9 [27] и [37]):

п

f (x) = ЕXi ln (xi) ^ о S

x€Sn(1);Ax=6

^ 1 .,П, 2^Xi = 1> , =1

Бп (1) = <х ейп :хг > 0, г = 1,...,п, 2_,хг = 1 I г=1

причем будем считать (в связи с различными транспортными приложениями это представ-

п

ляется довольно естественным [32], [35] - [37]), что условие ^ хг = 1 является следствием

=1

системы Ах = Ь. Построим двойственную задачу

п п

min > Xi ln(xj)= min max < > x^ ln (xA + (y,b — Ax) ^ =

xGSn(1); Ax=b ~=1 xes„(1)ye^^ 1

= max mm ^ | E x% ln (x^) + (y,b — Ax) j = max | (y, b) — ln ^^ exp ([ATу] J

Но с учетом написанного выше двойственную задачу можно строить и по-другому:

п п ( п ^

min > жг ln (жЛ = min > Жí ln (жЛ = min max < > ж^ ln (жЛ + (у,6 — Аж) > =

xes„(1); Ax=b^ Ax=b^ x€Rr y€Rm ^

=1 =1 + =1

= mR™ üRr { ^ ■ж ln (жг) +(y,b — Аж)} = {(y,6) — ^exp ^^— .

В обоих случаях решение прямой задачи можно восстановить по решению двойственной:

1) жг (у) = , г = 1,...,п,

Е exp([ ATy]fc) fc = 1

2) жг (у) = exp ([Ату]. — 1) , г = 1,...,п.

Таким образом, можно работать с двумя различными двойственными задачами:

1) <£i (У) = Ь (Ё exp ([Ат— (у, Ь) ^ minyeRm,

2) (у) = Е exp ([ATy]. - 1) - (у, 6) ^ minyeKm .

г=1

Исходя из явного двойственного (Лежандрова) представления этих функционалов, можно вычислить константу Липшица градиента и соответствующие константы Липшица по направлениям. Во втором случае, к сожалению, константы получаются не ограниченными, а вот в случае 1 они ограничены,17 и их можно оценить, соответственно, как

£бгм = max |Ц^||2 и ¿Пбгм < ¿пбгм = max |А^|2 < £бгм, к = 1,...,п.

fc=1,...,ra i=1,...,m,;j=1,...,ra

Будем считать, что все элементы матрицы Aij удовлетворяют условию: 1 < Aij < 2. Тогда £бгм > т, а Ьпбгм < 4. Выберем в двойственном пространстве евклидову прокс-структуру.18 Решая первую двойственную задачу БГМ (стартуем в точке 0), получим следующую оценку времени работы метода

тбгм = О = о (mnyj^^ .

Если же применить к первой двойственной задаче ЛСИСБ* (стартуем в точке 0) с Р = 1/2 или Р = 0 (см. замечания 2, 6, 7), то получим, что с вероятностью > 1 — а

„1 /¿пбгм^ J /ё\ Тпбгм = О I пту--- I = О I тпу — I

17За счет сильной выпуклости энтропии в 1-норме с константой 1 на единичном симплексе (на положительном ортанте энтропия строго выпукла, но не сильно выпукла) из теоремы 1 [40] имеем:

II т1|2

ы - (У1 )Ц, = \\Ах Ы - Ах ЫН, < ЦА1 II \\У2 - У1\\р ,

11 11 р,1

\ат II = max (ат у, х) = max ||^fcH| I Hp,i IMIp<i, HU <1 \ / fc=i,...,nll II,

и 11 2

где 1/p + 1/q = 1. Беря p = 2, получим константу Липшица градиента ^х (у): max . Беря

fc=1,...,n 11 11 2

p =1, можно получить, что константа Липшица производной ipx (у) по каждому направлению не больше max | Aij |2.

i=1,...,m;j = 1,...,n

18Вообще при решении двойственных задач это совершенно естественно [37], поскольку оптимизация происходит либо на всем пространстве, либо на прямом произведении пространства и неотрицательна ортанта.

В обеих формулах В - квадрат евклидового размера двойственного решения. Таким образом, за счет использования ПБГМ удается ускориться приблизительно в у/т раз. Все изложенное в этом примере распространяется и на случай, когда вместо ограничений в виде равенств (или наряду с ними) мы имеем ограничения в виде неравенств Сх < й. Если по-прежнему обозначать общее число ограничений через т, то выписанные формулы останутся справедливыми. Пока мы решили только двойственную задачу с точностью по функции . То есть в двойственном пространстве используемый нами метод сгенерировал последовательности {ук}^=0, {¿к}^=1, {®к}д|=1 (см. обозначения замечания 2 с заменой хк ^ ¿к, сделанной во избежание путаницы) такие, что (для БГМ математическое ожидание можно не писать)

еум [<Р1 (Ум)] - V* < г, V* = ¡*.

Оказывается, что не использующаяся в этой формуле и накопленная методом информация {Хк}д!=1, {&к}^=1 позволяет восстанавливать с такой же точностью решение прямой задачи (детали см., например, в работе [5]):

- N N

хм = Б^^ак х (гк), Бм = Е°к, м к=1 к=1

уВ || Ахм - ъ\\2 < е, | /(хм) - }* |< е.

Несложно показать, что можно так организовать вычисление хм, что выписанные ранее оценки трудоемкости методов БГМ и ПБГМ (в категориях О ()) не изменятся. Если теперь рассмотреть разреженный случай (в ^ т - среднее число ненулевых элементов в столбце матрицы А, ё = вп/т - в строчке), то оценка БГМ улучшится:

тБГМ = О | зп

(/ ебгмв \

8 Ч -гт")

в то время как оценка ПБГМ останется неизменной (см. замечание 8):

тпбгм = О I тп

(/ епбгмв \

тпу —Г—) .

Получилось это из-за наличия (при построении двойственной задачи) связывающего переменные (симплексного) ограничения - не имеющего полностью сепарабельную структуру (то есть не распадающегося в прямое произведение ограничений на отдельные компоненты). Другое дело, если мы рассмотрим вторую двойственную задачу. Она полностью се-парабельная (подходит под замечание 7 в этом смысле). То есть для второй двойственной задачи можно найти ее решение с точностью по функции :

Еум \Р2 (Ум)] - V* < е

за время (обратим внимание, что Епбгм, В соответствуют функционалу и решению второй двойственной задачи и, вообще говоря, отличаются от введенных ранее ЕПБГМ, В)

тПБГМ = О (^т/Е^ = О^ЕпбгтВ^

При этом следует использовать метод АСИСБ* из замечания 2 (если смотреть через замечание 6, то следует полагать @ = 0) с адаптивным подбором констант Липшица, поскольку ограничить их не представляется возможным ввиду априорного отсутствия информации о локализации решения двойственной задачи. Тем не менее согласно замечанию 2 можно быть уверенным, что, несмотря на неограниченность множества, на котором происходит

оптимизация, и неограниченности констант Липшица на этом множестве, существуют «эффективные» константы, на которые мы адаптивно настраиваемся по ходу работы метода. К сожалению, восстановить за то же по порядку время решение прямой задачи в данном случае не получается, даже если пытаться использовать соответствующие наработки замечания 8 по расчету хк. Мы снова возвращаемся к оценке типа

тпбгм = 0\ nm

( Lnбгм© \

nmy —Г—)

Если отказаться от ускоренности метода, то обычный неускоренный покомпонентный метод (ПМ) [1], [2] позволяет сохранить (с учетом необходимости восстановления решения прямой задачи) дешевую итерацию19 О (§)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Т2М = O (W^©) = O (sn^©) .

В данном случае (и это довольно типично) этому методу скорее стоит предпочесть БГМ с итоговой оценкой

ТБгм = Ol sn

(/ Lбгм© \

s Ч^)

но в таком случае уж лучше применять БГМ к первой двойственной задачи, обладающей лучшими свойствами. Получается, что необходимость восстановления решения прямой задачи для ПБГМ накладывает дополнительные ограничения на структуру задачи, чтобы можно было полноценно воспользоваться разреженностью. К сожалению, похоже, что эти дополнительные ограничения фактически оставляют возможность только для задач вида (и небольших «аффинных» релаксаций, например, добавление разреженных аффинных неравенств)

1 2 /(х) = - Уж -хд ||2 ^ min

2 Ax=b

полноценно использовать в разреженном случае описанный выше подход. При этом решение прямой и двойственной задачи можно восстанавливать по описанному выше механизму (с учетом линейности зависимости х (у) удается воспользоваться техникой пересчета Хк из замечания 8 для восстановления XN). При этом оценки соответствующих методов БГМ и ПБГМ, применённых к двойственной задаче (и стартующих с точки 0), примут следующий вид20:

г г I ,/^бгм0 \ г г | /ьпгмв

тбгм = o | sny —г— и тцбгм = o i sny -

Написанное выше может навести на мысль, что ускоренные покомпонентные методы для двойственной задачи, как правило, не позволяют учитывать разреженность задачи. На самом деле это не так. За небольшую дополнительную плату (логарифмический множитель) можно специальным образом регуляризовать двойственную задачу (с помощью

19Это типично для неускоренных покомпонентных методов (в том числе прямо-двойственных), т.е. в отличие от ускоренных методов, тут требуется намного более слабые предположения, чтобы обеспечить выполнение условия: стоимость итерации покомпонентного метода дешевле стоимости итерации соответствующего полноградиентного метода в число раз по порядку, равному размерности пространства.

20Используем следующие обозначения: © - квадрат евклидового размера решения двойственной задачи,

¿бгм = max /ату,х) = max \\Ax\\i = AmaX (атА) ||у||2<1, |М2<1 \ / |М2<1 V >

¿ПБГМ < max (ату,х) = max ||Аж||2 = max ||Afc||

llwlli <i, ML <i \ / ml <i11 k=i,..,m"

и

техники рестартов подобрать правильный параметр регуляризации, см. глава 3 [7], [37]) и использовать ПБГМ для регуляризованного функционала двойственной задачи, т.е. использовать ПБГМ в сильно выпуклом случае (см. текст сразу после замечания 2). При таком подходе достаточно просто решить (с желаемой точностью) двойственную задачу, а решение прямой задачи (в том же смысле, что и выше - с той же точностью) получается просто при подстановке найденного решения двойственной задачи в формулу х (у). Тем не менее здесь необходимо оговориться, что, хотя описанный только что прием и «спасает положение», все же получается это за упомянутую дополнительную плату. Хотя по теоретическим оценкам это плата, действительно, небольшая, численные эксперименты показывают, что реальные потери при использовании такой регуляризации вместо прямо-двойственности могут быть существенны.

Результаты, изложенные в примере 3, допускают серьезные обобщения. В частности, можно переносить (частично) изложенное в примере 3 на сепарабельные задачи типа проектирования на аффинное многообразие

п

/ (х) = У2 Л (хг) ^ Л ь т!п

' Ах=ь, Сх<<1,хедх

г=1

и более общий класс сепарабельных задач лежандровского типа (включающий проекционный класс)

т^М Ах) — У] Л (хг) ¡> + д (у) ^ шт .

хеЯх I ^ | уеЯу

г=1

Здесь Qх - множество простой структуры (в смысле проектирования), Qу - множество, подходящее для эффективного использования (блочно-) покомпонентных методов (см. п. 4), д (у) - «хорошая» функция для покомпонентных методов (см. п. 4). Можно также не предполагать явной формулы, связывающей х ( ) (тогда потребуется еще воспользоваться замечанием 5). В определенных ситуациях можно даже пытаться отказаться от сепарабельности ( х) (к сожалению, вот тут пока мало что удалось получить). Все это порождает довольно много разных сочетаний (вариантов) и требует большого числа оговорок. Этому планируется посвятить отдельную работу. Далее мы ограничимся одним специальном классом задач, играющих важную роль в моделировании компьютерных и транспортных сетей (см., например, [5], [35]).

Пример 4. Рассмотрим задачу ^ - множество просто структуры, скажем, неотрицательный ортант)

т

У2 Л №х) + д (х) ^ т^

,л хея

к=1

п

где д (х) = Е дг (хг) (впрочем, часть изложенных далее конструкций не требует выпол-

г=1

нения этого условия). Градиенты функции Д вычислимы за 0(1) и имеют равномерно ограниченные константы (числом £) Липшица производной в 2-норме. Функция д (х) предполагается сильно выпуклой в р-норме с константой ц,р. Вводя матрицу А = [А1,..., Ат]Т и вспомогательный вектор г = Ах, мы можем переписать эту задачу в «раздутом» пространстве х := (х, г) как задачу типа проектирования на аффинное многообразие [35], рассмотренную ранее.21 Однако для полноты картины22 нам представляется полезнее провести для этой задачи рассуждения немного в другом ключе (следуя, например, [5], [35]). Прежде всего заметим, что в эту схему погружаются следующие задачи [5]:

21В связи с этим можно добавить к ограничениям, например, такого типа неравенства А^х > . Сложность задачи это не изменит. Этот факт можно использовать при численном поиске стохастических равновесий в модели стабильной динамики [35].

22Приводимая далее конструкция позволяет (с помощью перехода к двойственной задаче и ее последующего изучения покомпонентными методами) в некотором смысле перейти от игры на разной гладкости по разным направлениям для исходной задачи к игре на разной сильной выпуклости функционала исход-

1) | ||Ах - Ь||2 + Ч Уж - хд 112 ^ ш1пжекп,

п

2) | ||Ах - Щ2 + Ц £ хк \пхк ^ ш1пже^п(1) .

к=1

Константы Липшица производных одинаковы Ь1 = Ь2 = Ь, константы сильной выпуклости (считаются в разных нормах) также одинаковы Ц = Ц2 = Ц. Опишем далее довольно общий способ построения двойственной задачи:23

{т ^ ( т ^

Е /к х) + ^ (хП = тт ¡к (^) + ^ (х) ? = к=1 ,1 кк=1 ,1

= ^ЩЙ^ ПГ { ^ - У> + ^ /к (4} + 5 (х^ =

=шаа" {- ,у) - 5 (х)} - ша^{ ^- £/к (4 ^} =

= - шах ((-аТ^ , х)- з(х))- Е шах (г'кУк- /к (4)) [ =

{т ^ ^ т ^

* (-А^) - Е /к* (»к) | = - дп. | / (-аТу ) + Е /к* (»к ) |.

Для упомянутых задач получим:

1) 2Ч (|к - АТу||2 - ||хд||2) + 2Х (||У + Ь||2 - |Н|2) ^ ш1п,еДт,

2) Ч ^ (£ ехр )) + 2Х (||У + &||2 - |Н|2) ^ ш1п,еДт .

т

В общем случае можно утверждать, что £ /* (ук) (композитный член в двойственной за-

к=1 к

даче) является сильно выпуклым в стандартной евклидовой норме (2-норме) с константой сильной выпуклости, равной Ь~1. Легко понять, что изучение свойств гладкости д* (-АТу) (с точностью до множителя 1) совершенно аналогично тому, что мы уже делали в примере 3. То есть можно утверждать, что для двойственной задачи в стандартной евклидовой норме (2-норме)

V 1 / лТ Х2 1 ,, . ,,2 1 Г 1) ^тах ,

Ьбгм = - шах (А у,х) = - шах НАх^ = -< 2) шах ||л(к>||2

Ц П^П2<1, 1Н1Р<1Х ' Ц 1М1Р<1 И 2) кш п ИАЧ > Из ■

ной задачи по разным направлениям (при переходе к двойственной задаче эта игра переходит в игру на гладкости двойственного функционала, которая уже неплохо проработана покомпонентными методами). К сожалению, все это возможно не в общем случае. Более того, в данной работе мы не будем подробно погружаться в детали. Этому планируется посвятить отдельную работу.

23Здесь важна оговорка о возможности «эффективно» решать задачу вида

{с, х) + д (х) ^ тах.

Вообще говоря, оговорка нетривиальная. В общем случае эта задача по сложности может соответствовать исходной. Стоит, однако, оговориться, что д (х) в таких постановках в типичных приложениях является, как правило, «регуляризатором» исходной задачи (введенном нами с целью получения сильно выпуклой постановки или, например, возникшем при байесовском оценивании в качестве прайера или просто как пенализация за сложность модели и т.д.). В любом случае мы, как правило, имеем достаточно степеней свободы, чтобы добиться нужной простоты этой вспомогательной задачи. Сепарабельность д (х) здесь довольно часто является «ключом к успеху».

¿пбгм ^

1 ß

max (Ату,х)2 = — max \\Ах\\2 = — , . Ili<i, ||x|| <1Х ' ß ||x|| <1" ß I 2) . max

1

— f 1) max \\Afc\\2

I k=1,..,m

|АЧ|2.

г=\,...,т\]=\,...,п

Для метода АСИСБ* из замечания 2 (если смотреть через замечание 6, то следует полагать @ = 0), примененного к двойственной задаче в неразреженном случае имеем следующие оценки времени работы:

Ь тах \\Ак\\1

1) Ti = Ol nm

2) Т2 = O nm

f ¡L^X ll^kl! \

\nmy —^—)

/ II шах|А^|2\

i nmY —^— j

Если теперь посмотреть на исходную прямую задачу (с L := L/m)

1

m

У2 fk (АтХ) + 9 (х) ^ min

k=1

и оценить время работы ускоренного метода рандомизации суммы из п. 3 данной статьи, то получим анонсированное в п. 3 соответствие с приведенными только что оценками (с L := L/m). Действительно, с учетом того, что константы Липшица градиентов fk (Атх), посчитанные в соответствующих нормах (соответствующей норме, в которой сильно выпукл композит прямой задачи), равномерно оцениваются следующим образом:

1) L max \\Ak\\2 ,

2) L max |А^|2 ,

а сложность вычисления Vfk (^х) равна O (n), то согласно п. 3 имеем следующие оценки времени работы (далее считаем, что m меньше min {}):24

Т1 = O

n

m + min

\

L max \\Ak\\2 L max \\Ak\\2

k=1,..,m k=1,..,m

m

ß

ß

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

= O

n m

\

(L/m) max \ \ Ak \ \ 2

k=1,..,m

ß

/

Т2 = O

n

m + min

\

m

L max | Aij | L max | Aij |2

ß

ß

= O

n m

\

(L/m) max | A^-12

ß

V

24Можно показать, развивая конструкцию п. 6.3 [1] с помощью идей, изложенных в замечании 8, что неускоренная составляющая этой оценки допускает для определенного класса задач в разреженном случае стоимости итерации О (в).

Таким образом, имеет место полное соответствие (с точностью до опущенных в рассуждениях логарифмических множителей).25 Интересно заметить, что для первой задачи здесь так же, как и в примере 3, можно сполна использовать разреженность матрицы Л. Более того, эту задачу (также с полным учетом разреженности) можно решать и прямым ПБГМ (см. замечание 8). Соответствующие оценки имеют вид [5] (мы снова возвращаемся к исходному пониманию параметра Ь)

/

^прям _ (

8

Ь тах

к=1,...,г

|Л<к>

V

^двойств _ (

\

Ь тах ||ЛкII

к=1,..,т

V

/

/

_ ( п

Ь тах ||Лк||

к=1,..,т

V

/

В действительности обе эти оценки оказываются завышенными.26 Более аккуратные рассуждения позволяют обобщить результаты примеров 3, 4 на случай неравноправия слагаемых. Все это приведет к замене максимума на некоторое (в зависимости от выбора Р) среднее. Скажем, в упомянутых уже ранее транспортных приложениях [5], [32], [37] - [35] матрица Л не просто разреженная, но еще и битовая (состоит из нулей и единиц). В таком случае приведенные оценки переписываются следующим образом:

^прям _ (

(тУ?)

I Тдвойств _ ((

V '' 1 _

('""У?)

Отсюда можно сделать довольно неожиданный вывод [5]: при т ^ п стоит использовать прямой ПБГМ, а в случае т ^ п - двойственный. Первый случай соответствует приложениям к изучению больших сетей (компьютерных, транспортных). Второй случай соответствует задачам, приходящим из анализа данных. □

6. Заключительные замечания

Если сравнить общие трудозатраты быстрого градиентного метода и его покомпонентного варианта, то довольно часто удается ускориться примерно в у7" раз (где п - размерность пространства, в котором происходит оптимизация). Собственно, значительная часть данной работы (пп. 4, 5) была посвящена обсуждению того, в каких ситуациях можно рассчитывать на такое ускорение.

Отмеченное ускорение происходит за счет «обмана» потенциального сопротивляющегося оракула, корректирующего исходя из оставшихся у него свобод по ходу итерационного процесса оптимизируемую функцию таким образом, чтобы нам доставались наиболее плохие направления градиента (с большой константой Липшица - это соответствует пилообразному движению по дну растянутого оврага с медленным приближением к середине оврага, в которой расположился минимум).

25Соответствие имеет место и для неускоренной составляющей выписанных оценок (собственно, именно

этот случай рассматривался в п. 3 данной статьи). Чтобы это понять, нужно в оценки для неускоренных покомпонентных методов Тцм (см. текст сразу после замечания 2 и пример 3 с в = т, § = те):

тп м

О I пт

Ь тах Ц^

к=1 ,..,т

, ТпМ

О I пт

Ь тах |Aij |2

подставить Ь := Ь/т.

26Это легко усмотреть из способа рассуждений, в котором мы заменяем константы Липшица по разным направлениям, на худшую из них, это также позволяет эффективно использовать оценку ЛСИСБ* с @ = 0, см. замечания 2, 6.

Введение рандомизации в метод - это универсальный рецепт гарантированно обезопасить себя от худшего случая. Причем важно отметить, что это не теоретический трюк, который позволяет просто гарантировать лучшую теоретическую оценку. К сожалению, овражность функций - это довольно типичное свойство задач больших размеров, поэтому даже если мы возьмем сложность в среднем (по множеству типичных входов) для быстрого градиентного метода, то оценка получится все хуже (поскольку типичные входы не столь хороши), чем для рандомизированного метода. В обоих случаях мы считаем средние затраты (математическое ожидание) только в разных пространствах и по разным вероятностным мерам. В случае рандомизированного метода мы частично диверсифицируем себя от всего того, что может быть на входе, но это происходит не бесплатно, а с помощью препроцессинга, требующего расчет констант Липшица градиента по всем направлениям. К счастью, такой препроцессинг можно делать адаптивно и эффективно.27

Авторы выражают благодарность Ю.Е. Нестерову, Александру Рахлину и Питеру Рихтарику за ряд ценных ссылок, а также Александру Тюрину и Дмитрию Камзолову за помощь в работе.

Настоящая статья представляет собой запись совместного доклада А.В. Гасникова и И.Н. Усмановой на «International Conference on Operation Research 2015. Optimal Decision and Big Data». Vienna, September 1-4, 2015.

В конце марта 2016 (когда данная статья уже ожидала своей очереди публикации в журнале Труды МФТИ) авторы узнали, что параллельно с настоящей статьей появился электронный препринт [41], в котором получены довольно близкие результаты к части результатов, приведенных в данной статье (замечание 6 при @ = 1/2 и пример 2). Однако для авторов этой работы первоисточником идеи (для замечания 6 при @ = 1/2 и примера 2) и отправной точкой в развитие этого направления послужило выступление Ю.Е. Нестерова [27]. Заметим также, что в марте 2016 появился препринт [42], в основу которого положено выступление [27].

В феврале 2016 года появился электронный препринт [43], в котором обсуждаются общие прямо-двойственные подходы для постановки задачи из примера 4.

Исследование авторов в части 2 выполнено в ИППИ РАН за счет гранта Российского научного фонда (проект №14-50-00150), исследование в части 3 выполнено при поддержке гранта РФФИ 14-01-00722-а, исследования в частях 4, 5 выполнены при поддержке гранта РФФИ 15-31-20571-мол_а_вед.

Литература

1. Bubeck S. Convex optimization: algorithms and complexity //In Foundations and Trends in Machine Learning. 2015. V. 8, N 3-4. P. 231-357. arXiv:1405.4980

2. Nesterov Y.E. Efficiency of coordinate descent methods on large scale optimization problem // SIAM Journal on Optimization. 2012. V. 22, N 2. P. 341-362.http://www.optimization-online.org/DB_FILE/2010/01/2527.pdf

3. Fercoq O, Richtarik P. Accelerated, Parallel and Proximal Coordinate Descent // e-print, 2013. arXiv:1312.5799

4. Qu Z, Richtarik P. Coordinate Descent with Arbitrary Sampling I: Algorithms and Complexity // e-print, 2014. arXiv:1412.8060

5. Anikin A, Dvurechensky P., Gasnikov A., Golov A., Gornov A., Maximov Y., Mendel M., Spokoiny V. Modern efficient numerical approaches to regularized regression problems in application to traffic demands matrix calculation from link loads // Proceedings of International conference ITAS-2015. Russia, Sochi, September, 2015. arXiv:1508.00858

27Это можно делать за небольшую дополнительную плату - мультипликативный фактор порядка 4 в числе обращений за df (х)/dxi, если рассматривается композитная постановка или Q непараллелепипедного типа, то требуется еще уметь рассчитывать (пересчитывать) вместе с df (х)/dxi и значение функции.

6. Allen-Zhu Z, Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent // e-print, 2015. arXiv:1407.1537

7. Devolder O. Exactness, inexactness and stochasticity in first-order methods for large-scale convex optimization. CORE UCL, PhD thesis, March 2013.

8. Dvurechensky P., Gasnikov A. Stochastic Intermediate Gradient Method for Convex Problems with Inexact Stochastic Oracle // Journal Optimization Theory and Applications. 2016 (accepted). arXiv:1411.2876

9. Гасников А.В., Двуреченский П.Е., Нестеров Ю.Е. Стохастические градиентные методы с неточным оракулом // Труды МФТИ. 2016. Т. 8, № 1. С. 41-91.arxiv:1411.4218

10. Гасников А.В., Лагуновская А.А., Усманова И.Н., Федоренко Ф.А. Безградиентные прокс-методы с неточным оракулом для негладких задач выпуклой стохастической оптимизации на симплексе // Автоматика и телемеханика. 2016. arXiv:1412.3890

11. Bogolubsky L., Dvurechensky P., Gasnikov A., Gusev G, Nesterov Y., Raigorodskii A, Tikhonov A., Zhukovskii M. Learning supervised PageRank with gradient-free optimization methods // e-print, 2014. arXiv:1411.4282

12. Ledoux M. Concentration of measure phenomenon. Providence, RI, Amer. Math. Soc., 2001 (Math. Surveys Monogr. V. 89).

13. Rakhlin A., Shamir O., Sridharan K. Making gradient descent optimal for strongly convex stochastic optimization // ICML. 2012. arXiv:1109.5647

14. Juditsky A., Nesterov Y. Deterministic and stochastic primal-dual subgradient algorithms for uniformly convex minimization // Stoch. System. 2014. V. 4, N 1. P. 44-80. arXiv:1401.1792

15. Hazan E., Kale S. Beyond the regret minimization barrier: Optimal algorithms for stochastic strongly-convex optimization // JMLR. 2014. V. 15. P. 2489-2512.

16. Nesterov Yu. Random gradient-free minimization of convex functions // CORE Discussion Paper 2011/1. 2011; Found. Comput. Math. 2015 (accepted). http://uclouvain.be/cps/ucl/doc/core/documents/coredp2011_1web.pdf

17. Richtarik P. http://www.maths.ed.ac.uk/~richtarik/

18. Le Roux N., Schmidt M., Bach F. A stochastic gradient method with an exponential convergence rate for strongly-convex optimization with finite training sets // Advances in Neural Information Processing Systems (NIPS). 2012. arXiv:1202.6258

19. Johnson B., Zhang T. Accelerating stochastic gradient descent using predictive variance reduction // In Advances in Neural Information Processing Systems (NIPS). 2013. http://www.stat.rutgers.edu/home/tzhang/pubs.html

20. Konecny J., Richtarik P. Semi-Stochastic gradient descent methods // e-print, 2013. arXiv:1312.1666

21. Konecny J., Liu J., Richtarik P., Takac M. Mini-batch semi-stochastic gradient descent in the proximal setting // e-print, 2015. arXiv:1504.04407

22. Agarwal A., Bottou L. A lower bound for the optimization of finite sums // e-print, 2014.arXiv:1410.0723

23. Shalev-Shwartz S., Zhang T. Accelerated proximal stochastic dual coordinate ascent for regularized loss minimization // Proceedings of the 31th International Conference on Machine Learning, ICML 2014, Beijing, China, 21-26 June 2014. P. 64-72. arXiv:1309.2375

24. Zheng Q., Richtarik P., Zhang T. Randomized dual coordinate ascent with arbitrary sampling // e-print, 2015. arXiv:1411.5873

25. Zhang T. http://www.stat.rutgers.edu/home/tzhang/

26. Lee Y.T., Sidford A. Efficient accelerated coordinate descent methods and faster algorithms for solving linear systems // e-print, 2013. arXiv:1305.1922

27. Nesterov Yu.E. Structural Optimization: New Perspectives for Increasing Efficiency of Numerical Schemes // International conference «Optimization and Applications in Control and Data Science»on the occasion of Boris Polyak's 80th birthday, Moscow, May, 2015. http://www.mathnet.ru/php/presentation.phtml?option_lang=rus&presentid=11909

28. Nesterov Yu. Universal gradient methods for convex optimization problems // CORE Discussion Paper 2013/63. 2013. Math. Program. Ser. A. 2015. V. 152. P. 381-404. https://www.uclouvain.be/cps/ucl/doc/core/documents/coredp2013_26web.pdf

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

29. Wright S.J. Coordinate descent algorithms // e-print, 2015. arXiv:1502.04759

30. Nesterov Yu., Shikhman V. Convergent subgradient methods for nonsmooth convex minimization // CORE Discussion Paper 2014/5. 2014. https://www.uclouvain.be/cps/ucl/doc/core/documents/coredp2014_5web.pdf

31. Nesterov Y. Primal-dual subgradient methods for convex problems // Math. Program. Ser. B. 2009. V. 120(1). P. 261-283. http://webdoc.sub.gwdg.de/ebook/serien/eZC0RE/dp2005_67.pdf

32. Гасников А.В., Двуреченский П.Е., Дорн Ю.В., Максимов Ю.В. Численные методы поиска равновесного распределения потоков в модели Бэкмана и модели стабильной динамики // Математическое моделирование. 2016. Т. 28. arXiv:1506.00293

33. Nemirovski A., Onn S., Rothblum U.G. Accuracy certificates for computational problems with convex structure // Mathematics of Operation Research. 2010. V. 35, N 1. P. 52-78. http://www2.isye.gatech.edu/~nemirovs/M0R_AccuracyCertificates.pdf

34. Nesterov Yu. Gradient methods for minimizing composite functions // Math. Prog. 2013. V. 140, N 1. P. 125-161. https://www.uclouvain.be/cps/ucl/doc/core/documents/coredp2007_76.pdf

35. Гасников А.В., Гасникова Е.В., Двуреченский П.Е., Ершов Е.И., Лагуновская А.А. Поиск стохастических равновесий в транспортных моделях равновесного распределения потоков // Труды МФТИ. 2015. Т. 7, № 4. С. 114-128. arXiv:1505.07492

36. Гасников А.В., Двуреченский П.Е., Камзолов Д.И., Нестеров Ю.Е., Спокойный В.Г., Стецюк П.И., Суворикова А.Л., Чернов А.В. Поиск равновесий в многостадийных транспортных моделях // Труды МФТИ. 2015. Т. 7, № 4. С. 143-155. arXiv:1506.00292; https://mipt.ru/upload/medialibrary/ffe/143-155.pdf

37. Гасников А.В., Гасникова Е.В., Нестеров Ю.Е., Чернов А.В. Об эффективных численных методах решения задач энтропийно-линейного программирования // ЖВМ и МФ. 2016. Т. 56, № 4. С. 523-534. arXiv:1410.7719

38. Ким К., Нестеров Ю, Скоков В., Черкасский Б. Эффективные алгоритмы для дифференцирования и задачи экстремали // Экономика и математические методы. 1984. Т. 20. С. 309-318.

39. Patrascu A. Efficient first order methods for sparse convex optimization. PhD Thesis. University Politehnica of Bucharest, 2015. http://acse.pub.ro/person/ion-necoara/

40. Nesterov Y. Smooth minimization of non-smooth function // Math. Program. Ser. A. 2005. V. 103, N 1. P. 127-152.

41. Allen-Zhu Z., Qu Z, Richt?rik P., Yuan Y. Even faster accelerated coordinate descent using non-uniform sampling // e-print, December, 2015. arXiv:1512.09103

42. Nesterov Y. Stich S. Efficiency of accelerated coordinate descent method on structured optimization problems // CORE Discussion Papers 2016/03.

43. Dunner C., Forte S., Takac M., Jaggi M. Primal-dual rates and certificates // e-print, 2016. arXiv:1602.05205

References

1. Bubeck S. Convex optimization: algorithms and complexity. In Foundations and Trends in Machine Learning. 2015. V. 8, N 3-4. P. 231-357. arXiv:1405.4980

2. Nesterov Y.E. Efficiency of coordinate descent methods on large scale optimization problem. SIAM Journal on Optimization. 2012. V. 22, N 2. P. 341-362. http://www.optimization-online.org/DB_FILE/2010/01/2527.pdf

3. Fercoq O., Richtarik P. Accelerated, Parallel and Proximal Coordinate Descent. e-print, 2013. arXiv:1312.5799

4. Qu Z., Richtarik P. Coordinate Descent with Arbitrary Sampling I: Algorithms and Complexity. e-print, 2014. arXiv:1412.8060

5. Anikin A., Dvurechensky P., Gasnikov A., Golov A., Gornov A., Maximov Y., Mendel M., Spokoiny V. Modern efficient numerical approaches to regularized regression problems in application to traffic demands matrix calculation from link loads. Proceedings of International conference ITAS-2015. Russia, Sochi, September, 2015. arXiv:1508.00858

6. Allen-Zhu Z, Orecchia L. Linear coupling: An ultimate unification of gradient and mirror descent. e-print, 2015. arXiv:1407.1537

7. Devolder O. Exactness, inexactness and stochasticity in first-order methods for large-scale convex optimization. CORE UCL, PhD thesis, March 2013.

8. Dvurechensky P., Gasnikov A. Stochastic Intermediate Gradient Method for Convex Problems with Inexact Stochastic Oracle. Journal Optimization Theory and Applications. 2016 (accepted). arXiv:1411.2876

9. Gasnikov A., Dvurechensky P., Nesterov Y. Stochastic gradient methods with inexact oracle. TRUDY MIPT. 2016. V. 8, № 1. C. 41-91. arxiv:1411.4218

10. Gasnikov A., Lagunovskaya A, Usmanova I., Fedorenko F. Gradient-free prox-methods with inexact oracle for stochastic convex optimization problems on a simplex. Automation and Remote Control. 2016 arXiv:1412.3890

11. Bogolubsky L., Dvurechensky P., Gasnikov A., Gusev G., Nesterov Y., Raigorodskii A., Tikhonov A., Zhukovskii M. Learning supervised PageRank with gradient-free optimization methods. e-print, 2014. arXiv:1411.4282

12. Ledoux M. Concentration of measure phenomenon. Providence, RI, Amer. Math. Soc., 2001 (Math. Surveys Monogr. V. 89).

13. Rakhlin A., Shamir O., Sridharan K. Making gradient descent optimal for strongly convex stochastic optimization. ICML. 2012. arXiv:1109.5647

14. Juditsky A., Nesterov Y. Deterministic and stochastic primal-dual subgradient algorithms for uniformly convex minimization. Stoch. System. 2014. V. 4, N 1. P. 44-80. arXiv:1401.1792

15. Hazan E., Kale S. Beyond the regret minimization barrier: Optimal algorithms for stochastic strongly-convex optimization. JMLR. 2014. V. 15. P. 2489-2512.

16. Nesterov Y. Random gradient-free minimization of convex functions. CORE Discussion Paper 2011/1. 2011; Found. Comput. Math. 2015 (accepted). http://uclouvain.be/cps/ucl/doc/core/documents/coredp2011_1web.pdf

17. Richtarik P. http://www.maths.ed.ac.uk/~richtarik/

18. Le Roux N., Schmidt M., Bach F. A stochastic gradient method with an exponential convergence rate for strongly-convex optimization with finite training sets. In Advances in Neural Information Processing Systems (NIPS). 2012. arXiv:1202.6258

19. Johnson B., Zhang T. Accelerating stochastic gradient descent using predictive variance reduction. In Advances in Neural Information Processing Systems (NIPS). 2013. http://www.stat.rutgers.edu/home/tzhang/pubs.html

20. Konecny J., Richtárik P. Semi-Stochastic gradient descent methods. e-print, 2013. arXiv:1312.1666

21. Konecny J., Liu J., Richtarik P., Takac M. Mini-batch semi-stochastic gradient descent in the proximal setting. e-print, 2015. arXiv:1504.04407

22. Agarwal A., Bottou L. A lower bound for the optimization of finite sums. e-print, 2014. arXiv:1410.0723

23. Shalev-Shwartz S., Zhang T. Accelerated proximal stochastic dual coordinate ascent for regularized loss minimization. Proceedings of the 31th International Conference on Machine Learning, ICML 2014, Beijing, China, 21-26 June 2014. P. 64-72. arXiv:1309.2375

24. Zheng Q., Richtárik P., Zhang T. Randomized dual coordinate ascent with arbitrary sampling. e-print, 2015. arXiv:1411.5873

25. Zhang T. http://www.stat.rutgers.edu/home/tzhang/

26. Lee Y.T., Sidford A. Efficient accelerated coordinate descent methods and faster algorithms for solving linear systems. e-print, 2013. arXiv:1305.1922

27. Nesterov Y.E. Structural Optimization: New Perspectives for Increasing Efficiency of Numerical Schemes. International conference «Optimization and Applications in Control and Data Science»on the occasion of Boris Polyak's 80th birthday, Moscow, May, 2015. http://www.mathnet.ru/php/presentation.phtml?option_lang=rus&presentid=11909

28. Nesterov Yu. Universal gradient methods for convex optimization problems. CORE Discussion Paper 2013/63. 2013. Math. Program. Ser. A. 2015. V. 152. P. 381-404.https://www.uclouvain.be/cps/ucl/doc/core/documents/coredp2013_26web.pdf

29. Wright S.J. Coordinate descent algorithms. e-print, 2015. arXiv:1502.04759

30. Nesterov Y., Shikhman V. Convergent subgradient methods for nonsmooth convex minimization. CORE Discussion Paper 2014/5. 2014.https://www.uclouvain.be/cps/ucl/doc/core/documents/coredp2014_5web.pdf

31. Nesterov Y. Primal-dual subgradient methods for convex problems. Math. Program. Ser. B. 2009. V. 120(1). P. 261-283.http://webdoc.sub.gwdg.de/ebook/serien/e/C0RE/dp2005_67.pdf

32. Gasnikov A., Dorn Yu., Dvurechensky P., Maximov Y. Searching equillibriums in Beckmann's and Nesterov-de Palma's models. Math. Mod. 2016. V. 28 arXiv:1506.00293

33. Nemirovski A., Onn S., Rothblum U.G. Accuracy certificates for computational problems with convex structure. Mathematics of Operation Research. 2010. V. 35, N 1. P. 52-78.http://www2.isye.gatech.edu/~nemirovs/M0R_AccuracyCertificates.pdf

34. Nesterov Y. Gradient methods for minimizing composite functions. Math. Prog. 2013. V. 140, N 1. P. 125-161. https://www.uclouvain.be/cps/ucl/doc/core/documents/coredp2007_76.pdf

35. Gasnikov A., Gasnikova E., Dvurechensky P., Ershov E., Lagunovskaya A. Efficient calculation of stochastic equilibriums in the Beckmann's and stable dynamic models. TRUDY MIPT. 2015. V. 7, N 4. arXiv:1505.07492

36. Gasnikov A., Dvurechensky P., Kamzolov D., Nesterov Y., Spokoiny V., Stetsyuk P., Suvorikova A., Chernov A. Universal method with inexact oracle and its applications for searching equillibriums in multistage transport problems. TRUDY MIPT. 2015. V. 7, N 4. P. 143-155. arXiv:1506.00292; https://mipt.ru/upload/medialibrary/ffe/143-155.pdf

37. Gasnikov A., Gasnikova E., Nesterov Y., Chernov A. Entropy linear programming. Comp. Math. & Math. Phys. 2016. V. 56, N 4. P. 17-28. arXiv:1410.7719

38. Kim K., Nesterov Y., Skokov V., Cherkasskiy B. Effective algorithms for differentiation and extremal problems. Экономика и математические методы. 1984. V. 20. P. 309-318.

39. Patrascu A. Efficient first order methods for sparse convex optimization. PhD Thesis. University Politehnica of Bucharest, 2015. http://acse.pub.ro/person/ion-necoara/

40. Nesterov Y. Smooth minimization of non-smooth function. Math. Program. Ser. A. 2005. V. 103, N 1. P. 127-152.

41. Allen-Zhu Z., Qu Z., Richt?rik P., Yuan Y. Even faster accelerated coordinate descent using non-uniform sampling. e-print, December, 2015. arXiv:1512.09103

42. Nesterov Y. Stich S. Efficiency of accelerated coordinate descent method on structured optimization problems. CORE Discussion Papers 2016/03.

43. Dunner C., Forte S., Takac M., Jaggi M. Primal-dual rates and certificates. e-print, 2016. arXiv:1602.05205

Поступила в редакцию 05.02.2016

i Надоели баннеры? Вы всегда можете отключить рекламу.