Метод Левенберга-Марквардта для задач безусловной оптимизации

Измаилов Алексей Феридович; Куренной Алексей Святославович; Стецюк Петр Иванович

ISSN 1810-0198. Вестник Тамбовского университета. Серия: естественные и технические науки

Том 24, № 125 2019

Метод Левенберга—Марквардта для задач безусловной оптимизации

Алексей Феридович ИЗМАИЛОВ1 , Алексей Святославович КУРЕННОЙ2

Петр Иванович СТЕЦЮК3

1 ФГБОУ ВО «Московский государственный университет им. М.В. Ломоносова» 119992, ГСП-2, Российская Федерация, г. Москва, Ленинские горы, факультет ВМК ORCID: https://orcid.org/0000-0001-9851-0524, e-mail: izmaf@ccas.ru 2 ФГБОУ ВО «Тамбовский государственный университет им. Г.Р. Державина» 392000, Российская Федерация, г. Тамбов, ул. Интернациональная, 33 ORCID: https://orcid.org/0000-0001-8216-9659, e-mail: akurennoy@cs.msu.ru 3 Институт кибернетики им. В. М. Глушкова НАН Украины 03187, Украина, г. Киев, проспект Академика Глушкова, 40 ORCID: https://orcid.org/0000-0003-4036-2543, e-mail: stetsyukp@gmail.com

Levenberg—Marquardt method for unconstrained optimization

Alexey F. IZMAILOV1 , Alexey S. KURENNOY2 , Petr I. STETSYUK3

1 Lomonosov Moscow State University VMK Faculty, Leninskiye Gory, Moscow 119991, Russian Federation ORCID: https://orcid.org/0000-0001-9851-0524, e-mail: izmaf@ccas.ru 2 Tambov State University named after G.R. Derzhavin 33 Internatsionalnaya St., Tambov 392000, Russian Federation ORCID: https://orcid.org/0000-0001-8216-9659, e-mail: akurennoy@cs.msu.ru 3 V. M. Glushkov Institute of Cybernetics of NAS of Ukraine 40 Akademika Glushkova Ave., Kiev 03187, Ukraine ORCID: https://orcid.org/0000-0003-4036-2543, e-mail: stetsyukp@gmail.com

Аннотация. В работе предлагается и исследуется глобализованный одномерным поиском метод Левенберга-Марквардта для задач безусловной оптимизации с возможно неизолированными решениями. Хорошо известно, что этот метод является эффективным средством решения систем нелинейных уравнений, особенно в случаях наличия вырожденных и даже неизолированных решений. Традиционные способы глобализации сходимости метода Левенберга-Марквардта основаны на одномерном поиске для квадрата евклидовой невязки решаемого уравнения, в роли которого в случае задачи безусловной оптимизации выступает вытекающее из принципа Ферма условие равенства нулю градиента целевой функции. В контексте задач оптимизации такие способы глобализации не вполне адекватны, так как соответствующие алгоритмы не имеют «предпочтений» в плане сходимости к минимумам, максимумам, и вообще любым ста-

ционарным точкам. В связи со этим, в данной работе рассматривается другой способ глобализации сходимости метода Левенберга-Марквардта, использующий одномерный поиск для самой целевой функции исходной задачи. В работе показано, что предложенный алгоритм обладает разумными свойствами глобальной сходимости, а также сохраняет высокую скорость локальной сходимости метода Левенберга-Марквардта в слабых предположениях.

Ключевые слова: задач безусловной оптимизации; неизолированные решения; метод Левенберга-Марквардта; глобализация сходимости

Благодарности: Работа выполнена при поддержке РФФИ (проекты № 17-01-00125_а и № 19-51-12003 ННИО_а) и фонда Volkswagen (грант 90306).

Для цитирования: Измаилов А. Ф., Куренной А. С., Стецюк П. И. Метод Левенберга-Марквардта для задач безусловной оптимизации // Вестник Тамбовского университета. Серия: естественные и технические науки. Тамбов, 2019. Т. 24. № 125. С. 60-74. DOI 10.20310/1810-0198-2019-24-125-60-74

Abstract. We propose and study the Levenberg-Marquardt method globalized by means of linesearch for unconstrained optimization problems with possibly nonisolated solutions. It is well-recognized that this method is an efficient tool for solving systems of nonlinear equations, especially in the presence of singular and even nonisolated solutions. Customary globalization strategies for the Levenberg-Marquardt method rely on linesearch for the squared Euclidean residual of the equation being solved. In case of unconstrained optimization problem, this equation is formed by putting the gradient of the objective function equal to zero, according to the Fermat principle. However, these globalization strategies are not very adequate in the context of optimization problems, as the corresponding algorithms do not have "preferences" for convergence to minimizers, maximizers, or any other stationary points. To that end, in this work we considers a different technique for globalizing convergence of the Levenberg-Marquardt method, employing linesearch for the objective function of the original problem. We demonstrate that the proposed algorithm possesses reasonable global convergence properties, and preserves high convergence rate of the Levenberg-Marquardt method under weak assumptions. Keywords: unconstrained optimization problem; nonisolated solutions; LevenbergMarquardt method; globalization of convergence

Acknowledgements: The work is partially supported by the Russian Foundation for Basic Research (projects no. 17-01-00125_a and 19-51-12003 ННИО_а) and by the Volkswagen Foundation (grant 90306).

For citation: Izmailov A. F., Kurennoy A. S., Stetsyuk P. I. Metod Levenberga-Markvardta dlya zadach bezuslovnoy optimizatsii [Levenberg-Marquardt Method for Unconstrained Optimization]. Vestnik Tambovskogo universiteta. Seriya: estestvennye i tekhnicheskie nauki - Tambov University Reports. Series: Natural and Technical Sciences, 2019, vol. 24, no. 125, pp. 60-74. DOI 10.20310/1810-0198-2019-24-125-60-74 (In Russian, Abstr. in Engl.)

Введение

В этой работе исследуются численные методы решения задачи безусловной оптимизации

f (x) ^ min, x G Rn, (1)

с по крайней мере дважды дифференцируемой целевой функцией f : Rn ^ R, и при условиях допускающих, что задача (1) может иметь неизолированные решения.

Один успешный подход к решению нелинейных задач с возможно неизолированными решениями основан на методе Левенберга-Марквардта [1], [2], который, однако, в принципе предназначен для решения систем нелинейных уравнений, а не задач оптимизации. Для уравнения

/ '(х) = 0, (2)

описывающего стационарные точки задачи (1), и для текущего приближения хк Е Кга , этот метод определяет следующее приближение как хк+1 = хк + рк , где рк является единственным решением линейного уравнения

(И + о"к I )р = -Нк / '(хк), (3)

в котором базовым выбором симметричной п х п матрицы И к является / "(хк) , а ак > 0 играет роль параметра регуляризации. Из результатов в [3], [4] следует, что при правильном управлении этим параметром метод Левенберга-Марквардта обладает локальной квадратичной сходимостью к стационарной точке задачи (1) при очень слабых предположениях, допускающих неизолированность стационарных точек. Более того, сходимость метода может быть глобализована одномерным поиском для квадрата невязки уравнения (2) в роли функции качества.

Однако, в данном (оптимизационном) контексте указанный способ глобализации сходимости метода Левенберга-Марквардта не вполне удовлетворителен, поскольку получаемый глобализованный алгоритм направлен на поиск стационарных точек задачи (1), а не ее решений. В частности, такой алгоритм «не различает» максимумы и минимумы функции / , как и любые стационарные точки задачи (1). В связи с этим обстоятельством в настоящей работе разрабатывается «более оптимизационный» алгоритм, использующий направления рк метода Левенберга-Марквардта, но с одномерным поиском для целевой функции / задачи (1) вместо невязки уравнения (2).

1. Глобализованный алгоритм

Ключевое наблюдение заключается в следующем. Направление рк метода Левенберга-Марквардта можно явно выразить из (3) как

рк = -Як /'(хк), (4)

где

Як = (И + ак I )-1Ик.

Предположим, что матрица И к положительно определена; тогда матрица Як невырождена (как произведение двух невырожденных матриц), и

Я-1 = И--1(И2 + акI) = Ик + ак И-1. (5)

Но полученная таким образом матрица является симметричной и положительно определенной, откуда следует, что таковой является и матрица Як , а значит, рк является направлением убывания функции / в точке хк , если /'(хк) = 0.

Разумеется, матрица Hk = f "(xk) может не быть положительно определенной, даже при xk сколь угодно близком к множеству решений. Поэтому глобализованный алгоритм должен включать в себя механизм выбора подходящего Hk , причем допускающий базовый выбор вблизи решений.

Алгоритм. Выбираем параметры p1, p2 > 0 , т\ > 0 , т2 > 1 , а > 0 , q > 0, £,9 £ (0, 1). Выбираем x0 £ Rn и полагаем k = 0.

1. Если f '(xk) = 0 , стоп.

2. Полагаем Hk = f "(xk). Если

IIHk f'(xk )||> pi ||f'(xk)P, (6)

вычисляем pk как решение уравнения (3) при ak = min(<r, ||f'(xk)||q} . Иначе переходим к шагу 4.

3. Если

(f'(xk ),pk )<-p2||pk ||T2, (7)

переходим к шагу 5.

4. Вычисляем симметричную n х n матрицу Hk и соответствующее решение pk задачи (3), удовлетворяющие (6) и (7).

5. Вычисляем ak = 9j, где j — наименьшее неотрицательное целое число, при котором выполняется неравенство Армихо

f (xk + 9jpk) < f (xk) + £9j(f'(xk), pk). (8)

6. Полагаем xk+1 = xk + akpk , увеличиваем k на 1, и переходим к шагу 1.

Ключевой вопрос состоит в том как реализовать шаг 4. Очевидно, что (6) может выполняться для любого pi > 0 , если Hk достаточно положительно определена, а именно, ее минимальное собственное значение не меньше p1. Более того, из (4) и (5) следует, что (7) также достигается достаточной положительной определенностью Hk . Последнего же можно добиться посредством модифицированного разложения Холецкого [5, разд. 4.4.2.2], [6], или посредством модифицированного симметричного знаконеопре-деленного разложения [7] матрицы Гессе f"(xk); см. также [8, разд. 3.4]. При этом на каждой итерации алгоритма потребуется решить не более двух систем линейных уравнений, как и в случае, когда для второй системы берется просто Hk = pI с достаточно большим p > 0 .

Альтернативным образом можно выбирать Hk последовательно, заменяя Hk на Hk + ш! с некоторым ш > 0 , до тех пор, пока (6) и (7) не окажутся выполнены. Разумеется, при таком подходе итерация алгоритма может потребовать решения более двух систем линейных уравнений, но получаемое в результате направление может быть лучше, так как выбранная в итоге матрица Hk может быть ближе к истинной матрице Гессе функции f .

2. Глобальная сходимость

Следующая теорема описывает свойства глобальной сходимости предложенного алгоритма.

Теорема 1. Пусть f дважды дифференцируема на Rn .

Тогда алгоритм корректно определен, и либо останавливается после конечного числа итераций на шаге 1 в некоторой стационарной точке xk задачи (1), либо генерирует такую бесконечную последовательность {xk}, что, в случае ограниченности {Hk} , любая предельная точка этой последовательности является стационарной точкой задачи (1).

Доказательство. Корректная определенность алгоритма вытекает из его конструкции.

Допустим, что алгоритм не останавливается на шаге 1, а значит, генерирует бесконечную последовательность {xk} . Предположим далее, что последовательность {Hk} ограничена. Покажем, что последовательность {pk} направлений поиска является равномерно градиентной в терминологии [9, с. 24], т. е. если некоторая подпоследовательность {xkj} сходится к X Е Rn , причем f '(x) = 0 , то последовательность {pkj} ограничена и

limsupf '(xkj),pkj) < 0. (9)

Из (7) получаем, что для всех k

llf Willie ||> P2bk II2.

Отсюда и из непрерывности f', которая автоматически следует из двукратной диффе-ренцируемости f , вытекает ограниченность последовательности {pkj} . Кроме того, в силу (3) и (6), для всех k справедливо соотношение

II(Hk2 + ^I)pk|| = ||Hkf'(xk)||> pjf'(xk)||.

Из ограниченности {Hk} и {akj} (где последнее следует из определения ak и, опять же, непрерывности f') вытекает, что если {pkj} имеет 0 в качестве предельной точки, то f '(x) = 0 , что противоречит сделанному предположению. Следовательно, норма pkj отделена от нуля, и тогда из (7) вытекает (9).

Таким образом, {pk} является равномерно градиентной последовательностью направлений поиска. А значит, согласно [9, теорема 1.8], каждая предельная точка {xk} является стационарной точкой задачи (1). □

3. Квадратичная скорость сходимости

Обозначим через S множество стационарных точек задачи (1):

S = {x Е Rn | f'(x) = 0}.

Лемма 1. Пусть f дважды непрерывно дифференцируема в окрестности стационарной точки х задачи (1), и пусть выполняется следующая локальная липшицева оценка расстояния до множества стационарных точек:

^(х, Б) = 0(||/(х)||) (10)

при х ^ х .

Тогда существует такое р > 0, что

"(х^'(х)||> р|^'(х)||

выполняется для любого х € Ега, достаточно близкого к X .

Доказательство. Согласно [10, следствие 2], в сделанных предположениях выполняется

^(х, 5) = 0(||/'(х)/(х)||)

при х ^ х. Нужное утверждение получается комбинированием данной оценки с оценкой, следующей из непрерывности f" :

||Лх)|| = о(^(х, 5))

при х ^ х . □

Таким образом, в предположениях этой леммы, если в алгоритме либо Т1 > 1, либо Т1 = 1 и р1 > 0 достаточно мало, то при Н = f "(хк) (6) выполняется для всех хк € Кга достаточно близких к х .

Во избежание ненужных сложностей, в утверждениях ниже будет удобно формально предполагать, что если хк € Б (и, соответственно, = 0), то = 0. Заметим, что если хк € Б, то алгоритм останавливается на шаге 1, и вычисления на самом деле больше не выполняются. С другой стороны, = 0 всегда является решением (3) при хк € Б, и для целей анализа удобно предполагать, что в таких случаях выбирается именно это решение.

Лемма 2. Пусть в дополнение к предположениям леммы 1 вторая производная f удовлетворяет условию Липшица в окрестности х.

Тогда для любого д € [1, 2] существует такое р > 0, что для решения уравнения (3) при Н = f"(хк) выполнено

"(х)/1| > р||/1|

для всех хк € Ега, достаточно близких к х .

Доказательство. Согласно [4, леммы 2.1, 2.2], в сделанных предположениях выполняются оценки

||/1| = 0(^(хк, Б)), (11)

+ /, 5) = О ((^(^, 5))(2+«)/2) (12)

при Xй ^ X . Точнее, в [4, лемма 2.2] дополнительно предполагается, что Xй остается достаточно близким к X. Однако, в доказательстве в [4, теорема 2.1] установлено, что любая необходимая близость + к X гарантируется достаточной близостью Xй к X , а значит, это предположение можно опустить.

От противного: предположим, что существует последовательность {хк} С Кга , сходящаяся к X и такая, что

/ "(X)/ = о("

при к ^ то. Тогда согласно (11)

/"(X)/ = о^^ ,5)), (13)

в то время как согласно (12)

/V + /) = О^^ + /, 5)) = о^^, 5)). (14)

С помощью теоремы о среднем, вновь привлекая (11), получаем

//(Xй + /) - /V) - /"(X)/ = о(||/1|) = о^^, 5)), а значит, принимая во внимание (13) и (14),

/^) = о^^, 5))

при к ^ то , что противоречит (10). □

Лемма 3. Пусть / дважды дифференцируема в окрестности локального решения X задачи (1), а ее вторая производная удовлетворяет условию Липшица в этой окрестности. Допустим, что выполняется локальная липшицева оценка расстояния (10) при X ^ X .

Тогда для любого д € [1, 2] существует такое р > 0, что для решения уравнения (3) при = /) выполнено

(/"(X)/>> р||/1|2 для всех Xй € Ега, достаточно близких к X.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Доказательство.В силу необходимого условия оптимальности второго порядка /"(X) является неотрицательно определенной матрицей. Но тогда (///(X)£, £> > 0 для всех £ € Кга , при которых = 0. Требуемый результат теперь получается из

леммы 2 с привлечением свойств однородности и компактности. □

Следующий результат вытекает из (12) и леммы 3 посредством рассуждения в [11, следствие 5.1].

Лемма 4. В предположениях леммы 3, для каждого д € [1, 2], если либо т2 > 2, либо т2 = 2 и р2 > 0 достаточно мало, то (7) выполняется для решения р уравнения (3) с Н = ) при любом € Ега, достаточно близком к х. Более того, если £ € (0, 1/2), то (8) выполняется при ] = 0, т. е. на шаге 5 алгоритма принимается

а = 1 .

Теорема 2. Пусть в предположениях леммы 3 последовательность {хй} получена алгоритмом при д € [1, 2], £ € (0, 1/2) и либо при Т1 > 1, либо при Т1 = 1 и достаточно малом р1 > 0, и либо при т2 > 2, либо при т2 = 2 и достаточно малом р2 > 0. Предположим, что при некотором к приближение оказывается достаточно близким к х .

Тогда последовательность {хй} сходится к некоторой стационарной точке задачи (1), и для любого достаточно большого к выполняется Н = ), а = 1, причем скорость сходимости квадратичная.

Доказательство. Это следует из лемм 1 и 4, а также из [4, теорема 2.2], где нужно принять во внимание, что, согласно рассуждению в [4, теорема 2.1], достаточная близость к х обеспечивает нужную близость всех последующих приближений к х. □

Покажем теперь, что оценка расстояния (10) обеспечивается выполнением условия квадратичного роста в точке х, что означает существование такого 7 > 0, что

f (х) - f (ж) > 7(^(х, Б))2 (15)

для любого х € Кга , достаточно близкого к х, и для некоторой проекции ж точки х на Б .

Предложение 1. Пусть f дважды дифференцируема в окрестности стационарной точки х задачи (1), а ее вторая производная непрерывна в х, и предположим, что в точке х выполнено условие квадратичного роста.

Тогда имеет место локальная липшицева оценка расстояния (10) при х ^ х .

Доказательство. По теореме о среднем, и принимая во внимание, что ж ^ х при х ^ х , получаем оценки

/(х) - Г(ж)(х - ж) = Ах) - /(ж) - Г(ж)(х - ж) = о(^(х, Б)),

f (х) - f (х) - 2(//(х)(х - ж), х - ж) = f (х) - f (х) - (/(ж), х - ж)

-1 (Аж)(х - ^ х - ж)

= о((^(х, Б))2)

при X ^ X. Следовательно, в силу (15),

7(^(х, 5))2 < /(X) - /(ж)

= 1 (/(х),х - ж> + о((^(х, 5))2)

< 2Н/^ННх - ж|| + о((^(х, 5))2) = 1 ||//(х)| dist(х, 5) + о((^(х, 5))2),

откуда очевидным образом следует (10). □

4. Численные примеры

Помимо глобализации метода Левенберга-Марквардта посредством одномерного поиска для квадрата евклидовой невязки уравнения (2), естественным конкурентом предложенного в этой работе алгоритма является регуляризованный метод Ньютона, направление которого в текущем приближении хк вычисляется из линейного уравнений

(Н + ^ I )р = -//(хк), (16)

а глобализация сходимости осуществляется посредством одномерного поиска для функции /; см. [12], [13]. Этот метод также может требовать модификации базового выбора Н = ///(хк) для обеспечения того, чтобы было направлением убывания функции / в точке хк . Более того, с учетом неотрицательной определенности матрицы , есть основания ожидать, что итерация метода Левенберга-Марквардта будет требовать меньшего количества последовательных модификаций Н , а значит, решения меньшего количества систем линейных уравнений. Помимо этого, важным теоретическим преимуществом метода Левенберга-Марквардта является то, что его итерационные системы (3) всегда разрешимы, поскольку их матрицы положительно определены (а значит, невырождены) при > 0 .

Таким образом, в этом разделе рассматриваются следующие алгоритмы.

1. Алгоритм из разд. 1 с последовательной модификацией матрицы Н по формуле Н = Н + ш/ на шаге 4, в котором (3) заменено на итерационное уравнение (16) регуляризованного метода Ньютона, а тест (6) опущен, но процедура модификации Н инициируется и в тех случаях, когда уравнение (16) решить не удается. Такой алгоритм соответствует глобализованным версиям регуляризованного метода Ньютона в [12], [13]. Варианты этого алгоритма с выбором д = 1 и д = 2 будем обозначать ИЫМ1 и ИКМ2, соответственно.

2. Алгоритм из разд. 1 с последовательной модификацией матрицы Н по той же формуле. Варианты этого алгоритма с выбором д =1 и д = 2 будем обозначать Ь-ММ1-оЬ и Ь-ММ2-оЬ<ь соответственно.

3. Алгоритм из разд. 1, но с опущенными тестами (6) и (7), и опущенным шагом 4, а также с функцией / на шаге 5, замененной на квадрат невязки уравнения (2), т. е.

на функцию : R ^ R ,

¥>(*) = 2II/ '(x)!2.

Такой алгоритм соответствует глобализованным версиям метода Левенберга-Марквар-дта в [3], [4]. Варианты этого алгоритма с выбором q = 1 и q = 2 будем обозначать L-MM1-res и L-MM2-res, соответственно.

В алгоритмах использовались следующие значения параметров: pi = р2 = 10-9 , Ti = 1.1, Т2 = 2.1, ¿т = 1, е = 0.01, В = 0.5 , ш =10 .

Запуск считался успешным, если для некоторого k < 500 реализовалось неравенство

II/V)II < 10-8.

Если на некоторой итерации на шаге 5 алгоритма а становилось меньше 10-12 , то запуск считался неудачным и прекращался.

Для каждой из рассматриваемых ниже трех задач выполнялось 1000 запусков каждого алгоритма из случайных начальных точек, равномерно распределенных в области IIx||^ < 100. Значения столбцов в приводимых ниже таблицах таковы

- «S» (от «Sucesses»): процент успешных запусков;

- «I» (от «Iterations»): среднее количество итераций на один успешный запуск;

- «LS» (от «Linear Systems»): среднее количество решенных линейных систем на один успешный запуск;

- «OV» (от «Objective function Values»): средняя величина натуральных логарифмов от значений целевой функции в точках завершения алгоритма (вне зависимости от успешности запусков). Эта величина характеризует качество получаемых приближений: чем она меньше, тем в среднем лучше получаемые приближения. При этом она более устойчива по отношению к единичным статистическим выбросам, чем средняя величина самих значений целевой функции.

Таблица 1: Результаты для примера 1

Method S (%) I LS OV

RNM1 100 32 32 -61.81

RNM2 95 32 32 -61.57

L-MM1-obj 100 32 32 -61.47

L-MM2-obj 100 32 32 -61.64

L-MM1-res 100 32 32 -61.78

L-MM2-res 96 32 32 -59.92

Пример 1. Пусть п = 2 , f (х) = ((х1 + х2)2 - 2(х1 - х2))2 . Тогда множество решений задачи (1) — это лемниската Бернулли.

Лемниската Бернулли содержится в круге с центром в нуле радиуса л/2. В определенном смысле это объясняет то, что при запусках из удаленных от нуля начальных точек все рассматриваемые алгоритмы ведут себя в этом примере схожим образом; см. таблицу 1.

Таблица 2: Результаты для примера 2

Ме^оё Б (%) I ЬБ ОУ

ШМ1 100 20 21 -44.60

ИКМ2 100 26 27 -27.36

Ь-ММ1-оЬ] 100 18 18 -53.29

Ь-ММ2-оЬ] 100 18 18 -51.81

Ь-ММ1-гез 100 18 18 -53.61

Ь-ММ2-гез 100 18 18 -53.16

Пример 2. Пусть п = 2 , f (х) = х1х2 . Тогда множество решений задачи (1) задается уравнением х1х2 = 0 .

Как видно из таблицы 2, в этом примере алгоритмы, основанные на методе Левенбер-га-Марквардта, ведут себя схожим образом и превосходят ИЫМ как по эффективности, так и по качеству получаемых приближений. При этом все алгоритмы демонстрируют абсолютную робастность.

Таблица 3: Результаты для примера 3

Ме^оа Б (%) I ЬБ ОУ

ШМ1 100 28 28 -27.44

ИКМ2 100 27 27 -27.54

Ь-ММ1-оЬ] 100 17 17 -57.65

Ь-ММ2-оЬ] 100 19 19 -52.57

Ь-ММ1-гез 100 17 17 -57.82

Ь-ММ2-гез 99 19 19 -53.45

Пример 3. Пусть п = 3 , f (х) = (х2 + х2 - х2)2 . Тогда множество решений задачи (1) задается уравнением х2 + х2 = х3 .

Как видно из таблицы 3, в этом примере ситуация та же, что и в примере 2.

Чтобы продемонстрировать различие в поведении двух рассмотренных глобализаций методов Левенберга-Марквардта, рассмотрим еще один простой (одномерный) пример.

„ хЮ7

^Ш 1 W Г YY Г 'nf УГ 'if' Y V i T "Гц" MiC If 4 'iVY 4 л

I JJl 1 Ц l JU. 1Я nil J. 1 JJl 1H. U .! Ш. J

\

150 -100 -50 О 50 100 150

х

Рис. 1: Пример 4

Таблица 4: Результаты для примера 4

Method S (%) I LS OV CS (%)

RNM1 77 6 6 -113.97 100

RNM2 77 5 6 -113.39 100

L-MM1-obj 80 5 6 -112.14 100

L-MM2-obj 80 5 6 -112.24 100

L-MM1-res 100 4 5 -45.72 49

L-MM2-res 100 4 5 -44.80 48

Пример 4. Пусть n = 1, f (x) = x4/2 — 104x2 . Тогда множество решений задачи (1) состоит из двух точек: —100 и 100. Кроме того, функция f имеет локальный максимум в точке 0 (см. рис. 1).

Помимо данных, сообщавшихся в таблицах для предыдущих примеров, таблица 4 имеет еще столбец «CS» (от «Convergences to Solution»), в котором указан процент

успешных запусков со сходимостью к одному из решений, а именно, закончившихся в точке, значение функции f в которой отличалось от оптимального значения -108/2 не более чем на 10-5 .

Из таблицы 4 видно, что алгоритмы с одномерным поиском для целевой функции f существенно превосходят алгоритмы с одномерным поиском для квадрата невязки уравнения (2) в плане качества получаемых приближений.

На рис. 1 также показано распределение начальных точек, из которых имела место сходимость к одному из решений (черные точки), и тех, из которых имела место сходимость к локальному максимуму (белые точки). Распределение становится весьма сложным вблизи ±100/>/3. Данные приведены для Ь-ММ1-гез; для Ь-ММ2-гез картина аналогичная.

Разумеется, приведенные численные результаты предназначены лишь для иллюстрации теории, разработанной в разд. 1-3, и, в частности, не подразумевают каких-либо далеко идущих выводов. Систематическое сравнительное численное тестирование описанных алгоритмов составит одно из направлений дальнейшей работы авторов.

Список литературы

[1] K. Levenberg, "A method for the solution of certain non-linear problems in least squares", Quarterly of Appl. Math., 2 (1944), 164-168.

[2] D.W. Marquardt, "An algorithm for least-squares estimation of nonlinear parameters", J. SIAM, 11 (1963), 431-441.

[3] N. Yamashita, M. Fukushima, "On the rate of convergence of the Levenberg-Marquardt method", Computing, 2001, 15, 237-249.

[4] J.-Y. Fan, Y.-X. Yuan, "On the quadratic convergence of the Levenberg-Marquardt method", Computing, 74 (2005), 23-39.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[5] P. E. Gill, W. Murray, M.H. Wright, Practical Optimization, Academic Press, San Diego, 1981.

[6] R. B. Schnabel, E. Eskow, "A new modified Cholesky factorization", SIAM J. Sci. Statist. Comput., 11 (1990), 1136-1158.

[7] S.H. Cheng, N.J. Higham, "A modified Cholesky algorithm based on a symmetric indefinite factorization", SIAM J. Matrix. Anal. Appl., 9 (1998), 1097-1110.

[8] J. Nocedal and S.J. Wright, Numerical Optimization, 2, Heidelberg: Springer-Verlag, New York, Berlin, 2006.

[9] Д. Бертсекас, Условная оптимизация и методы множителей Лагранжа, Радио и связь, М., 1987.

[10] A. Fischer, "Local behavior of an iterative framework for generalized equations with nonisolated solutions", Math. Program., 94 (2002), 91-124.

[11] A.F. Izmailov, M.V. Solodov, E.I. Uskov, "Globalizing stabilized SQP by smooth primal-dual exact penalty function", J. Optim. Theory Appl., 169 (2016), 148-178.

[12] K. Ueda, N. Yamashita, "Convergence properties of the regularized Newton method for the unconstrained nonconvex optimization", Appl. Math. Optim., 62 (2010), 27-46.

[13] C. Shen, X. Chen, Y. Liang, "A regularized Newton method for degenerate unconstrained optimization problems", Optim. Lett., 6 (2012), 1913-1933.

References

[1] K. Levenberg, "A method for the solution of certain non-linear problems in least squares", Quarterly of Appl. Math., 2 (1944), 164-168.

[2] D.W. Marquardt, "An algorithm for least-squares estimation of nonlinear parameters", J. SIAM, 11 (1963), 431-441.

[3] N. Yamashita, M. Fukushima, "On the rate of convergence of the Levenberg-Marquardt method", Computing, 2001, 15, 237-249.

[4] J.-Y. Fan, Y.-X. Yuan, "On the quadratic convergence of the Levenberg-Marquardt method", Computing, 74 (2005), 23-39.

[5] P. E. Gill, W. Murray, M.H. Wright, Practical Optimization, Academic Press, San Diego, 1981.

[6] R. B. Schnabel, E. Eskow, "A new modified Cholesky factorization", SIAM J. Sci. Statist. Comput., 11 (1990), 1136-1158.

[7] S. H. Cheng, N. J. Higham, "A modified Cholesky algorithm based on a symmetric indefinite factorization", SIAM J. Matrix. Anal. Appl, 9 (1998), 1097-1110.

[8] J. Nocedal and S.J. Wright, Numerical Optimization, 2, Heidelberg: Springer-Verlag, New York, Berlin, 2006.

[9] D. P. Bertsekas, Constrained Optimization and Lagrange Multiplier Methods, Academic Press, New York, 1982.

[10] A. Fischer, "Local behavior of an iterative framework for generalized equations with nonisolated solutions", Math. Program., 94 (2002), 91-124.

[11] A.F. Izmailov, M.V. Solodov, E.I. Uskov, "Globalizing stabilized SQP by smooth primal-dual exact penalty function", J. Optim. Theory Appl., 169 (2016), 148-178.

[12] K. Ueda, N. Yamashita, "Convergence properties of the regularized Newton method for the unconstrained nonconvex optimization", Appl. Math. Optim., 62 (2010), 27-46.

[13] C. Shen, X. Chen, Y. Liang, "A regularized Newton method for degenerate unconstrained optimization problems", Optim. Lett., 6 (2012), 1913-1933.

Информация об авторах

Измаилов Алексей Феридович, доктор физико-математических наук, профессор кафедры исследования операций. Московский государственный университет им. М.В. Ломоносова, г. Москва, Российская Федерация. E-mail: izmaf@ccas.ru

ORCID: https://orcid.org/0000-0001-9851-0524

Куренной Алексей Святославович, кандидат физико-математических наук, научный сотрудник. Тамбовский государственный университет им. Г. Р. Державина, г. Тамбов, Российская Федерация. E-mail: akurennoy@cs.msu.ru ORCID: https://orcid.org/0000-0001-8216-9659

Information about the authors

Alexey F. Izmailov, Doctor of Physics and Mathematics, Professor of the Operations Research Department. Lomonosov Moscow State University, Moscow, the Russian Federation. Email: izmaf@ccas.ru

ORCID: https://orcid.org/0000-0001-9851-0524

Alexey S. Kurennoy, Candidate of Physics and Mathematics, Researcher. Tambov State University named after G.R. Derzhavin, Tambov, the Russian Federation. E-mail: akurennoy@cs.msu.ru

ORCID: https://orcid.org/0000-0001-8216-9659

Стецюк Петр Иванович, доктор физико-математических наук, заведующий отделом методов негладкой оптимизации. Институт кибернетики им. В. М. Глушкова НАН Украины, г. Киев, Украина. E-mail: stetsyukp@gmail.com ORCID: https://orcid.org/0000-0003-4036-2543

Конфликт интересов отсутствует.

Для контактов:

Измаилов Алексей Феридович

E-mail: izmaf@ccas.ru

Поступила в редакцию 10.01.2019 г.

Поступила после рецензирования 11.02.2019 г.

Принята к публикации 14.03.2019 г.

Petr I. Stetsyuk, Doctor of Physics and Mathematics, Head of the Nonsmooth Optimization Methods Department. V. M. Glushkov Institute of Cybernetics of NAS of Ukraine, Kiev, Ukraine. E-mail: stetsyukp@gmail.com ORCID: https://orcid.org/0000-0003-4036-2543

There is no conflict of interests.

Corresponding author:

Alexey F. Izmailov E-mail: izmaf@ccas.ru

Received 10 January 2019 Reviewed 11 February 2019 Accepted for press 14 March 2019

Метод Левенберга-Марквардта для задач безусловной оптимизации Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Измаилов Алексей Феридович, Куренной Алексей Святославович, Стецюк Петр Иванович

Похожие темы научных работ по математике , автор научной работы — Измаилов Алексей Феридович, Куренной Алексей Святославович, Стецюк Петр Иванович

Levenberg-Marquardt method for unconstrained optimization

Текст научной работы на тему «Метод Левенберга-Марквардта для задач безусловной оптимизации»