Синтез градиентных методов минимизации функций многих переменных с применением правых обратных матриц

Светлаков Анатолий Антонович; Пугачева Оксана Анатольевна

УДК 519.233.2 (075.8)

А.А. Светлаков, О.А. Пугачева

Синтез градиентных методов минимизации функций многих переменных с применением правых обратных матриц

Предлагается нетрадиционный подход к синтезу методов минимизации функций многих переменных. На примере решения простейшей задачи в ней синтезируется новый градиентный метод решения данной задачи, основанный на сведении ее на каждой итерации к решению недоопределенных линейных алгебраических уравнений и вычислению их решений с применением правых обратных матриц. Ключевые слова: градиент, правая обратная матрица, матрица, минимизация функции. doi: 10.21293/1818-0442-2016-19-4-117-121

Постановка простейшей задачи минимизации функции многих переменных

Пусть некоторая переменная величина У является заданной и известной нам функцией / (•) независимых переменных Щи2,...,и„, где п -натуральное число такое, что 1< п . Представим данное предположение аналитически и соответственно запишем следующее равенство:

У = /(Щ,Ы2,...,ип ). (1)

Здесь у и И1,М2,...,ип - численные значения функции У и независимых переменных Щи2,...,ип соответственно. Всюду далее будем предполагать, что:

1) данная функция является непрерывной и хотя бы раз дифференцируемой по каждой из переменных иI, I = 1, п ;

2) она является унимодальной функцией и определена на всем векторном пространстве Vп .

Для упрощения и компактности последующих записей и выкладок всюду далее будем пользоваться

т

вектором-строкой и и вектором-столбцом и полагая при этом, что они определяются следующими равенствами:

а) и = (и1,М2,из,...,ип), (2а)

б) ит = (и)т, (2б) где т - символ операции транспонирования векторов и матриц. Воспользовавшись данными векторами, представим соотношение (1) в следующем более компактном виде:

у = / (и) = / (ит). (3)

Для удобства и сокращения последующего из-

т

ложения наряду с терминами «вектор и » и «вектор и » всюду далее будем использовать как их сит

нонимы термины «точка и » и «точка и », отдавая при этом предпочтение тому из них, который наиболее соответствует сущности обсуждаемого вопроса.

Задача минимизации рассматриваемой нами

т

функции у = /(и ) заключается в том, чтобы найти

т

вектор и* , удовлетворяющий равенству

ит = а^ш1п{ / (ит):ит eV п }, (4)

где символ а^шш{...} - (аргумент минимума) оз-

т

начает, что вектор и* является таким вектором, при

т

котором функция у = /(и ) принимает минимальное значение у* и при этом ит е Vп.

Для решения данной задачи в настоящее время имеется значительное число методов и реализующих их алгоритмов, базирующихся на различных идеях и подходах [1, 2]. Однако, несмотря на это, остается актуальной проблема совершенствования уже имеющихся и создания новых методов и алгоритмов ее решения, обладающих теми или иными преимуществами по сравнению с уже имеющимися методами и алгоритмами.

Синтез градиентных методов минимизации функций многих переменных с применением правых обратных матриц

Известное в настоящее время семейство градиентных методов минимизации функций многих переменных получено эвристическими рассуждениями с использованием при этом сведений о градиенте минимизируемой функции и цели задачи ее минимизации [1]. Ниже наглядно иллюстрируется, что эти и подобные им методы можно не менее успешно синтезировать и с применением более формальных методов, если: 1) воспользоваться сведением задачи их синтеза к решению линейных алгебраических уравнений и 2) использовать для решения последних правые обратные матрицы [2].

Для получения необходимого нам уравнения

воспользуемся линейной частью ряда Тейлора

т

функции /(и ):

у = / (ит) = / (ит) + gДuT + 02(Дит) (5)

здесь ит - какая-либо точка из Vn , в окрестности

которой нас интересует поведение функции (3);

т т т т

Ди = и - и о - приращение вектора ио , а

т т т

Ди = (Ди у ; g - градиент функции (3), определяемый равенством

где - частная производная функции (3) по

переменной y, i = 1,n , вычисленная в точке uj ;

02(AuT) - сумма всех остальных членов ряда Тейлора, имеющих порядок по компонентам вектора

t

Au выше второго.

T

При этом будем считать, что приращения Au таковы, что слагаемым Ü2(Au ) можно без какого-либо ущерба для дальнейших рассмотрений пренебречь, и соответственно будем считать его равным нулю. В этом случае получаем более простое равенство

y = f (uT) = f (uj) + gAuT , (7)

n

где g = (gT)T , а gAuT g,Au, - скалярное произ-

i=1 TT

ведение векторов g и Au .

Воспользуемся теперь данным равенством и запишем его дискретный аналог применительно к к -й итерации, где к = 1, 2, 3,____В результате получим следующее, равенство:

Ук+1 = Ук + g к ^^ (8)

где Ук+1 = f(uj+1), Ук = f(uj), а знак = означает,

что левая часть соотношения равна по определению его правой части.

T

Значения Ук и градиента §к здесь являются фиксированными и известными, а значение Ук+1 и

t

приращение A^ - неизвестными переменными

величинами, значения которых связаны равенством (8). Таким образом, данное равенство можно вполне обоснованно рассматривать и использовать как линейное алгебраическое уравнение относительно неизвестных значений Ук+1 и Au к . В результате получим следующее основополагающее для наших дальнейших целей уравнение:

Ук+1 - gкAuj = Ук . (9)

Для удобства и упрощения рассмотрений и выкладок придадим данному уравнению традиционный в линейной алгебре векторно-матричный вид. С этой целью введем в рассмотрение (1 х (n + 1))-мерную матрицу Ак и (n + 1)-мерный вектор-столбец Хк , определив их равенствами

а) Ак = (1! - gk) (10а)

б) xj = (Ук+1! Au к )T, (10б) вертикальное троеточие : в которых отделяет первые компоненты «1» и «Ук+1» от векторов gk и Auк. Воспользовавшись данными равенствами, представим уравнение (9) в следующем виде:

Ак xj = Ук . (11)

Анализируя данное уравнение, нетрудно видеть, что:

1) оно совместимо при любой правой части ук ;

2) если gк = 0п, где 0п -нулевой п -мерный вектор-строка, то оно имеет единственное решение х,Х = (Ук :0п )х;

3) если gк ф0п, то оно имеет несчетное множество решений.

В наиболее общем виде множество его решений

I

Хк можно представить следующим равенством:

*Т = АкП Ук . (12)

Здесь А кП - правая обратная к Ак матрица, вычисляемая согласно равенству [2]

Ак" = (Ак )_1, (13)

т

где г к - некоторый заданный (п +1)-мерный век-

т

тор-столбец такой, что произведение А к г к ф 0 . Умножив слева обе части данного равенства на матрицу Ак , нетрудно видеть, что Ак А~кП =1, и, таким

образом, можно заключить, что матрица Ак П , определяемая равенством (13), действительно является

правой обратной к Ак матрицей.

т

Множество векторов Хк, удовлетворяющих

данному неравенству, несчетно и, таким образом,

т

задавая различные векторы г к и используя их в (13), можно получить несчетное множество различных правых обратных к Ак матриц. При этом, как непосредственно видно из данного равенства, каж-

т

дому вектору гк соответствует единственная матрица АкП , а, как видно из (12), каждая такая матрица определяет единственное решение уравнения (11). Приведем четыре примера, наглядно иллюстрирующих рассматриваемые возможности решения уравнения (11) с применением правых обратных матриц.

т

Пример 1. Зададим вектор г1 в соответствии с

т • т

равенством г1 = (1,0:0п) , где 0п - нулевой п -мерный вектор-строка. Выполнив все необходимые вычисления согласно равенствам (13) и (12), учитывая

т

при этом (9), получим, что решение х1 уравнения (11) в этом случае определяется равенством

хт = (Ук: 0к )т (14)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и оказывается (п +1) -мерным вектором, у которого отлична от нуля только первая компонента , а все

остальные п его компонент равны нулю.

т

Пример 2. Пусть вектор г2 удовлетворяет ра-

т • т

венству г2 = (0п: 1) . В этом случае, выполнив

представленную выше последовательность опера-

т

ций, получаем, что решение Х2 уравнения (11) удо-влетворяет равенству

Х2 = (0п 1 g~nl)T ук и является (п +1) -мерным вектором с отличной от нуля (п +1) -й компонентой и равными нулю его первыми п компонентами.

Здесь gnk - обращенная п -я компонента градиента gт.

т

Пример 3. Выберем в качестве вектора zз век-

т • т

тор zз = (1^к) . Подставив его в (13) и выполнив очевидные операции, получим следующее равенство:

(16)

Ак П = (%к )т(1 + §к §т) =

в котором слагаемое gk gк определяется равенством

§к gт =Е gfk

1=1

где gik - I -я компонента градиента gт , I = 1, п, и

таким образом, по определению является ничем иным, как квадратом евклидовой нормы градиента

т

gk , имеющим строго положительное значение при

т

gk ^ 0п и равным нулю при gk = 0п . Решение Х3 уравнения (11) в данном случае вычисляется согласно следующему равенству:

х3т=(%к )т(1+gk gT)-1 ук. (18)

т

Пример 4. Будем считать, что вектор Z4 определяется равенством zт = ет+1 = (1,0; 1,0;... 1,0)т , т.е. является (п +1) -мерным вектор-столбцом, все компоненты которого равны 1,0. Поставив его в (13), получаем, что правая обратная к Ак матрица Ак в данном случае определяется равенством

-П

А-п = ет+1 (1+Х g1k)-1. 1=1

(19)

Решение Х4т уравнения (11), вычисленное с использованием данной матрицы, получается в соответствии со следующим равенством:

хт = ет+1 (1 + !>*)-1 ук . (20)

г=1

Непосредственной проверкой, т.е. поставляя в (11) решения (14), (15), (18) и (20) и выполняя соответствующие арифметические операции, можно

т т т т убедиться в том, что векторы Х1 Х2 Х3 и Х4 действительно являются решениями уравнения (11). Используя данные решения и равенство (10б), можно соответственно синтезировать следующие 4 ите-

т

рационных метода минимизации функции /(и ):

т т 1 а) ик+1 =и к,

б) У к+1 = У к;

(21а) (21 б)

2. а) ит+1 = ит - (0п.1 ^)тук , б) Ук+1=

3. а) икк+1 = ит - gт (1 + g к gT)-1 ук-. б) у к+1=у к(1 gт)-1;

4. а) икк+1 = икк- ек(1+ек gт )-1 ук, б) Ук+1 = Ук(1+ек gт )-1.

(15) 2. а) ит+, = ит - (0п-1 ^У ук , (22а)

(22б) (23а) (23 б) (24а) (24б)

Здесь 0п-1 - нулевой (п -1)-мерный вектор-строка,

т

а еп - п -мерный вектор-столбец, каждая из компонент которого равна 1,0.

Приведем краткие комментарии, более полно раскрывающие наиболее существенные особенности

синтезированных методов минимизации функции т

(17) /(и ), и ограничения, которые необходимо учиты-

т

__вать при выборе вектора z , фигурирующего в оп-

ределении (13) матрицы Ак .

Во-первых, как вытекает из определения вектора zт и равенств (14), (21а), (21б), использование

т

вектора Zl предельно упрощает вычисление матри-

-п т

цы Ак и решения Х1 уравнения (11). Однако получаемый при этом итерационный метод (21а), (21б) оказывается совершенно бесполезным, так как его

применение никак не решает задачу минимизации т

функции /(и ).

Во-вторых, метод (22а), (22б) также оказывается малопригодным для минимизации функции т

/(и ), так как его применение позволяет изменять

т

только п -ю компоненту ип вектора и , что, очевидно, явно недостаточно для отыскания минимума функции /(и ). Более того, поскольку ук+1 = 0, то на (к +1) -й и последующих интеграциях данная компонента также не будет в этом случае изменяться

и соответственно не будет в этом случае никакого

т

поиска минимума функции /(и ) по первым (п +1)

т

компонентам и1,и2,...,ип-1 вектора и .

Однако вполне очевидно, что если вместо век-

тт тора z2 использовать вектор zу , определяемый

равенством вида

zT = (0 у-1:1:0п+1. у )т, у = 2, п +1 (25) то можно без каких-либо больших усилий синтезировать итерационный метод покоординатной мини-

т

мизации функции /(и ). Для этого необходимо и достаточно организовать цикл по у и на каждой из

итераций вычислять правую обратную к Ак матри-

-п т т

цу Аку , решение Х2у и вычисление вектора ик+1 и

значения ук+1 в соответствии с равенствами

а) Uj+i,j = Uj,j-1 + zjyj, (26а)

б) y j+1 = y j . (26б) В-третьих, как видно из (23а), (23б), представленный данными равенствами итерационный метод

является градиентным методом минимизации функ-

jj

ции f (u ). Направление приращения Ди^ в данном случае совпадает с направлением её антигради-

jj

ента (~gk) в точке и^ , а его евклидова норма

ДиТ

зависит как от градиента gk и квадрата его

евклидовой нормы

так и от значения yk

функции f (u ). В окрестности точки и - мини-

мума функции f (и ), где выполняется приближен-

2

»0, направление приращения

ное равенство

применением правых обратных к Ак матриц. Они же показывают, что: 1) используя данные матрицы, можно получить как совершенно бесполезные, так и представляющие значительный интерес итерацион-

т

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ные методы минимизации функции /(и ); 2) наибольший интерес представляют методы, полученные

т

с применением вектора гз не только потому, что его

применение позволяет получить градиентный метод

т

минимизации функции /(и ), но и синтезировать нечётное семейство градиентных методов подобного назначения, заданных с точностью до диагональной положительно определённой матрицы Б порядка к. Для получения какого-либо конкретного метода из данного семейства необходимо и достаточно вме-

тт сто вектора гз использовать вектор г^ , определяемый равенством

Т

Дик также совпадает с направлением антиградиен-

= D k gj,

ТТ та (-gk) в точке Uk , а его евклидова норма

ДиТ

зависит от нормы

градиента gk и от значения

тт Ук функции /(и ) в точке ик , монотонно уменьшаясь и стремясь к нулю с увеличением к. Как непосредственно видно из (23б), значение ук+1 функции

т т т

/(и ) в точке ик+1 оказывается в (1 + gкgк) раз

т

меньше её значения в точке ик и с увеличением к

монотонно и с монотонно уменьшающейся скоро* т

стью стремится к её значению /((и ) ).

т

В-четвёртых, из определения вектора е и ра-

(27)

где Б к - диагональная порядка п матрица.

Равенства (8)-(27) полностью и вполне однозначно представляют совокупность операций, которые необходимо выполнить на к -й интеграции к = 1, 2, 3,____ Однако они никак не представляют

начало и окончание процесса минимизации функции

т

/(и ), т.е. не представляют никаких действий и

т

правил, связанных с заданием начальной точки и0

и указанием условий остановки данного процесса. Вместе с тем вполне очевидно, что и то и другое не только оказывают существенное влияние на продолжительность (число интеграций, необходимых для получения решения) процесса минимизации

венства (24а) видно, что все компоненты Щк вектора функции /(ит), но и являются необходимыми условиями для его реализации.

Восполняя данный пробел, отметим, во-первых,

т

что в любом случае точку и0 необходимо выбирать

т

только из области определения функции /(и ). Во-

вторых, если рассматривать только сходящиеся мет

тоды минимизации функции /(и ), которые прежде всего и представляют наибольший интерес с точки зрения их пригодности и полезности для решения

задачи, то нетрудно видеть, что выбор начальной

т

точки ио , необходимой для запуска процесса, вообще говоря, не является актуальной задачей, т.к.

т

какую бы начальную точку и0 из множества отмеченных выше точек не выбрать, вычисляемая последовательность точек ит,ит,ит,... будет удовлетво-рять соотношению вида

(28)

т

ик в данном случае изменяются на одну и ту же

величину, пропорциональную значению ук и мно-

т —1

жителю (1+екgк) . При этом направление пере-

т

мещения точки ик и его величина существенно за-

т

висят от того, каков угол ф между вектором е и градиентом gk . Так, если данный угол равен л/2 ,

т т

то имеют место равенства Дик = епук и ук+1 = Ук,

таким образом, никакого уменьшения значения

т

функции /(и ) в данном случае не будет. Оно бут т

дет максимальным при еп =—gk , т.е. тогда, когда

тт

угол ф между векторами еп и gk равен —л. Во всех других случаях, когда имеют неравенства —л<ф<л/2, оно будет изменяться пропорционально СОБф .

Приведённые выше примеры наглядно иллюстрируют широчайшие возможности синтеза итераци-

т

онных методов минимизации функции /(и ) с

lim uj = uj,

k

т.е. будет сходиться к искомой точке и* . В-третьих, в тех случаях, когда актуальной является не только

2

сходимость данной последовательности к точке и* ,

т

но и её скорость, выбор начальной точки и0 оказывается актуальной задачей. Совершенно ясно, что в

т

любом из подобных случаев начальную точку и0

необходимо выбирать как можно ближе к искомой т

точке и* , используя при этом все имеющиеся и

доступные сведения о данной точке и поведении

т

функции /(и ) в её окрестности. В самом деле, т

такой выбор точки и0 при прочих одинаковых условиях минимизирует число интеграций, необходимых для попадания в достаточно малую окрестность

т

точки и* , и соответственно, сокращает суммарный

объём вычислений и время их реализации.

В-четвёртых, не менее очевидно и то, что во

многих случаях оказывается вполне оправданным

т

выбирать начальную точку и0 в соответствии с ра-

венством

uo = 0,5(um

+ur

(29)

т.е. использовать в качестве точки и0 центральную

т

точку области задания функции / (и ).

И, наконец, завершая синтез предлагаемого

т

градиентного метода минимизации функции /(и ),

отметим, что для остановки процесса поиска точки

т

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и* можно использовать какое-либо одно из сле-

дующих двух неравенств:

т

а)

б)

Au

k

<A

<A„

g

(30а) (30б)

и завершать поиск данной точки при его выполнении. Здесь - какая-либо, например евклидова, норма п -мерных векторов; Ди и Дg - некоторые

заданные достаточно малые положительные числа, значения которых выбираются с учётом желаемой

т

точности определения точки и* , а также длительности процесса её отыскания.

Заключение

Представленные выше результаты, позволяют заключить, что использование правых обратных матриц открывает широкие возможности синтеза различных методов и алгоритмов минимизации функций многих переменных и создания на их основе вычислительного алгоритма, реализующего не один, а целое семейство методов подобного назначения.

Литература

1. Крылов В.И. Вычислительные методы высшей математики. - Минск: Высшая школа, 1972. - 584 с.

2. Светлаков А.А. Обобщенные обратные матрицы: некоторые вопросы теории и применения в задачах управления процессами. - Томск: Изд-во НТЛ, 2003. - 388 с.

Cветлаков Анатолий Антонович

Д-р техн. наук, профессор каф. компьютерных систем в управлении и проектировании (КСУП) ТУСУРа Тел.: +7 (382-2) 90-01-73 Эл. почта: [email protected]

Пугачева Оксана Анатольевна

Ст. преподаватель каф. математики ТУСУРа

Тел.: +7 (382-2) 70-15-98

Эл. почта: [email protected]

Svetlakov A.A., Pugacheva O.A.

Synthesis of Gradient minimization methods of functions of several variables with the right inverse matrix

It offers an unconventional approach to the synthesis methods of minimizing functions of many variables. For example, the simplest solution of the problem it is synthesized a new gradient method for solving this problem, based on intelligence it on each iteration to solve underdetermined linear algebraic equations and computation of their solutions with the right inverse matrix.

Keywords: gradient, right inverse matrix, matrix, minimization of the function.

Синтез градиентных методов минимизации функций многих переменных с применением правых обратных матриц Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Светлаков Анатолий Антонович, Пугачева Оксана Анатольевна

Похожие темы научных работ по математике , автор научной работы — Светлаков Анатолий Антонович, Пугачева Оксана Анатольевна

Synthesis of Gradient minimization methods of functions of several variables with the right inverse matrix

Текст научной работы на тему «Синтез градиентных методов минимизации функций многих переменных с применением правых обратных матриц»