Научная статья на тему 'О дифференцировании матричных функций'

О дифференцировании матричных функций Текст научной статьи по специальности «Математика»

CC BY
283
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИММЕИРИЧЕСКАЯ МАТРИЦА / СОБСТВЕННОЕ ЗНАЧЕНИЕ / МАТРИЧНАЯ ФУНКЦИЯ / ДИФФЕРЕНЦИРОВАНИЕ / SYMMETRIC MATRIX / EIGENVALUES / MATRIX FUNCTION / DIFFERENTIATING

Аннотация научной статьи по математике, автор научной работы — Жубр А.В.

Рассматриваются некоторые вопросы, связанные с дифференцированием матричных функций

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON DIFFERENTIATING MATRIX FUNCTIONS

There are several ways to extend a given numerical function to the realm of matrices. The following two questions naturally arize: (1) under what conditions a given numerical function generates differentiable matrix function; (2) how one can express the differential of a matrix function obtained in this way by using matrix operations. We give answers to these questions for a reasonable special case.

Текст научной работы на тему «О дифференцировании матричных функций»

УДК 517.2,512.643

DOI 10.19110/1994-5655-2018-3-13-15

О ДИФФЕРЕНЦИРОВАНИИ МАТРИЧНЫХ ФУНКЦИЙ А.В. ЖУБР

Физико-математический институт ФИЦ Коми НЦ УрО РАН, г. Сыктывкар

avzhubr@gmail.com

Рассматриваются некоторые вопросы, связанные с дифференцированием матричных функций.

Ключевые слова: симметрическая матрица, собственные значения, матричная функция, дифференцирование

A.V. ZHUBR. ON DIFFERENTIATING MATRIX FUNCTIONS

There are several ways to extend a given numerical function to the realm of matrices. The following two questions naturally arize: (1) under what conditions a given numerical function generates differentiable matrix function; (2) how one can express the differential of a matrix function obtained in this way by using matrix operations. We give answers to these questions for a reasonable special case.

Keywords: symmetric matrix, eigenvalues, matrix function, differentiating

Введение

Матричные функции, то есть отображения X ^ У, где X и У - матрицы (обычно квадратные одной размерности, хотя это и не обязательно) - хорошо известный предмет, описанный во множестве учебников (см., например, [1]). Известно несколько более или менее эквивалентных процедур, позволяющих при определенных условиях построить матричную функцию / (X), отвечающую заданной числовой функции / (¿) и являющуюся в определенном смысле ее продолжением (см. [1], главы 5-8). При этом естественным образом возникают вопросы: (1) при каких условиях на числовую функцию / (¿) соответствующая матричная функция /(X) (рассматриваемая как вектор-функция многих переменных) оказывается дифференцируемой, и (2) каким образом можно формально представить дифференциал матричной функции /(X) как результат применения обычных матричных операций к матричным функциям, порожденным числовой функцией /(х) и ее производными. Некоторые частичные результаты этого рода можно найти, например, в докладе [2], в общем же случае удовлетворительных ответов, по-видимому, нет. Настоящая заметка в свою очередь не претендует на какую-либо полноту - мы приводим ряд полезных общих соображений и даем вариант ответа на оба вопроса в некотором достаточно разумном специальном случае.

1. Некоторые обозначения и факты

Действительное линейное пространство квадратных матриц порядка п обозначается через Мп, подпространство симметрических матриц - через М®, подпространство антисимметрических мат-

риц - через Mna. Если

^ ^ X4 : Mn ->• Mn

- оператор транспонирования, то, очевидно, М® и Ма - его собственные подпространства, отвечающие собственным значениям +1 и —1. Размерности этих подпространств даются формулами

ё1ш М® = (п2 + п)/2, ёт = (п2 — п)/2. (1)

Множество ортогональных матриц в М обозначается через Оп, а единица этой группы - через 1 (вместо обычного Е). Как известно, условие С € Оп можно записать как С1С = 1 или же С1 = С-1.

Диагональная матрица с диагональными элементами А1... Хп обозначается diag(A1... Хп) или короче diag(A), где А - строка (А1... Ап).

Стандартное скалярное произведение на пространстве Мп задается формулой

XY ) = £

Xij Yij = tr(X4 У ),

(2)

i,j = 1..n

где ^ - оператор следа. Легко проверяется, что (X, У) =0 для X € М® и У € М£, так что имеется ортогональное разложение Мп = М® ф М^.

Через Яр X С Ж обозначается спектр (множество собственных чисел) матрицы X € М®. Иногда будет удобнее рассматривать Яр X не как множество, а как занумерованный список, упорядоченный по возрастанию, в котором каждое собственное число повторяется столько раз, какова его кратность; мы будем переходить от одного варианта к другому без отдельного предупреждения. Как известно, всякая матрица X € М® может быть представлена в виде

— ^ч ^ ^ ^ (3)

C-1 ■ diag(SpX) ■ C, C G On.

2. Одно семейство ортогональных разложений пространства ЫЩ

Для матриц Х,У € Мп через [X, У] обозначается их коммутатор ХУ-УХ. Нетрудно заметить, что если матрицы X, У обе симметрические или антисимметрические, то [X, У] - антисимметрическая матрица; если же одна из матриц симметрическая, а другая антисимметрическая, то матрица [X, У] -симметрическая. В частности, для каждой матрицы X € М% мы получаем линейный оператор

adx : Mn ^ Mn

(4)

действующий по формуле adX(Y) = [X, Y] и отображающий MS в Ma и, наоборот, Ma в M^. Через RSX и ФХ (соответственно RaX и ФХ) мы далее обозначаем ядро и образ сужения adX на пространство MS (соответственно на Ma).

Пусть матрица X имеет k различных собственных чисел с кратностями n1,n2,... ,nk (так что Hi + ... + nk = n).

Лемма 1. Имеют место равенства:

1) dim RSX = (Е n? + n)/2,

2) dim RaX = (E n? - n)/2,

3) dim ФX = (n2 - E n?)/2.

Доказательство. Все приведенные выше определения инвариантны относительно преобразований подобия (иначе говоря, ортогональных замен координат), поэтому примем X = diag(A). В этом случае [X,Y]ij = (Aj — Aj)Yj, так что интересующие нас ядра (равенства 1 и 2) составлены из симметрических (соответственно антисимметрических) матриц, удовлетворяющих системе уравнений

(Aj — Aj)Yjj = 0, i,j = l,...,n.

Это блочно-диагональные матрицы с блоками порядка Hi,n2,...,nk, соответственно симметрическими или антисимметрическими. Требуемые равенства следуют отсюда очевидным образом.

Что касается равенства 3, то это следствие первого равенства, а также хорошо известного соотношения между размерностями ядра, образа и области определения линейного оператора . □

Суммируя равенства 1 и 3, получаем:

dim RX + dim = dim MS.

(5)

Теорема 1. Любая матрица X € М% определяет разложение в ортогональную сумму

MS = RSX Ф Фя

X, (6)

говоря подробнее, всякая матрица У € М% единственным образом представляется в виде У1 + У2, где У1 и У2 - взаимно ортогональные симметрические матрицы, при этом У1 перестановочна с X, а У2 имеет вид [X, А] с А € М^. Это утверждение остается верным, если наложить на А дополнительное условие А ± Ках, и в этом случае матрица А также оказывается однозначно определенной матрицей У.

Доказательство. Ортогональность подпространств Я'Х и ФХ, т.е. равенство tr(Уt[X, А]) = 0 для любых X,У € М% с XУ = УX и любого А € М^ проверяется непосредственно; теперь ссылка на соотношение (5) доказывает равенство (6), и тем самым существование и единственность матриц У1, У2. Что касается матрицы А, то она определяется равенством [X, А] = У2 с точностью до произвольного слагаемого из Ках; другими словами, указанное равенство задает матрицу А как смежный класс пространства Ма по подпространству ЯХ. Условие же А ± ЯХ выделяет в этом смежном классе фиксированный элемент - матрицу с минимальной «фробе-ниусовой» нормой ||А|| = {А,А)1/2. □

Примечание 1. В дальнейшем разложение матрицы У, о котором идет речь в теореме 1, мы будем записывать в виде

Y = Y + [X, Yv\.

(7)

Примечание 2. В случае, когда спектр Яр X простой, условие А ± ЯХ теоремы 1 пусто (ввиду ЯХ = 0) и, следовательно, матрица Уф однозначно определяется (как и Уг) одним лишь только равенством (7).

3. Функции симметрических матриц

Пусть / (£) - функция, заданная на множестве ^ ... Ап} = Яр^), X € М%. Определим новую матрицу / (X) € М% следующим образом: если X представлена в виде (3), то полагаем

/(X)= С-1 • (А1).../(А„)) • С. (8)

Независимость этого определения от выбора диаго-нализирующей матрицы вытекает из другого варианта определения (как легко убедиться, эквивалентного предыдущему), а именно

f(X) = £ f (Aj)Pj,

(9)

i=i..k

где А1,..., Ак - все различные собственные числа матрицы X, а Р^ - оператор ортогонального проектирования на г-е собственное подпространство (на «более координатном» языке Р.\ - это симметрическая матрица с условием Р2 = Р^, пространство столбцов которой совпадает с г-м собственным подпространством).

Примечание. Изложенное выше - сильно упрощенные (в силу симметричности матрицы X) версии конструкций, описанных в [1, глава 5] и множестве других источников.

Теорема 2. Пусть X - симметрическая матрица с простым спектром, и пусть / (¿) - числовая функция класса Сг, определенная в некоторой окрестности множества Яр X. Тогда найдется окрестность и матрицы X в пространстве М%, в которой матричная функция / : и — М% определена и также принадлежит классу Сг.

Доказательство. В силу предположения о простоте спектра матрицы X, характеристический многочлен Л,(А) = ёе^А — X) не имеет общих корней со своей производной Н'(А), и следовательно, для всех достаточно близких к Л,(А) многочленов их корни являются С ^-функциями (собственно, даже аналитическими функциями) от коэффициентов многочлена (теорема о неявной функции). Тем самым для любых X* € М®, достаточно близких к X, собственные числа остаются простыми и выражаются в виде функций класса Сот элементов матрицы X*. Нетрудно видеть, что то же верно и для собственных

векторов, а значит и для проекторов Pi

, Pn , со-

ответствующих матрице X*. Утверждение теоремы следует теперь очевидным образом из формулы (9), примененной к X*. □

Примечание. Автору не известно, верно ли утверждение теоремы 2 в случае кратных собственных чисел, хотя близкие к этому вопросы активно изучаются и имеют большую литературу ([3] и др.).

Предположим теперь, что X - снова, как и выше, симметрическая матрица с простым спектром, и что /(¿) - числовая непрерывно дифференцируемая функция на некоторой окрестности спектра Яр^). Как в этом случае можно вычислить дифференциал определенной выше матричной функции «в точке X »?

Мы будем использовать обозначение dX для «малого приращения» матрицы X, и d/(X) - для дифференциала соответствующей матричной функции:

/ (X + dX) = / (X) + / (X) + o(dX),

где, как обычно, d/(X) зависит от dX линейно и o(dX)/\\dX|| ^ 0 при || ^ 0. В последующем изложении, для экономии места, мы будем вышеприведенное равенство (и подобные ему) записывать как

/ (X + dX) ъ / (X) + / (X).

Мы, конечно, всегда имеем возможность записать дифференциал d/(X) в виде ^^ Е^dXij, где рго = - некоторые матрицы (той же размерности, что и матрица X), являющиеся обычными частными производными вектор-функции /(X) по переменным Xij. Представление матричного дифференциала в таком виде является, однако, «неестественным» сточки зрения матричной алгебры, так что возникает вопрос о существовании какой-либо более естественной формы. Некоторый вариант ответа на этот вопрос мы получим, воспользовавшись полученным выше разложением (7). Именно, запишем dX в виде

drX + [X, dфX]. (10)

Мы будем называть матрицы drX и dфX соответственно радиальной и угловой частью «приращения» dX (некоторая мотивировка для такой терминологии будет видна из следующего далее доказательства теоремы).

Теорема 3. Для любой симметрической матрицы X с простым спектром и любой С 1-функции / (£) в

окрестности множества Яр^) имеет место соотношение

/ (X) = /'(X) • dr X + [/(X) ^], (11)

где /'(¿) - обычная производная функции / (£).

Доказательство. Утверждение не зависит от выбора системы координат, поэтому мы можем считать, что матрицы X и dX одновременно диагональны: X = diag(A) и dX = diag(dA). Используя выражение (10) для dX, мы напишем

X + dX = X + drX + X • dфX — dфX • X, (12)

что, в свою очередь, представим (пренебрегая «бесконечно малыми высшего порядка») как

X + dX ъ (1 — dфXXX + drX)(1 + dфX) (13)

и, наконец, как

X + dX и C-idiag(A + dA)C,

(14)

где C -ортогональная матрица еЛфХ. В соответствии с определением (8) мы теперь можем написать

f (X + dX) и C-idiag(f (A) + f '(A)dA)C. (15)

Повторяя в обратном направлении тот же путь, по которому мы перешли от равенства (12) к равенству (14), мы и получаем соотношение (11). □

Примечание. В приведенном выше рассуждении имеется один «тонкий момент» - переход от соотношения (14) к соотношению (15), для чего и требуется теорема 2, позволяющая утверждать, что разность между левой и правой частями соотношения (15) имеет такой же (во всяком случае не больший) порядок малости, чем аналогичная разность для соотношения (14).

Автор благодарит А.Н. Тихомирова, привлекшего его внимание к этому кругу вопросов.

Литература

1. Гантмахер Ф.Р. Теория матриц. М.: Физмат-лит, 2004. 560 с.

2. Olsen PA., Rennie S.J., Goel V. Efficient Automatic Differentiation of Matrix Functions. IBM T.J. Watson Research Center, July 25, 2012.

3. Chu K.-W.E. On Multiple Eigenvalues of Matrices Depending on Several Parameters // SIAM J. Numer. Anal. 1990. Vol. 27(5). P.1368-1385.

References

1. Gantmacher F.R. Teoriya matric [The Theory of Matrices]. AMS Chelsea Publishing: Reprinted by Amer. Math. Soc., 2000. 660 p.

2. Olsen P.A., Rennie S.J., Goel V. Efficient Automatic Differentiation of Matrix Functions. IBM T.J. Watson Research Center, July 25, 2012.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Chu K.-W.E. On Multiple Eigenvalues of Matrices Depending on Several Parameters // SIAM J. Numer. Anal. 1990. Vol. 27(5). P.1368-1385.

Статья поступила в редакцию 16.04.2018.

i Надоели баннеры? Вы всегда можете отключить рекламу.