УДК 519.6
M. Гасеми Камалванд1, Х.Д. Икрамов2
МАЛОРАНГОВЫЕ ВОЗМУЩЕНИЯ НОРМАЛЬНЫХ И СОПРЯЖЕННО-НОРМАЛЬНЫХ МАТРИЦ И ИХ КОМПАКТНЫЕ ФОРМЫ ОТНОСИТЕЛЬНО УНИТАРНЫХ ПОДОБИЙ И КОНГРУЭНЦИЙ
Доказаны две теоремы о компактных формах относительно унитарных подобий и конгруэнций, которые служат теоретической основой экономичных итерационных методов для систем линейных уравнений, матрицы которых являются малоранговыми возмущениями нормальных и сопряженно-нормальных матриц.
Ключевые слова: нормальные матрицы, сопряженно-нормальные матрицы, унитарные подобия, унитарные конгруэнции, обобщенный процесс Ланцоша.
1. Как известно, всякая эрмитова (вещественная симметричная) матрица может быть приведена к трехдиагональному виду посредством унитарного (вещественного ортогонального) подобия. На этом теоретическом факте основываются такие популярные способы решения систем линейных уравнений с эрмитовыми матрицами, как метод сопряженных градиентов, алгоритмы MINRES и SYMMLQ. Комплексную симметричную матрицу можно привести к трехдиагональному виду посредством унитарной конгруэнции, и этот факт также используется в практическом решении линейных систем (упомянем, например, об алгоритме CSYM в [1]).
Уточним, что, говоря выше об унитарном приведении к трехдиагональному виду, мы имеем в виду конечную последовательность элементарных унитарных подобий или конгруэнций либо эквивалент такой последовательности (вроде алгоритма Ланцоша или того же алгоритма CSYM), который можно описать как конечный процесс, сохраняющий подобие или конгруэнтность и использующий лишь арифметические операции и извлечения квадратных корней. Для краткости процесс этого типа будем называть конечным ортогональным процессом. Конечность процедуры существенна, так как в противном случае любую эрмитову или симметричную матрицу можно было бы сделать даже диагональной.
Под компактной формой п х n-матрицы А мы понимаем матрицу, унитарно подобную или конгруэнтную А и имеющую большое число нулевых элементов. Помимо уже названной трехдиагональной формы примером может служить форма Хессенберга. В данном сообщении речь идет о конкретном типе компактных форм, а именно о блочно-трехдиагональных матрицах с квадратными диагональными блоками, порядки которых (возможно, различные) ограничены числом к -С п.
Классический факт о возможности унитарной трехдиагонализации эрмитовых матриц есть частный случай следующего результата, установленного в [1].
Теорема 1. Нормальная п х п-матрица А посредством конечного ортогонального процесса может быть приведена к блочно-трехдиагональной форме
( Ни Н12 ТТ _ Н21 Н22 Н23
TJ TJ
-"32 а зз \ ......
где диагональные блоки II\\. I/•_>•_>.... квадратные и их порядки в типичном случае даются последовательными натуральными числами 1,2, 3,... . Если А удовлетворяет уравнению вида
д(А,А*) = 0, (2)
где д(х, у) — многочлен степени т -С п, то порядки диагональных блоков //,, в матрице (1), начиная с г = т, стабилизируются на значении т.
Эквивалентной формулировкой условия (2) является требование, чтобы весь спектр матрицы А принадлежал некоторой плоской алгебраической кривой степени т (см. [2]). Так, спектр эрмитовой матрицы лежит на вещественной оси, т. е. на кривой степени 1; поэтому т = 1.
хФакультет ВМиК МГУ, асп., e-mail: m_ghasemi98Qyahoo.com.
2Факультет ВМиК МГУ, д.ф.-м.н., проф., e-mail: ikramovQcs.msu.su.
(1)
Утверждение, аналогичное теореме 1 и касающееся приведения к блочно-трехдиагональной форме посредством унитарных конгруэнций, доказано в [3]. Это утверждение относится к сопряженно-нормальным матрицам, задаваемым равенством
АА* ТРЛ
и играющим в теории унитарных конгруэнций такую же роль, какую нормальные матрицы выполняют относительно унитарных подобий.
Приведение к блочно-трехдиагональной форме возможно и для некоторых матриц, не являющихся нормальными или сопряженно-нормальными. Представим п х п-матрицу А в виде
Л II + К. (3)
гдеН = Н*,к = ^К*.
Теорема 2. Пусть в представлении (3) косоэрмитова матрица К имеет ранг к ^ 1. Тогда посредством конечного ортогонального процесса А может быть приведена к блочно-трехдиаго-нальной форме (1), в которой порядки всех диагональных блоков //,, не превосходят числа к + 1.
Теорема 2 есть перефразировка утверждения, доказанного в [4]. Заметим, что матрица А в этой теореме не будет нормальной, если матрицы II и К но коммутируют.
Приведение, о котором говорится в теореме 2, осуществляется посредством унитарных подобий. Однако аналогичный факт имеет место и для унитарных конгруэнций, только вместо (косоэрмитовых) возмущений эрмитовых матриц нужно рассматривать (кососимметричные) возмущения симметричных матриц.
Теорема 3. Пусть п х п-матрица А представлена в виде
А = Б + К, (4)
где Б = БТ, К = —Кт. Если кососимметричная матрица К имеет ранг к ^ 1, то посредством конечного ортогонального процесса А может быть приведена к блочно-трехдиагональной форме (1), в которой порядки всех диагональных блоков //,, не превосходят числа 2к + 1.
Цель настоящего сообщения — обобщить теоремы 2 и 3 так, чтобы можно было рассматривать малоранговые возмущения не только эрмитовых или симметричных матриц, но и всякой нормальной (соответственно сопряженно-нормальной) матрицы, допускающей унитарное приведение к блочно-трехдиагональной форме. Кроме того, вместо косоэрмитовых (соответственно кососимметричных) возмущений допускаются возмущения общего вида.
Смысл полученных нами результатов в том, что возмущенные матрицы по-прежнему могут быть приведены к блочно-трехдиагональной форме, хотя оценка на размер диагональных блоков ухудшается пропорционально рангу возмущения. Эти результаты формулируются в п. 4. В п. 2 мы напоминаем конструкцию обобщенного процесса Ланцоша, лежащего в основе доказательства теорем 2 и 3. В п. 3 обсуждается связь между задачами приведения к компактным формам посредством соответственно унитарных подобий и унитарных конгруэнций. Эта связь, равно как и обобщенный процесс Ланцоша, используется в доказательствах теорем п. 4.
2. Одним из методов приведения эрмитовой матрицы А к трехдиагональному виду является алгоритм Ланцоша. Суть этого алгоритма состоит в ортонормализации степенной последовательности
т Ат А^А^
•<<, 1 • /<, Jí. ,, Jí. ,, . . . ,
где х — заданный или произвольно выбранный начальный вектор. Если с матрицей А связать линейный оператор Л, действующий в Сп, то матрица этого оператора относительно построенного в алгоритме ортогонального базиса и будет искомой трехдиагональной формой.
Если А — нормальная, но неэрмитова матрица, то следует рассматривать обобщенную степенную последовательность
Ф Аф 1 *"* г А^гг А 1 *"* г 1 •"*-"> г А^ Ф
x, , -г1. x, -г1. x, x, -г1. x, -г1. x, . . . . v /
Удобно рассматривать последовательность (5) как состоящую из сегментов длины соответственно 1, 2, 3,4,... . Сегмент с номером к, называемый к-м слоем, можно описать как совокупность векторов вида и = А*)х, где пробегает множество одночленов степени к от (коммутирующих)
переменных в и 1 Символ И7^«, ¿) обозначает пустое слово, так что Шо(А, А*)х есть попросту вектор х.
Суть обобщенного процесса Ланцоша состоит в ортонормализации последовательности (5). С этим процессом связаны такие обозначения и терминология: подпространство
£m(A,®) = span{W(A,A*)®: degW^m} (6)
называется m-м обобщенным подпространством Крылова. Его размерность обозначается через £т. Число шт = 1т — £m-i (тп ^ 1) называется шириной m-го слоя; мы полагаем шо = 1.
Разумеется, последовательность (5) не строится в явном виде (как не строится в явном виде обычная степенная последовательность в классическом алгоритме Ланцоша). Неявное построение этой последовательности, сочетаемое с ее ортогонализацией, происходит так: пусть уже найден ортонормиро-ванный базис çi, q2, ■ ■ ■, qem подпространства Cm(A, ж), причем последние его векторы qgm_1+i, ■ ■ ■, qgm получены за счет векторов из m-го слоя последовательности (5). Тогда (в том или ином порядке) строятся векторы Aqgm_1+1,..., Aqs t. A*qgm_1+1,..., A*qgm, подвергаемые ортогонализации к текущей ортонормальной системе.
Из этого описания легко выводятся следующие свойства обобщенных крыловских подпространств (см. [2, раздел 2]).
1. Если х G £то, то
Ах G £то-|_1, А х G £TO-|-i.
2. Если çi G Cm \ С m —li ТО
Aqe X Cm-2, A*qe±£m-2-
Как и выше, свяжем с А линейный оператор А, действующий в n-мерном пространстве. Предположим, что в результате применения обобщенного процесса Ланцоша к А и начальному вектору х получен ортонормированный базис qi,... ,qn. Тогда из свойств 1 и 2 следует, что матрица оператора А в этом базисе имеет блочно-трехдиагональную форму (1), причем порядки щ диагональных блоков Hц определяются числами ш¿:
Щ = Шг-1, ¿ = 1,2,... .
В частности, п\ всегда равно единице.
Идея обобщенного процесса Ланцоша применима и к анормальной матрице А. Существенное отличие от нормального случая состоит в том, что А и А* более не коммутируют. Поэтому к-й слой обобщенной степенной последовательности следует теперь определить как совокупность векторов вида и = Wk(A, А*)х, где Wk(s, t) — произвольный многочлен степени к от некоммутирующих переменных s и t. В результате вместо оценки
Шг ^ г + 1, г = 0,1, 2,..., справедливой для любой нормальной матрицы, имеет место лишь неравенство
Шг^ 2\ i = 0,1,2,... .
Если это неравенство реалистически отображает ситуацию с конкретной матрицей А, то применение обобщенного процесса Ланцоша к такой матрице едва ли оправданно. Однако для некоторых классов анормальных матриц числа шj независимо от индекса г можно ограничить небольшой константой. Один из таких классов и описывается теоремой 2.
3. Блочно-трехдиагональная матрица (1), построенная в предыдущем разделе с помощью обобщенного процесса Ланцоша, унитарно подобна исходной матрице А. В настоящем разделе мы обсудим вопрос о приведении к компактным формам посредством унитарных конгруэнций.
Начнем со случая сопряженно-нормальной матрицы А. Сопоставим ей матрицу удвоенного порядка
(Черта над символом матрицы или вектора обозначает поэлементное сопряжение.) Легко проверить, что матрица (7) нормальна в обычном смысле.
Фиксируем ненулевой вектор х С Сп, которому сопоставим вектор удвоенной размерности
Рассмотрим обобщенную степенную последовательность, порождаемую матрицей А и вектором (8):
«. MÄ)- ^-css). ••••
О)
Символами Al и Ar обозначены матрицы АА и АА. Верхние половины векторов (9) образуют последовательность
х ^ А.х ^ А. х^ АА х; А. А. х; ... . (^10)
Разобьем эту последовательность на слои, считая к-м слоем совокупность векторов, отвечающих />'-му слою последовательности (9). Аналогично, m-му подпространству Cm(A,v) сопоставим подпространство £т(А,х), образованное верхними половинами векторов z G Cm(A,v). Размерность Ст(А,х) обозначим через £т, а число шт = 1т — £m-i {тп ^ 1) назовем шириной m-го слоя в (10). Очевидно, что
Шт < Шт, т = 1,2, ... , (И)
где шт есть ширина m-го слоя в (9).
Теперь мы проведем своеобразный процесс ортогонализации последовательности (10). По аналогии с обобщенным алгоритмом Ланцоша этот процесс можно описать так: пусть уже найден ортонормиро-ванный базис gi, q2, ■ ■ ■ , подпространства Ст(А, ж), причем последние его векторы 1+1, • • •, получены за счет векторов из m-го слоя в (10). Тогда (в том или ином порядке) строятся векторы А<1£ _ _!_]_, • • •, Aq$ , ATq| _ +1, • • •, АTq^ . Каждый из них ортогонализуется к текущей ортонормаль-ной системе, составленной из сопряженных векторов qi,q2,... ■ Если результатом полной ортогонализации является ненулевой вектор, то он нормируется и после повторного сопряжения превращается в очередной вектор q:j.
Можно показать, что подпространства Ст обладают свойствами, аналогичными свойствам обобщенных крыловских подпространств (см. свойства 1 и 2 в п. 2).
1. Если х G £то, то
Ах G ¿т-1-1; АтX G ¿rn-1-1-
2. Если qi € Ст \ С ТО—1; ТО
Aqe _L Lm-2, А q/ _L £то-2-Символ М по отношению к подпространству М означает подпространство
М = {х G С| х G Л4}.
Предположим, что применение описанного выше процесса к сопряженно-нормальной матрице А и начальному вектору х порождает ортонормированный базис qi,... ,qn в пространстве Сп. Определим унитарную матрицу
Q = (qi 42 • • • qn)-
Тогда из свойств 1 и 2 данного раздела вытекает матричное равенство
AQ = QU. (12)
где И — матрица вида (1), порядки диагональных блоков которой определяются числами u?j. Переписывая (12) в виде
QTAQ = Я,
заключаем, что матрицы Л и // унитарно конгруэнтны.
Если отказаться от сопряженной нормальности матрицы А, то соответствующая ей матрица (7) не будет нормальной. Однако все рассмотренные выше построения и определения сохраняют смысл с тем отличием, что ширина г-го слоя в последовательности (9) в общем случае увеличивается до 2'. Остается в силе и соотношение (11) между шириной слоя в (9) и шириной соответствующего слоя в последовательности (10).
4. Вначале рассмотрим вопрос о малоранговых возмущениях нормальных матриц. Теорема 4. Пусть нормальная п х п-матрица N такова, что обобщенный процесс Ланцоша при любом выборе начального вектора приводит N к блочно-трехдиагональной форме, в которой
порядки диагональных блоков не превосходят числа шо. Тогда для любой матрицы Я ранга к -С п матрица
А = N + Н (13)
может быть приведена к блочно-трехдиагональной форме, в которой порядки диагональных блоков не превосходят числа ш = (2к + 1)шо-
Доказательство. Представим матрицу возмущения Д в виде суммы к диад:
В = Х1у1 + ... + хку*к, хъ уъ ..., хк,ук € Са.
Выбрав произвольный ненулевой вектор V € Сп, построим последовательность подпространств Л4к согласно следующим правилам:
Ма = 8рап{г>}, М\ = зрап{Му, х\,..., хк,у\, • • •, ук},
Мк+1 = зрап{Мк,ММк,М*Мк}, к = 1,2,... . (14)
Правую часть равенства (14) следует понимать как линейную оболочку векторов, входящих в указанные подпространства.
Покажем, что для всех к выполняются включения
АМк С Мк+1 (15)
и
А*Мк с Мк+1- (16)
При к = 0 имеем
Ау = Ыу + а,\Х\ + ... + акхк € ярап{Nv, х\,..., хк}, А*у = Ж*« + /Згу! + ... + /Зкук € зрап{Ж*«, уъ ..., ук},
где
аз = = х*1'1!-- = 1, 2,...,
Таким образом, включения (15) и (16) выполнены при к = 0. Если к > 0 ъ г £ Мк, то
Аг = Ых + 71Ж1 + ... + укхк € 8рап{ЖЛ4/;, х\,..., хк}, А* г = + 5гу1 + ... + 5кук € яра п{Ы*Мк, ..., ук},
где
Т? = У] г-> = 3 = 1; 2,..., к.
Поскольку Х\, у\, ...,хк,ук£ М1 С (А; > 1), то
АЛй С вра^Л^ДТА!*} С Мк+1
и
С зраг^М^ЛГЛ!*} с Мк+1.
Применим теперь к цепочке подпространств
М0СМ1СМ2С... (17)
процесс ортонормализации, аналогичный обобщенному процессу Ланцоша. Предположим, что этот процесс приводит к построению ортонормированного базиса д1,... ,дп в пространстве Сп. Разобьем этот базис на сегменты (слои), отвечающие фактор-подпространствам
1Сз=Мз/Мз-1, ¿ = 1,2,.... (18)
Размерности подпространств (18) играют ту же роль, что и числа ш* в обобщенном процессе Ланцоша: они определяют размеры блочных строк и столбцов в матрице //. которая соответствует рассматриваемому линейному оператору А в базисе ... ,дп. Теперь включение (15) означает, что в каждом блочном столбце Н отличен от нуля может быть лишь один поддиагональный блок, а именно тот, что соседствует с диагональным блоком. Таким же образом из включения (16) следует, что в каждой
блочной строке Н отличен от нуля может быть единственный наддиагональный блок, который соседствует с диагональным. Иначе говоря, матрица Н блочно-трехдиагональная, и нам остается только оценить порядки ее диагональных блоков.
Согласно формуле (14), подпространство К.-^ определяется ^'-м слоем обобщенной степенной последовательности, порождаемой матрицей N и вектором V, и — 1)-ми слоями последовательностей, порождаемых N и векторами х,\,..., Хк, у\,..., ук- По условию теоремы, ширина любого слоя в каждой из этих последовательностей не превосходит числа шо. Поэтому размерность любого подпространства К,.] ограничена числом ш = (2к + 1)шо-
Если в (17) при некотором к наступает стабилизация, т.е.
Мк = Мк+1 = Мк+2 =
и при этом ортонормированный базис в Сп еще не получен, то Мк есть нетривиальное общее инвариантное подпространство матриц А и А*. В этом случае нужно поступить так же, как в обычном алгоритме Ланцоша, а именно выбрать ненулевой вектор, ортогональный к Мк, и проделать с ним те же действия, что были выше выполнены для V. В результате текущая ортонормальная система будет расширена новыми векторами. Для построения полного базиса в Сп к этой процедуре, возможно, придется прибегнуть несколько раз. Когда базис, наконец, будет получен, оператор А будет в нем иметь блочно-диагональную матрицу Н. По отношению к каждому диагональному блоку приведенное выше рассуждение сохраняет силу, что доказывает теорему и в этом случае.
Займемся теперь малоранговыми возмущениями сопряженно-нормальных матриц. Теорема 5. Пусть сопряженно-нормальная п х п-матрица N такова, что при любом выборе начального вектора процесс, описанный в разделе 3, приводит N к блочно-трехдиагональной форме, в которой порядки диагональных блоков не превосходят числа щ. Тогда для любой матрицы Я ранга к -С п матрица
А = Ы + К (19)
может быть приведена к блочно-трехдиагональной форме, в которой порядки диагональных блоков не превосходят числа ш = 2(4к + 1)шо-
Доказательство. Перейдем от матрицы А к соответствующей матрице А. Подставляя в (7) выражение (19), получим
2 /0 /0 й\ - А ,.ПЧ
Матрица N нормальна, а матрица Я, очевидно, имеет ранг 2к.
Предположим, что выбор начального вектора д\ для процесса из раздела 3 приводит к построению ортонормированного базиса пространства Сп, в котором N имеет блочно-трехдиагональную форму. По предположению, порядки диагональных блоков в этой форме не превосходят числа шо ■
Применим к матрице N и начальному вектору
„=(£) ,21>
обобщенный процесс Ланцоша. В результате будут получены п ортонормированных векторов пространства С1'". Будучи разбитыми на слои, они удовлетворяют соотношениям
Шг ^ Шг ^ 2Шг ^ 2шо, ¿ = 1,2,... . (22)
Здесь Шг — порядки диагональных блоков в блочно-трехдиагональной форме матрицы /V. а о;,- — ширины слоев в обобщенной степенной последовательности, порожденной парой (Ж, г>).
Исходя из одномерного пространства Ма = ярап!«}, построим для матрицы А такую же последовательность подпространств Мк, как в доказательстве теоремы 4. Учитывая, что гапкД = 2к, и используя неравенства (22), заключаем, что размерности фактор-подпространств (18) ограничены числом
ш = 2(4к + 1)щ. (23)
При этом размерность максимального из подпространств Мк не меньше, чем п (поскольку эти подпространства включают в себя обобщенные подпространства Крылова для пары (Й,у)).
Спроектируем на Сп цепочку подпространств
Ма С М\ С М2 С ... . Иначе говоря, в каждом из базисных векторов этой цепочки, имеющем вид
перейдем к его верхней половине д. Полученная система векторов qi,...,qn пространства Сп естественным образом разбивается на слои. Поскольку при проектировании ширина любого слоя не может возрасти, число (23) остается верхней оценкой ширины слоя в системе gi,..., qn.
Предположим, что векторы qi,...,qn линейно независимы. Тогда без ограничения общности систему qi,..., qn можно считать ортонормальной. Из конструкции подпространств М.к следует, что в базисе qi,... ,qn матрица А имеет блочно-трехдиагональную форму, в которой порядки диагональных блоков не превосходят числа ш. В этом случае теорема доказана.
Остается рассмотреть ситуацию, когда проектирование на Сп приводит к уменьшению размерности, т. е. вместо базисной будет получена ортонормальная система
gb...,gTO, т<п. (24)
Линейная оболочка этой системы является общим псевдоинвариантным подпространством матриц А и АТ.
Выберем (нормированный) вектор gi, ортогональный к каждому из векторов (24), и проведем для него те же построения, что выше были применены к вектору q\. В типичном случае это приведет к достраиванию системы (24) до ортонормированного базиса
qi,---,qm,qi,---,qi, l + m = n,
пространства Сп. В этом базисе А имеет блочно-трехдиагональную форму с прежней оценкой ш для порядков диагональных блоков. Отличие от предыдущего случая состоит в том, что теперь мы имеем прямую сумму двух блочно-трехдиагональных подматриц.
Может случиться, что и система gi,..., gTO, gi,..., qi все еще не является базисной. Тогда выбирается ортогональный к ней вектор gi и описанные выше построения проводятся еще раз. Поступая таким образом, мы в конечном счете получим ортонормированный базис пространства Сп, в котором А имеет желаемую форму.
Замечание. Для практического решения систем линейных уравнений результаты теорем 4 и 5 представляют интерес лишь при очень малых числах шо и к.
СПИСОК ЛИТЕРАТУРЫ
1. Bunse-Gerstner A., Stóver R. On a conjugate gradient-type method for solving complex symmetric linear systems // Linear Algebra Appl. 1999. 287. P. 105-123.
2. Eisner L., Ikramov Kh.D. On a condensed form for normal matrices under finite sequences of elementary unitary similarities // Linear Algebra Appl. 1997. 254. P. 79-98.
3. Икрам о в X. Д. О приведении комплексных матриц к компактным формам посредством унитарных кон-груэнций // Матем. заметки. 2007. 82. № 4. С. 550-559.
4. Дана М., Икрамов Х.Д. Еще раз о решении систем линейных уравнений, матрицы которых являются малоранговыми возмущениями эрмитовых матриц // Зап. научн. семин. ПОМИ. 2005. 334. С. 68-77.
Поступила в редакцию 01.09.08