УДК 519.7+512
В. В. Лысиков1
О БИЛИНЕЙНЫХ АЛГОРИТМАХ НАД ПОЛЯМИ РАЗЛИЧНЫХ ХАРАКТЕРИСТИК*
В работе рассматривается связь между билинейными алгоритмами над полями различных характеристик и над различными кольцами.
Ключевые слова: алгебраическая теория сложности, билинейные алгоритмы.
1. Введение. Задача сложности умножения матриц является одной из важнейших нерешенных задач теории сложности вычислений. Различные методы, разработанные при решении этой задачи, составляют большой раздел теории сложности, изучающий кроме умножения матриц сложность других билинейных отображений.
Основной моделью вычислений в теории сложности билинейных отображений является модель билинейных алгоритмов, в которой наиболее очевидным образом проявляется связь вычислительной сложности билинейных отображений с их алгебраическими свойствами, а именно с понятием тензорного ранга, которое применяется не только в теории сложности, но и в других разделах математики.
Модель билинейных алгоритмов, как и большинство алгебраических моделей вычислений, позволяет рассматривать сложность вычислений над различными полями констант, например, для вычисления одной и той же функции могут использоваться операции как только с рациональными числами,
1 Факультет ВМК МГУ, асп., e-mail: lysikov-vvQyandex.ru
* Работа выполнена при финансовой поддержке РФФИ (проект № 12-01-91331-ННИО_а).
так и с комплексными. Кроме того, можно рассматривать вычисление целочисленных функций по модулю некоторого целого числа.
2. Основные понятия. Модель вычислений. Приведем определения основных понятий, связанных с билинейными алгоритмами. Под коммутативным кольцом везде понимается коммутативное кольцо с единицей.
Определение 1. Пусть Б — коммутативное кольцо, Г. V. И' — модули над Б. Отображение (p-.ll х V Ш называется 5-билинейным, если оно линейно по каждому аргументу, т.е.
(р(счх1 + а2х2,у) = сч(р(х1,у) + а2ср(х2,у), (р(х, а\у\ + а2у2) = ^(р(х, щ) + а2ср(х, у2)
для произвольных а\,а2 € в, х,х\,х2 € и, у,у\,у2 € V.
Мы будем рассматривать сложность билинейных отображений конечно порожденных свободных модулей над коммутативным кольцом. Свободным модулем размерности а над кольцом Б называется множество Ба с операцией умножения на скаляр из Б:
$ * ■ ■ ■ ; •%(%) — . . . , X{ £ Б.
На конечно порожденные свободные модули переносятся многие элементарные понятия теории конечномерных линейных пространств, в частности понятия базиса, линейного функционала и сопряженного пространства. Мы будем рассматривать только конечно порожденные свободные модули над коммутативными кольцами и билинейные отображения таких модулей (в дальнейшем термины "свободный модуль" и "билинейное отображение" будут обозначать только такие модули и отображения).
Взяв базисы {жг}, {у^}, в свободных модулях II = Ба, V = Бь и Ш = Бс соответственно, можно записать произвольное билинейное отображение ср: II х V ^ Ш в координатной форме. Если
с
<Р{Хг->Уз) = ^кзкХк, к= 1
то
(а Ь \ а Ь с
ЩХг,
г=1 з = 1 / г=1 з = 1 к= 1
Таким образом, билинейное отображение ср однозначно задается коэффициентами — компонентами тензора, соответствующего этому билинейному отображению.
Для изучения сложности билинейных отображений удобно ограничиться алгоритмами специального вида (билинейными): вначале вычисляются промежуточные результаты, линейно зависящие от координат входов, затем они попарно перемножаются, и в конце концов координаты результата вычисляются как линейные функции от произведений. Сложностью такого алгоритма считается число произведений. Известно [3], что при рассмотрении билинейных отображений над бесконечным полем оптимальное число умножений отличается от билинейной сложности не более, чем в 2 раза, а при рассмотрении асимптотической сложности умножения матриц общее число операций имеет тот же порядок, что и число умножений с точностью до субполиномиального множителя. Таким образом, сложность билинейных алгоритмов дает хорошее приближение общей сложности и позволяет использовать алгебраические методы для ее изучения. Дадим формальное определение билинейного алгоритма.
Определение 2. Пусть Б — коммутативное кольцо, Г. V. И' — свободные модули над Б ъ ср: I' - V г И' — билинейное отображение. Билинейным алгоритмом сложности г для (р называется набор троек
(/1,51,^1; /2,52,^2! • • • ;/г,дг,™г), где € I/*, д(1 € V*, т(1 € Ш, удовлетворяющий условию
г
¥>(®> у) = X Ь(х)д<1(у)™<1 С1)
9=1
для любых х € и, у € V.
Минимальное значение г среди всевозможных билинейных алгоритмов называется билинейной сложностью, или рангом отображения (р, и обозначается К((р).
Обычно билинейные алгоритмы и их сложность рассматриваются в случае, когда Б — поле, 8,11, V иШ — конечномерные векторные пространства над этим полем, но наиболее важные билинейные отображения — умножение матриц и полиномов — можно определить над произвольным коммутативным кольцом. Нам потребуется расширенное определение для того, чтобы связать алгоритмы над полями различных характеристик. Билинейные алгоритмы над коммутативными кольцами рассматривались в [2] и [3].
Коммутативной алгеброй над коммутативным кольцом Б называется коммутативное кольцо А вместе с гомоморфизмом ¿: Б ^ А, который позволяет определить умножение скаляров из Б на элементы А: яа = ¿(«)а. В частности, любое коммутативное кольцо можно рассматривать как Ж-алгебру, определив ¿(п) = п-1. Иногда, в случае, если это ясно из контекста, мы будем отождествлять элементы Б с соответствующими им элементами А.
Если А — коммутативная алгебра над Б, то для любого 5-билинейного отображения (р можно рассмотреть А-билинейное отображение (рА, задаваемое тем же тензором. Точнее, если у: БахБь —> Бс задается тензором в стандартном базисе, то <рА: Аа х Аь ^ Ас в стандартном базисе задается тензором с компонентами ¿(¿у/г)- Будем говорить, что (рА получено из (р расширением кольца скаляров с Б до А. Можно описать эту конструкцию и в бескоординатном представлении (см. [4]).
ОпределениеЗ. Пусть Б — коммутативное кольцо, А — коммутативная алгебра над Б, и (р — 5-билинейное отображение. Любой билинейный алгоритм для (рА будем называть билинейным алгоритмом над А для (р. Ранг отображения (рА будем называть рангом ср над А и обозначать (<£>).
Если (р — Ж-билинейное отображение, то можно рассматривать его ранг над любым коммутативным кольцом. Например, рассмотрение над Ъ/кЪ соответствует вычислениям по модулю к, а алгоритмы над расширениями Ж позволяют уменьшить ранг за счет использования элементов этого расширения помимо целых чисел.
Интересным является вопрос о связи ранга одного и того же Ж-билинейного отображения над различными кольцами. Понятно, что любой алгоритм над некоторым кольцом Б может быть интерпретирован так же и как алгоритм над любой 5-алгеброй, т. е. ранг при переходе от кольца к алгебре над ним может только уменьшиться. Этот факт впервые был отмечен в [2], где также доказано, что в случае, когда Б — алгебраически замкнутое поле, такое уменьшение невозможно.
Лемма 1 [2]. Пусть Б — коммутативное кольцо, А — коммутативная алгебра над Б и ср — билинейное отображение над Б. Тогда
ЯвЫ > Яа(<Р).
Если .Р — алгебраически замкнутое поле и А — ненулевая коммутативная алгебра над то
Д^(^) = Яа(^Р)-
Таким образом, для Ж-билинейного отображения (р максимальный ранг имеют алгоритмы над Ж, а минимальный (в смысле того, что он не уменьшается при добавлении дополнительных элементов в кольцо скаляров) — над алгебраически замкнутыми полями.
В [2] также показано, что Дзэд^) = -йз^), т.е. добавление в кольцо скаляров трансцендентных элементов не позволяет уменьшить ранг. Вопрос об уменьшении ранга также рассматривался в [3], где показано, что отношение рангов одного и того же отображения над полем Р и над его конечным расширением К не превышает некоторой константы, зависящей только от Р и К, причем при выполнении гипотезы Штрассена о прямой сумме эта константа не превышает 4.
3. Связь рангов над полями различных характеристик. В данной работе мы докажем теорему, которая связывает ранги билинейного отображения над полями различных характеристик. Символом Ё будем обозначать алгебраическое замыкание поля Р.
Теорема 1. Для любого Ж-билинейного отображения (р справедливо соотношение
Щ{<р) = Д*р(¥>)
для всех простых р, кроме, быть может, конечного числа.
Доказательство. Для доказательства можно использовать свойства теории алгебраически замкнутых полей, доказанные Робинсоном.
Для этого заметим, что для Ж-билинейного отображения (р утверждение Щ<р) ^ г можно записать в виде замкнутой формулы логики предикатов в сигнатуре теории колец (=,+,-,0,1). Пусть (р задается в некоторой тройке базисов тензором с целочисленными компонентами Определение (1) билинейного алгоритма в координатном виде запишется следующим образом:
г
* - н 9з > к2)
9=1
где /!>9\ — координаты дч и гов в соответствующих базисах. Таким образом, существо-
вание алгоритма ранга г эквивалентно истинности следующей формулы:
^ <г=1 '
Так как целые, то их можно записать в виде суммы единиц и при необходимости перенести в правую часть, чтобы избавиться от знака "минус". Полученная формула является замкнутой формулой теории колец, и утверждение Яв^) ^ г верно тогда и только тогда, когда эта формула истинна в кольце Б. Как следствие в виде формулы теории колец можно записать и утверждение Дя^) = г.
Далее мы используем полноту теорий АСРс алгебраически замкнутых полей характеристики с. В дополнение к обычным аксиомам поля в АСРс используется схема аксиом алгебраической замкнутости для всех натуральных п ^ 1
Уао • •. Уап_13ж( х"' + ^ щхг = 0 ^ г=о '
а также аксиомы, определяющие характеристику поля: в случае простой характеристики р аксиомой
теории АСЕр будет формула = (0 = 1 + . „ + 1), а теория АСР0 содержит схему аксиом
р
для всех простых р.
А. Робинсоном в [5] была доказана полнота теорий АСРс. Утверждение 1. Для любой характеристики с теория АСРс полна.
Следствие 1. Если Р — алгебраически замкнутое поле характеристики с, то любая формула Ф общезначима в Р тогда и только тогда, когда она выводима в АСРс.
Следствие 2. Формула Ф выводима в теории АСРо тогда и только тогда, когда она выводима в АСРр для всех простых р, кроме, может быть, конечного числа.
Применяя эти следствия к формуле, выражающей утверждение Др(<£>) = г, получаем утверждение теоремы 1.
4. Алгебраические конструкции. Использование метаматематических утверждений для доказательства леммы 2 не дает возможности установить связь непосредственно между билинейными алгоритмами для (р над полями различной характеристики. Для того чтобы сделать эту связь более явной, мы приведем чисто алгебраические конструкции, связывающие алгоритмы над различными полями.
Основным инструментом является тензорное произведение колец, которое позволяет построить кольцо, являющееся алгеброй над некоторыми двумя заданными кольцами.
Определение 4. Пусть Б и Т — коммутативные кольца. Тензорным произведением Б / называется кольцо, состоящее из формальных сумм вида Х^г^г ® ^г-, ГДе € Ж, .$1 € Б, ^ € Т,
г
удовлетворяющих соотношениям
(«1 + «г) ® * = «1 ® * + «2 ® 5® (¿1 + *2) = ¿1 + ¿2-Умножение в кольце Б задается соотношением
(«1 ® ¿1)02 ® ¿2) = «1^2 ® ¿1*2,
которое распространяется на формальные суммы по свойству дистрибутивности.
Тензорное произведение S можно рассматривать как алгебру над S и над Т с помощью
вложений s s<g>l и I нч- l<g>í соответственно. Это позволяет использовать лемму 1 для доказательства следующего утверждения.
Лемма 2. Пусть S — коммутативное кольцо, F — алгебраически замкнутое поле, причем S ®z F Ф 0. Тогда для любого Ъ-билинейного отображения (р справедливо неравенство Rs(<p) ^ ^ Rf(^p).
Доказательство. По лемме 1 Rsiv) ^ Rs^fÍ^) = RfÍ'p)-
Проблемным является случай, когда тензорное произведение оказывается нулевым. Так, например, тензорное произведение полей различных характеристик всегда является нулевым кольцом. Приведем некоторые условия, при которых эта ситуация невозможна. Эти условия являются частными случаями утверждений из [4, гл. III], где они формулируются для тензорного произведения модулей над кольцами.
Лемма 3. Пусть S иТ — ненулевые коммутативные кольца и в Т существует Ъ-базис {ж*}, т. е. для любого элемента t €. Т существует единственное представление t = ^гхгU € Z. Тогда тензорное произведение S не является нулевым кольцом.
Лемма 4. Пусть S и Т — коммутативные кол,ьца и 1 является свободным элементом в S и в Т, т. е. для любого целого числа п неверно, что п- 1 = 0. Тогда тензорное произведение S Т не является нулевым кольцом.
Перейдем теперь к конструкциям, использующим тензорное произведение для связи рангов билинейных отображений над полями различных характеристик. Первая конструкция позволяет преобразовывать алгоритмы над полями характеристики 0 в алгоритмы над полями простой характеристики.
Лемма 5. Пусть Z — коммутативное кольцо без делителей нуля, Q — его поле частных и (р — Z-билинейное отображение. Тогда верно равенство
Rq(<p) = min Rz(d<p).
<iez\{ о}
Доказательство. Пусть (fq,gq,wq) — билинейный алгоритм над Q для (р. Определим df как произведение знаменателей всех коэффициентов всех функционалов fq в некотором базисе. Аналогично определим dg и dw. Тогда последовательность троек (dffq, dggq, dwwq) образует билинейный алгоритм над Z для билинейного отображения dfdgdw<p. Обратно, если (fq,gq,wq) — билинейный алгоритм над Z для dip, то (fq,gq, 2wg) — алгоритм над Q для (р.
Рассмотрим оптимальный алгоритм над Q для Z-билинейного отображения (р. Так как в алгоритме участвует только конечное число коэффициентов f¡9\ w¡.9\ то подполе F, порожденное этими коэффициентами, будет конечным алгебраическим расширением Q, для которого Rf(<p) = Rq(<p)-Применяя лемму 5 для кольца Ор целых элементов F, получим, что Rp(ip) = RoF(d(p) для некоторого d. Из доказательства леммы видно, что можно взять d € Z, так как любое алгебраическое число представляется в виде где п — целое алгебраическое и т € Z.
Кольцо О Fi рассматриваемое как модуль над Z, является свободным модулем (его базис состоит из степеней целого алгебраического числа, кратного порождающему элементу расширения F), поэтому тензорное произведение Ор ®z не является нулевым. По лемме 2 получаем RoF(díp) ^ Rf (d(p) = = Rf (ср), если d ф 0. Равенство d = 0 в Fp выполняется только для конечного числа Fp, поэтому неравенство Rq(^>) ^ R§ (<р) выполнено для всех р, кроме конечного числа.
Вторая конструкция позволяет по последовательности алгоритмов над полями различной простой характеристики построить алгоритм над полем характеристики 0.
Лемма 6. Пусть S — коммутативное кольцо, ср — S-билинейное отображение, {Ар\ р € /} — семейство коммутативных алгебр над S и А = Ар. Тогда справедливо равенство
peí
Ra(<p) = шах Ra р(<р). peí
Доказательство. Пусть (fp, ,q-, 9p,q-, wp,g) оптимальные билинейные алгоритмы над Ар для (р. Добавив при необходимости нулевые тройки, можно считать что ранг каждого из этих алгоритмов
равен г = max i? 4Мр). Рассмотрим эти алгоритмы в координатном виде; пусть коэффициенты функ-р£1
ционалов fPíg, дрл и элементов wPjQ в стандартных базисах равны f^9-, g^j и соответственно.
Рассмотрим билинейный алгоритм над А, коэффициенты f!>9\ д^9\ w^ элементов которого задаются
последовательностями (fp9-\ р G I), (gp9j\p € I), (w^pl\p € I) соответственно. Так как соотношение (2) выполняется покоординатно, то полученный билинейный алгоритм (fq,gq,wq) будет алгоритмом для (р над прямым произведением а. Таким образом, Ra(<p) ^ г. И наоборот, взяв р-ю координату из каждого коэффициента каждого элемента билинейного алгоритма над А, мы получим билинейный алгоритм над соответствующей компонентой ар.
Для перехода от билинейных алгоритмов для Z-билинейного отображения (р над полями простой характеристики к алгоритмам над полем характеристики 0 рассмотрим последовательность полей Fp. Пусть г — минимально возможное число, встречающееся в последовательности Rf ((р) бесконечное число раз. Рассмотрим бесконечное прямое произведение S = Fp. Любой кратный 1 элемент
Р-Щ-р(ч>)=г
этого кольца не равен 0, так как он не равен 0 в компонентах произведения, соответствующих достаточно большим р. Как следствие S Q не является нулевым кольцом (по лемме 4). Таким образом, г = Rsiv) ^ RqÍ'p) по лемме 2. Из выбора числа г следует, что неравенство Rf ((р) < -Rq(^) может выполняться только для конечного числа простых р.
Таким образом, мы получили соотношения Rq(^>) ^ Rf и Rf ((р) ^ Rq(<p) для всех р, кроме, может быть, конечного числа. Объединяя эти два неравенства, снова получаем утверждение теоремы 1.
Автор благодарит В. Б. Алексеева и А. Д. Поспелова за ценные указания при подготовке статьи.
СПИСОК ЛИТЕРАТУРЫ
1. Schönhage A. Partial and total matrix multiplication // SIAM J. Comput. 1981. 10. N 3. P. 434-455.
2. Howell T. D. Global properties of tensor rank // Linear Algebra and its Applications. 1978. 22. N 3. P. 9-23.
3. Strassen V. Relative bilinear complexity and matrix multiplication //J. Reine Angew. Math. 1987. 375/376. P. 406-443.
4. Bourbaki N. Algebre. Chapitres 1 à 3. Paris: Hermann & Co, 1970 (Бурбаки H. Алгебра. Алгебраические структуры, линейная и полилинейная алгебра. М.: Физматгиз, 1962).
5. Robinson A. On the metamathematics of algebra. Amsterdam: North-Holland, 1951.
6. Marker D., Messmer M., Pillay A. Model theory of fields. Berlin: Springer, 1996.
Поступила в редакцию 03.06.13
ON BILINEAR ALGORITHMS OVER FIELDS OF DIFFERENT CHARACTERISTICS Lysikov V. V.
The correspondence between bilinear algorithms for computing an integer bilinear map over fields of different characteristics and different rings is investigated.
Keywords: algebraic complexity theory, bilinear algorithms.