Научная статья на тему 'ОЦЕНКА ВАРИАБЕЛЬНОСТИ РЕШЕНИЯ, ПОЛУЧЕННОГО С ПОМОЩЬЮ ИНТЕРВАЛЬНОЙ РЕГУЛЯРИЗАЦИИ'

ОЦЕНКА ВАРИАБЕЛЬНОСТИ РЕШЕНИЯ, ПОЛУЧЕННОГО С ПОМОЩЬЮ ИНТЕРВАЛЬНОЙ РЕГУЛЯРИЗАЦИИ Текст научной статьи по специальности «Математика»

CC BY
91
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
неточная система линейных уравнений / интервальная регуляризация / псевдорешение / мера вариабельности.

Аннотация научной статьи по математике, автор научной работы — Шарый Сергей Петрович

В работе представлена одна из возможных конструкций количественной меры вариабельности псевдорешения неточно заданной системы линейных алгебраических уравнений, которое получено с помощью так называемой интервальной регуляризации. Даётся вывод новой меры вариабельности и её неформальная трактовка.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ОЦЕНКА ВАРИАБЕЛЬНОСТИ РЕШЕНИЯ, ПОЛУЧЕННОГО С ПОМОЩЬЮ ИНТЕРВАЛЬНОЙ РЕГУЛЯРИЗАЦИИ»

АПВПМ-2019

ОЦЕНКА ВАРИАБЕЛЬНОСТИ РЕШЕНИЯ, ПОЛУЧЕННОГО С ПОМОЩЬЮ ИНТЕРВАЛЬНОЙ РЕГУЛЯРИЗАЦИИ

С, П, Шарый1,2

1 Институт, вычислительных технологий СО РАН, 630090, Новосибирск 2 Новосибирский государственный университет, 630090, Новосибирск

УДК 519.9

Б01: 10.24411/9999-016А-2019-10087

В работе представлена одна из возможных конструкций количественной меры вариабельности псевдорешения неточно заданной системы линейных алгебраических уравнений, которое получено с помощью так называемой интервальной регуляризации. Даётся вывод новой меры вариабельности и её неформальная трактовка. Ключевые слова: неточная система линейных уравнений, интервальная регуляризация, псевдорешение, мера вариабельности.

Введение

Цель этой работы — представить одну из возможных конструкций количественной меры вариабельности для решения системы линейных алгебраических уравнений, которое получено с помощью так называемой интервальной регуляризации (см. [1,2]). Напомним, что это способ регуляризации плохообусловленных и неточно заданных систем линейных алгебраически хуравнений, основанный на методах интервального анализа и развивающий приёмы регуляризации по М.М. Лаврентьеву и регуляризации сдвигом.

Термином «вариабельность» мы называем степень изменчивости и неоднозначности решения, и необходимость её введения диктуется тем обстоятельством, что в задачах обработки интервальных данных ответ, как правило, неединствен. Обычно мы получаем целое множество различных оценок, одинаково пригодных в качестве ответов к задаче и согласующихся с её данными. То, насколько мало или обширно это множество, характеризуется термином «вариабельность». Иногда в подобных случаях говорят также о «разбросе решений».

Ситуация здесь аналогична задачам со случайными ошибками в данных, в которых решения, как известно, сами являются случайными величинами, а мерой их чувствительности и вариабельности может служить дисперсия оценки. Она выражает как меру рассеяния значений оценки, так и меру чувствительности этой оценки к изменениям входных данных задачи.

В отношении вариабельности псевдорешения при традиционном задачии погрешностей ответ на этот вопрос кажется достаточно очевидным: ею может стать любая величина, характеризующая размеры множества решений задачи, если оно непусто. Можно даже просто брать интервальные оценки множества решений, получаемые теми или иными методами интервального анализа. Определённый недостаток этого варианта (хорошо заметный в сравнении с аналогичным понятием дисперсии оценки для задач со случайными данными) — излишняя детализация ответа, выдаваемого в виде бруса в М" или интервального вектора какого-нибудь другого вида, большое количество информации, которую ещё необходимо «переварить» и привести к компактной и выразительной форме. Другой недостаток — относительная сложность нахождения такой оценки.

Требуется относительно несложная и эффективно вычислимая величина, выражаемая одним числом, которая давала бы общее агрегированное представление об интересующем нас предмете. Аналогично дисперсии она может служить «прикидочной» характеристикой качества решений при практическом применении интервальной регуляризации.

В работе используется система обозначений, введённая неформальным международным стандартом [3], когда интервалы и интервальные объекты выделяются жирным шрифтом.

!ЯВ.\ 978-5-901548-42-4

1 Формулировка основного результата

Пусть дана система линейных алгебраических уравнений

ацх\ + а\2Х2 + Я21Х1 + й22Х2 +

ат\х\ + ат2Х2 +

+ ainxn = 6i, + а,2„хп = &2,

+ ап

= К

или, кратко,

Ах = Ъ

(1)

(2)

с тохп-матрицей А = (ац) и то-вектором правой части Ь, причём Ъ = 0. При интервальной регуляризации [1,2] мы интервализуем систему (1)^(2), «раздувая» элементы матрицы а^ и компоненты вектора правой части Ъ^, и переходим к интервальной системе линейных алгебраических уравнений (ИСЛАУ)

или, кратко,

aiixi + ai2^2 + «2iXi + а22^2 +

amixi + ат2Х2 +

Ах =

+ ftinxn + а2„хп

+ ^шп^п

bi, b2,

ь

(3)

(4)

cm х n-матрицей А = (a^- ) и то-вектором правой части Ъ, такими что А Э А и Ь Э Ь. Далее рассматривается допусковое множество решений построенной ИСЛАУ, т. е. множество

Stoi(A, Ь) = { х G M" | Ах G b для любых матриц A G A },

которое является наиболее устойчивым к возмущениям в матрице (см. подробности в [1,2,4]). Псевдорешением исходной системы уравнений (1)-(2) берётся точка максимума специального «распознающего функционала», который даёт количественную «меру согласования» вектора с интервальной системой (3)-(4) относительно допускового множества решений. Распознающий функционал обычно обозначается символом «Toi», и он имеет вид

Tol (х, А, Ь)

mm < rad bi —

iKiKm

где

rad bi = ii (bi — Ь{)

mid bi — ^^ aij Xj

j=i

mid bi = 2 (bi + bi)

(5)

— соответственно радиусы и середины компонент вектора правой части Ь, а модуль интервала — это максимум модулей его точек (или концов). Таким образом, решение исходной СЛАУ сводится к нахождению безусловного максимума по всем х из R" —

Tol (х, А, Ь) ^ max,

и аргумент х = argmaxKeR™ Tol (х, А, Ь) этого максимума принимается за псевдорешение системы (1)-(2).

В качестве величины, характеризующей вариабельность вектора псевдорешения х = (х\,х2,... ,хп) системы линейных уравнений (1)^(2), мы предлагаем

IVE (А, Ъ) = у/п max Tol • ( min cond2A )

R" \AeA )

argmax Tol II

I R„ II2

В этой формуле

cond2(A)

размерность вектора неизвестных решаемой СЛАУ, евклидова норма векторов (2-норма),

спектральное число обусловленности матрицы А, определяемое как отношение её наибольшего и наименьшего сингулярных чисел [5,6].

X

b

m

2

П

2

max Tol

х

Рис. 1: Величина максимума распознающего функционала даёт представление о размерах допускового множества решений

Сам символ IVE образован как аббревиатура английской фразы «interval variability of the estimate». Ниже мы строго покажем, что величина IVE адекватно характеризует размеры непустого допускового множества решений. Но этот факт может быть также понят на основе наглядных образных соображений.

Допусковое множество решений интервальной системы линейных алгебраических уравнений является, как известно, множеством нулевого уровня распознающего функционала Toi [4]. или. другими словами, пересечением подграфпка этого функционала с плоскостью Tol = 0 (см. Рис. 1):

Как следствие, величина максимума распознающего функционала может служить, при прочих равных условиях, мерилом того, насколько обширно или узко допусковое множество решений. Чем больше max Tol, тем больше размеры допускового множества решений, и наоборот. Другие факторы, обеспечивающие «прочие равные условия» это наклон гиперплоскостей, из кусков которых составлен полиэдральный график функционала Toi (прямых в одномерном случае на Рис. 1). Наклон гиперплоскостей определяется коэффициентами задающих их уравнений, которые являются концами интервалов в системе (3) (4). Величину этого наклона обобщённым образом характеризует число обусловленности матрицы данных. Наконец, множитель

это масштабирующий коэффициент, с помощью которого обеспечивается соизмеримость окончательной величины псевдорешению и вектору правой части системы уравнений. Так и получается формула (6).

Будем считать, что количество уравнений т может те совпадать с числом неизвестных переменных п, причём т > п. Тогда системы линейных алгебраических уравнений (1)—(2) и (3)—(4) являются либо квадратными, либо переопределёнными, т. е. имеющими т х п-матрицы сто > п.

2.1 Оценка возмущений решения прямоугольных линейных систем

Отправной точкой наших конструкций, обосновывающих выбор меры вариабельности именно в виде величины (6), будет известное неравенство, оценивающее возмущение Дх ненулевого решения системы линейных алгебраических уравнений Ах = Ь в зависимости от изменений ДЬ в векторе правой части (см., к приме-

~ш(А, Ь) = { х е M" | Tol (х, А, Ь) > 0 }.

|| argmax Tol Ц2 = ||ж||2

Й2 = М2

2 Обоснование меры вариабельности

РУ- [5 7]):

||Ах||2

В случае евклидовой нормы векторов и спектрального числа обусловленности матриц это неравенство справедливо и при то > п, но лишь если матрица системы имеет полный ранг.

2.2 Интервальные системы с точечной матрицей

Рассмотрим интервальную систему линейных алгебраических уравнений

Ах = Ь (8)

с точечной (неинтервальной) то х n-матрицей А и интервальным то-вектором Ь в правой части, причём то > п. Предположим также, что её допусковое множество реш ений непусто, т.е. Stoi(A, b) = {ж G M" | Ax G Ь } = 0. Как можно быстро и несложно оценить размеры этого множества решений? Форма ответа на этот вопрос может быть различной, и мы будем строить его в виде оценки «типа радиуса» для множества решений. Более точно, мы получим оценку евклидовой нормы max \\х' — ж||2 по всем х' G Stoi(А, Ь) для некоторой специальной фиксированной точки х G Stoi(А, b), в качестве которой берётся

х = arg max Tol (х, A, b)

— аргумент безусловного максимума распознающего функционала для системы (8), т. е. вектор псевдорешения исходной СЛАУ. Строго говоря, эта точка может определяться неединственным образом, но тогда х может быть любой из точек, на которых достигается рассматриваемый максимум.

Пусть х' — какая-то точка из допускового множества решений Stoi (А, Ь). Как оценить \\х' — х\\2? Ясно, что ж' и х являются решениями систем линейных алгебраических уравнений с матрицей А и некоторыми правыми частями Ь' и b, соответственно, из интервального вектора Ъ. Если х = 0 и b = 0, то можно применить неравенство (7), рассмотрев возмущение решения х системы линейных алгебраических уравнений Ах = Ь. Тогда Ах = х' — х, Ab = Ъ' — b, и мы имеем

"*', —,*"2 < COnd2 А ,

Ы2 ~ \\6\2

откуда получается абсолютная оценка

\\х' — х\\2 < cond2 А •\х\2 . (9)

\\Ъ\\2

Точка х находится в результате максимизации распознающего функционала Toi, для вычисления обусловленности cond2 А существуют хорошо разработанные стандартные процедуры, и потому для практической работы с неравенством (9) нужно как-то оценить значения \\b' — Ь||2 и \\Ь||2-

Наиболее просто мы поступим с \\Ь||2, приближённо взяв \\Ь||2 « \\Ь||2, т.е. как норму правой части b исходной СЛАУ. Ясно, что это «наиболее представительная» точка из интервального вектора Ь, который получен «раздуванием» Ь. Естественно, что при этом может допускаться некоторое огрубление, так что теперь вместо (9) мы будем писать

\\х' — х|| 2 < cond2 A -PU 2 . (10)

\ \ Щ 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Теперь необходимо определить приращение правой части Ab = Ъ' — Ь. Его оценкой сверху является вектор радиусов rad b правой части, то она слишком груба. Чтобы получить более топкую оценку Ab, наряду с системой (8) рассмотрим также систему линейных алгебраических уравнений

Ах = Ь, (И)

у которой правая часть b получена «сжатием» интервального вектора Ь, т. е. как

b := [ b + M, Ь — M ], (12)

где величина «сжатия» M определяется следующим образом:

M := max Tol (х, A, b) > 0.

Поскольку этот максимум M достигается функционалом Toi щи конкретном значении аргумента х, то

M = Tol (х, А, Ь) = min

1< гКт

rad bi —

mid bi — ^^ aij Xj

3=1

< min rad bi.

К iKm

Как следствие, b+M < b—M и интервальный вектор (12) — правильный, т. е. его концы не «перехлёстывают» друг за друга.

Но из свойств распознающего функционала следует, что для интервальной системы линейных алгебраических уравнений (11) максимум распознающего функционала равен нулю, т.е. maxœeR^ Tol (х, А, Ь) = 0. В самом деле, величины rad bi входят слагаемыми во все выражения, стоящие в (5) под знаком минимума по г. Поэтому если одновременно увеличить или уменьшить все rad bi на одну и ту же величину при неизменных серединах mid bi компонент правой части, то и общее значение распознающего функционала увеличится или уменьшится на ту же самую величину. Иными словами, если взять константу С > 0 и интервальный

т-вектор

([-1,1],..., [-1,1])

то для системы Ах = b + Се , в которой все компоненты правой части одновременно расширены на [-С,С], имеем

Tol (х, А, Ь + Се) = Tol (х, А, Ь) + С. (13)

Значит,

max Tol (х, A, b + Се) = max Tol (х, А, Ь) + С (14)

хежп xeR"-

(и это также верно для систем (3)—(4) с произвольными матрицами А, а не только точечными). Совершенно аналогичным образом на допусковое множество решений и распознающий функционал действует и равномерное сужение вектора правой части. Если мы сузили все компоненты на одну и ту же величину М, то и максимум распознающего функционала повой интервальной системы уменьшится на М.

Итак, в силу свойств распознающего функционала допусковое множество решений Stoi (А, Ь) для системы (11) имеет пустую внутренность (такие множества часто называют «нетелесными»), и мы будем условно считать этот факт равносильным свойству «иметь нулевые размеры». Естественно, что это упрощающее допущение, так как в действительности допусковое множество решений при нулевом максимуме распознающего функционала может быть отнюдь не одноточечным. Тем не менее, мы принимаем это упрощение, в пользу которого говорит также то обстоятельство, что ситуация с нулевым максимумом распознающего функционала неустойчива: соответствующее допусковое множество решений может стать пустым при сколь угодно малом возмущении данных.

Ещё один факт, который касается вспомогательной системы (11) с суженной правой частью и следует из (13)—(14), состоит в том, что определённая ранее точка х является аргументом максимума распознающего функционала также для системы (11):

х = arg max Tol (х, А, Ъ)

По этой причине точка Ь = Ах лежит в Ъ.

Из сказанного вытекает, что множество решений интервальной линейной системы Ах = Ь получается из множества решений системы Ах = Ъ, которое имеет «пренебрежимые размеры» и для которого тахжек^ То1 (х, А, Ь) = 0, с помощью расширения вектора Ь в каждой компоненте одновременно па [-М, М], где

М = тах То1 (х, А, Ь).

Как следствие, в неравенстве (10) мы можем взять ДЬ таким, что

lAbil = | b'i -bi | < M, i = 1, 2,...,m, причём оценка сверху может достигаться, и потому

||ДЬ||ТО = max Tol (х, А, Ь)

(15)

в чебышёвской векторной норме ||y||œ := maxi<^<m \yi\.

е

X

X

X

Строго говоря, интервальный вектор Ъ э Ь может иметь ненулевые размеры, и тогда ||ДЬ||как будто способна превзойти М. Но если мы хотим сделать неравенство (10) наиболее точным и достижимым, то его правая часть должна зануляться при тахТо1 = 0, и это предопределяет выбор (15)—(16).

Чтобы подставить найденное значение ||ДЬ|| в (10), где фигурируют евклидовы нормы, воспользуемся неравенством эквивалентности векторных норм. Как известно, для любого вектора у (см. [5])

1Ыи <1М|2 1Ыи. (17)

В целом получаем

и и тахТо1

||ж — х\\2 ^ л/п сопа2А • ИащтахТо1 И2 •——-. (18)

~ жеК" 112 ||6|| 2

2.3 Общие интервальные системы

Рассмотрим, наконец, общие интервальные системы линейных алгебраических уравнений Ах = Ъ, с интервальной матрицей коэффициентов. Пусть, как и ранее,

х = arg max Tol (х, А, Ь)

хек™

— аргумент безусловного максимума распознающего функционала для системы Ах = Ь. Пусть также х' — какая-то точка из непустого допускового множества решений Stoi(А, Ь). Как оценить ||ж' — ж||2 ?

В силу известных свойств допускового множества решений (см., к примеру, [4]) его можно представить как

o

(А, Ь) = р| { ж е М™ | Ах е Ь } = f| 5^(А, Ь),

АеА

АеА

т. е. как пересечение множеств решений отдельных ИСЛАУ, имеющих точечные матрицы А из А. Для каждой интервальной линейной системы Ах = Ьс А € А точки ж' и ж лежат во множестве решений (А, Ь), и мы имеем оценку (18). Следовательно, для допускового множества решений системы Ах = Ъ, которое является пересечением множеств решений отдельных систем Ах = Ь с А € А, должно быть справедливо

и / -и • \ г- , л и т 1 и тахТо1 1

ж — х\\2 ^ тт < \/п сопа2А • Иащтах То1 И„ • —т—-.- > .

11 112 ~ АеА [ 2 11 112 ||Ь||2 /

Правую часть в полученном неравенстве можно оценить приближённо, если внести минимум по А € А под фигурные скобки, приближённо оценив отдельные множители, — число обусловленности сопё А, норму аргумента максимума || а^тахжек™ То11| и максимум распознающего функционала тахТо1. Полагая

min У arg max Tol (ж, А, Ь) I АеА 11 хек^ 1

min max Tol (ж, А, Ь)

АеА хек™

yarg max Tol (ж, А. Ь)|

11 хек™ 1

max Tol (ж, А, Ь),

будем иметь

\\х — х\\2 ^ Jn min cond2A • yargmax Toly • 11 ||2 ^ v АеА 2 11 хек™ 11

max Tol

Эта же оценка в силу неравенства эквивалентности норм (17) верна и для чебышёвской нормы:

max \\х — жНоп ^ \Гп ( min cond2M) ) • у arg max Tol Ц„ • х'ез4Ы(А,ь)11 ~ v V АеА А Ч 11 хек™ 1,2

М

х

что оправдывает оценку IVE (6).

3 Обсуждение

В целом предложенная в этой работе мера вариабельности IVE находится довольно просто, так как после

max Tol arg max Tol

является нахождение минимума чисел обусловленности точечных матриц из заданной интервальной матрицы. Основываясь на квазивогнутости спектрального числа обусловленности, можно организовать перебор угловых точечных матриц, что в общем случае, конечно же, непрактично и неэффективно.

Если интервальная матрица «достаточно узка» и не сильно отличается от точечной матрицы, то приближённо можно положить cond2(A) « cond2(mid А). Но в общем случае этот рецепт может работать плохо, так как левая и правая части выписанного приближённого равенства будут отличаться весьма сильно.

Для более ответственных задач можно организовать поиск минимума числа обусловленности каким-либо методом прямого поиска по множеству всех вершин интервальной матрицы. Нахождение градиента целевой функции в этой задаче затруднено её сложным характером, но вот вычисление значений целевой функции выполняется достаточно эффективно. Как следствие, наиболее подходящими инструментами решения этой задачи будут методы нулевого порядка, которые используют только значения целевой функции, т. е. числа обусловленности матрицы.

Можно предложить, к примеру, следующий эвристический алгоритм оценивания min cond2(A). Задавшись некоторым натуральным числом N, организуем N шагов случайного блуждания по множеству угловых матриц интервальной матрицы А. Будем вычислять число обусловленности полученной случайной угловой матрицы А и её противоположной относительно диагонали бруса А, следуя идее так называемых диагональных методов глобальной оптимизации [8]. Иными словами, мы вычисляем cond2(A) и ещё число обусловленности матрицы, у которой элементами взяты противоположные к А концы интервалов А, что делается для усиления «репрезентативности» нашего случайного блуждания. Наименьшее из значений, полученных после таких N шагов, берётся в качестве оценки для min cond2(A). Ясно, что конкретное значение числа шагов N нужно брать в зависимости от желаемой точности оценивания min cond2(A) и тех ресурсов, которые мы готовы на него потратить. Если нужно получить оценку для min cond2(A) как можно быстрее, то и N может быть невелико. Кроме того, при небольших N возможно также применение к результату какой-то корректирующей процедуры (например, умножение на поправочный коэффициент из открытого интервала ]0,1[).

Список литературы

[1] Шарый С.П. Интервальная регуляризация для решения систем линейных алгебраических уравнений // Труды Международной конференции «Марчуковские научные чтения - 2017». ИВМиМГ СО РАН, Новосибирск, Россия, 25 июня - 14 июля 2017 г., Новосибирск. С. 975-982.

[2] Shary, S.P. Interval regularization for imprecise linear algebraic equations. Deposited in arXiv.org on 27 Sep 2018, No. arXiv: 1810.01481. 21 p.

[3] Kearfott, R.B., Nakao, M., Neumaier, A., Rump, S., Shary, S.P., van Hentenryck, P. Standardized notation in interval analysis // Вычислительные Технологии. 2010. Т. 15, №1. С. 7-13.

[4] Шарый С.П. Конечномерный интервальный анализ. Новосибирск: II ВТ СО РАН & XYZ, 2019. 630 с. Электронная версия книги доступна на http: //www. nsc . ru/interval/?page=Library/InteBooks

[5] Голуб Дж., ван Лоун Ч. Матричные вычисления. М.: Мир, 1999. 548 с.

[6] Уоткинс Д. Основы матричных вычислений. М.: «Бином. Лаборатория знаний», 2009. 664 с.

[7] Годунов С.К. Современные аспекты линейной алгебры. Новосибирск: Научная книга, 1997. 388 с.

[8] Сергеев Я.Д., Квасов Д.Е. Диагональные методы глобальной оптимизации. М.: ФИЗМАТЛИТ, 2008. 352 с.

Шарый Сергей Петрович — д.ф.-м.н., вед. науч. сотр. Института

вычислительных технологий СО РАН;

e-mail: [email protected].

Дата поступления — 1 июня 2019 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.