Научная статья на тему 'Применение методов матричной коррекции к решению задач линейной аппроксимации'

Применение методов матричной коррекции к решению задач линейной аппроксимации Текст научной статьи по специальности «Математика»

CC BY
152
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Преподаватель ХХI век
ВАК
Область наук
Ключевые слова
МАТРИЧНАЯ КОРРЕКЦИЯ / НЕСОВМЕСТНАЯ СИСТЕМА ЛИНЕЙНЫХ УРАВНЕНИЙ / ПЕРЕОПРЕДЕЛЕННАЯ СИСТЕМА ЛИНЕЙНЫХ УРАВНЕНИЙ / ЛИНЕЙНАЯ РЕГРЕССИЯ / ОБОБЩЕННЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ

Аннотация научной статьи по математике, автор научной работы — Муравьева Ольга Викторовна

Матричная коррекция используется для решения переопределенных систем линейных уравнений Ax = b, в которых допускаются возмущения всех данных: не только вектора b, но и матрицы A. В статье рассматривается задача аппроксимации неизвестной функции y = ϕ(x), x  Rm, y  R, линейной функцией y = f(x).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение методов матричной коррекции к решению задач линейной аппроксимации»

ПРИМЕНЕНИЕ МЕТОДОВ МАТРИЧНОЙ КОРРЕКЦИИ К РЕШЕНИЮ ЗАДАЧ ЛИНЕЙНОЙ АППРОКСИМАЦИИ

I О.В. Муравьева

Аннотация. Матричная коррекция используется для решения переопределенных систем линейных уравнений Ax = b, в которых допускаются возмущения всех данных: не только вектора b, но и матрицы A. В статье рассматривается задача аппрокимации неизвестной функции y = ty(x), x 6 Rm, y 6 R, линейной функцией У = f(x).

Ключевые слова: матричная коррекция, несовместная истема линейных уравнений, переопределенная система линейных уравнений, линейная регрессия, обобщенный метод наименьших квадратов.

Summary. Matrix correction is one method of solving overdetermined sets of linear equations Ax = b that is appropriate when there are errors in both the observation matrix b and the data matrix A. In this paper the problem of approximating of unknown function y = ty(x), x 6 Rm, y 6 R, by a linear function y = f(x) is considered.

Keywords: matrix correction, incompatible system of linear equalities, overdetermined sets of linear equations, linear regression, total least squares.

Введение

При интерпретации результатов эксперимента часто возникает задача аппроксимации экспериментальных точек функцией определенного вида. Пусть производится опыт, целью которого является оценивание связи между двумя случайными величинами (если такие связи существуют). Если имеется п пар наблюдений (хг,уг), г =1, ..., п над такими случайными величинами, то наблюдения можно представить точками на плоскости, получив т. н. диаграмму рассеяния. Затем можно попытаться подобрать по этим точкам некоторую гладкую кривую таким образом, чтобы они располагались как можно ближе к

этой кривой. Такого рода кривую называют эмпирической или аппроксимирующей кривой. При этом не сле- 199

дует ожидать, что все точки диаграммы попадут на соответствующую кривую, т. к. каждая из случайных величин подвержена случайным возмущениям. Даже если между какими-то двумя величинами существует совершенно определенная связь, то на диаграмме рассеяния все же будут наблюдаться отклонения, вызванные ошибками измерений.

Общепринятым критерием оценки качества аппроксимации является сумма квадратов отклонений по координате у экспериментальных точек от сглаживающей кривой. Решение задачи с таким критерием получило на-

200

звание «метод наименьших квадратов». Этот метод приводит к сравнительно простому математическому способу определения параметров и допускает теоретическое обоснование с вероятностной точки зрения. В качестве другого критерия, также допускающего вероятностное обоснование, можно выбрать минимизацию суммы квадратов расстояний от экспериментальных точек до аппроксимирующей кривой, т.е. допускать отклонения не только по величине у, но и по x. Этому критерию соответствует метод, получивший название обобщенного или полного метода наименьших квадратов (Total least squares) [1].

Двумерный случай: вероятностный подход

Пусть величины x и у измеряются с некоторой неизбежной ошибкой измерения. Будем считать, что ошибки измерения подчиняются нормальному закону распределения (как сумма большого числа независимых случайных величин. Результат каждого измерения — случайные величины X, Y, распределенные по нормальному закону с математическими ожиданиями цX, Цу, где цу = ф(цX), и средними квадратическими отклонениями о , О1. Предположим, что точ-

x' X £ ^ '

ность измерения одинакова для величин X и Y, и не изменяется от точки к точке: о'х= оу = О. Тогда закон распределения X{ и Y, можно записать в виде:

fi (X1) = -

гл/2Л

exp

(x1 - Mi )2

2а2

fi (у1)=-

г

exp

(у1 -му )2

2а2

В результате опыта (ряда измерений) произошло случайное событие — случайные величины (Хр ...; Хп, У) приняли совокупность значений ((х1,у1), ..., (хп,уп)). Поставим задачу: подобрать математические ожидания цгх, цу так, чтобы вероятность этого события была максимальна. Т. к. вероятность любого из событий Х{ = X (У = уг) равна нулю, найдем вероятность того, что Х1,У1, ..., Хп,У примут значения, лежащие, соответственно, в пределах (X, хг + йХ), г =1, ..., п, (уг, уг + ёуг), г=1, ..., п :

n 1 I (x1-mx )2 I 1 Р = п—т= exp--2-—Т= exp

i=i I 2а2 I-V2n

(у -му)2

2а2

dx'df =

-Kexpj-—-у((x1 -mx)2 + (у* -му)2

l 2а 1=1

Заметим, что условие p ^ max равносильно

n

E((x1 -mx )2 + (у1 -му )2)

• mm,

т.е. для того, чтобы наблюдаемая совокупность значений была наивероят-нейшей, нужно выбрать функцию ф(х) так, чтобы сумма квадратов расстояний от наблюдаемых значений (хг,уг) до ближайшей точки ( ,ф(м4 )) была минимальной. Ниже рассмотрим задачу определения параметров функции, наилучшим образом аппроксимирующей экспериментальные данные в смысле этого критерия, в простейшем случае, когда зависимость у = ф(х) линейна.

1

1

Преподаватель

2 / 2009

Двумерный случай: геометрический подход

На диаграмме рассеяния из каждой точки опустим перпендикуляр на прямую. Длина этого перпендикуляра — расстояние от точки до прямой. Будем считать самой «близкой» к заданным точкам прямую, для которой сумма квадратов расстояний от заданных точек минимальна. Имеем задачу безусловной минимизации

п

/=Е р2 ((, У м )=

п

V (ахг — у + Ь)2 =1 а2 +1

шт.

а ,Ь

Здесь р((,у у) = 1ах ^у + ЬI — ^ л/а2 +1

расстояние (евклидово) от точки (хг,уг) до прямой I. Введем следующие обозначения:

1 п 1 п

^=- Ехг, °х=- Е(хг—^)2,

пп

1 г г 1 ^^ г

^ху =-ЕхУ , ^у =_Еу

°У = - Е(уг —^ у )2, М = ^ —^х ^ у.

п г=1

Получим следующие случаи ([2]). 1. Мф 0. Задача имеет единственное решение,

В„ — Л

^(Ву — Вх )2 + 4М2

2. М = 0, В = В . Тогда Ь = и — аи

х у у х

а — любое, т.е. задача имеет бесконечно много решений (любая прямая, проходящая через (игх, игу), соответствует минимуму целевой функции).

3. М = 0, В > В. Единственное ре-

ху

шение а = 0, Ь = цу, ему соответствует горизонтальная прямая.

4. М = 0, В < В. Решений нет

ху

(а = го), что соответствует вертикальной прямой х = игх.

Приведенные результаты являются частным случаем линейной аппроксимации функции нескольких переменных с использованием обобщенного МНК. Рассмотрим задачу построения линейной функции от т переменных вида

у = а1х1 + а2х2+ + ... + атхт + Ь = (а,х) + Ь

по заданным пточкам (х}, ..., х^ у1),..., (х^, ..., хт, уп), для которой сумма квадратов отклонений по всем переменным минимальна

п

/ (а,Ь,х) = Е((х1 —х! )2 + ...

¿=1

-+хт—хт )2+(ф(х- )—у-)2 )=

Е(х' —х; )2 + ((а,х) + Ь — у )2

2М 2М ,

Ь = ^ у —а№х ,

соответствующая прямая проходит через точку (игх, игу) и имеет положительный наклон, если М > 0$, и отрицательный, если М < 0.

201

Иначе говоря, требуется найти гиперплоскость в Rm+1 вида Ь : у = (а,х) + Ь. такую что сумма квадратов расстояний до нее от заданных точек минимальна.

Алгебраический подход

Сформулируем соответствующую задачу коррекции системы линейных уравнений. Условие принадлежности

г=1

=1

1

1

=1

=

точек (х1,у1), ..., (хп,уп) гиперплоскости Ь можно записать как

(а, х) + Ь = уг, г =1, ..., п или Ха = у,

где хг = (хг ,1) е ят+1 Уг = 1,...,п,

у = (у1,у2,...,уп )т, а = (а,Ь)т е Ят+1, —— матрица размера п х (т + 1), строками которой являются векторы хг.

Если через заданные точки нельзя провести гиперплоскость, эта система несовместна. Обобщенному методу наименьших квадратов соответствует задача коррекции:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

inf

ах ,Лу,а

-Ay, АХ]|f : (Х + АХ)а = y + Ay f, (1)

202

Aj_nf _{||[-Ay,AX||2: (X + AX)a =

= y + Ay} = \mm (D), a = z, z =

J zo

= (Zo,Z) eAmln (D).

где X . (D) — минимальное собс-

mln

твенное число симметрической матрицы D, z = (z0, z) — соответствующий

ему собственный вектор,

T п nn

D = BT (E - Pn )B , Pn = 2 — матри-

где Ц-Ау,АХ1— евклидова норма матрицы коррекции Ау,АХ].

Действительно,

_ 2 п

[—Ау,АХ I = ^(А2х1 + ...

г г=1

... + А2хт + А2 уг) =

п

= ^р2 ((хг,у')(хг + Ах',у' + Ауг))

г=1

где р((хг,у )(хг + Ахг,уг + Ауг— расстояние от точки (хг,уг) до некоторой точки (хг + А х,уг+ А уг) аппроксимирующей гиперплоскости. Если точки (хг + А хг,уг+ А уг) реализуют минимум расстояния, то это также расстояние от (хг,уг) до плоскости Ь.

Задача (1) представляет собой задачу коррекции несовместной системы линейных уравнений с фиксированным столбцом по критерию евклидовой нормы матрицы. Решение задачи такого типа приведено, например, в [3]:

ца проектирования на вектор n = (1,1, ..., 1)TeRM+1, B = [ — у, X] — матрица размера n х (m + 1), строками которой являются векторы

/ 1 1\ T>m+1

(-у ,x ) е R .

В результате получим следующие решение задачи линейной аппроксимации [2]:

inf {ЁР2 ( ,У ) = Хmin (D),

элементы матрицы D определяются формулами

1 n

dj = П (j — Vi V j )' Vi = _ Ёхк , Vj =

П k=1

1 n

= — 'Ё(хкхк:), i, j = 0,1,...,m,

nk=i '

k k 1 л

x0 = — y , k = 1,...,n

Коэффициенты уравнения оптимальной гиперплоскости равны

а = Z, b = Vy — (а^х), гДе

0

Преподаватель

2 / 2009

2 =(2е,2)еЛшЬ (В), 20 ^ 0, ^у = —^0,

^х = (М'1,-,М'т )

Если 20 = 0, то решения нет.

Аппроксимирующую кривую, наилучшую по критерию суммы квадратов расстояний от заданных точек, можно строить и на классе многочленов более высокого порядка. В отличие от обычного МНК, при увеличении степени многочлена происходит возрастание вычислительной сложности задачи.

Обобщенный метод наименьших квадратов используется при решении различных прикладных задач теоретической информатики, например, построении линейной разделяющей гиперплоскости в задаче распознавания образов [4], определении главных осей объекта на плоском бинарном изображении [5].

ЛИТЕРАТУРА

1. De Groen~P. An introduction to total least squares. // Nieuw Archief voor Wiskunde. - 1996. - V. 14. - № 2. -P. 237-253.

2. Горелик В.А., Муравьева О.В. Задача аппроксимации с коррекцией всех данных. // Моделирование, декомпозиция и оптимизация сложных динамических процессов. - М.: ВЦ РАН, 2000. - С. 21-32.

3. Еремин И.И., Мазуров В.Д., Астафьев Н.Н. Несобственные задачи линейного и выпуклого программирования. - М.: Наука, 1983.

4. Матросов В.Л., Горелик В.А., Жданов С.А., Муравьева О.В. Применение обобщенного метода наименьших квадратов к задаче построения разделяющей гиперплоскости //Тезисы докладов 13-й Всероссийской конференции «Математические методы распознавания образов». - М.: МАКС ПРЕСС, 2007 г. -С. 177-178.

5. Шапиро Л., Стокман Дж. Компьютерное зрение. - М.: БИНОМ, 2006. J

203

Методы матричной коррекции несовместных систем линейных алгебраических уравнений и неравенств и их применение к решению задач принятия решений и распознавания образов являются одним из направлений научно-исследователь-ной работы кафедры ТИДМ МПГУ в рамках научной темы «Теоретические основы информатики». Различные разделы теоретической информатики составляют содержание преподаваемых кафедрой дисциплин «Теоретические основы информатики», «Исследование операций» и спецкурсов для студентов, магистрантов и аспирантов.

i Надоели баннеры? Вы всегда можете отключить рекламу.