Научная статья на тему 'Процедура классификации образов в схеме конфлюентного анализа с корреляцией погрешностей в результатах измерения координат признаков образов'

Процедура классификации образов в схеме конфлюентного анализа с корреляцией погрешностей в результатах измерения координат признаков образов Текст научной статьи по специальности «Математика»

CC BY
61
19
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Исаев А. Б., Аль-харази В. Ф.

В статье рассмотрена и решена задача построения разделяющей линии для двух классов образов, задаваемых двумерными признаками. При этом рассмотрен случай, когда все признаки отягощены случайными и систематическими погрешностями, что приводит к специфической корреляционной картине эксперимента, задаваемой заранее с помощью матрицы корреляционных моментов. С помощью численного моделирования показана более высокая точность получаемых в работе на основании модифицированного метода максимального правдоподобия оценок параметров разделяющей линии.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Исаев А. Б., Аль-харази В. Ф.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Procedure of classification of patterns in the scheme of confluent analysis with correlation of errors in results of estimation of patterns coordinates

In the paper the problem of construction of dividing line for two classes of the images set by two-dimensional signs is considered and solved. The case when all signs are burdened by random and regular errors that leads to a specific correlation picture of experiment, set in advance by means of a matrix of the correlation moments is thus considered. By means of numerical simulation the accuracy received in work on the basis of modified method of the maximum credibility of estimations of parametres of a dividing line is shown.

Текст научной работы на тему «Процедура классификации образов в схеме конфлюентного анализа с корреляцией погрешностей в результатах измерения координат признаков образов»

ПРОЦЕДУРА КЛАССИФИКАЦИИ ОБРАЗОВ В СХЕМЕ КОНФЛЮЕНТНОГО АНАЛИЗА С КОРРЕЛЯЦИЕЙ ПОГРЕШНОСТЕЙ В РЕЗУЛЬТАТАХ ИЗМЕРЕНИЯ КООРДИНАТ ПРИЗНАКОВ ОБРАЗОВ

А.Б. Исаев, В.Ф. Аль-Харази

Кафедра кибернетики и мехатроники Российский университет дружбы народов ул. Миклухо-Маклая, 6, Москва, Россия, 117198

В статье рассмотрена и решена задача построения разделяющей линии для двух классов образов, задаваемых двумерными признаками. При этом рассмотрен случай, когда все признаки отягощены случайными и систематическими погрешностями, что приводит к специфической корреляционной картине эксперимента, задаваемой заранее с помощью матрицы корреляционных моментов. С помощью численного моделирования показана более высокая точность получаемых в работе на основании модифицированного метода максимального правдоподобия оценок параметров разделяющей линии.

В работе [1] предложен алгоритм построения разделяющей функции (линии) для задачи классификации образов в условиях, когда результаты измерений всех признаков предъявляемых образов отягощены некоррелированными случайными погрешностями (конфлюентная ситуация).

Схематическое изображение решаемой задачи дано на рис. 1.

Рис. 1. Разделяющая линия для случая присутствия погрешностей в результатах измерения признаков:

Wv W2 — два класса образов;

И^), И^2) — их выпуклые оболочки

Однако предложенный алгоритм пригоден для случая некоррелированных случайных погрешностей измерений признаков предъявляемых образов и не пригоден для случая, когда эти погрешности коррелируют друг с другом.

Можно показать, что причиной возникновения такой корреляционной картины выборки результатов измерения признаков может быть наличие не наблюдаемых систематических погрешностей в результатах измерения признаков. Если

ограничиться случаем линейной решающей функции (разделяющая линия), то решаемая в данной работе задача может рассматриваться как задача восстановления линейной зависимости между величинами, измеренными с погрешностями, когда последние коррелируют друг с другом. Оценки параметров а0, а1 линейной

зависимости ц = а0 + а1^ находятся с помощью метода максимального правдоподобия (ММП), модирицированного на случай обработки выборок {х ,, у,} с зашумленными данными

X- = ^ + и, у. = Ц + V, Би1 = , ,

Мх, = ^, Му, = ц, = а0 + а^,, Ми, = Му. = 0, г = 1, N. (1)

Для погрешности измерений величин £, и ц характерна корреляционная картина

^(и,,и^) Ф 0, cov(у,, у у) Ф 0 (г Ф у) cov(uг•, уу ) = 0 (г, у = г, N).

Обычный ММП [2], примененный к экспериментальной ситуации (1), за которой закрепилось название «конфлюентная» [3], дает в этом случае смещенные и не эффективные линейные оценки для а0 и а1 [4]. Поэтому стандартная функция максимального правдоподобия (ФМП) должна быть модифицирована с помощью ввода в нее априорной информации (например, (1)—(2)) о различных моментах и законах распределения погрешностей и измерений величин £, и ц.

Это позволит с помощью стандартной процедуры отыскать точку (если таковая имеется) глобального максимума ФМП, построить оценки а0т, а1т для параметров а0, а1, обладающие значительно меньшим смещением и более точные, чем оценки стандартного ММП в экспериментальной ситуации, описываемой (1)—(2).

1. Рассмотрим систему {2,} из 2N коррелированных нормальных величин.

1.1. Положим

21 = х1, 22 = у1, 23 = Х3, 24 = у2, •' '

Мг1 =^1, Мг2 =ц1 =а0 +а1^1, Мг3 = ^2, Мг4 = а0 +а1^2,...

1.2.

К12 = cov(^г2) = М{(г1 - Мг1)(г2 - Мг2) = М{(Х1 -^)(У1 -Цl},

К13 = cov(21,23) = М{(21 - М^)(23 -М23)} = М{(Х1 -^)(Х2 -^2)},

К14 = cov(2l, 24) = М{(21 - М21)(24 - М24)} = М{(Х1 -^1 )(У2 Ц2 )} , •••

К у = М{(2. - М2,)(27 - М27)}, К 7 = М(2. - М2,)2 = 02,, и7 = и2N.

Здесь М, Б — символы математического ожидания и дисперсии; cov (•) — второй смешанный центральный момент.

ФМП для такой системы случайных величин построим согласно принципу максимального правдоподобия, утверждающему, что наилучшим описанием явления будет то, которое дает наибольшую вероятность получить при измерении

именно те результаты, которые были фактически получены [5]. Поэтому ФМП

для системы {z}2N в виде

11 NN I

L = const exp j- ! ! К-1 (z - Щ)(z- - Mzj) |,

(3)

где const — член, не зависящий от z; К..1 — элементы матрицы обратной к кор-

реляционной матрице К выборки {x,, yt }N,

Kxy =

K11 K12 • K1, 2 N

K 21 K 22 K 2, 2 N

K 2 N ,1 K 2 N, 2 • ■ ■ K 2 N, 2 N

(4)

Эту матрицу будем считать априори известной точно. Матрица содержит практически всю априорную информацию о погрешностях измерений выборки К У}.

Геометрическая сторона задачи заключается в наилучшем проведении прямой Ц = а0 +а1Х по точкам {х. , у. }1 , содержащим коррелированные случайные

погрешности. В предположении нормальности распределения этих погрешностей прямая должна быть наилучшим образом (в смысле максимальной близости к истинной ц = а0 + а1^) проведена через эллипсы рассеивания экспериментальных

данных. Причем положение их центров {^., ц ^ и ориентация главных осей полностью определены структурой (4).

Перейдем к логарифмической ФМП Ь = 1п Ь:

L = - 2 & =- 2(Qx + Qy + Qxy),

(5)

где с учетом 1.1—1.2 очевидно

N (X,■ Ч, V

Qx=!

V ^xi J

N

V ayi J

. Qy = !

i=1V

Qy = Kj'(x,-%,)(x--% - ) +

i<2

N N

+2! К- >( y,-n,)(y--П-) + 21K-'(x,-%,)(y--n-),

l< -

l< -

введем векторы aT = [а0,aj, %T = [^,^,— \n], xT = [xi,x2, — xn], f =

*0>W1J> Ъ ~ Lb1>b2’"‘SnJ’ л _ 1_л1>л2’

— 1 i-__t_-2 _-2л ът-1

N

_-2 ______-2

= [ y1, У2, • • • Ум ] и матрщы Kx = dmg{a ^ ,—а xN}, Ky = diag{ a y ,—a x \ yN}, 1 — 1

T

N

Тогда (5) может быть записана в виде

ь = -1

2

(х - £)Т К--1(X - £) + (у - За)Т К- (у - За) + . (6)

Введем О — область определения Ь по а, £

О = {а, £ | а , < а < а , ; £ • <£,<£, },

'ті I ^у /х хі у5 ^>шіп т» т>шах-> ’

где ауіх, ахіу — векторы коэффициентов МНК регрессии у на х и х на у,

>Ъшіп, ЪЖ < £шах.

ФМП в виде (5) или (6), охватывающая случай коррелированных наблюдений в выборке {хі, уі , может быть приведена к виду, удобному для доказательств. Введем и2М 2М действительную ортогональную матрицу. Тогда итК= Л, где Л = diag{X 11, X22, ... X2М 2М}, Xй > 0. Такая матрица существует, поскольку Кху — действительная симметричная матрица. После этого

=д* + д* =(х-£)Т л;1(х-£) + (у-заЖу1(упричем дху (Кі-1) = °

Лх = ^22, }, Лу = ^^^N+1,^+1, . ^2М,2М }.

Прежде чем исследовать форму ь и характер ее возможного экстремума, докажем вспомогательную лемму.

Лемма. Пусть 2 є Еп, ф(2) — непрерывная на области определения Ба с Еп функция, Еп — вещественное евклидово пространство, область значений функции — йфсЕп, Т :5 — оператор сдвига, Т5ф(2) = ф(2 + s), s єЕп, Т5 : Еп ^ Еп. Тогда функция д2) = (Т5ф(2), Тгф(2)), s, г єЕп строго выпукла.

Доказательство. Уг1,22 єЕп, X є [0,1] справедливо неравенство

^Т5 ф(21) + (1 - X)Т^ ф(22 ), ХТ51 ф(21) +

+ (1 - Х)Т52ф(22)) < Х(1 - X)(Т5 ф(21) - Т52ф(22),

Т5' ф(21) - Т52ф(22)) + (ХТ5' ф(21) +

+ (1 - X)Т52 ф(22), ХТ52 ф(21) + (1 - X)Т52 ф(22)).

Далее, используя линейность скалярного произведения — ( , ) после ряда выкладок получаем

^Т5 ф(21) + (1 - X)T52ф(22), XT5'ф(21) + (1 - X)T52ф(22)) <

<ЧТ51 ф( 2l), Т51( 21) + (1 -X)(т52 ф( 22і Т52 ф( 22 )).

Нетрудно видеть, что это неравенство строгое и знак равенства имеет место при Т51 ф(21) = Т5 ф(22) = 0 , т.е. когда 2 є КегТ5, КегТ52 (принадлежит ядрам операторов). Следовательно, д(2) строго выпукла.

Теперь нетрудно доказать, что справедлива следующая теорема.

Теорема. ФМП z в виде (5) и (б) при априори известной корреляционной матрице Кху строго вогнута на области определения Q .

Доказательство. Если квадратичная функция общего вида Qy = Q* + Q*,

Z Z

заданная на Q , строго выпукла, то функция L = -Qz строго вогнута. Убедимся в строгой выпуклости Q* .

Имеем

QS = QZ + QZ = (Л^ (і -1), л/ (x -1)) +

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

+(Л 2/г (у - Sc), л f1 (y - SaХК

где S =[1,1] ^ї2 = diag{а-1, а-1, а-ї},

л/ = diag{ а ;',а ;', ... сї -ї}.

Если положить последовательно

ф(| ) = (-1)^x/2 І sl ^ s2 = ^

г5'ф^ = xl-|, rSlф(|2) = x2-|2,

У(|) = -а1^Лу11, sl = а21(у1 2 а0T), S2 = а1-1(у2 2 VX Г5ї У(|1) = у1 2 С0Т 2 а1|1, Г52 V(|2 ) = у2 2 С0Т 2 а1|2.

Воспользовавшись теоремой, легко убедиться в строгой выпуклости Qy, Q*y

z Z _^

и Qz по |. Строгая выпуклость Qz по а при фиксированной S(|) очевидна.

z z

Следовательно, Qz строго выпукла на Q, а L =-Qz строго вогнута. Теорема доказана.

Проиллюстрируем доказанные результаты для конкретного вида скалярного произведения в En и убедимся непосредственным образом в строгой выпуклости Q(z).

Рассмотрим Q* = Q (|) = (л;^( у2 S(| )a, к/2 (у 2 S(|)a),

" - / - / где Sa = [1|]a. Задав ( , ) в виде (Л ' 2(у -П, Л ' 2(у -П)) =

=(у -п )л;1( у -п ), n= Sa

и дважды дифференцируя его, получим Q" = у2Л;1 > 0, ибо Л;1 матрица, и у2 = const > 0. Аналогично можно убедиться в строгой выпуклости

qz = (X -|)Г а;1( X-і) и qz.

Таким образом, мы пришли к важному выводу. в случае самой общей структуры корреляционной матрицы Кху выборки {x,, уі }N (полностью корре-

з9

лированная выборка) для линейной модели п = а0 + а1- , поверхность ФМП Ь строго вогнута, решение максимального правдоподобия существует (существуют оценки ММП ат, -т) и могут быть найдены из системы уравнений правдоподобия

дЬ — 0; д-Ь — 0

да 5-

(7)

Подчеркнем, что матрица Кху (все ее элементы) считаются априори известными точно и система (7) не включает в себя соответствующих уровнений для отыскивания оценок ММП элементов К-.

2. Рассмотрим одну специальную структуру матрицы Кху, соответсву-ющую не столь редкой экспериментальной ситуации, при которой существует взаимная корреляция между элементами вектора входа х и аналогичная корреляция элементов вектора у, а корреляция между элементами х и корреляция между элементами у отсутствует. Практически такая ситуация может возникнуть в тех случаях, когда экспериментатор производит измерение величины х одним прибором и одной методикой, а измерения величины у — другим прибором, другой методикой.

Справедливы следующие положения:

еоу(х, у-) = 0, еоу(х, х-) ф 0, еоу(у, у-) ф 0, I, - = I, N.

Тогда корреляционная матрица (4) выборки такова:

КХУ =

К11 0 К13 0 . 0

0 2 2 Ъс 0 2 К 2,2 N

К31 0 3 3 0 . 0

к

2 N ,2 N

(8)

Система N + 2 уравнений правдоподобия с N + 2 неизвестными -, а

дЬ Л - -

= 0 => к-- — ь,

да ^

дЬ п - -

—~ — 0 => к а — с

д- > аи

J(1хN )

(9)

(10)

1 N 1I а1 - = 1 КИ2 - ( У] а1й), 1 N . - IК—12 - а1 - — 1 -

" К221 К 24 К-1 " 2,2 N

К- = . К 1 1 К44 К-1 4,2 N

К~ 1 _Л 2 N ,2 К 2 N ,4 К 2 N ,2 N _

а =

7^2 х 2 Ка =

С =

N

Е

І = 1

N N

Е К2і, 2іУі + Е Е К 21-2,2і (УІ-1 + У] )

І = 2 і = I N_ N N

Е К2і, 2 і І іуі + Е Е К2І-2,2 і (УІ -1і і + У і I /-1) І = 2 і = І

і = 1

N

N N

N

N N

Е к І+2ЕЕ к -1

2,2і

Е к ід і+ЕЕ к -иг, (І і +І , )

і=1

І=2 і=І

N N

і=1

N

І=2 і=І

N NN N NN

Е К-ЙДі + ЕЕ К 21-2.2 і (І І-1 +Іі ) Е К 212і І2 + 2ЕЕ К -і‘-2,2 і (111N )

і=1 І=2 і=І і=1 І=2 і=І

Элементы Ки , входящие в векторы Ь, с и матрицы К и Ка , рассчитываются

заранее на основании корреляционной матрицы К.^, составленной из элементов К.1 — М[(К, --,)(К- --,)] , К„ — М[(у, -п)(у, -п-)], К,- —С;,,а_у.

Оценки ММП для а0, а1 находятся путем решения системы (9—10) последовательными приближениями. На основании выборочных данных {х ,, у, ^, отягощенных случайными и систематическими погрешностями, рассчитываются обычные оценки МНК — а0 и а1 , совпадающие с оценками немодифициро-ванного ММП в случае нормального распределения. Для первого шага итерации, используя заранее рассчитанные величины элементов матрицы К- и а0,

а1 , из линейной по - системы уравнений (10) по формуле -то — К-1Ь находятся оценки ММП для весов нулевого приближения - то), из (9) — системы двух

а0т и а1т находятся оценки ММП для па-

уравнений с двумя неизвестными

раметров оптимальной линии у — а0 + И1х, нулевые приближения — а0т (-1°)

и а1т (-то)).

На основании этих оценок вновь из (10) уточняются значения , компонующие оценку вектора весов первого приближения — -(1), из (9) находятся вели-

чины а.

(1) а (2) 0т ’ 0 т

и т.д. Итерационный процесс останавливается при достижении

на К-м шаге

'а (к) - а (к-1)) / а(к)

< 8, ГДЄ 8

заданное малое число.

Для иллюстрации устойчивости разработанного алгоритма к присутствию коррелированных случайных суммарных погрешностей у выборочных данных

( лN

{х,, у{} был проведен численный модельный эксперимент на ЭВМ.

а

0

а

Для заданной «истинной» зависимости п — 4 + 3-, -е [0, 2] генерировалась выборка {х1,х2,...,xN} из нормального распределения для случайного коррелированного вектора х , так что его элементы х, ~ N, гх), где а2х — 0,04 для

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

всех х,, х —,, N, гх — г(х,, х,—1) — 0,7 — коэффициент корреляции двух последовательных «смоделированных» результатов измерений. Аналогичным образом моделировалась выборка {у1, у2,... yN} для элементов вектора у, так что

у{ ~ N(4 + 3-ау, Гу), ау — 0,01, Гу — г(у,, у, -1) = 0,7 — коэффициент корреляции двух последовательных «смоделированных» результатов измерений выборки. Матрица Кху — корреляционная матрица выборки — заполнилась элементами, рассчитанными на основании условий моделирования с учетом (8).

К

50 х50

ху

[ 0,04 0 0,028 . 0 ]

0 0,04 0 . 0,028

0,028 0 0,04 . 0

[ 0 0,028 0 . 0,04 ]

Оценки МНК для смоделированной выборки {х,, у, }25 а0 — 4,07; а1 — 2,88. Оценки ММП, найденные из (9—10), а0т — 4,02; а,т — 2,97. Относительные погрешности рассчитанных коэффициентов: 5а0 — 1,28%, 5а1 — 4%, Ыа0т — 0,5%,

5а1т — 1%.

Таким образом, как показал вычислительный эксперимент, предложенный алгоритм базирующийся на функции максимального правдоподобия, учитывающей полную корреляционную картину эксперимента, позволяет получить оценки а0т и а1т для параметров разделяющей линии, обладающие гораздо меньшим

смещением (2% и 3% соответственно), чем рассчитываемые по данной выборке оценки метода наименьших квадратов (7% и 12%) и заметно меньшими относительными погрешностями.

ЛИТЕРАТУРА

[1] Исаев А.Б., Мастеров С.А., Долгушин Д.Е. К вопросу о проведении классификации образов, учитывающей погрешности в измерении признаков // Вестник РУДН. Серия «Инженерные исследования». — 2007. — № 4. — С. 46—51.

[2] Себер Д. Линейный регрессионный анализ / Пер. с англ. — М.: Мир, 1980.

[3] Демиденко Е.З. Линейная и нелинейная регрессия. — М.: Финансы и статистика, 1981.

[4] Исаев А.Б. Основные принципы конфлюентного анализа и некоторые алгоритмы обработки линейных зависимостей // Измерительная техника. — 1982. — № 10. — С. 13—16.

[5] Клепиков М.П., Соколов С.Н. Анализ и планирование экспериментов методом максимального правдоподобия. — М.: Наука, 1964.

PROCEDURE OF CLASSIFICATION OF PATTERNS IN THE SCHEME OF CONFLUENT ANALYSIS WITH CORRELATION OF ERRORS IN RESULTS OF ESTIMATION OF PATTERNS COORDINATES

A.B. Isaev, V.F. Al-Harazi

Cybernetics and Mechatronics Departament Peoples’ Friendship University of Russia

Miklukho-Maklaya str., 6, Moscow, Russia, 117198

In the paper the problem of construction of dividing line for two classes of the images set by twodimensional signs is considered and solved. The case when all signs are burdened by random and regular errors that leads to a specific correlation picture of experiment, set in advance by means of a matrix of the correlation moments is thus considered. By means of numerical simulation the accuracy received in work on the basis of modified method of the maximum credibility of estimations of parametres of a dividing line is shown.

i Надоели баннеры? Вы всегда можете отключить рекламу.