Научная статья на тему 'Итерационно-взвешенный алгоритм построения линейной разделяющей функции регрессии в задаче классификации образов, признаки которых отягощены погрешностями измерений'

Итерационно-взвешенный алгоритм построения линейной разделяющей функции регрессии в задаче классификации образов, признаки которых отягощены погрешностями измерений Текст научной статьи по специальности «Математика»

CC BY
114
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСТИННЫЕ ЗНАЧЕНИЯ ПЕРЕМЕННЫХ / TRUE VARIABLES / КОНФЛЮЕНТНЫЙ АНАЛИЗ / CONFLUENT ANALYSIS / ПОГРЕШНОСТИ ИЗМЕРЕНИЙ / MEASUREMENT ERRORS / ВЫПУКЛАЯ ОБОЛОЧКА / CONVEX HULL / ФУНКЦИЯ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ / HIGHEST LIKELIHOOD FUNCTION / ОБРАЗ / ПРИЗНАКИ ОБРАЗОВ / CODOMAIN / CHARACTERISTICS OF CODOMAINS

Аннотация научной статьи по математике, автор научной работы — Исаев Андрей Борисович, Алнадфа Антуан

Математически строго сформулирована и решена задача о наилучшем проведении прямой, разделяющей два класса образов, представляющих собой два конечных, дискретных и счетных множества, выпуклые оболочки которых не пересекаются. Для нахождения состоятельных оценок параметров разделяющей линии регрессии сконструирован итерационный алгоритм, получаемый из функции максимального правдоподобия, в предположении нормального распределения погрешностей измерений координат признаков предъявляемых двумерных образов в условиях конфлюентной ситуации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ITERATION-WEIGHTED ALGORITHM OF SEPARATION LINE FOR LINEAR REGRESSION FUNCTION IN THE PROBLEM ON CLASSIFICATION OF OBJECTS WITH CHARACTERISTICS BURDENED WITH MEASUREMENT ERRORS

The author gives mathematically rigorous formulation and solution to the problem on constructing a separation line between two classes of codomains that represent two finite, discrete and countable sets convex hulls of which do not intersect. For finding consistent estimates of parameters of the dividing line of regression, the iteration algorithm is constructed based on the function of the highest likelihood, on the assumption of normally distributed errors of measuring coordinates of characteristics of the two-dimensional codomains under confluence conditions.

Текст научной работы на тему «Итерационно-взвешенный алгоритм построения линейной разделяющей функции регрессии в задаче классификации образов, признаки которых отягощены погрешностями измерений»

- © А.Б. Исаев, А. Алнадфа, 2015

УДК 519.233.5

А.Б. Исаев, А. Алнадфа

ИТЕРАЦИОННО-ВЗВЕШЕННЫЙ АЛГОРИТМ ПОСТРОЕНИЯ ЛИНЕЙНОЙ РАЗДЕЛЯЮЩЕЙ ФУНКЦИИ РЕГРЕССИИ В ЗАДАЧЕ КЛАССИФИКАЦИИ ОБРАЗОВ, ПРИЗНАКИ КОТОРЫХ ОТЯГОЩЕНЫ ПОГРЕШНОСТЯМИ ИЗМЕРЕНИЙ

Математически строго сформулирована и решена задача о наилучшем проведении прямой, разделяющей два класса образов, представляющих собой два конечных, дискретных и счетных множества, выпуклые оболочки которых не пересекаются. Для нахождения состоятельных оценок параметров разделяющей линии регрессии сконструирован итерационный алгоритм, получаемый из функции максимального правдоподобия, в предположении нормального распределения погрешностей измерений координат признаков предъявляемых двумерных образов в условиях кон-флюентной ситуации.

Ключевые слова: истинные значения переменных, конфлюентный анализ, погрешности измерений, выпуклая оболочка, функция максимального правдоподобия, образ, признаки образов.

Основой создания алгоритмом идентификации образов в классе линейных решающих правил являются алгоритмы построения гиперплоскости, разделяющей два класса образов w1 и w2.

Известно, что процедура классификации образов может производиться как с учетом погрешностей, так и без учета погрешностей измерений их признаков предъявляемых образов. Однако, если процедура классификации образов не учитывает погрешности измерений их признаков, даже в том случае , если предполагается известным вид разделяющих (решающих) функций (поверхностей), оценки их аналитических параметров, полученные без учета погрешностей измерений их признаков, становятся не точными, т.е. сама оценка разделяющих функций (поверхности) становится не точной, смещенной, приводя к ошибкам идентификации вследствие увеличения площади зон неопределенности из-за появления случайных и систематических погрешностей у разделяющих функций [1].

В данной статье предложен алгоритм построения разделяющей линии в форме линейного уравнения регрессии У = Ь0 + ЬТX + е , состоящий из нескольких возможных вариантов постановки задачи классификации:

Вариант I. Результаты измерений признаков не сдержат погрешностей измерений (детерминированный случай).

Вариант II. Результаты измерений признаков содержат погрешности измерений только в одном признаке -

У : =п1 +е,; х? ; у? = п? +е,; х? Ц = Ш;

Вариант III. Результаты измерений признаков содержат погрешности измерений только в одном признаке -

X : у? =п1; х? + 8,; у? = п?; х? =%] + 8, (\ = Т^);

Вариант IV. Конфлюентная ситуация: присутствуют случайные погрешности измерений в результатах измерений координат как признака X, так и признака:

У : у1 = п1 + е;; х1 = Е,1 + 8;; у? =ц* + е;; х? = ^ + 8;(1 = 1, И); - нами рассмотрен

вариант IV, как наиболее общий.

Заметим, что во всех четырех вариантах случайные погрешности измерений е и 8 распределены по нормальным законам:

е ~ N(0; а?.= Ое?), 1 = 8 ~ N(0; ст?.= О8?), 1 = 1И

Предстоит оценить параметры регрессионной линейной зависимости:

М(у / х) = У = Ьо + ЬХ + е _ (1).

Вопросы построения оценок параметров для регрессии (1) ~ Ь0, Ь1 ~ таких, которые будут сохранять, по крайней мере, свои оптимальные свойства асимптотической несмещенности, эффективности или состоятельности при нарушении каких-либо основных предпосылок классического регрессионного анализа [2] на сегодняшний день чрезвычайно актуальны, особенно для задач классификации объектов различной природы.

При выполнении условий варианта IV (конфлюентная ситуация вариант IV) мы попадаем в область «робастного» оценивания, т.е. возникают проблемы построения таких оценок для параметров Ь0, Ьг регрессии (1), которые будут мало чувствительны к «засорению» выборки экспериментальных данных {х., у.} погрешностями результатов измерений типа «выбросов» (или «промахов») или, наконец, к наличию в выборке «чужих» распределений, представленных соответствующими наблюдениями. В результате, распределение выборки может быть представлено в виде смеси основного Гауссова распределения Щ(х) с другим (засоряющим) распределением Ь(х): Ре (х) = (1 -е)И(х) + еЬ(х), где е<<1, Щ(х) - плотность нормального распределения, - плотность не гауссовского распределения, Р(х) - результирующее распределение оценок выборки. На этот счет сконструировано большое количество оценок - оценок Андрюса, Хьюбе-ра, L - оценки, М - оценки, и т.д. [1].

В нашей работе рассматриваются и предлагаются оценки (обусловленные нарушением постулата об отсутствии погрешностей измерений признака по оси ОХ), робастные к присутствию погрешностей в результатах измерения независимой переменной X, т.е. х1 = Е! +8; (1 = 1,N), 8е N(0,ст?;). В этом случае, многие оценки теряют свои оптимальные свойства, становятся смещенными, несостоятельными и малоэффективными [1, 2].

Эта экспериментальная ситуация («конфлюентная» ситуация) существенно усложняет задачу построения уравнения регрессии, находящегося по всей области определения в наибольшей близости (например, в смысле евклидовой нормы 2) к неизвестной, так называемой истинной зависимости пЙ) (или же

ад.

Напомним [1, 2], что традиционные оценки метода наименьших квадратов в конфлюентной ситуации становятся «грубыми», смещенными оценками, и для частичного восстановления их утраченных оптимальных свойств применяются оценки, реализующие принцип максимального правдоподобия на основе модифицированной функции максимального правдоподобия, содержащей ин-

формацию о погрешностях измерений всех факторов - т.е. «независимой» и «зависимой» переменной в той или иной форме.

Алгоритм получения оценок и сами оценки, использованы для построения «разделяющей» линии регрессии У = Ь0 + ЬТ X + е - регрессии, построенной по каждой из выпуклых оболочек H(w1) или H(w2), причем таким точкам из разных оболочек (например, (х?,у?) е Н((х^?,у?+?) е Н(ш?) и (х?,у?) е Н№?),

(х?+?,у!?) е НЮ , которые являются «ближайшими соседями» по отношению друг к другу), см. рисунок.

Нами реализован алгоритм на основе модифицированной функции максимального правдоподобия, в предположении нормальности распределения погрешностей координат наблюдений над образами из классов w1 и w2. Перейдем к формализованной записи постановки задачи, предварительно описав содержательную сущность задачи.

Пусть необходимо построить гиперплоскость (линию), разделяющую два множества образов, w1 и w2, которые, являясь дискретными, счетными и конечными множествами, apriori не пересекаются wТ п w? = 0 .

Образуем их выпуклые оболочки - H(w1) и H(w2), наименьшие выпуклые множества, содержащие все первоначальные точки первоначального множества точек.

Определение. Два точечных (дискретных), счетных ограниченных множества 51 и 52 назовем непересекающимися, если не пересекаются их выпуклые оболочки: 5? п 5? =0 о Н(п Н(w2) = 0 .

Будем рассматривать вариант IV (см. выше) постановки задачи классификации: конфлюентная ситуация. Присутствуют погрешности измерений координат признаков Y и X:

х> = £> + 8, (, = ?N; ] = ?,?) у\ = +8, (, = ?N; ] = ?,?) 8, - N(0,8?), е, - N(0,8?);

Требуется провести разделяющую линию, которая будет являться классификатором в этом варианте, и на основании которого может быть принято достоверно (в определенном смысле) решение принадлежности предъявляемых к распознанию объектов к одному из классов: wТ V w?.

Построенная разделяющая линия должна быть оптимальной в определенном смысле. В случае варианта IV нами предлагается алгоритм построения этой линии, основанный^н<а получении оценок ее параметров Ь0, Ь? (для неизвестных «истинных» параметров Р0, Р1) с помощью модифицированной функции максимального правдоподобия, в которую введена информация о существующих погрешностях в измерениях координат признаков X и Y:

а^ 0 и 0 (, = Ш

Построенная в условиях конфлю-ентной ситуации разделяющая линия регрессии должна иметь по крайней

мере такие оптимальные статические свойства, как состоятельность и асимптотическую несмещенность (или величину смещения меньшую, чем у смещения оценок традиционного метода наименьших квадратов).

На основании этой линии должно быть принято решении о принадлежности образов классам wv w2, и ошибка принятого решения должна быть минимизирована.

При построении несмещенной и состоятельной оценки линейной связи

П = М(у / х) = Ь0 + Ь1 х + ех с помощью обычного метода наименьших квадратов минимизируется взвешенная сумма квадратов отклонений в направлении той оси

N 2 N

координат, которую измеряли с погрешностями 5л = £юу.(у1. - Ь0 - Ь1 х1) =

N 2 N 1=1 1=1

или

^ = £®и(хI - Ь0 - Ь1 у1) = £^2, где - ех., еу невязки по осям ОХ и ОУ, -

(Ь0, Ь1), (Ь0, Ь1) - соответственно две пары оценок параметров линий регрессии У на X и X на У.

В конфлюентной ситуации при одновременном существовании погрешностей измерений вдоль двух осей координат логично допустить, что одновременно должны минимизироваться суммы квадратов невязок вдоль двух осей:

N N

„2 ^„2 ,^„2

= £4 +£ „ у, что соответствует минимизации некоторой обобщенной квад-

1=1 1=1

ратичной формы

N

5Е=£{®(х;)(х; )2 + ®(у,.)(у -п)2} (2)

Логично также допустить, что наилучшие (наилучшая) прямые пройдут через «центр тяжести» экспериментальных данных {х., у.}:

N __ N

£®,-х, £®,-у,

Ё®<- Ё®<-1=1 1=1

где ю; - некоторая весовая функция.

Приняв гипотезу о нормальном распределении результатов измерений (х., у.) и их некоррелированности, получим, что обращение в максимум функции максимального правдоподобия исследуемой выборки (х1, у; N

N -1 1 N х е 2 N у - Ь - Ь 2 2

^ = 1П2па2 а2 ] 2 ехр{-2[£+ £]}

¡=1 у 2 и ах м ау (3)

по искомым оценкам параметров Ь0, Ь1 эквивалентно обращению в минимум обобщенной квадратичной формы 5Е (см. (2)), стоящей в показателе степени экспоненты (3), т.е. точки экстремума 5Е и совпадают:

= ^ = 0 (] = 1,2)

дЬ, 8Ь,

В (3), в соответствии с традициями, нами положено ю(х;) = 1 / а2 ;ю(у;) = 1 / а у , и Ь0, Ь-р ^ найдутся из системы уравнений

а^ Э5е Э5е —L = 0; —L = 0; —L = 0; ^

д^ дЬ0 дЬ1

~ [ст2 х. + Ьст2.(у. - Ьп

г _ 1 у 1 1 XIх 1 0

^ 1 = -—-2 сту + Ь, ст2,

= 0;

1=1 сту

£ (у, - Ьр - Ь,С^ = 0;

¡=1 стУ'

N 2 2

Напомним что 5е = ^Ох, (X -+ (У, - п)

О (X -^)2

1

Данная система кладется в основу итерационно-взвешенного алгоритма вычисления оценок Ь0, Ь, Ь параметров Ь0, Ь,, ^ (1 = 1, N) оптимальной разделяющей линии регрессии М(у / х,, 1 = 1, N нашей задачи.

Система (4) содержит N+2 нелинейных уравнения с N+2 неизвестными

(1=, Ь0, ь .

Опишем алгоритм вычисления оценок параметров системы. Решаем систему (4) методом последовательного приближения. Поскольку у нас N+2 уравнения с N+2 неизвестными, то возникает проблема выбора одного из известных параметров в качестве ведущего, приближения. Выберем таковым ~ и зададим его начальное приближение = х.. ^

Алгоритм решения системы (4) из N+2 нелинейных уравнений состоит в следующем: _ _

1. Задается начальное приближение ^0 = х1; (1 = 1, N). Далее подставляем заданное в оставшиеся два уравнения системы. __ __

2. Решаем полученную новую систему относительно Ь^ Ь0 , в результате чего получим первое приближение Ь(1), Ь(1) . __

3. Подставляем Ь, Ь^ в начальное приближение для ^0 для отыскания следующего приближения .

4-_Полученное Р(1) вновь подставляем в другие два уравнения и находим

Ь02), Ь12). 1 __

5. Продолжаем процедуру до тех пор, пока решение Ь(0к), Ь[к) не будет сходиться с истинным решением в рамках заранее заданной точности.

Можно показать, что итерационный процесс, сконструированный на основе уравнений^), сходится, ибо он эквивалентен итерационной процедуре получения Ь0, Ьг - взвешенного мет ода наименьших квадратов,- сходящейся, как известно [3], от любого начального приближения (^0),Ь,Ь0) при достаточно гладкой поверхности обобщенной квадратичной формы ^ (Ь0 Ьг . [2, 3]

Нами сформулировано утверждение: итерационно-взвешенный алгоритм вычисления оценок параметров линейной разделяющей функции регрессии у = Ь^ + Ь, х + е в условиях конфлюентной ситуации и нормального распределения погрешностей измерений признаков образов по осям координат OX и

OУ сходится к точке глобального минимума квадратичной формы 5Е(Ь0, Ь1,2) или внутри области определения формы 5Е, или на границе области.

Был проведен вычислительный эксперимент, моделирующий при помощи выборки реальную конфлюентную ситуацию, показавший справедливость данного утверждения и факт меньшего по величине смещения оценок параметров разделяющей линии регрессии (в среднем от двух до пяти процентов), чем у соответствующих оценок традиционного метода наименьших квадратов. Найдена их состоятельность уже при небольших объемах суммарной выборки N < 50) для двух классов образов.

_ СПИСОК ЛИТЕРАТУРЫ

1. Демиденко Е.З. Линейная и нелинейная регрессии. - М.: Финансы и статистика, 1981.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Грешилов А.А., Стакун А.А. Статистические методы принятия решений с элементами конфлюентного анализа. - М.: Радио и связь, 1998.

3. Шпапиро Л., Стокман Дж. Компьютерное зрение. - М.: Бином, 2006. ЕШ

КОРОТКО ОБ АВТОРАХ_

Алнадфа Антуан - аспирант, e-mail: antwan.tiger@gmail.com, РУДН, Исаев Андрей Борисович - профессор, e-mail: a.borisovich@mail.ru, РУДН, Финансовый университет при правительстве РФ.

UDC 519.233.5

ITERATION-WEIGHTED ALGORITHM OF SEPARATION LINE FOR LINEAR REGRESSION FUNCTION IN THE PROBLEM ON CLASSIFICATION OF OBJECTS WITH CHARACTERISTICS BURDENED WITH MEASUREMENT ERRORS

Alnadfa A., Graduate Student, e-mail: antwan.tiger@gmail.com, Peoples' Friendship University of Russia, Moscow, Russia, Isaev A.B., Professor, e-mail: a.borisovich@mail.ru, Peoples' Friendship University of Russia, Moscow, Russia

Financial University under the Government of Russian Federation, Moscow, Russia.

The author gives mathematically rigorous formulation and solution to the problem on constructing a separation line between two classes of codomains that represent two finite, discrete and countable sets convex hulls of which do not intersect.

For finding consistent estimates of parameters of the dividing line of regression, the iteration algorithm is constructed based on the function of the highest likelihood, on the assumption of normally distributed errors of measuring coordinates of characteristics of the two-dimensional codomains under confluence conditions.

Key words: true variables, confluent analysis, measurement errors, convex hull, highest likelihood function, codomain, characteristics of codomains.

REFERENCES

1. Demidenko E.Z. Lineinaya i nelineinaya regressii (Linear and nonlinear regression), Moscow, Finansy i statistika, 1981.

2. Greshilov A.A., Stakun A.A. Statisticheskie metody prinyatiya reshenii s elementami konflyuentnogo analiza (Statistical decision-making methods with elements of confluent analysis), Moscow, Radio i svyaz', 1998.

3. Shpapiro L., Stokman Dzh. Komp'yuternoe zrenie (Computer vision), Moscow, Binom, 2006.

i Надоели баннеры? Вы всегда можете отключить рекламу.