Научная статья на тему 'Модификация метода Новикова в задачах распознавания'

Модификация метода Новикова в задачах распознавания Текст научной статьи по специальности «Математика»

CC BY
102
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗАДАЧА РАСПОЗНАВАНИЯ / МЕТОД НОВИКОВА / ТЕОРИЯ ОБУЧЕНИЯ / IDENTIFICATION PROBLEM / NOVIKOFF METHOD / THEORY OF LEARNING

Аннотация научной статьи по математике, автор научной работы — Демьянов Илья Сергеевич

Рассматривается задача наглядного обучения распознаванию элементов двух множеств в конечномерных пространствах. Наглядное обучение состоит в том, что обучаемому поочередно показывают предметы (из упомянутых двух множеств) и говорят, какому из множеств они принадлежат. Задача обучаемого научиться распознавать другие предметы. Для этого он должен построить некоторое решающее правило (РП). РП обычно задается в виде функционала, по значениям которого данную точку относят к тому или другому множеству. Одним из самых простых и распространенных классов РП является класс линейных функционалов. Тогда задача распознавания состоит в том, чтобы построить гиперплоскость, разделяющую изучаемые множества. В работе подробно обсуждается случай, когда в действительности множества нельзя разделить с помощью гиперплоскости. Тогда можно ставить задачу о нахождении гиперплоскости, которая разделяет указанные множества с некоторой погрешностью. Она решается в работе при помощи метода построения «почти» разделяющей гиперплоскости, который является обобщением известного метода Новикова для случая строго разделимых множеств. Метод эффективен, если большинство точек рассматриваемых множеств строго разделяются гиперплоскостью. Библиогр. 7 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Демьянов Илья Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A modification of the Novikoff method in identification problems

The problem of identification of two sets of points in the finite dimensional space by means of visual learning is considered. In the process of Visual learning the student is shown elements (points) of the sets and is informed to which of the sets they belong. The student's problem is to learn how to identify other points. To do this it is necessary to construct some identification rule (IR). Usually an IR is given in the form of a functional whose values allow to identify the points. One of the simplest and widely used classes of IRs is the class of linear functionals. Then the identification problem is reduced to the one of constructing a hyperplane separating the sets under consideration. In the paper the case where the sets cannot be separated by a hyperplane is discussed in detail. Then it is possible to state the problem of constructing a separating hyperplane with some error. One such a case is studied in the paper and a method of constructing an "almost" separating hyperplane is proposed. The method is a modification of the Novikoff method in Learning Theory for the case of strictly separable sets. The method is effective if the bulk of the points can be strictly separated by a hyperplane.

Текст научной работы на тему «Модификация метода Новикова в задачах распознавания»

Сер. 10. 2009. Вып. 3

ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

УДК 519.3+519.7 И. С. Демьянов

МОДИФИКАЦИЯ МЕТОДА НОВИКОВА В ЗАДАЧАХ РАСПОЗНАВАНИЯ

1. Введение. Задачи распознавания образов, идентификации, классификации объектов, диагностики в технике и особенно в медицине, обработки баз экспериментальных данных являются важными с практической точки зрения и представляют значительный теоретический интерес. Для их решения имеются различные подходы. Эти задачи решаются методами теории обучения, теории распознавания образов, математической диагностики. С математической точки зрения, подобные задачи часто сводятся к задаче разделения двух или более множеств точек в конечномерных пространствах. Когда выпуклые оболочки заданных множеств не пересекаются, разделение проводится с помощью теоремы отделимости. В противном случае разделить множества точно не представляется возможным, и тогда можно ставить задачу о разделении с некоторой погрешностью. В предлагаемой работе задача разделения решается с помощью методов теории наглядного обучения.

Рассматривается задача обучения распознаванию элементов двух множеств в конечномерных пространствах. Наглядное обучение состоит в том, что обучаемому поочередно показывают предметы (из упомянутых двух множеств) и говорят, какому из множеств они принадлежат. Задача обучаемого - научиться распознавать другие предметы. Для этого он должен построить некоторое решающее правило (РП). РП обычно задается в виде функционала, по значениям которого данную точку относят к тому или другому множеству. Одним из самых простых и распространенных классов РП является класс линейных функционалов. Тогда задача распознавания состоит в том, чтобы построить гиперплоскость, разделяющую изучаемые множества.

В работе рассматривается случай, когда в действительности множества нельзя разделить с помощью гиперплоскости. Тогда можно ставить задачу о нахождении гиперплоскости, которая разделяет указанные множества с некоторой погрешностью. Один такой случай обсуждается в работе и описывается метод построения «почти» разделяющей гиперплоскости, который является обобщением известного метода Новикова для случая строго разделимых множеств. Настоящая работа представляет собой дальнейшее развитие и уточнение результатов, изложенных в [1].

Разработанный метод можно использовать и в случае, когда требуется разделить несколько множеств.

2. Постановка задачи. Пусть заданы замкнутые ограниченные множества A С К" и B С К". Требуется построить некоторое правило (называемое идентификатором или РП), с помощью которого можно идентифицировать точки множеств A и B. Для этого

Демьянов Илья Сергеевич — аспирант кафедры математической теории моделирования систем управления факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета. Научный руководитель: проф. Л. Н. Полякова. Количество опубликованных работ: 4. Научные направления: математическое моделирование, численные методы. E-mail: ilya-demyanov@bk.ru.

© И. С. Демьянов, 2009

обычно выбирается некоторый функционал ] : К" ^ К, с помощью которого идентификация проводится следующим образом: пусть с € С = А и В. Если ](с) ^ 0, то считаем, что с € А. Если же ](с) < 0, то считаем, что с € В. Если выпуклые оболочки множеств А и В не пересекаются, то по теореме отделимости можно построить такую гиперплоскость

Ь = {х € К" | г(х, I, й) = (1,х) + й = 0}

(где I € М", й € М ), что

г(а,1,й) > 0 Уа € А, г(Ь,1,й) < 0 УЬ € В.

Функцию г(х, I, й) можно выбрать в качестве РП. В этом случае говорят, что множества А и В линейно разделимы (или разделимы с помощью гиперплоскости).

Если же выпуклые оболочки множеств А и В пересекаются, то не существует гиперплоскости, разделяющей множества А и В. Тогда можно ставить задачу построения гиперплоскости, которая разделяет рассматриваемые множества с наибольшей возможной точностью. Существует много методов для построения разделяющих или приближенно разделяющих гиперплоскостей. Разделение можно проводить и с помощью поверхностей второго или более высокого порядка, причем его (см., например, [2]) тоже можно осуществить, построив гиперплоскости (только уже в пространстве более высокой размерности). Поэтому задача разделения гиперплоскостями является важной и сама по себе, и для дальнейшего ее использования при разделении с помощью гиперповерхностей. В настоящей работе исходная задача сводится вначале к задаче отделения от нуля некоторого множества (уже в пространстве на единицу большей размерности)(см. [3]). Для нее ниже предлагается обобщение метода Новикова [4] на случай, когда множества А и В линейно неразделимы.

Если множества А С М" и В С М" линейно разделимы в М", то множество С = А и В, где

А = {а = [1, а] | а € А}, В = {Ь = [—1, -Ь] | Ь € В}, отделимо от нуля в пространстве М"+1, т. е. существует Л € М"+1 такое, что

(Л,с) > 0 У с € С.

Поскольку задача разделения двух множеств сведена к задаче отделения от нуля одного множества, то далее и будем рассматривать ее (и для удобства только в пространстве М").

Итак, требуется найти вектор Л* € М" и число йо > 0 такие, что

||Л*|| = 1, (V, Л*) > йо > 0 У V € С, (1)

где С С М" - заданное множество.

Существует много методов решения этой задачи (основанных на использовании методов линейного или квадратичного программирования). Очень простой способ предложил Новиков [4] (см. также [3]). Он состоит в следующем: пусть задана последовательность точек {у1, ...,Уг,...} С С. Предположим, что

||у|| < В < Уу € С.

Будем считать также, что существуют Л* Є К" и !о > 0, удовлетворяющие (1). Положим Ло = 0", Лі = уі. Пусть уже найдено Лі є К". Возьмем Уі+і. Если (уі+і, Лі) > 0, то полагаем Лі+і = Лі; если же (уі+1, Лі) ^ 0 - то Лі+і = Лі + уі+1.

Справедлива следующая теорема Новикова (см. [3]).

Г Б2"

Теорема 1. За конечное число корректировок (равное к*, где к* ^ —¡¡у ,

1_ ¿о ]

[А] - целая часть числа А) будет найден вектор Л Є К" такой, что

(V, Л) > 0 V V Є С,

т. е. плоскость (V, Л) = 0 является разделяющей для множества С.

Очевидно, Л = Л^*, где Ьи* - номер элемента в последовательности {уі}, которому соответствовало к* корректировок. При желании нетрудно нормировать вектор Лгк* и найти Ли* и !и* такие, что

||Л£*II = 1, (у,Ли*) > !и* > 0 V у є С.

Именно, возьмем

Л*

Аь* = ндГ.Р =п1™ (уЛІ*)-

||Л^* 11 Уе°

Замечание 1. Последовательность точек можно построить таким образом, чтобы корректировка происходила при каждом к (см. замечание 3).

Замечание 2. Если 0" Є со С (где соС - выпуклая оболочка множества С),

то не существует вектора Л* Є К" и числа ¿о > 0, удовлетворяющих (1) (т. е. мно-

жество С не может быть отделено от начала координат с помощью гиперплоскости). Тогда можно ставить задачу нахождения Л* Є К" и ^* Є Я таких, что

[7*, Л*] = а^тіп{^(7, Л) | [7, Л] Є О},

где

^(7,Л) = 7, О = {7 Є Я, Л Є К" | ||Л|| = 1, (у,Л) > -7 Vy Є С}.

Если окажется ^* < 0, то множество С строго отделимо от начала координат. Для решения этой задачи тоже существуют различные методы и подходы (см. [3, 5-7]).

3. Обобщение теоpемы Новикова. Рассмотрим случай, когда существует множество Со С С, содержащее конечное (и сравнительно небольшое) количество точек, такое, что множество С \ Со является отделимым от нуля, т. е. найдутся Л* Є К" и !о > 0 такие, что

||Л*|| = 1, (у, л*) > ¿о Vy Є С \ Со. (2)

Пусть |Со| = т, где |Со| - количество точек в множестве Со. Предположим также, что

||у|| < Б< +ж Уу є С. (3)

Пусть задана последовательность попарно различных точек {уі} С С. Положим Ло = 0", Лі = уі. Пусть уже найдено Лі є К". Возьмем уі+і. Если (уі+і, Лі) > 0, то полагаем Лі+і = Лі. Если же

(Уі+і,Лі) < 0, (4)

то полагаем Лі+і = Лі + уі+і. В случае (4) из (3) имеем

||лі+іН2 = ||лі + уі+іН2 = ||ліН2 + 2(уі+ьлі) + ||уі+іН2 ^ ||Лi||2 + о2. (5)

Если уъ+1 € С \ С0, то из (2)

(Лт, Л*) = (Л + у<+1, Л*) > (Л*, Л*) + йо. (6)

Если же Уг+1 € Со, то

(Лт,Л*) = (Л* + у<+1,Л*) > (Л*,Л*) — В. (7)

Пусть уже построено Лг. Если к этому моменту произошло кг корректировок (т. е. кг

раз имело место (4)), причем тг раз выполнялось соотношение (7) (тогда кг — тг раз

имело место (6)). Из (5) (так как Л0 = 0")

||Л4||2 < кВ2. (8)

Из (6) и (7) заключаем, что

(Лг, Л*) > (кг — тг)йо — тгВ = кгйо — тг(В + йо).

Поскольку тг ^ т, то

(Лг, Л*) ^ кгйо — т(В + йо). (9)

Учитывая, что ||Л*|| = 1, имеем

(Лг, Л*) < |(Лг, Л*)| < ||Лг|| • ||Л*|| = ||Лг||.

Отсюда и из (9)

кгйо — т(В + йо) < ||Лг||. (10)

При

7. . „ _ + ао) /11Х

«о

обе части неравенства (10) будут неотрицательны, поэтому, возводя их в квадрат, из (8) получим

(Мо — т(в + йо ))2 < ||Лг||2 < кг В2. (12)

Полагая (см. (11)) из (12) имеем

(кг — а)2 — кгЬ ^ 0.

Это неравенство справедливо при кг € [к1, к2], где

к\ = — [2а + Ь — \/ 4 аЬ + Ъ2], к2 = — [2 а + 6 + \/ 4 аЬ + Ъ2],

т. е.

Ь < к2 = ТО(Д^ + щ 1 + у/1 + {В2)-Чтс10{В + с10) .

Отметим, что 32 > а, т. е. выполнено (11). Таким образом, доказана следующая

_ т(В + ¿о) г _ В2 а~ 10 ’

Теоpема 2. За конечное число к* корректировок (где к* ^ [к2]) будет найден вектор Л е М" такой, что

(v, Л) > 0 Vv е C \ йк*, (13)

где Qi = {yi, ...,ук}.

Следствие. Из (13) вытекает, что за конечное число корректировок будет найдена гиперплоскость, которая отделит множество C \ Qi* от нуля. Так как C \ Со С C \ Qi*, то эта гиперплоскость отделит и множество C \ Co от нуля. Теорема 1 есть частный случай теоремы 2 при m = 0. Единственным отличием описанного метода от метода Новикова является то, что точки последовательности {yi} попарно различны. Если исходная последовательность таким свойством не обладает, то, получив точку yi+i, при выполнении условия (4) надо вначале проверить, встречалась ли она ранее (т. е.

выполнено ли включение yi+i е Qi), и если да, то полагаем Ai+i = Ai.

Замечание 3. Построим последовательность {yi} следующим образом. Выберем произвольное yi е C. Пусть уже построена точка yk. Найдем

min (Лк, v) = (Лк,vk). (14)

ved[c\nk ]

Положим y^i = vk. Здесь, конечно, предполагается, что мы можем решить задачу

(14).

Поскольку множество Co содержит конечное число точек, то любая точка из Co может появиться не более одного раза. Хотя точки из C\ Co могут повторяться, как видно из доказательства теоремы 2, справедливость теоремы сохраняется (поскольку в данном случае для точек из C\ Co имеет место (6)). При этом, в силу (14), на каждом шаге либо происходит корректировка, либо процесс прекращается (если (Ак,'ик) > 0, то yk удовлетворяет условию теоремы, а если (Лк,vk) ^ 0, то происходит корректировка).

Замечание 4. Обычно числа m,D и d0 заранее не известны. Поэтому процедуру можно прервать на любом шаге и проверить, как разделились множества. Если полученное разделение нас не устраивает, процесс следует продолжить.

Замечание 5. Качество разделения оценивается с помощью некоторого функционала (например, процент или количество ошибочно идентифицированных точек). Если не удается получить приемлемое разделение гиперплоскостями, можно попытаться разделить множества с помощью поверхности второго (или более высокого) порядка. В этом случае задача сводится к разделению с помощью гиперплоскости в пространстве более высокого порядка, и описанный выше метод может быть применен снова.

4. Обобщение теоpемы Новикова на случай нескольких множеств. Пусть в пространстве М" заданы множества Äi,Ä2,...,Äm. Предположим, что они все могут быть разделены с помощью гиперплоскостей (такие множества называются линейно разделимыми), т. е. найдутся числа d*,...,dm и n-мерные вектора l*,...,im такие, что для всех к е 1 : m имеют место неравенства

(a, 1*к) + d^. > 0 Va е Ак,

(а,1к)* + dl < 0 Va е У Äj.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 = к

Без ограничения общности можем считать, что ||l*|| = 1 V к е 1 : m,

(а, l*) ^ do > 0 Va е Ai , (а, Ii ) ^ —do < 0 Va е U А. (15)

j^

Рассмотрим обобщение метода Новикова на случай нескольких линейно разделимых множеств. Будем строить последовательность векторов Л* = (А^,...,Хт*), где \ы € М", следующим образом. Пусть задана последовательность точек {у*} С Ц^еГт А.

^mxn

что Ук+1 € Ак. Если (уі+1, Aki) > 0, то полагаем Akji+1 = Aki• Если же

Положим Ло = (0n,..., 0n) € Rmxn. Пусть уже найдено Лі € Rmxn. Предположим,

(Уі+і, Лді) < 0, (16)

то считаем, что Л^і+і = Лы + Уі+і. Для і = к при (уі+і, Л^) < 0 возьмем Л^і+і = Л^, а при

(Уі+і,Лзі) ^ 0 (17)

положим Л^+і = Л^і — Уі+і. В случае коррекции из (16) и (17) имеем

||Лд,і+і||2 = ||Ль + Уі+і||2 = РйіН2 + 2(Уi+l, Лді) + ||Уі+і||2 ^ РйіН2 + °2,

||Л^’,і+і ||2 = ||ЛІі — yi+1||2 = РііН2 — 2(уі+і,ЛІі) + ||yi+1||2 ^ ||ЛкіН2 + °2.

После в коррекций (для к-го вектора Лк пусть это произойдет на шаге Ькз) будет (поскольку Лдо = 0")

ЦЛьк.,к||2 < вБ2. (18)

Если на ¿-том шаге точка уі+і Є Ад, то (в случае корректировки к или і) из (15)

(ЛД,і+1 , К ) = (Лкі + yi+1, Лк ) ^ (Лki, Лк ) + ¿о,

(лj,i+1, л* ) = (Л]і — yi+1, лл*) ^ (лji, лк ) + ¿о.

После в корректировок будет

(Лкікз ,лк) > в!о V к Є 1 : т. (19)

Так как

то из (19) и (20) Отсюда и из (18)

\(*кгк. ,К )1 < \\*ык. || • \\К )11 = №ык. ||, (20)

sdo < \\AkikS \\.

s2d20 < sD2. (21)

Сокращая обе части неравенства (21), получаем s ^ Чг. Таким образом, за не более

d0

d2

чем Чг корректировок по каждому множеству Ак будут найдены вектор Akt, и со-

d0 s

ответствующая ему гиперплоскость, с помощью которой множество Ак будет отделено от остальных множеств (т. е. от множества Uj=k Aj).

Литература

1. Демьянов И. С. Модификация метода Новикова в теории наглядного обучения // Процессы управления и устойчивость: Труды 36-й межвуз. науч. конференции аспирантов и студентов / под ред. Н. В. Смирнова, В. Н. Старкова. СПб.: Изд-во С.-Петерб. ун-та, 2005. C. 214-218.

2. Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and other kernel based methods. Cambridge: Cambridge University Press, 2000. 189+xi p.

3. Вапник В. Н., Чеpвоненкис А. Я. Теория распознавания образов. М.: Наука, 1974. 416 с.

4. Novikoff A. B. J. On convergence proofs on perceptrons // Proc. of the Symposium on the Mathematical Theory of Automata. Polytechnik Institute of Brooklyn. 1962. Vol. XII. P. 615—622.

5. Bagirov A. M., Rubinov A. M., Soukhoroukova N. V., Yearwood J. Unsupervised and Supervised Data Classification Via Nonsmooth and Global Optimization // TOP. 2003. Vol. 11, N 1. P. 1—93.

6. Bennett K. P., Mangasarian O. L. Robust Linear Programming Discrimination of two linearly inseparable sets // Optimization Methods and Software. 1992. Vol. 1, N 1. P. 22—34.

7. Mangasarian O. L. Misclassification Minimization // J. of Global Optimization. 1994. Vol. 5. P. 309-323.

Статья рекомендована к печати проф. Л. А. Петросяном.

Статья принята к печати 5 марта 2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.