Научная статья на тему 'МАШИНЫ, ОБУЧАЮЩИЕСЯ РАСПОЗНАВАНИЮ ОБРАЗОВ. II'

МАШИНЫ, ОБУЧАЮЩИЕСЯ РАСПОЗНАВАНИЮ ОБРАЗОВ. II Текст научной статьи по специальности «Математика»

CC BY
32
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «МАШИНЫ, ОБУЧАЮЩИЕСЯ РАСПОЗНАВАНИЮ ОБРАЗОВ. II»

2022 ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА Т. 9 (67). Вып. 1

МАТЕМАТИКА. МЕХАНИКА. АСТРОНОМИЯ

МАТЕМАТИЧЕСКИЙ АРХИВ

В. А. Якубович

МАШИНЫ, ОБУЧАЮЩИЕСЯ РАСПОЗНАВАНИЮ ОБРАЗОВ. II1

§ 5. ОБ ОДНОМ АЛГОРИФМЕ РАЗДЕЛЕНИЯ ВЫПУКЛЫХ МНОЖЕСТВ

Простейший алгорифм разделения выпуклых множеств описывается формулами (3.5), (3.7). Этот алгорифм эффективен лишь в том случае, если разделяемые множества находятся в пространстве образов достаточно далеко друг от друга и тренировочная последовательность достаточно велика. В противном случае, как показывают элементарные геометрические примеры, вырабатываемая этим алгорифмом гиперплоскость может не разделять даже образы тренировочной последовательности (рис. 3).

Рис. 3.

Основная часть алгорифма обучения состоит в определении по заданным X € X числа а и вектора а так, чтобы выполнялись неравенства

) = а + (х^-, а) > 0, Ф(х'ь) = а + (х^, а) < 0

(;' = 1,...,Ш1, Н = 1,...,Ш2). (5.1)

Этот алгорифм должен доставлять не многообразие всех решений неравенств (5.1), а какое-либо одно решение, притом такое, чтобы имела место теорема, аналогичная

1 Первая часть статьи опубликована в предыдущем выпуске журнала: Якубович В. А. Машины, обучающиеся распознаванию образов. I // Вестник Санкт-Петербургского университета. Математика. Механика. Астрономия. 2021. Т. 8(66). Вып. 4. С. 625—638. https://doi.org/10.21638/spbu01.2021.408. Нумерация глав, теорем, формул, рисунков и пр. продолжается из первой части статьи.

© Санкт-Петербургский государственный университет, 2022

теореме 1 (см. §3). Стандартные методы динамического программирования здесь, по-видимому, мало пригодны.

Предлагаемый ниже алгорифм обладает тем свойством, что вырабатываемая им гиперплоскость разделяет выпуклые замкнутые оболочки 50, 50' множеств {х'} и Другим его достоинством является возможность относительно простого тех-

нического осуществления.

Положим

Ш1 Ж2

х(о)' = ^ о, х', х''(т (5-2)

5 = 1 ь=1

где числа т^, о, подчинены условиям

0 < о, < 1, 0 < тн < 1, (5.3)

Ш1 Ш1

^О' = 1, ^ть = 1. (5.4)

/

j= i h=i

При изменении чисел aj(т^) с сохранением соотношений (5.3), (5.4) вектор x'(a)(x'' (т)) описывает выпуклую замкнутую оболочку, натянутую на точки xj (xh). Пусть2

min |x' — x"| = |x0 — x0'|, (5.5)

где

х0' = ^^ О0х'', Х0 = ^^ ТЬХЬ, (5.6)

и числа о0,т0 удовлетворяют условиям (5.3), (5.4). (Числа о°,т° и векторы х0', х0 могут определяться не единственным образом, даже если 50 П 50' = Л.)

Если множества 5' Э 50 = {х'} и 5'' Э 50 = {х^'} могут быть разделены персептроном с одним суммирующим элементом (с. э.), то, очевидно, 50 П 50' = Л. Полагая, как и выше,

— — + Xq, X'Q — XQ),

л Na

->j=1 aj aj = x0

(5.7)

(5.8)

Е1

^(х) = а + (а, х), получим, что будут выполнены соотношения

-0(х) > 0 при х € 50, ^(х) < 0 при х € 50'

и тем более соотношения (5.1). Задача, таким образом, состоит в отыскании чисел о0 ,т0.

Рассмотрим вначале случай Ш1 + Ш2 < п +1. Обозначим Ь' и Ь' ' гиперплоскости, натянутые на векторы х', х^' соответственно. Когда числа о, (т^) изменяются произвольным образом с сохранением первого (второго) соотношения (5.4) (но не соотношения (5.3)), вектор х'(о) (х''(т)) пробегает многообразие Ь' (Ь''). Хорошо известно (ниже это будет показано), что при Ш1 + Ш2 < п — 1 многообразия Ь ' и Ь '', как правило, не пересекаются3. В этом случае трудную задачу об отыскании чисел

2 По-видимому, левая часть (5.5)

должна иметь вид

| х'(а) — х" (т )| (Прим.

А. Л. Фрадкова).

3 Они располагаются примерно как две прямые в трехмерном пространстве, когда т\ = 2, т2 = 2, п = 3.

a

а0, т0 когда минимум в (5.5) берется по множеству (5.3), (5.4), можно заменить на значительно более легкую задачу отыскания чисел а0,т0, реализующих минимум между многообразиями Ь',Ь''.

Составим систему дифференциальных уравнений

где

^3 сЫ

= А,

(1тк

ИГ

= № (7 = 1,...,Ш1, Н =1,...,Ш2),

(5.9)

л- = -—+ — V —

3 ТО1 к=1 дак'

да,

1 др

¿>р х ^ . дт, Ш2 дтй

(5.10)

Р

Иаз х3

3=1

-

^=1

Будем решать эту систему в предположении, что начальные условия удовлетворяют соотношениям (5.4). Поскольку из (5.9), (5.10) следует ^ а, = 0, ^т^ = 0, то соотношения (5.4) будут выполнены тождественно.

Теорема 3. Предположим, что Ш1 + Ш2 < п +1 и что при Ш1 + Ш2 < п векторы х1,..., , х",..., х^2 линейно независимы и при т1 + т2 = п +1 отличен от нуля определитель (п + 2) х (п + 2) -матрицы

0

А= 4 х" •'* т. 2 0

1 ... 1 0 ... 0 1

0 ... 0 -1 ... -1 -1

Тогда для любого 'решения системы (5.9) такого, что начальные значения удовлетворяют (5.4), существуют пределы

(5.11)

Ит а, (£) = а0, Ит = т0,

где а0,т0 — значения, удовлетворяющие (5.4), (5.5), (5.6). При этом выполнены соотношения (5.8), где ^(х) определяется по числам а0,т0 формулами (5.6), (5.7).

Доказательство. Покажем, что многообразия Ь' и Ь'' не пересекаются и что существует единственный набор значений а0, т0, реализующий минимальное расстояние

1ШП ^р = \x\o-l ...,<)- х"(т°,..., Т°2)|

^ ,ТН

между многообразиями Ь' и Ь''. При т1 + т2 < п из равенства

Ш1 Ш2

х3 = Щ тьхь

3=1

(5.12)

=1

2

в силу линейной независимости векторов х', х^ следует о, =0, т^ = 0, что противоречит (5.4). При Ш1 + Ш2 = п + 1 соотношения (5.12), (5.4) могут быть записаны в виде Аг = 0, где г — вектор с компонентами

о1, ...,оТО1, т1, ...,тт2, 1.

Так как det А = 0, г = 0, то равенство Аз = 0 не может быть выполнено. Таким образом, многообразия Ь и Ь не пересекаются. Если

Ж1 т2

|о, | ^ ТО или |т^| ^ то,

'=1 ь=1

то р ^ то. Следовательно, существуют значения о0,т0 для которых р достигает минимума. Эти значения должны, согласно правилу Лагранжа, удовлетворять уравнениям

др др

-— = А, — = ц (] = 1,..., гп1, Ь = 1,..., т2), (5.13)

до, дтй

или в развернутой форме уравнениям

Ж1 Ж2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

XI ок (хк ,х, ) — ^к^') = Л,

/=1 /=1 Ш1 т2

(5.14)

(х/,хь) — т/(х/',хь) = М /=1 /=1

и уравнениям (5.4). Определителем системы (5.14) относительно величин о,(—т^) является определитель Грамма векторов х,, х^'. При Ш1 + Ш2 < п в силу линейной независимости векторов х, , х^ этот определитель отличен от нуля. При Ш1 + Ш2 = п + 1 систему (5.14) можно, воспользовавшись соотношениями (5.4), преобразовать к виду

ЕГ=1 К, а,) — Е Г=1 ^К^ <) = Л,

Ета / ' "\ / ''

/=1 о/ (а/,аь) — ь/=1 т/ К ,аь) = ^

где а^,...,а^1, а'/, ...,а^2 — первые т1 + т2 столбцов матрицы А. Определитель последней системы также отличен от нуля в силу линейной независимости векторов а,, а^. Таким образом, значения о0определяются единственным образом.

Уравнения (5.9) задают на многообразии (5.4) в пространстве [о1 ,...,от1, т1, ...,тт2] динамическую систему, для которой точка о0, ...,от 1, т0, ...,т^2 является, согласно соотношениям (5.13), точкой покоя. Взяв в качестве функции Ляпунова функцию У = р — ртт, найдем, что

по неравенству Шварца — Буняковского. При этом из V = 0 следует, что выполнены соотношения (5.13) для некоторых Л, м и, в силу единственности значений о0, т° что

oj-(t) = о0,ть(t) = r^0. Применяя, например, теорему 3 (см. [11]), получим утверждение теоремы относительно существования пределов (5.11).

Пусть r > 0 настолько велико, что

|xj|< r, |xh| < r (j = 0,1,...,mi; h = 0,1,...,m2), где, напомним, x0, x0' определяются формулами (5.6). Мы имеем

min |x ' — x ''| = |x0 — x0'|,

где минимум берется по всем

x ' G L0 = L' П E(|x| < r), x '' G L0 = L'' П E(|x| < r). Множества L0,L0' выпуклы. Из доказательства теоремы 1 §3 следует, что

-0(x) > 0 при x G L0, ^(x) < 0 при x G L0'.

Так как S0 с L0, S0' с L0', то тем более выполнено (5.8). Теорема доказана.

Предположение теоремы mi + m2 < n не является серьезным ограничением, так как размерность пространства образов n обычно очень велика. Поскольку образы xj, xh тренировочной последовательности выбираются наугад, то практически всегда выполнены предположения относительно определителя матрицы A или относительно линейной независимости векторов xj, xh. Тем не менее алгорифм, доставляемый теоремой 3, не является достаточно удовлетворительным. Дело в том, что при случайном выборе векторов xj, xh может оказаться, что многообразия L ' и L'' проходят близко друг от друга. В этом случае разделяющая плоскость ^(x) = 0 будет также близка к L и L и весьма вероятно, что эта плоскость пересечет множества S', S''. Таким образом, хотя плоскость ^(x) =0 по теореме 1 всегда разделит тренировочные последовательности, довольно вероятен случай, когда эта плоскость не будет разделять множества S ' и S ''4. Этот плохой случай не будет иметь место, когда

|x0 — x0| < |xj — xh| (j = 1,...,mi; h = 1,...,m2).

Проверив это неравенство, например, для выбранных наугад j и h, можно (разумеется, очень приближенно) установить, имеет ли место указанный плохой случай.

Этот недостаток явился следствием того обстоятельства, что мы заменили задачу разделения выпуклых замкнутых оболочек S0, S0' более простой задачей разделения многообразий L , L .

Рассмотрим теперь задачу разделения множеств S0,S0'.

Пусть а — какое-нибудь подмножество во множестве чисел 1,..., mi и ß — какое-нибудь подмножество во множестве чисел 1,...,m2. Обозначим m(a) (m(ß)) число элементов множества а (ß), и пусть

dp | 1 у^ dp do,- m(a)^^ dofc'

' drh + m(ß)f^ßdrk

j =

V? = -

4 Персептрон, блок обучения которого работает по алгорифму, порождаемому теоремой 3, будет безошибочно разделять образы, близкие к тренировочной последовательности, но он плохо «обобщает» — он может ошибаться, когда ему показывают образы, далекие от образов тренировочной последовательности.

Пусть Р(а1, ...,ат1; т1, ...,тт2) — какая-либо точка в многообразии Д, определяемом формулами (5.3), (5.4), а — множество индексов координат а, =0 и в — множество индексов координат тл = 0. Точку Р будем называть особой, если

р" = 0, Vе =0 для всех . € а, Н € в,

и неособой в противном случае. Отметим, что в число особых точек входят все т1 + т2 вершин

а1 = 1,а2 = 0, ...,аТО1 = 0, т1 = 0, ...,тТО2 = 0,

а1 = 0, а2 = 0, ...,аТО1 = 0, т1 = 0, ...,тТО2 = 1.

Во множестве неособых точек определим систему дифференциальных уравнений формулами5

1 . . _

а3 = -—/л," при ] £ а, dj = 0 при 2 £ а,

Яав

1 3

"4 = -—г/г при К € /3, "4 = 0 при К е /3,

(5.16)

где

£ав =

а^ 2

3еа лев

£(р" )2 + £ке )2

1/2

В особых точках определим а,, 4 согласно следующему алгорифму. Пусть

а1 = (1,..., т1), а2, аз,..., аЙ1 = а

(5.17)

(5.18)

— всевозможные подмножества множества (1, ...,т1), содержащие множество а, упорядоченные произвольным образом с сохранением условия

»(а!) > т(а2) > ... > т(аЙ1),

в1 = (1,...,т2),в2 ,вз,...,вк2 = в

(5.19)

— аналогичным образом определенные подмножества, содержащие множества в.

Пусть ао — первое из подмножеств в ряду (5.18) такое, что все р"0 > 0 при . € ао и во — первое из подмножеств в ряду (5.19) такое, что все Vе0 > 0 при Н € во. Отметим, что ао 2 а, во 2 в. В особых точках заменим систему (5.16) следующей:

—р"° при 2 £ ао, оз = 0 при

(5.20)

С « 3

Сао во

1

тл.

С

0 в0

при /г € /30, 4 = 0 при /г€/?о,

5 Отметим, что если бы мы определили систему дифференциальных уравнений формулами (5.16) во всем множестве К, то особые точки были бы точками покоя этой системы.

и

Первые части системы (5.16)—(5.20) разрывны в каждой точке Ро С Д, для которой хотя бы один из а3- или тл равен нулю.

Тем не менее легко убедиться, что для каждой такой точки Ро существует кривая, входящая в эту точку, такая, что при стремлении точки Р по кривой к точке Ро правые части системы (5.16)—(5.20) меняются непрерывно.

Под решением систем (5.16)—(5.20) будем понимать абсолютно-непрерывные функции т3-(£),ал(£), удовлетворяющие системам (5.16)—(5.20) почти всюду6.

Теорема 4. Предположим, что существует единственная точка (ао ,...,а°^ 1; то, ...,т^ 2) такая, что

шш р = р(ао,...,ат 1 ,то,...,тт 2). (5.21)

Для произвольных начальных значений

а 1 (0),...,аТО1 (0),т1(0),...,тТО2 (0),

удовлетворяющих соотношениям (5.3), (5.4), существует 'решение систем (5.16) — (5.20), удовлетворяющее при любых значениях £ соотношениям (5.3), (5.4), и число Т такое, что

а3(£) = а3о, тл(£) = т^ при £ > Т (5.22)

(? = 1,...,т1, Н = 1,...,т2).

Если ^(ж) определяется по числам а^т^ формулами (5.7), (5.6), то будут выполнены соотношения (5.8).

Замечание. Предположение теоремы о единственности точки (ао,..., т^2) практически всегда выполнено, так как векторы ж3, ж^ выбираются случайным образом. Если точка (ао, ...,т,°,2) не единственна, то справедливо утверждение теоремы с заменой (5.22) на

г[(а 1 (£), ...,тТО2 (£)); Мо] ^ 0 при £ ^ то,

где Мо — множество всех точек (а°, ...,т^2), удовлетворяющих (5.21), и г[(а1 (£),..., тт2 (£)); Мо] —расстояние от точки Р (а1 (£),..., тт2 (£)) до множества Мо.

Строгое доказательство теоремы достаточно сложно; ограничимся следующим пояснением. Введение выше множества а, ¡3 определяют грань <т3 = 0, т^ = 0, (Е а, к (Е /3 многогранника Д. Можно показать, что оптимальное движение по этой грани, при котором р уменьшается более всего, задается системой (5.16). Перемещаясь согласно системе (5.16), точка Р придет за конечное время (конечность обуславливается введением множителя £ае) в одну из особых точек Ро. Поскольку оптимальное движение по грани а, в может быть не оптимальным движением по какой-либо объемлющей грани а1 2 а, в1 2 в, то в точке Ро, вообще говоря, может не реализоваться даже локальный в Д минимум функции р. Если локального минимума нет, то система (5.20) выведет точку Р из особой и далее вступит в силу снова система (5.16). При таком движении постоянно уменьшается р. Поэтому точка Р приходит в конце концов к точке Ро, реализующей локальный минимум, который в силу свойств функции р будет общим минимумом в Д.

6 Поскольку правые части систем (5.16)—(5.20) — разрывные функции, производные ,т%, как правило, всюду не могут существовать. Отметим, что приведенное определение решения существенно отличается от определения [12].

Из этих рассуждений можно сделать еще следующий вывод. Неудобную для реализации систему (5.20) можно исключить, введя взамен следующее правило. Если точка Р0 (<710,..., тт2о) — особая, то ее следует заменить точкой Р (а! ,...,тт2) с координатами

< = <о + Д, = + Дk/,

где Д5, Д^ — какие-либо случайные, достаточно малые числа, такие, что выполнены соотношения (5.3), (5.4). Дальнейшее движение продолжается в силу системы (5.16). Если система (5.16) приведет точку Р снова в ту же точку Ро и так будет некоторое фиксированное число д раз, то полагаем

<0 = <0 , = .

Система (5.9), а также (5.16)—(5.20) или (5.16) с указанным правилом могут быть промоделированы. На вход соответствующего блока должны подаваться параметры тренировочной последовательности х!, ж2,..., х^, ж'/, ж2',..., ; выходом являются веса ассоциативных элементов (а. э.), связанных с фиксированным с. э. Этот блок является блоком обучения персептрона с одним с. э. и составной частью блока обучения для персептрона со многими с. э.

При моделировании процесса обучения на ЭВМ системы (5.9), (5.16)-(5.20) должны быть заменены какой-либо конечно-разностной схемой. Поскольку точность в этих расчетах не играет роли, можно ограничиться простейшим методом Эйлера. Система (5.9) породит тогда следующий алгорифм.

10. По заданным ж!,ж2, ...,ж^, ж'/,Ж2, ...,ж^ находим

т т

ж , ж ,

5 = 1 5 = 1

где

1 1

5 ш' 5 ш'

или определяются каким-либо иным способом, удовлетворяющим условию (5.4)7. 20. Определяем числа

а' _(ж5 ж ' — ж '') а'_ (ж" ж ' — ж '')

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

«о = х"' —

^(ж^) = а0 + а5, ^(ж^') = а0 + а^.

Если

) > 0, ) < 0 = 1, 2,..., ш), (5.23)

то ж , ж найдены удовлетворительно и вычисления на этом заканчиваются. 30. Если хотя бы одно из неравенств (5.23) не выполнено, то определяем

тт

/ 1 \"" / // 1 \- //

а = — > а,-, а = — > а,-,

ш ^—' 5 ш ^—' 5

5=1 5=1

7 Полученные х',х" соответствуют начальным значениям решения системы (5.9); они могут быть выбраны произвольно, лишь бы х' € {х^.},х'' € (х^'}.

ж ' = ж ' + т=1(а5- — а ' )ж5,

_ (5-24)

где 6 > 0 — некоторое достаточно малое число. (Контролем может служить неравенство

р-^77!2 < \х' -ж"|2.

Если это неравенство не выполнено, то число 6 нужно уменьшить.) 4°. Возвращаемся к п. 2°, беря вместо ж', ж" векторы ж', ж". Для систем (5.16)-(5.20) получается аналогичный алгорифм. Можно привести и другие, связанные с дифференциальными уравнениями алгорифмы разделения выпуклых множеств.

§ 6. РАЗДЕЛЕНИЕ ПРОИЗВОЛЬНОГО ЧИСЛА, ВООБЩЕ ГОВОРЯ, НЕВЫПУКЛЫХ МНОЖЕСТВ. БЛОК ОБУЧЕНИЯ ПЕРСЕПТРОНА СО МНОГИМИ С. Э.

Будем исходить из представления о том, что понятиям соответствуют достаточно «хорошие» множества в пространстве образов, именно множества, которые можно разбить на конечное число выпуклых ограниченных множеств8. Разумеется, это представление формально не используется в дальнейшем изложении.

Будем называть сейчас тренировочной последовательностью произвольную последовательность + ^2 образов, разбитых на две группы:

^^ ^ ж1, ж2,..., ж^!, NN ж1, ж2,..., ж^. 1.

При разделении двух множеств $1 и $ имеем М С $1, N С $2.

Предположим, что имеется алгорифм А, вырабатывающий по произвольной тренировочной последовательности линейный неоднородный функционал

-0(ж) = а + (а, ж),

такой, что множества

£[^(ж) > 0], £[^(ж) < 0]

не пусты. (В идеальном случае первое множество содержит М, а вторая последовательность — N или наоборот.) Этим алгорифмом может быть любой из описанных выше алгорифмов. Можно, например, проводить плоскость ^(ж) = 0 через середину отрезка, соединяющего центры тяжести этих множеств, ортогонально к этому отрезку, т. е. определять а, а формулами

1 1 Й2

/ _ \ " / // _ ' \ " //

ж - /,. ж - /,, 2- •''; •

5=1 5=1

и т. п.

8 Более точная формулировка: элементарному понятию соответствует множество, которое можно представить как сумму выпуклых тел, пересекающихся, может быть, лишь по границе.

Для любого конечного множества N будем обозначать

N = N П £[у>(ж) < 0], N1 = N П £[у>(ж) > 0],

Naв = (N0^; а, в = 0,1 и через будем обозначать число элементов множества N.

Будем говорить, что алгорифм А удовлетворяет условию разделения, если из тМо ^ тМ) следует, что т^о ^ rn.N1 и из тМо ^ тМ) следует mNо ^ rn.N1. (Здесь множества М и N равноправны.) Любой алгорифм можно дополнить так, чтобы полученный алгорифм удовлетворял условию разделения. Алгорифм, который мы рассматриваем ниже, может не удовлетворять условию разделения.

Рассмотрим сначала случай, когда должны быть разделены два множества $1 Э М и 52 Э N.

Алгорифм разделения множеств М и N состоит в следующем. 1о. Применяем ко множеству М, N алгорифм А, порождающий функцию ^(ж) и множества Мо, N1^ М1, N1 (М = Мо и М1, Мо П М1 = А), и аналогично для множества N.

2о. Если одно из множеств в паре Мо, N или в паре М1, N1 пусто, то запоминаем название соответствующего непустого множества.

3о. К каждой паре Мм, N с одинаковым индексом, в которой оба множества не пусты, применяем алгорифм А, порождающий функцию ^м(ж) и множества Ммо,^о,МмЬ^1.

4о. Обозначая через р полученные в п. 3о индексы (р0) или (р1), запоминаем те множества Мм(^и), для которых множество с тем же индексом пусто, и

переходим к п. 30.

Если этот процесс заканчивается, то мы получим в результате запомненные множества

м^1,М;2,...,М;г , (6.1)

Ж^,^,...,^, (6.2)

причем ни один из индексов ряда (6.1) не встречается в ряду (6.2). Процесс обязательно заканчивается, если алгорифм А удовлетворяет условию разделения. Действительно, в этом случае

max(k1, к2) тт[тоМм, тЛу < -—-,

где д — число цифр индекса р и процесс разделения потребует не более

max(k1, к2)

возвращений к п. 30.

Сопоставим каждой функции ^м(ж) логическую переменную

¡0 при ^м(ж) < 0, П,, (ж) = <

[1 при ^м(ж) > 0

и аналогично для функции ^(ж) —логическую переменную п(ж). Сопоставим далее индексу

Р = Я ^ . . Л-Ь Л = 0, 1, ^ = 1, ^ . .

функцию алгебры логики

С = п52 „Л

См = П п51,52 , • • • , п51,52 ,...,5,-1 •

Очевидно, См = См (ж).

Обозначим через [М] множество индексов в ряду (6.1), через N1 — множество индексов в ряду (6.2) и построим функции

СМ(ж) = V См(ж) (ж) = V См(ж).

ме[м ] ме[^ ]

Из изложенного следует, что

СМ (ж)С^ (ж) = 0, 1= Ст (ж) V С^ (ж) (6.3)

и

СМ (ж) = 1 при ж е М, С^ (ж) = 1 при ж е N.

Уравнения СМ (ж) = 1, С^(ж) = 1 выделяют в пространстве образов непересекающиеся полиэдры, аппроксимирующие множества $1 Э М и $2 3 N, соответствующие разделяемым понятиям. Поэтому естественно считать, что персептрон отвечает «ж е $1», если СМ(ж) = 1, и «ж е $2», если С^(ж) = 1. Согласно (6.3) любой образ будет отнесен к понятию $1 и $2 и противоречивых ответов быть не может. Разумеется, ответ может быть и неверным. Интуитивно ясно, однако, что при достаточно «хороших» множествах $1, $2, достаточно длинной тренировочной последовательности и достаточно «хорошем» обучении (хотя бы в смысле условий теоремы 1) вероятность неправильного ответа будет сколь угодно мала. Описанный алгорифм, порожденный алгорифмом А, обозначим А*.

Если допускается неполное обучение, то приведенный выше алгорифм можно закончить на некотором шаге. Кроме рядов (6.1), (6.2), мы получим ряд неразделенных множеств

Мм1, , Мм2, ^2, • • •, Ммг, • (6.5)

Множества соответствующих индексов обозначим через [М и N]. Полагая

Сми№(ж) = У См (ж),

ме[ми№ ]

получим вместо (6.3), (6.4)

См (ж)С^ (ж)Сми№ (ж) = 0, 1 = Ст (ж) V С^ (ж) V Сми№ (ж)- (6^6)

При этом, если ж е М, то См (ж) = 1; если ж е N, то С^ (ж) = 1.

Для произвольного ж ответы См (ж) = 1, С^ (ж) = 1 истолковываются, как и выше. Однако теперь возможен ответ Сми№(ж) = 1, что можно трактовать, как «не знаю». Соотношения (6.6) означают, что указанные три ответа являются взаимно исключающими и один из них обязательно последует.

Приведенный алгорифм, по-видимому, далек от оптимального. Его достоинством является, возможно, простота технической реализации. Именно, построим релейно-контактную схему, изображенную для случая шестнадцати с. э. на рис. 4.

Если соединить вершины, помеченные индексами р € [М], с вершиной £м(ж), то между вершинами * и £м(ж) реализуется функция £м(ж). Аналогично реализуются функции (ж),£ми№(ж).

Таким образом, блок обучения персептрона со многими с. э. должен: 1) по заданной тренировочной последовательности выдавать, осуществляя описанный алгорифм, веса а. э., так что реакциями с. э. будут функции

Ф(ж), фо(ж), Ф1 (ж), фофж),..., фм(ж),... (нумерация двоичным кодом);

000 Г 001 ^ 010 / 011 ^оо/ К01

0000 0001

Рис. 4.

*

2) в процессе осуществления описанного алгорифма соединять на релейно-контактной схеме вершины с индексами р € [М] с клеммой £м(ж), вершины с индексами р € N] с клеммой (ж) и в конце процесса вершины р € [М и N] с клеммой £ми№ (ж).

Перейдем теперь к случаю разделения д > 2 множеств $1, $2,..., . Пусть тренировочную последовательность образуют образы

М1 = ж1 ,ж2,...,ж'д, С $1,

М2 = ж1',ж2',...,ж'/2 с$2,

Мд

— ж1 , ж2 , . . . , жй1 С $ .

Будем для простоты предполагать, что алгорифм А удовлетворяет условию разделения.

Из различных возможных обобщений приведенного выше алгорифма рассмотрим обучение по плану:

«$1 или $2?»,

«$1 или $з?», «$2 или $з?»,

«$1 или ?», «$2 или $д?»,. . . ,«$д-1 или ?».

Применяя алгорифм А* к паре множеств М\ и Мо, получим функции и £м2(ж) = См1 (ж). Нам удобно теперь обозначить £12(ж) = £м1 (ж), £21 (ж) = £м2(ж). Точно также по множествам М1 и М3 построим функции £13(ж) и £31 (ж) и так далее.

Всего мы получим — 1) функций (ж) таких, что Сл,5' (ж) = С5ь(ж) и

С'ь(ж) = 1 при ж е М,, С^(ж) = 0 при ж е М^

Обозначая

С5 (ж) = П 5 (ж),

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

получим, что для любого ж е М1 иМ2 и • • • и Мд равенство равносильно соотношению

ж е М5 •

При этом

1 = С1(ж) V ••• V С1(ж), (6.8)

Сд (ж) • Сл. (ж) = 0 при 3 = к. (6.9)

Формулы (6.8), (6.9) показывают, что для любого ж найдется единственное з такое, что С5' (ж) = 1. В этом случае ответ персептрона интерпретируется как «ж е $».

§ 7. ОПИСАНИЕ ПРОВЕДЕННЫХ ЭКСПЕРИМЕНТОВ9

Во всех описанных ниже экспериментах обучение проводилось по простейшему алгорифму § 3.

10. Распознавание выпуклых и вогнутых функций. Ретиной является система пятидесяти равноотстоящих точек на числовой оси («рецепторные нейроны»). Образом была система 50 соответствующих ординат («кривая»). Таким образом, размерность пространства образов п = 50. Ординаты кривой брались с точностью трех восьмеричных знаков (в других терминах: каждый рецепторный нейрон ретины может находиться в 128 состояниях). Разделяемыми понятиями были «выпуклые кривые» и «вогнутые кривые». Очевидно, им соответствуют выпуклые множества $1 и $2 в пространстве образов. Тренировочная последовательность состояла из выбранных наугад десяти выпуклых и десяти вогнутых кривых, показанных на рис. 5, 6. Для распознавания была взята последовательность также выбранных наугад 15 выпуклых и 15 вогнутых кривых, показанных на рис. 7, 8. Все ответы оказались верными. Тренировочная последовательность также разделилась полностью.

20. Распознавание рукописных цифр. Ретиной является квадрат 10 х 10 см и образом — упорядоченная система 25 точек на нем. Размерность пространства образов п = 50. Координаты точек брались с точностью трех восьмеричных знаков (« 0.8 мм), что соответствует размеру ретины 128 х 128. Разделяемыми понятиями были изображения цифр 2 и 3. Как следует из теоремы 2 § 4, соответствующие множества являются выпуклыми. Тренировочная последовательность состояла из пяти изображений цифры 2 и из пяти изображений цифры 3, различных по величине, форме и расположению на экране. Из четырнадцати образов (семь двоек и семь троек) машина верно распознала двенадцать (85.8 %). Для двух ошибочных ответов

9 Автор пользуется случаем поблагодарить студентов М. Персиянову, Т. Богдарину и Н. Беляеву, проделавших большую, описанную в этом параграфе работу.

соответствующие значения ) были близки к нулю. На рис. 9, 10 показано десять изображений цифр 2 и 3 из последовательности для распознавания.

30. Распознавание профилей. Образом является упорядоченная система 50 точек на квадрате 128 мм х 128 мм, координаты которых брались с точностью трех восьмиричных знаков (« 1.0 мм). (Размер ретины снова 128 х 128, размерность пространства образов п = 100.) Разделяемыми понятиями являлись «профиль курносого

20

20

10-

0

10

20

0

10

20

Рис. 9.

Рис. 10.

лица» и «профиль лица с длинным носом». (Им соответствуют согласно § 4 приблизительно выпуклые множества.) На рис. 11,12 показаны десять типичных профилей из последовательности для распознавания. Тренировочная последовательность состояла из семи образов каждого типа и последовательность для распознавания — из 14 образов каждого типа. Машина верно отгадала 28 образов последовательности для распознавания. Тренировочная последовательность также разделилась полностью.

40. Распознавание гласных фонем. С физической точки зрения образом является звук и более точно — кривая £ (Л) (см. (4.1)). Разделяемыми понятиями были фонемы «у», произносимые различными дикторами-женщинами10.

Первоначально на каждой кривой было взято 11 точек (п = 11) с одинаковыми для всех кривых абсциссами. Это равносильно (см. § 4) распознаванию звука по одиннадцати фиксированным гармоникам. Тренировочная последовательность состояла из восьми образов «у» и восьми образов «ы». При проверке тренировочной последовательности на распознавание машина сделала три ошибки (81 % распознавания), опознав три фонемы «у» как «ы». В последовательности для распознавания, состоящей из десяти образов «у» и десяти образов «ы», машина сделала 9 ошибок, что свидетельствовало о том, что машина не обучилась распознаванию. После этой неудачи было взято 40 точек на каждой кривой. На обучение и распознавание были поданы те же последовательности. После обучения все образы обеих последовательностей были опознаны верно. На рис. 13, 14 показаны типичные кривые из последовательности для распознавания.

Были проделаны аналогичные эксперименты по распознаванию фонем «о» и «ы», «а» и «у», «о» и «а», «а» и «ы», «у» и «о».

10 Автор пользуется случаем, чтобы поблагодарить проф. Г. В. Гершуни и проф. Л. А. Чисто-вич, любезно предоставивших соответствующие графики.

20

10 -

0 20

0

10 20 0 20

10

0 20

10

20

10

10 -

20

10 20

10 20

Рис. 11.

0

0

Рис. 12.

звук [у]

200

1000

2000 Рис. 13.

3000

4000 Гц

звук [ы]

200

1000

2000 Рис. 11.

3000

4000 Гц

ЛИТЕРАТУРА11

1. Трапезников В. А. Кибернетика и автоматическое управление // Автоматика и телемеханика. Т. XXIII, №3. 1962.

2. Браверман Э. М. Опыты по обучению машины распознаванию зрительных образов // Автоматика и телемеханика. Т. XXIII, №3. 1962.

3. Браверман Э. М. Некоторые вопросы построения машин, классифицирующих объекты по не заданному заранее признаку // Автоматика и телемеханика. Т. XXI, №10. 1960.

4. Rosenblatt F. Two Theorems of Statistical Separability in the Perceptron // Simposium of the Mechanisation of Thought Processes. England, November, 1958.

5. Rosenblatt F. Perceptron Simulation Experiments // Proc. IRE. Vol.48, №3. 1960.

6. Selfridge O. G. Pandemonium: a Paradigm for Learning // Simposium of the Mechanisation of Thought Processes. England, November, 1958.

7. Харкевич А. А. Опознание образов // Радиотехника. Т. 14, №5. 1959.

8. Joseph R. D. On Predicting Perceptron Performance // IRE Intern. Convent. Rec. Vol.8, №2. 1960.

9. Глезер В. Д., ЦукерманИ.И. Информация и зрение. М.: Изд. АН СССР, 1961.

10. Варшавский Л. А., Чистович Л. А. Средние спектры русских гласных фонем // Проблемы физиологической акустики. Т. IV. 1959.

11. Якубович В. А. Об ограниченности и устойчивости в целом решений некоторых нелинейных дифференциальных уравнений // ДАНН СССР. 1958. Т. 121, №6.

12. Филиппов А. Ф. Дифференциальные уравнения с разрывной частью // Мат. сб. 1960. Т. 51 (93). Вып. 1.

11 Примечание при корректуре: см. также недавно опубликованные работы М. А. Айзермана, М. М. Бонгарда и других авторов в сборнике «Биологические аспекты кибернетики» (Изд. АН СССР, 1962) и книгу М.Глушкова «Введение в теорию самосовершенствующихся систем» (Киев, 1962).

i Надоели баннеры? Вы всегда можете отключить рекламу.