Научная статья на тему 'МАШИНЫ, ОБУЧАЮЩИЕСЯ РАСПОЗНАВАНИЮ ОБРАЗОВ. I'

МАШИНЫ, ОБУЧАЮЩИЕСЯ РАСПОЗНАВАНИЮ ОБРАЗОВ. I Текст научной статьи по специальности «Математика»

CC BY
79
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «МАШИНЫ, ОБУЧАЮЩИЕСЯ РАСПОЗНАВАНИЮ ОБРАЗОВ. I»

Вестник СПбГУ. Математика. Механика. Астрономия. 2021. Т. 8 (66). Вып. 4

В. А. Якубович

МАШИНЫ, ОБУЧАЮЩИЕСЯ РАСПОЗНАВАНИЮ ОБРАЗОВ. I

ВВЕДЕНИЕ

Будем рассматривать машины, моделирующие в определенном смысле работу каких-либо органов чувств человека и, что особенно важно, работу той части коры головного мозга, которая руководит организацией впечатлений и вырабатывает простейшие понятия, связанные с процессом распознавания образов.

Принципам построения подобных машин уделялось много внимания в литературе последних лет. Позволим себе привести выдержку из речи академика В. А. Трапезникова [1], так как вряд ли лучше поясним постановку проблемы:

«Сейчас мы находимся на пороге создания удивительных машин для изучения управляемых объектов, машин, в которые заранее не изложены алгорифм или расчетная формула для обработки информации. Имеются в виду обучаемые и самообучающиеся устройства, которые в дальнейшем смогут определить состояние системы по ряду признаков, которые человек либо вовсе не способен оценить, либо оценивает лишь подсознательно. Это позволит вести процесс управления при неполной информации, упрощая тем самым ее сбор.

Один из наиболее интересных процессов обучения — это процесс обучения распознаванию зрительных образов. Образом называется восприятие, которое человек относит к определенной группе, умеет распознать его, отнести именно к этой группе, хотя может быть никогда раньше данный представитель группы ему не встречался. Так, например, буква «А» есть образ, потому что начертания этой буквы, написанные разными почерками, воспринимаются как буква «А». Другими примерами образов являются понятия: «мужской портрет», «цифра 1» и т.д.

Имитация процесса обучения является одной из важных проблем кибернетики, если иметь в виду дальнейшее приближение функций машин к функциям живого мозга.

В связи с этим за последние годы в мировой литературе появилось много работ, касающихся устройств для распознавания образов, так называемых «персептронов».

Как же происходит процесс обучения? Можно представить себе, что учитель, который уже умеет различать эти образы, продумывает систему признаков — своеобразную программу, при помощи которой можно распознать буквы или другие образы, и передает эту программу ученику. Такой подход имитируется во многих

© Санкт-Петербургский государственный университет, 2021

разрабатываемых сейчас машинах для чтения печатных или письменных букв. В подобном процессе обучения дело сводится к выработке признаков для включения их в хорошо продуманную программу.

Существует, однако, другой подход к процессу обучения, значительно более интересный с точки зрения его имитации в машине. Учитель, не пытаясь вырабатывать признаки и объяснять, как надо различать буквы, показывает ученикам по нескольку представителей букв и говорит, какие это буквы. Очень скоро ученики начинают уверенно отличать буквы, хотя признаки букв или программы для их распознавания ученикам не были переданы»1.

Автору известны статьи [1-7] по теме настоящей работы, от которых данная статья отличается большим уклоном в сторону математики, а также математическая работа [8]. Читатель обнаружит с самого начала некоторые различия в точках зрения.

Имея в виду читателя-нематематика, мы подробно проводили доказательства некоторых элементарных предложений.

§ 1. ПРИНЦИПИАЛЬНАЯ СХЕМА ПЕРСЕПТРОНА

Пусть X — некоторое множество, элементы которого будем называть образами; пусть 51, $2, •••, Б^^ — какие-то его непересекающиеся подмножества (элементарные понятия), которым сопоставлены символы £1,^2, •••,£к («названия» понятий) из некоторого алфавита. Например, все возможные изображения на сетчатке глаза (мы отвлекаемся от различия изображений в двух глазах) образуют множество зрительных образов, а всевозможные изображения, возникающие, когда мы видим букву А, образуют элементарное понятие «изображение буквы А».

Будем называть персептроном машину, функционирующую следующим образом:

1) на вход машины подаются образы — элементы множества X,

2) машина имеет конечное число к выходов («ответов») ,

3) учитель, которым может быть человек, природа или другая машина, подает на вход некоторую конечную последовательность («тренировочную последовательность») образов х^ = 1, 2, •••, т) из подмножества Бг (г = 1, 2, •••, к) и соответствующие ответы £ ~ Бг э х^; тем самым учитель сообщает машине, какому подмножеству Бг принадлежит показанный элемент. Этот процесс будем называть процессом обучения машины2 ,

4) после окончания обучения машина должна на каждый вход х € Бг выдавать ответ £ или во всяком случае ошибаться достаточно редко,

5) подмножества Бг никак не связаны с конструкцией машины, они могут быть произвольными из некоторой достаточно широкой системы подмножеств.

1 Отметим, что цитированная речь так же, как работа [2], стала известна автору, когда настоящая статья оформлялась к печати. Мы пользуемся в дальнейшем иной, может быть не очень удачной терминологией. Мы называем «образом» вход в машину (фиксированное изображение на сетчатке глаза и т.п.). Множество образов, объединенных некоторыми признаками («образ» в смысле акад. В.А.Трапезникова), мы называем элементарным понятием.

2 Сопоставление ~ & считается либо осуществленным заранее, либо его осуществляет учитель. Описанный способ обучения называется обучением с поощрением. Относительно обучения без поощрения, когда нет учителя и, следовательно, в машину не поступает информация о том, каков должен быть ответ, смотри [3], [4]. По-видимому, обучение без поощрения основывается на том, что показываемые образы в множестве X, которое естественно считать топологическим пространством, группируются в некоторые «кучи» Si. Ниже рассматривается лишь обучение с поощрением.

Уточняя сказанное, будем считать данными:

1) множество образов X = {х},

2) некоторую систему Я = {Б} его подмножеств (элементарные понятия),

3) множество и = {и}, элементы которого будем называть параметры, и

4) конечное множество Z = {£1,^2, ...,£к} — алфавит «выходов» или «ответов».

С математической точки зрения персептрон описывается функцией £ = /(х,и),

осуществляющей отображение множества X х и на множество Z, и некоторым определенным ниже «алгорифмом обучения».

С технической точки зрения персептрон — машина, которая может работать в двух режимах — в режиме распознавания и в режиме обучения и состоит из двух блоков: блока распознавания (БР) и блока обучения (БО).

В режиме распознавания работает лишь блок распознавания; параметр и фиксирован, на вход персептрона подается образ х € X, выходом является ответ £ = / (х,и).

В режиме обучения на вход персептрона подается тренировочная последовательность образов из и™! Бг. Эта последовательность подается на входы БО и БР (рис. 1). Кроме того, на вход БО подается информация о состоянии БР после подачи каждого из образов тренировочной последовательности и поступающая от «учителя» информация о том, какому из множеств Бг принадлежит каждый образ тренировочной последовательности. Эта информация перерабатывается в БО, после чего БО выдает значения параметра и, поступающие в БР.

Процесс повторяется некоторое число N раз, после чего обучение считается законченным. (Возможно, что N =1; тренировочная последовательность при повторениях может меняться.)

Рис. 1.

Алгорифм определения нового значения параметра и по старому значению и по последовательности {х\,£г1}, {х2,£г2},..., {хт,£гп}, в которой хи € Би ~ £гк (к = 1, 2, ...,п), будем называть алгорифмом обучения.

Образы тренировочной последовательности выбираются из множеств Бг случайным образом согласно некоторому распределению вероятностей.

Схема персептрона должна быть таковой, что вероятность каждого из т равенств

/(х, и) = при х € Бг (г = 1, 2, ..., т)

сколь угодно близка к единице, если параметр и выбран применением алгоритма обучения по достаточно длинной тренировочной последовательности и, возможно, при достаточно большом числе N повторений алгорифма обучения.

§ 2. СХЕМА БЛОКА РАСПОЗНАВАНИЯ. ЛИНЕЙНЫЙ ПЕРСЕПТРОН

Будем считать, что БР состоит из четырех частей: 1) ретины, 2) ассоциативной части, 3) суммирующей части и 4) логической части.

В обычных конструкциях [4-7] ретиной называется конечный набор элементов («рецепторные нейроны»), каждый из которых может находиться обычно в двух состояниях (состояние возбуждения и состояние торможения) или в нескольких состояниях. Состоянием ретины является набор состояний каждого рецепторного нейрона. Образ поступает на ретину и переводит ее в определенное состояние. Будем ниже отождествлять образы х € X с состояниями ретины.

Вторая ступень персептрона — набор Na ассоциативных элементов (а. э.). Каждый а. э. связан некоторым образом с ретиной. С математической точки зрения важно лишь, что каждому а. э. соответствует некоторая вещественная функция ф) (х) на X, называемая реакцией ]-го а. э. на образ X.

Третья ступень персептрона — набор Ns суммирующих элементов (с. э.). Каждый с. э. связан, вообще говоря, с каждым а. э. Суммирующему элементу с номером Н соответствует система Na + 1 чисел («весов») а(н), сО^^ = 1, 2, • ••, N0,). В ответ на образ х с. э. выдает значение

фн(х) = а)Н) Ф) (х),

3 = 1

называемое реакцией с. э. на образ х. Набор весов {а)} Н = 1,] = 0,1, •••, Na, задается блоком обучения.

Сопоставим каждому с. э. логическую переменную П):

П = [°, если Ф) < (2-1)

I 1, если ф) ^ 0.

Последняя, логическая ступень БР персептрона реализует к логических функций £ = (п1, П2, •■•, ) (г = 1, 2, •••, к), где число т равно числу выходов БР. Эти логические функции не заданы заранее: они формируются блоком обучения.

Так как значения П) определяются образом х, то и фг является функцией х. Считаем, что на образ х персептрон выдает ответ если значение соответствующей функции £ = 1. Будем говорить, что персептрон разделяет множества Бг, если 1) каждому Бг сопоставлена переменная хгг и 2) из х € Бн следует, что

£н(х) = 1, £г(х) = 0 при г = Н. (2.2)

Однозначность ответа означает, что функции £ должны удовлетворять условию:

если £н = 1, то £ =0 при г = Н•

Однако, удобно расширяя определение §1, можно отказаться от условия (2.2) и интерпретировать ответы следующим образом:

& = 0 означает, что х е

Тогда, например, ответ

£1 = 1, £2 = 0, £з = 1, £4 = 1,...,£и =0

будет означать, что х € Б1 и Б3 и Б4. Поскольку множества Б1 по условию не пересекаются, подобные ответы свидетельствуют, что персептрон недостаточно хорошо «обучен».

Из изложенного следует, что параметрами персептрона, которые может менять блок обучения, являются веса а. э. и параметры, задающие логическую функцию £г.

Для дальнейшего важную роль играет понятие линейного персептрона.

Определение 1. Персептрон называется линейным, если

1) множество образов — евклидово или вещественное гильбертово пространство,

2) реакции ассоциативных элементов на образ — линейные функционалы.

Условие 1 не является серьезным ограничением. Зрительные образы можно

трактовать как функции двух переменных, звуки — как функции одной переменной. В обоих случаях это элементы подходящего гильбертова пространства или, имея в виду ограниченную точность, элементы евклидова пространства. (На самом деле при техническом осуществлении это конечное множество, некоторая е-сеть ограниченной части евклидова пространства.)

По-видимому, бесспорно, что человек имеет представление о близости воспринимаемых образов. Таким образом, множество образов X — во всяком случае топологическое пространство. Естественно рассмотреть вначале предположение, что X — гильбертово или евклидово пространство.

Условие 2 совсем не обязательно. В персептронах Розенблатта [4, 5], Джозефа [8] а. э. являются пороговые элементы, т.е. условие 2 не выполнено. Автору, однако, неясны преимущества нелинейных персептронов. Последовательной теории нелинейных персептронов нет. Мы убедимся сейчас, что линейность делает понятными основные принципы работы персептрона (см. также [3] с очень близкой трактовкой).

Для линейного персептрона каждому а. э. соответствует вектор aj € X так, что ф^(х) = (x,aj), ] = 1, 2,...^а. Каждому с. э. соответствует плоскость фн(х) =0 в пространстве образов.

Естественно предполагать, что множества Бг не «патологические», именно что их можно разделить конечной системой плоскостей. Более точно:

Определение 2. Непересекающиеся множества Бг С X (г = 1, 2,..., к) будем называть допустимыми, если каждое из Бг компактно и существует набор плоскостей фн(х) = + (а(н\х) = 0 (к = 1, 2,...,^) и набор к логических функций £г(п1 ,П2, ...,пКв) (г = 1, 2,..., т) таких, что из х € Бк следует £к = 1, £г = 0 (г = к), причем логические переменные П1,П2, ...,п^3 определяются формулами (2.1).

Рассмотрим вначале случай, когда X является п-мерным евклидовым пространством. Плоскости

N

фн(х) = а^ а^а, х) = 0 j=l

смогут принимать произвольное положение за счет выбора весов а)н), если выполнено следующее условие:

(А) Число ассоциативных элементов N.. > п, где п — размерность пространства образов X; среди N. функций ф) (х) = (а) ,х) найдутся п линейно независимых.

При выполнении сформулированного условия для всякой допустимой системы множеств Бг можно, очевидно, подобрать веса а. э. и логические функции так, чтобы персептрон разделял эти множества.

В случае, когда X — гильбертово пространство, разделение множеств можно получить лишь при достаточно большом N. и при условии, что векторы а) € X, соответствующие а. э., образуют в пределе (при N. — ж) полную систему. В практических реализациях N. конечно и определяется необходимой точностью восприятия.

Таким образом, для линейного персептрона теорема существования тривиальна и обеспечивается основными предположениями3.

§ 3. ПЕРСЕПТРОН С ОДНИМ СУММИРУЮЩИМ ЭЛЕМЕНТОМ

Для разделения двух множеств может служить персептрон с одним с. э. Логическая часть в этом случае отсутствует; два возможных ответа соответствуют двум знакам реакций с. э.:

Na

ф(х) = ао + а) (а), x)• )=1

Очевидно, не всякие два множества могут быть разделены. К числу множеств, которые могут быть разделены персептроном с одним с. э., относятся выпуклые множества.

Лемма 1. Предположим, что Б1 и Б2 — выпуклые, компактные множества в гильбертовом или евклидовом пространстве X, замыкания которых не пересекаются. Тогда

1) существует неоднородный линейный функционал

ф(х) = а + (а, х)

такой, что

ф(х) > 0 при х € Б1, ф(х) < 0 при х € Б2;

3 Для нелинейного персептрона, например типа «Розенблатта» [4, 5], является совсем неясной даже принципиальная возможность разделения. Теорема Джозефа [8] о разделении для персептрона Розенблатта доказана в предположении, что число Ма достаточно велико, а образы подчинены некоторому условию «положительности», проверить которое невозможно и которое, по существу, содержит утверждение теоремы. Если рассматривать персептрон Розенблатта как «испорченный» линейный персептрон, то делается понятной принципиальная возможность разделения некоторых простейших, но далеко не всяких типов образов. С этой точки зрения делается понятной также случайность связей а.э. с ретиной в персептроне Розенблатта — эта случайность обеспечивает линейную независимость векторов а^. Отметим еще, что в отличие от теоремы Джозефа, которая утверждает, что вероятность разделения стремится к единице при Ма ^ те, для линейного персептрона увеличение Ма сверх некоторого, определенного типом ретины значения, бесполезно.

(31)

2) существует число а > 0 такое, что для любых а', а! таких, что \а — а'\ < а, \а — а'\ < а, соотношения (3.1) будут выполнены также для ф(х) = ф'(х) = а' + (а', х).

Доказательство. Из выпуклости множества Б = (] = 1,2) следует выпуклость замыкания Б. Действительно, пусть х' € Б, х" € Б. Найдутся последовательности х'п € Б,х'П € Б такие, что х'п ^ х',х'П ^ х'' при п ^то. Поэтому для любого Ь (0 < Ь < 1)

п — п \ (1 £) у ^ ^х — \ (1 £) ^х .

Так как хп € Б, то х € Б, т. е. Б выпукло.

Поскольку ¿>1 и Б2 являются компактами, компактом будет и множество Б±х Б2. Из непрерывности функции

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

р(х1,х2) = \х1 — х2 \ на 51! х следует существование

х' е ~Б1, х" е

таких, что Положим4

Мы имеем Покажем, что

1п1Х1ёз;,х2ёз;\х1 ~х21 = \х' -х"\. (3.2)

х' \ х''

ф(х) = \ х----, х — х . (3-3)

ф{х') = ^х' - х"\2 > 0, ф(х") = - х"\2 < 0.

ф(х) > 0 при х € ¿>1, ф(х) < 0 при х € Б2,

(3.4)

откуда будет следовать выполнение (3.1).

Предположим, что нарушается первое неравенство (3.4). Тогда существует образ х € ¿>1 такой, что ф(хо) < 0. Покажем, что тогда нарушается (3.2). Из выпуклости ¿>1 следует, что

х(г) = гх' + (1 - г)х0 е Ж при о < ^ < 1.

Определим ¿о из условия

(х(£о) — х'', хо — х') = 0,

т. е.

(хо — х', хо — х'') \хо — х'\2

Если ¿о < 0, то из соотношения

\х' — х''\2 = \х' — хо\2 — 2го\х' — хо\2 + \хо — х''\2

4 Уравнение ф(х) = 0 является уравнением гиперплоскости, ортогональной к вектору х' — х" и проходящей через середину отрезка, соединяющего х' и х''.

выводим, что \хо — х"\ < \х' — х"\. Так как теперь ж(£о) € ¿'ь мы снова приходим к противоречию с (3.2).

Наконец, если ^ > 1, то

(хо — х', хо — х") > (хо — х', хо — х')

или

(хо — х', х' — х'') > 0,

т. е.

ф(хо) = ф(х') + (хо — х', х' — х'')•

Последнее предположение невозможно по определению.

Таким образом, нарушение первого неравенства (3.4) ведет к противоречию. Аналогично проверяется выполнение второго неравенства (3.4).

Переходим к доказательству утверждения 2 теоремы. Предполагая противное, получим, что существует ап,ап,

ап — а, ап — а при п — ж

такие, что для

фп(х) = ап + (ап, х)

нарушается (3.1). По крайней мере одно из неравенств (3.1), например первое, нарушается для бесконечного числа значений п: фп(хп) < 0 для хп € Б1. Выделяя, в силу компактности, сходящуюся подпоследовательность, получим

хПк ->• X* е 5Ь Фпк(хПк) ->• последовательно, ф(х*) < 0, что противоречит (3.4). Тем самым мы доказали справедливость утверждения 2.

Замечание. Утверждение 2 несправедливо для некомпактных множеств Б1,Б2. Чтобы убедится в этом, достаточно, например, в качестве Б1 взять выпуклое множество, ограниченное на плоскости п ветвь гиперболы = 1, £ > 0 ив качестве Б2 — область, симметричную Б1 относительно оси

Определение 2. Будем называть выпуклым телом в гильбертовом или евклидовом пространстве выпуклое множество, содержащее хотя бы одну внутреннюю точку.

Теорема 1. Пусть Б1,Б2 — непересекающиеся компактные выпуклые тела в гильбертовом или евклидовом пространстве X.

Предположим, что из множества Б1 выбираются случайным и независимым образом элементы х'1,х'2, •••, х'т и из множества Б2 — элементы х'-!^,х'21,...,х'т . Предположим, что какова бы ни была внутренняя точка х' € Б1 и какова бы ни была ее окрестность, целиком содержащаяся в Б1, вероятность того, что точка х) будет выбрана в этой окрестности, не зависит от ] и > 0. Предположим также, что аналогичное утверждение справедливо для множества Б2.

шт \х) — х'Ц = \х'г — х'' \ (3.5)

Пусть

и Рт1 ,т2 означает вероятность выполнения соотношения (3.1) для

ф(х)=[х--г ^ % х'г ~ х"з ) • (3-6)

Тогда Рт1,т2 — 1 при шт(т1, т2) — +ж.

Эта теорема показывает, что персептрон с одним с. э. будет разделять множества Б1, Б2, если: 1) Б1 и Б2 являются выпуклыми телами, 2) веса а. э. выбираются согласно соотношениям

«О о(жг 7 Хг (о 7\

(3.7)

Е^ а __, _

)_1 а) а) — хг х

)_1 а) а) ■

и 3) тренировочная последовательность достаточно велика. Соотношения (3.5), (3.7) задают простейший алгорифм обучения.

Лемма 2. Пусть М — выпуклое тело, хо — внутренняя и г — граничная точка М. Тогда отрезок х(Ь) = Ьг + (1 — Ь)хо при 0 < I < 1 состоит из внутренних точек М.

Доказательство леммы 2. Пусть х(Ьо) (0 < Ь < 1) не является внутренней точкой М. Тогда существуют последовательности гп € М, ж„бМ, гп —>■ г, хп —> х{Ьо) при п — ж. Очевидно

/ Хп — , г

так как в противном случае мы получили бы, что хп = Ьог + (1 — Ьо)х'п € М. Поскольку

хп >■

мы получаем, что хо не является внутренней точкой. Лемма доказана.

Доказательство теоремы 1. Пусть х',х'' — образы, удовлетворяющие соотношению (3.2), и ф(х) определяется равенством (3.3). Тогда, как мы видели выше, выполнено (3.1). По пункту 2 теоремы 1 существует е > 0 такое, что для любых х'о,х'о, удовлетворяющих неравенствам

\х' — х'о \ < е, \х'' — хо'\ < е, (3.8)

соотношение (3.1) выполнено также для функции

Фо (х) =

хо + хо / II

2

Пусть х' € Б1 — какая-либо внутренняя точка в Б1 и хо = х' — какая-либо точка, лежащая на отрезке, соединяющем х' и х', и внутри е-окрестности точки х'. Так как х', очевидно, — граничная точка множества Б1, то хо будет по лемме 1 внутренней

точкой множества Б1. Найдем аналогичным образом точку хо' € Б2, внутреннюю во множестве Б2 и удовлетворяющую второму неравенству (3.8).

Обозначим О' и О'' окрестности точек хо и хо' соответственно, содержащиеся в е-окрестности этих точек и такие, что О' С Б1, О'' С Б2.

Пусть р1 > 0,р2 > 0 — вероятности попадания случайной точки в окрестности О' и О''. Вероятность того, что хотя бы одна из точек хУ попала в О' и хотя бы одна из точек х'ь попала в О'', есть

(1 — д?1 )(1 — д?2),

где д^ = 1 — ру (2 = 1, 2). Поскольку при этом будет выполнено (3.1) для функции (3.5), то

рт1 р > (1 — д?)(1 — д?2)

и утверждение теоремы доказано.

§4. ПОНЯТИЯ, КОТОРЫЕ МОЖЕТ РАЗДЕЛЯТЬ ПЕРСЕПТРОН С ОДНИМ СУММИРУЮЩИМ ЭЛЕМЕНТОМ

Для того чтобы понятия разделялись персептроном с одним суммирующим элементом, достаточно, чтобы при введении подходящего пространства образов соответствующие множества были выпуклыми. Необходимое и достаточное условие состоит в том, чтобы не пересекались выпуклые оболочки соответствующих множеств.

Гласные фонемы (а возможно, и согласные) являются понятиями, удовлетворяющими первому условию. Мы исходим здесь из интуитивного представления о том, что звук «О» остается звуком «О» при увеличении или уменьшении громкости звучания и что при одновременном произношении звука «О» полученный звук также будет звуком «О». В переводе на математический язык наше утверждение выглядит так. Образом (звуком) длительности Т называется функция из Ь2(0,Т)

/ + Ж

£(\)вш¿X (£(\) > 0) (4.1)

(представляющая запись в каких-либо единицах этого звука на ленте идеального магнитофона).

Звукам, отличающимся лишь громкостью, будут соответствовать функции ф(Ь) и Кф(Ь), отличающиеся лишь мультипликативной постоянной. Если произносятся одновременно два звука Ф1 (Ь) и Ф2 (£), то воспринимается ф^Ь) + Ф2 (¿). Мы утверждали выше, что звуки ф1(Ь) и Ф2(¿) принадлежат одной фонеме, той же фонеме принадлежит звук аф1 (¿) + вф2(Ь), где а > 0,в > 0,а + в = 1.

Принадлежность звука определенной фонеме удобнее определять в терминах спектральной плотности £(Х). Характер спектральных плотностей для различных фонем определен в работе [10].

Поскольку преобразование (4.1) является линейным, в гильбертовом пространстве Н = £(Х) гласным фонемам будут также соответствовать выпуклые множества. Таким образом, определению гласных фонем может быть обучен персептрон с одним с. э., на выход которого вместо звуков подаются соответствующие спектральные плотности. Это же справедливо в отношении звучаний слов (элементарным понятием является множество звуков, соответствующее фиксированному слову). Подчеркнем, что мы имеем в виду здесь «нормальное» звучание, начинающееся в момент

t = 0 и заканчивающееся в момент t = Т и без нарочитого растяжения отдельных слогов. (Это условие может, конечно, выполняться приближенно.) Для разделения двух множеств, соответствующих словам, когда в каждое множество включаются звуки различной длительности, нужен персептрон со многими с. э.

Аппроксимируя функции ф(Ь] G Ь2(0,Т) тригонометрическими полиномами

N

= ^ j cos Xj t (j > 0),

j=i

получим N-мерное пространство образов (частоты Xj предполагаются фиксированными). Число N определяется требуемой точностью воспроизведения звука. Таким образом, для того чтобы персептрон разделял фонемы не хуже, чем ухо человека, число а. э. персептрона, которое, как было показано выше, также равно N, должно быть равно числу гармоник, которое может различать ухо человека.

Переходя к обонянию, предположим, что каждому запаху соответствует некоторая, может быть, векторная функция на поле рецепторных нейронов. Предположим далее, что одновременно воспринимаемым запахам соответствуют суммы функций, а запахам, отличающимся лишь «разной силой», соответствуют функции, отличающиеся численным множителем, пропорциональным «силе запаха». Если эти предположения справедливы, то понятиям, объединяющим однотипные запахи (таким как «запах ландыша», «запах резеды»), соответствуют выпуклые множества и, следовательно, разделению подобных запахов может быть обучен персептрон с одним с. э.

Значительно сложнее обстоит дело со зрительными образами. Отвлекаясь от различия изображения в различных глазах и считая для простоты, что воспринимаются лишь черно-белые изображения, нарисованные на экране, получим, что зрительным образом можно считать вещественную функцию, заданную на экране. При такой естественной трактовке в соответствующем гильбертовом пространстве образов таким простым понятиям, как «изображение буквы А», соответствуют, очевидно, невыпуклые множества. В этом пространстве выпуклые множества соответствуют лишь совсем простым понятиям, таким как «светлое пятно», «темное пятно», «темное пятно в левой стороне экрана» и т. п.5

Рассмотрим теперь случай, когда образом является контурный рисунок. Заменяя контур системой точек, будем считать, что образом является упорядоченная система к точек на плоскости6. Вводя сложение и умножение на числа по компонентам, превратим пространство образов X в 2к-мерное евклидово пространство. Пусть M = — какое-либо множество M + п = С + П, т. е. множество точек, полученное из M сдвигом на вектор п. При этом M = M(0). Следующая теорема доставляет широкий класс выпуклых множеств в пространстве X.

Теорема 2. Предположим, что M\, M2,... — конечная система выпуклых множеств на плоскости. Тогда множество S С X образов x = ...,Ck), опреде-

5 Эти пятна притом не должны быть слишком яркими — соответствующие интенсивности окраски должны быть выпуклыми или вогнутыми функциями.

6 Недостатком такой трактовки является аксиоматизация упорядоченности точек образа. Без упорядоченности, однако, пространство не будет линейным. Впрочем, для широкого класса образов (профиль человека) упорядочение точек может быть просто произведено.

ленное соотношениями

£1 € М1(0), £2 € М2(0) П Ыз(&), £з € М4(0) П М5(£1) П Мв(6),

(4.2)

является выпуклым. Если, кроме того, каждое из множеств Ы^ содержит хотя бы одну внутреннюю точку, то множество Б является выпуклым телом.

Доказательство. Второе утверждение теоремы очевидно. Пусть хЛ) = (£(Л,..., к) € Б (3 = 1, 2). Согласно (4.2), имеем

£Л) € Ы1 (0), € Ы2 (0), - £Л) € Ыз(0),

€ Ы4(0), £3Л - £1Л € Ы5(0), £3Л - £2Л € Ыб(0),... .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Используя выпуклость множеств Ы1(0), Ы2(0),..., получим для любых а > 0, в > 0,

а + в =1:

£1 = а£(1) + в£(2) € Ы1(0), £2 = а£(1) + в£(2) € Ы2(0),

с(з) Л

(Л АЛ

£2 - £1 € Ыз(0), £з = а£31) + в£Г € Ы4(0), £з - £1 € Ы5(0),... .

(2)

Это означает, что для чисел ^ = а£(1) + в£к' выполнены соотношения (4.2). Таким образом, х = ах(1) + вх(2) € Б, что и требовалось доказать.

(2)

Рис. 2.

Отметим, что некоторые из множеств Ыл могут совпадать с плоскостью, тогда в формуле (4.2) эти множества просто не будут фигурировать. Такие понятия, как «изображение цифры 2», «профиль лица человека», «профиль мужского лица с толстым носом», можно задать формулой (4.2), подбирая некоторым образом выпуклые множества Ыл. Рис.2 поясняет это на примере понятия «изображение цифры 2». Множества Ыл имеют указанный на рис. 2 вид, а цепочка включений (4.2) в других обозначениях является следующей:

£1 € Ыо, £2 € Ы1(£1) П Ыо,

£з € М2(6) n Mo,

£б € M7(&) n Mo, £9 € Ms(b) n Mg(^i) n Mo, £10 € Mio(£9) n Mo,

£i2 € Mi2(£ii) n Mo.

Здесь Mo является экраном. Теорема показывает, что подобным понятиям отвечают выпуклые множества'.

Интересно отметить, имеются некоторые данные [9], что зрительная система человека производит декорреляцию изображения, выделяя на уровне ганглиозных клеток основные контуры из полного изображения.

В заключение этого параграфа отметим, что различные математические идеализации для «реально» одних и тех же образов приводят к совершенно различным, с инженерной точки зрения, принципам построения персептрона.

Предположим теперь, что понятие S допустимой системы инвариантно относительно некоторых преобразований. Например, каждое понятие из системы «изображения буквы и цифры» инвариантно относительно плоско-параллельного сдвига изображения и относительно подобного увеличения или уменьшения изображения.

В этом случае естественно заложить в конструкцию персептрона требование, чтобы реакция каждого ассоциативного элемента, а значит и всего персептрона на произвольный образ, не изменялась бы, когда образ подвергается заданным преобразованиям.

Мы рассмотрим случай, когда в пространстве образов имеется подпространство Zo, конечномерное и для простоты такое, что для любого понятия S допустимой системы и произвольного z € Z из х € X следует х + z € S. (Понятия S инвариантны относительно сдвигов вдоль подпространства Zo.)

Пусть zi, ...,zp — ортогональный базис в Zo и Y — ортогональное дополнение подпространства Zo.

Если ф(х) = а + (a,x) разделяет Si и S2, т. е. выполнено (3.1), то, как легко проверить, a € Y. Поэтому ассоциативные элементы aj без ограничения возможностей персептрона можно брать из Y. Если n — размерность пространства образов, то для числа ассоциативных элементов мы получаем неравенство

Na > n - p. (4.3)

Для произвольного х получим

p

х=х pj zj, (44) j=i

7 Выделение соответствующих множеств по заданному понятию может быть непосильной задачей. Однако правдоподобной является гипотеза, что эти множества существуют даже для таких сложным понятий, как «профиль лица данного человека». Разумеется, нам важен лишь факт существования этих множеств.

где

р = (x,Zj) (zj, zj)

(Вектор x является проекцией в Y вектора x.) Мы имеем x^Z, и из x € S следует x € S. Пусть

xj € Si (j = l,...,mi), х'П € S2 (h =1,...,Ш2)

— заданные тренировочные последовательности. Алгорифм, вырабатывающий вектор a по последовательности xj,xl., обычно не выводит из подпространства, натянутого на векторы xj,xlh.. Этим свойством обладают, в частности, простейший алгорифм §1 (см. (3.7)), а также алгорифмы, описанные в следующем параграфе. Если выполнено это условие, то, заменяя векторы xj,xl-h на векторы Xj, X^, которые получаются из xj ,xlh по формуле (4.4), получим a € Y .В этом случае реакция персептрона на образы x и x + z для любого z € Z будет одинакова.

ЛИТЕРАТУРА8

1. Трапезников В. А. Кибернетика и автоматическое управление // Автоматика и телемеханика. Т. XXIII, №3. 1962.

2. Браверман Э. М. Опыты по обучению машины распознаванию зрительных образов // Автоматика и телемеханика. Т. XXIII, №3. 1962.

3. Браверман Э. М. Некоторые вопросы построения машин, классифицирующих объекты по не заданному заранее признаку // Автоматика и телемеханика. Т. XXI, №10. 1960.

4. Rosenblatt F. Two Theorems of Statistical Separability in the Perceptron // Simposium of the Mechanisation of Thought Processes. England, November, 1958.

5. Rosenblatt F. Perceptron Simulation Experiments // Proc. IRE. Vol.48, №3. 1960.

6. Selfridge O.G. Pandemonium: a Paradigm for Learning // Simposium of the Mechanisation of Thought Processes. England, November, 1958.

7. Харкевич А. А. Опознание образов // Радиотехника. Т. 14, №5. 1959.

8. Joseph R. D. On Predicting Perceptron Performance // IRE Intern. Convent. Rec. Vol.8, №2. 1960.

9. Глезер В. Д., Цукерман И. И. Информация и зрение. М.: Изд. АН СССР, 1961.

10. Варшавский Л. А., Чистович Л. А. Средние спектры русских гласных фонем // Проблемы физиологической акустики. Т. IV. 1959.

8 Примечание при корректуре: см. также недавно опубликованные работы М. А. Айзермана, М.М.Бонгарда и других авторов в сборнике «Биологические аспекты кибернетики» (Изд-во АН СССР, 1962) и книгу М. Глушкова «Введение в теорию самосовершенствующихся систем» (Киев, 1962).

i Надоели баннеры? Вы всегда можете отключить рекламу.