Научная статья на тему 'Моделирование процессов распознавания и классификации образов на основе нейросетей'

Моделирование процессов распознавания и классификации образов на основе нейросетей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
592
117
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / РАСПОЗНАВАНИЕ / КЛАССИФИКАЦИЯ / ДИАГНОСТИКА / NEURAL NETWORKS / RECOGNITION / CLASSIFICATION / DIAGNOSTICS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Глазков А. В., Крутов А. В.

В данной статье представлено моделирование процесса распознавания и классификации образов, описан метод структурного координатного анализа, указаны сложности, возникающие при распознавании и классификации объектов. Также в статье показана применимость теоремы Колмогорова к нейронным сетям, рассмотрены три различных множества объектов исследования с целью изучения поведения и характеристик разнообразных классификаторов на объектах с различной степенью сложности

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Глазков А. В., Крутов А. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODELLING OF PROCESSES OF RECOGNITION AND CLASSIFICATION OF IMAGES ON THE BASIS OF NEURAL networks

In this article modelling of process of recognition and classification of images is presented. The method of the structural co-ordinate analysis is described. The complexities arising at recognition and classification of objects are specified. Also in article applicability of the theorem of Kolmogorov to neural networks has been shown. In article three various sets of objects of research for the purpose of studying of behaviour and characteristics of various qualifiers on objects with various degree of complexity have been considered

Текст научной работы на тему «Моделирование процессов распознавания и классификации образов на основе нейросетей»

УДК 004.8:004.9

МОДЕЛИРОВАНИЕ ПРОЦЕССОВ РАСПОЗНАВАНИЯ И КЛАССИФИКАЦИИ ОБРАЗОВ НА ОСНОВЕ НЕЙРОСЕТЕЙ

А.В. Глазков, А.В. Крутов

В данной статье представлено моделирование процесса распознавания и классификации образов, описан метод структурного координатного анализа, указаны сложности, возникающие при распознавании и классификации объектов. Также в статье показана применимость теоремы Колмогорова к нейронным сетям, рассмотрены три различных множества объектов исследования с целью изучения поведения и характеристик разнообразных классификаторов на объектах с различной степенью сложности

Ключевые слова: нейронные сети, распознавание, классификация, диагностика

Прежде чем приступить к процедурам распознавания и классификации требуется найти информационные параметры изучаемого объекта. Отыскание информационных параметров происходит с использованием некоторой априорной информации, основу которой составляют количественные, временные и пространственные данные, различные модели поведения изучаемой системы или объекта. На всем этом многоплановом поле возможных представлений о поведении системы необходимо построить свою модель выбора информационных параметров, указать момент времени, когда такие параметры становятся значимыми и могут быть обнаружены.

Обычно такую задачу начинают решать последовательно, этап за этапом. Вначале определяют продолжительность регистрации исследуемого параметра, изучение и анализ которого позволят в будущем построить диагностическое решение о принадлежности объекта к той или иной группе. Одновременно с этим определяются требования к точности регистрируемого сигнала и форма - вид его представления исследователю. После того как эти проблемы оказываются решенными, приступают к построению алгоритма отыскания

информационных параметров в

зарегистрированном массиве данных.

Надо отметить, что формирование выборки происходит в течение некоторого промежутка времени. Каждое значение выборки оказывается элементом некоторой временной

последовательности, которая, формируется по заранее установленному правилу. Так, например, временная последовательность амплитудных значений сигнала в процессе исследования образует исходную выборку. Это так называемый двухмерный массив данных. Специфичность

Глазков Алексей Владимирович - ВГУ, аспирант, E-mail: [email protected], тел. (4732) 208763 Крутов Алексей Васильевич - ВГТУ, д-р физ.-мат. наук, профессор, E-mail: [email protected], тел. (4732) 208763

временного формирования исходной выборки должна приниматься во внимание при отыскании информационных параметров.

В процедуре формирования исходной выборки важно выделить элемент связи появления отдельного значения регистрируемого сигнала с текущим временем. Поиск информационных параметров на выборке проводят с использованием различных математических методов. Несмотря на широкую возможность выбора методов отыскания информационных параметров все они должны удовлетворять определенным условиям. Например, позволять исследовать случайные,

непериодические или условно периодические сигналы [1].

Действительно, при распознавании объектов подтверждается наличие большого числа информационных показателей, которые непрерывно изменяются в определенных допустимых пределах. Однако надо помнить, что область допустимых значений для каждого параметра может отражать те или иные особенности системы. Кроме этого, область допустимых значений того или другого параметра может существенно меняться от изначальных характеристик системы. Принимая это во

внимание, на практике оказывается трудной

задачей сформировать набор очень похожих выборок. Другими словами, приступая к формированию некоторого однородного класса, например, выборок, характеризующих нормальное состояние живого организма, трудно получить устойчивые однотипные оценки. Эта трудная, но интересная задача привлекает многих исследователей.

В этой области существует немало

перспективных направлений. Одним из таких направлений является метод структурного координатного анализа (СКА). В основу метода положены следующие постулаты:

1. Исходная выборка - последовательность значений исследуемого сигнала, представленная по заранее определенному правилу временных событий, происходящих в изучаемой системе.

2. Размерность выборки - количество

элементарных событий, представленных

соответствующими значениями сигнала, характеризует

полный пространственно-временной континуум возможных изменений, происходящих в системе.

3. Информационные параметры,

характеризующие состояние системы, могут быть найдены посредством соответствующего алгоритма, устанавливающего функциональную связь между отдельными фрагментами исходной выборки.

4. Размер фрагментов, оцениваемый по количеству элементов, и их местоположение в текущей выборке может меняться, но количество фрагментов сохраняется постоянным для однородного класса изучаемых событий.

5. Исходная выборка может быть эквивалентным образом представлена набором фрагментов разного размера, не искажающих информационное содержание изучаемого процесса.

На этапе СКА осуществляются процедуры:

• поиск информативных параметров в исходной выборке;

• поиск временных интервалов, содержащих информативные параметры;

• формирование фрагментов выборки.

На этапе формирования оценки -диагностического правила, осуществляются

процедуры:

• построение функциональной зависимости фрагментов выборки;

• формирование диагностического решения о функциональном состоянии системы.

Таким образом, метод СКА позволяет сократить размерность исходной выборки посредством создания фрагментарного описания. С другой стороны, набор фрагментов, объединенных некоторым общим функциональным описанием, может представлять объект для дальнейшего дробления. Как будет описано ниже, это представляется исключительно полезным при использовании фрактальных методов анализа данных.

Поиск фрагментов выборки осуществляется на некоторой последовательности значений исходного сигнала. В свою очередь, временная последовательность значений изучаемого сигнала характеризуется некоторой формой представления, которая отражает состояние изучаемой системы. Взаимная связь формы сигнала и состояния системы представляется чрезвычайно важной при построении диагностического решения [2]. При изучении различных процессов, например, протекающих внутри биологического организма, приходится иметь дело с сигналами очень сложной формы [3].

В таком понимании выборка может быть охарактеризована динамическим образом, отражающим поведение биологической системы на ограниченном интервале времени. Для того чтобы не потерять элементы такого образа при анализе поведения системы, требуется знать правило формирования последовательности

исходных значений выборки. Это трудная задача, которая носит название “проблемы Гильберта”.

Тринадцатая проблема Гильберта формулируется так: “... Верно ли, что существует непрерывная функция от трех переменных, которая не может быть представлена в виде композиции непрерывных функций от двух переменных?”

Под композицией функций понимается подстановка одной функции в качестве аргумента другой. Например, функция трех переменных F(x, у, 2) = хг + у2 может быть представлена в виде композиции функций двух переменных:

F(x, у, 2) = Б(М(х, 2), М(у, 2)), (1)

где М(х, 2) = хг, £(а, Ь) = а + Ь.

Как сегодня известно, тринадцатая проблема Гильберта была решена в 1957 г. академиком Владимиром Игоревичем Арнольдом. Он показал, что любая непрерывная функция трех переменных представляется в виде композиции непрерывных функций двух переменных. Таким образом, гипотеза Гильберта была опровергнута.

В том же 1957 г. математик Андрей Николаевич Колмогоров доказал гораздо более сильную теорему: любая непрерывная функция от

п переменных F(x1, х2, представлена в виде:

F (хЬ х2 — хп ) =

хп) может быть

2п+1

= 2 *

1 -1

V г-1

(2)

где *1 и И1 - непрерывные функции, причем И1 не зависят от функции F.

Эта теорема означает, что для реализации функций многих переменных достаточно операций суммирования и композиции функций одной

переменной. Удивительно, что в этом

представлении лишь функции зависят от представляемой функции F, а функции И ц универсальны.

Заметим, что формула (1) очень похожа на формулу (2). Если перевести эту теорему на язык нейронной сети, то она будет звучать так: если известны функции И а, то любую непрерывную функцию от п переменных можно точно

реализовать с помощью простой нейросети на основе трехслойного персептрона. Для этого достаточно подобрать 2п+1 передаточных функций

*1 нейронов скрытого слоя.

Эта сеть не будет персептроном в строгом смысле, так как на входах второго слоя к сигналам необходимо применить функции И 1, а не просто умножить их на веса.

Следует заметить, что функции Иц -

негладкие и трудно вычислимые; также трудоемкой задачей остается подбор функции *1 для данной функции F. Роль этой теоремы состоит в том, что она показала принципиальную возможность реализации сколь угодно сложных зависимостей с помощью относительно простых автоматов типа нейронных сетей.

Использование метода СКА позволяет преодолеть указанные трудности. Для этого надо применить алгоритм фрагментного представления исходной выборки, а затем построить функционал объединения этих фрагментов.

Проанализируем модель Изинга [4], являющуюся базовой моделью в физике для описания магнитных фазовых переходов. Рассмотрим кристаллическую решетку. Для простоты будем считать ее плоской и квадратной, хотя, конечно же, можно рассматривать и более сложные кристаллические решетки. В каждом узле кристаллической решетки располагается атом, обладающий собственным магнитным моментом -спином. Проекция спина на выбранную ось может принимать только значения +1 и -1. Если все спины направлены в одну сторону (имеют одинаковые проекции), то решетка обладает магнитным моментом. Говорят, что образец ферромагнитный. Спины соседних атомов могут иметь противоположные проекции, тогда вещество называют антиферромагнитным. И в том и в другом случае наблюдается дальний порядок в ориентации спинов. Дальний порядок может, однако, отсутствовать. Это произойдет, например, если нагреть ферромагнетик выше критической температуры, называемой температурой Кюри. Образец перейдет в немагнитное состояние, произойдет фазовый переход. Аналогичная ситуация возникает и в случае антиферромагнетиков, но критическая температура в этом случае называется температурой Нееля.

Модель Изинга была предложена в 1920 г. В. Ленцем. В 1925 г. Э. Изинг исследовал одномерный случай, в котором, кстати, фазовый переход не наблюдается.

Благодаря этой работе и общий случай модели принято теперь называть моделью Изинга, а не Ленца. Двумерный случай был исследован в 1944 г. Л. Онсагером.

Энергия системы определяется по формуле:

w=-21 цъъ - н , (3)

г, ] к

здесь первое слагаемое описывает энергию взаимодействия спинов, а второе - энергию системы во внешнем магнитном поле Н. В первом слагаемом часто ограничиваются суммированием только по ближайшим соседям. Величина 1Н

и

называется константой обменного взаимодействия и в простейшем случае одинакова для любой пары атомов. В этом случае ее можно вынести из под знака суммирования. Если константа взаимодействия положительна, то взаимодействие называют ферромагнитным, а если отрицательна, то антиферромагнитным.

Состояние системы можно охарактеризовать

п

с помощью намагниченности М = 2 стг- и

г=1

п+ - п-

параметра порядка р = —-------, где п+, п- - число

п

узлов с положительными и отрицательными спинами соответственно.

Применение модели Изинга связано с задачами распознавания образов. Такое применение модели предложил в 1982 г. Хопфилд. Оказалось, что ферромагнитная модель Изинга имеет много общих черт с ассоциативной памятью, то есть способность распознавать образ по неполной или искаженной информации о нем.

Для того чтобы моделировать ассоциативную память, система должна обладать следующими свойствами:

1. Система должна состоять из большого числа п более или менее однородных элементов -нейронов, связанных между собой.

2. Система должна обладать способностью к классификации, то есть 2п входным сигналам (начальным состояниям системы) должно соответствовать существенно меньшее число выходных сигналов (конечных стационарных состояний системы, аттракторов). Набор аттракторов является информацией, записанной в памяти. Переход системы от начального состояния к конечному называется процессом распознавания образа по его части, заданной входным сигналом.

3. Система должна обладать способностью к обучению, то есть допускать добавление новых аттракторов без существенного искажения старых.

4. Работа системы должна быть устойчивой по отношению к сбоям в работе отдельных элементов и связей.

Перечисленными свойствами в значительной мере обладает уже знакомая модель Изинга. Однако, учитывая специфику рассматриваемой задачи, подобную сеть, состоящую из дискретных двоичных элементов и связей, называют нейронной сетью. Недостатком обычной модели Изинга является то, что при низких температурах она обладает только двумя стационарными состояниями (все спины направлены либо вверх, либо вниз). Однако, если коэффициенты обменного взаимодействия I ^ знакопеременные,

то количество стационарных состояний существенно увеличивается. Природные объекты, обладающие такими свойствами, называются спиновыми стеклами. Поскольку энергия спинового стекла имеет множество локальных минимумов, то можно сказать, что система помнит набор различных образов (стабильных состояний). В зависимости от начального состояния система будет релаксировать к тому или иному конечному состоянию. Естественно, система будет переходить в ближайшее состояние с минимальной энергией. Таким образом, система способна к

классификации. Задавая различные наборы Iг]-,

можно записывать в память различные образы.

Развитие в работе [5] известной теоремы А.Н. Колмогорова [5], о представлении произвольных

непрерывных функций "п" переменных в виде суперпозиции непрерывных функций одной переменной, позволило, в отношении к нейронным сетям доказать важное положение о том, что любая

непрерывная функция F : Кп ^ Ят, может быть реализована на основе нейронной сети прямого распространения, содержащей только три слоя; причем во входном слое должно быть "п" нейронов, в выходном - "т", и в промежуточном слое достаточно иметь "п+1" нейронов [7].

Рассмотрим трехслойный персептрон, который осуществляет отображение входного

пространства Я" - множества входных векторов

х = (х1, х2,..., хп ), на выходное пространство Ят

- множество выходных векторов

У = (У\, У2 ,•••, Ут ) . Числовые коэффициенты -

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

веса, связующие г-ый узел входного слоя с 1-ым узлом скрытого слоя, обозначим через wh,ii, а веса, связующие г-ый узел скрытого слоя с 1-ым узлом выходного слоя обозначим через W0JІ.

Пусть каждый входной вектор

х = (х1, х2,..., хп ), реально преобразуется

нейронной сетью в выходной вектор

У = (У1, У2,..., Ут), в то время как истинная

неизвестная функция F : Яп ^ Ят должна была бы преобразовать вектор х = (х1,х2,...,хп), в

вектор d = (^,d2,•••,йт). Тогда задачей метода

обратного распространения ошибки является минимизация среднеквадратичной ошибки между желательным выходным вектором

d = d2 ,•••, dm ) и фактически наблюдаемым

выходным вектором у = (у1,у2,...,ут). В этом

случае среднеквадратичная ошибка Е при каждом испытании может быть записана так:

1 т

Е = 2 2 М - у, )2

2 г=1

(4)

Веса в каждом узле нейронной сети должны быть настроены таким образом, чтобы минимизировать эту ошибку.

Согласно базовой концепции, каждый нейрон сети, находящийся в скрытом и выходном слоях, должен выполнять взвешенное сложение поступающих на его вход сигналов с последующим преобразованием полученной суммы на основании некоторой функции. В качестве такой функции, как правило, выбирается сигмоидальная функция:

/(2) = , 1- 2 (5)

1 + е 2

поскольку производная такой функции может быть выражена через значения самой функции:

/’(2) = /(2)-[1 -/(2)]. (6)

Итак, каждый нейрон скрытого слоя преобразует поступающие на его вход сигналы

хт = (х1, х2,..., хп ), в выходной сигнал Иг

согласно выражению:

Иг = /(2 Wh,^u • хМ+вн,г ) , г = 1,2,•••, к , (7)

ц=\

где дк г - некоторая пороговая константа г -ого

нейрона скрытого слоя.

В свою очередь все выходные сигналы скрытого слоя служат входными сигналами для нейронов выходного слоя, поэтому для выходных

сигналов у = (у1, у2,..., ут ) можно записать:

уг = /(2 Wo,y■ • И + °о,1 ) , 1 = 1,2, • • •, т , (8)

г=1

где д01 - пороговая константа ] -ого нейрона

выходного слоя. После подстановки (7) в (8) последнее принимает вид:

Уi = /(¡[^0,1 • /• хМ + 9Кг ) + во, 1 ) , (9)

г=1 >и=1

что позволяет рассматривать функцию среднеквадратичной ошибки (4), как функцию к ■ (т + п) переменных, отвечающих весовым

коэффициентам wh и-, W0 ^. Так как по

определению градиент функции отвечает направлению наибольшего роста функции, то вектор с координатами:

В = \-

дЕ дЕ

дWo,y■

г = 1,2,...,к;

1 = 1,2,...,т ; и = 1,2,...,п (10)

будет соответствовать направлению наибольшего убывания функции среднеквадратичной ошибки Е. Таким образом, простейшая реализация метода обратного распространения ошибки - метод наискорейшего спуска, сводится к вычислению координат вектора Б, с целью последующего изменения весовых коэффициентов Wh и , W0 1 в соответствии с выражениями:

^0,1 (Р + 1) = Wo,i, (Р) -П

дЕ

^0,1 (Р)

г = 1,2,..., к; 1 = 1,2,..., т. Wh,и (Р + 1) = ^,и (Р) -п

(11)

дЕ

дwh,u (Р)

и = 1,2,...,п ; г = 1,2,...,к, (12)

где Р,(1,2,..., N - номер образца из

предъявляемого для обучения набора 0м = {o\,02,•••,0N }ор = (хр,ур); 7] -

коэффициент, регулирующий темп обновления весов.

Соотношения (4) - (9) позволяют определить координаты вектора Б, необходимые для вычисления весов (11, 12). В самом деле,

применение цепного правила дифференцирования сложной функции позволяет записать: дЕ . дУ і

................. .(13)

дм.

- Уі) 'дмо

- = -(Л] - У і ) • У • (1- У і ) • Ьі

о,У

і = 1,2,..., к; У = 1Д

дЕ

дм*

Ь,ці

= -Е (Лі - У У} • У і •(1 - У і } мо

дЬ

У=1

дм

к„ш

-Х-у] )■у] ■(1 -у] )™°’У ■■(1 -^)■ Хл ■ (14)

]=1

Л = 1,2,..., и; г = 1,2,..., к

С целью изучения поведения и характеристик различных классификаторов на объектах с различной степенью сложности были рассмотрены три различных множества объектов исследования: простое (кольцевое), разделенное и

пересекающееся (речевое). Кольцевое множество состояло из двумерных векторов, разделенных на два класса (см. рис. 1). Класс А состоял из векторов распределенных случайным образом внутри окружности единичного радиуса. Класс В состоял из векторов распределенных случайным образом за пределами возможного расположения векторов класса А (окружности единичного радиуса), и, одновременно, внутри окружности с радиусом в пять единиц, концентрической по отношению к окружности единичного радиуса. Обучающее и тестовое множества содержали каждое по 600 образцов векторов класса А и В.

Разделенное множество также состояло из двумерных векторов двух классов (см. рис. 2). Класс А состоял из векторов равномерно распределенных случайным образом внутри двух одинаковых и разъединенных квадратов с единичной стороной. Класс В состоял из векторов равномерно распределенных случайным образом за пределами возможного расположения векторов класса А (двух разъединенных единичных квадратов), и, одновременно, внутри квадрата со стороной в семь единиц. Обучающее и тестовое множества содержали каждое по 600 образцов векторов класса А и В.

Речевое множество состояло из двумерного массива первой и второй формантных частот (см. рис. 3), которые были получены на основании спектрографического анализа в работе [8]. В этой работе проводился анализ десяти различных гласных, заключенных между двумя одинаковыми согласными.

Спектрографические данные собирались на основании записи речи 67 различных лиц, включая мужчин, женщин и детей. Речевое множество, полученное в работе [8], было разбито на две части: обучающее и тестовое, которые содержали соответственно 340 и 330 точек.

Спектрографические данные собирались на основании записи речи 67 различных лиц, включая

мужчин, женщин и детей. Речевое множество, полученное в работе [8], было разбито на две части: обучающее и тестовое, которые содержали соответственно 340 и 330 точек.

3

2

1

Х2 о

-1

о°

о “о «О ° о. _ О

о о

° ° <8* * ><ЬО о °

ррр<ь‘ЬЧ) о у о % оо ро О

о

о о ^41

, ° О оО Л 3 о Л О.СІ

*>0

о0 С* о

А 0 ° 0°°°

Чзсо

°0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

О О

ООСЬО

-5 -4 -3 -2 -1

0

Х1

Рис. 1. Кольцевое множество

В целях нахождения оптимальной структуры нейронной сети, которая, с одной стороны, характеризовалась бы минимальным уровнем ошибки, а, с другой стороны, требовала бы наименьших вычислительных ресурсов, необходимо проведение специального

исследования по установлению роли и степени влияния различных параметров нейронной сети на ее характеристики.

2

о о о

I?

□ О □о

Х2

£Р

П 0 00 г,

“ А Л“

„ 'ЙІМ58 “К*!*,# ПаН

„■’■У*. ° V

а * „Л Во „¡Р

„°°С ^ Ъ° °° ° П 8„°

1 2 3 4 5

Х1

Рис. 2. Разделенное множество

Характеристики нейронной сети, как правило, зависят от большого числа параметров, которые могут быть как взаимно зависимыми, так и взаимно независимыми. В связи с этим проведение отмеченного исследования требует многократных итерационных циклов, в процессе которых производится поиск оптимального значения для одного параметра нейронной сети при временной фиксации всех остальных ее параметров. В настоящем разделе, для трех типов исследуемых множеств (кольцевого, разделенного и речевого),

5

4

т

-2

-3

1

5

1

о

-1

проводится анализ влияния числа нейронов в скрытом слое на уровень ошибки 8, для нейронных сетей обратного распространения ошибки.

Приводимые ниже зависимости соответствуют результатам анализа, полученным при

оптимальных значениях параметров п и V,

которые регулируют соответственно темп

обновления весов (см. (11, 12)) и инерционность темпа обновления весов (см. (13, 14)).

о

Д

X

о

7

о

head

hid

hod

had

hawed

heard

heed

hud

who'd

hood

0 500 1000 1400

F1 (Hertz)

Рис. 3. Множество пар первой и второй формантных частот, полученных на основании спектрографического анализа в работе [8]

В соответствии с теоремой А.Н. Колмогорова [6], и следствием из данной теоремы [5, 7], для того, чтобы реализовать непрерывную функцию

F : Rn ^ Rm, достаточно иметь только один промежуточный слой, содержащий n +1 нейронов, где n - число нейронов входного слоя. Известны также и другие оценки числа нейронов в скрытом слое, которые производят учет возможного числа элементов обучающего множества. Например, согласно [9], число

синоптических весов

в многослойной сети с

сигмоидальными передаточными может быть оценено так:

NmNp (Np ^

функциями

■ < N,„ < Nm

- +1

(Nm + Nn + 1) + Nm

1 + 1св2(^) * у

откуда можно получить оценку для числа узлов в скрытом слое N:

N = ■

Nn + Nm

где Nm - размерность выходного сигнала, N -

число элементов обучающей выборки, Nn -

размерность входного сигнала.

На рис. 4 представлены зависимости уровня ошибки 8 в процентах от числа узлов в скрытом слое S, полученные для кольцевого множества

при оптимальных значениях параметров 7] и V, соответственно равных 0,1 и 0,6.

S (%)

О

а

. @ тест “ Д обучение

0 25 50 75 100 125 150 175 200

число узлов в скрытом слое S

Рис. 4. Зависимости уровня ошибки 8 в процентах от числа узлов в скрытом слое для кольцевого множества

Можно видеть, что, начиная со значения S, равного десяти, увеличение числа нейронов в скрытом слое практически не изменяет уровня ошибки 8, который в случае обучающего множества оказывается равным 0,6%, а для тестового множества составляет всего 1,2%. Таким образом, для нейронной сети обратного распространения ошибки, в том случае, когда объектом исследования является кольцевое множество можно ограничиться десятью нейронами в скрытом слое.

На рис. 5, 6 представлены зависимости уровня ошибки 8 в процентах от числа узлов в скрытом слое S, полученные соответственно для разделенного (см. рис. 5) и речевого (см. рис. 6) множеств.

Рис. 5. Зависимости уровня ошибки 8 в процентах от числа узлов в скрытом слое для разделенного множества

40

30

20

4000

3000

10

2000

0

1000

500

Данные зависимости также отвечают оптимальным значениям параметров 7] и V,

которые в случае разделенного множества были равны соответственно 0,1 и 0,7, а в случае речевого множества - 0,1 и 0,6. Можно видеть, что для разделенного множества, начиная со значения S равного тридцати, увеличение числа нейронов в скрытом слое практически не изменяет уровня ошибки 8, который в случае обучающего множества оказывается равным 1,1%, а для тестового множества составляет 2,3%.

Рис. 6. Зависимости уровня ошибки 8 в процентах от числа узлов в скрытом слое для речевого множества

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В тоже время, для речевого множества (рис. 6), увеличение числа нейронов в скрытом слое практически прекращает оказывать влияние на уровень ошибки 8 , начиная лишь со значения S равного пятидесяти. В данном случае, для обучающего множества, уровень ошибки доказывается равным 22,0%, а для тестового множества уровень ошибки составляет 23,4 %.

Сопоставление результатов, представленных на рис. 4, 5, 6 показывает, что уровень ошибки 8 в

существенной степени зависит от типа исследуемого множества. Наблюдается тесная корреляционная связь между величиной уровня ошибки S и сложностью множества, связанной прежде всего со сложностью границ, определяющих разбиение на классы внутри множества. Следует также отметить, что независимо от типа исследуемого множества, уровень ошибки S в процессе тестирования оказывается во всех случаях выше соответствующих значений, полученных в процессе обучения.

Литература

1. Малинецкий Г.Г. Нелинейная динамика - ключ к теоретической истории / Г.Г. Малинецкий / СПб: Квант, 1996. - 328 с.

2. Шустер Г. Детерминированный хаос. Введение. / Г. Шустер / М.: Мир, 1988. - 240 с.

3. Кухарев Г.А. Биометрические системы / Г.А. Кухарев / Научное издание. СПб: Политехника, 2001. -240 с.

4. Тарасесич Ю. Ю. Математическое и компьютерное моделирование / Ю. Ю. Тарасевич / Вводный курс: Учебное пособие. Изд. 3-е, испр. - М.: Едиториал УРСС, 2003. - 144 с.

5. Sprecher D. A. On the structure of continuous functions of several variables / D. A. Sprecher // Trans. Am. Math. Soc. - 1965. - Vol. 115. - P. 340-355.

6. Колмогоров А. Н. О представлении непрерывных функций многих переменных посредством суперпозиции непрерывных функций одной переменной / А. Н. Колмогоров // Докл. АН СССР. - 1957. - Т. 114. - С. 953-956.

7. Hecht-Nielsen R. Applications of counterpropagation networks / R. Hecht-Nielsen // Neural Networks. -1988. - Vol. l. - P. 131-139.

8. Peterson G. E. Control methods used in study of vowels / G. E. Peterson, H. L. Barney // Journal of the Acoustical Society of America. - 1972. - Vol. 24, No2. - P. 175-184.

9. Windrow В., Lerh M. A. 30 years of adaptive neural networks: perceptron, madaline, and back-propagation / В. Windrow, M. A. Lerh // Proceedings of the IEEE. - 1990.

- Vol. 78, No 9. - P. 1415-1422.

Воронежский государственный университет Воронежский государственный технический университет

MODELLING OF PROCESSES OF RECOGNITION AND CLASSIFICATION OF IMAGES ON

THE BASIS OF NEURAL NETWORKS

A.V. Glazkov, A.V. Krutov

In this article modelling of process of recognition and classification of images is presented. The method of the structural co-ordinate analysis is described. The complexities arising at recognition and classification of objects are specified. Also in article applicability of the theorem of Kolmogorov to neural networks has been shown. In article three various sets of objects of research for the purpose of studying of behaviour and characteristics of various qualifiers on objects with various degree of complexity have been considered

Key words: neural networks, recognition, classification, diagnostics

i Надоели баннеры? Вы всегда можете отключить рекламу.