Научная статья на тему 'Сравнительный анализ некоторых алгоритмов распознавания'

Сравнительный анализ некоторых алгоритмов распознавания Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
119
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сравнительный анализ некоторых алгоритмов распознавания»

тальными средствами нагрузочного тестирования позволил обобщить и сформулировать ряд требований к их характеристикам.

• Масштабируемость нагрузки. Поддержка возможности параллельного запуска систем выполнения тестовых транзакций на большом числе станций испытательного стенда. Каждая станция должна обладать возможностью имитации до 100 виртуальных пользователей.

• Централизованный сбор статистики. Инструмент должен обладать централизованным компонентом сбора статистики в реальном режиме времени. Средства статистической обработки должны давать возможность строить временные ряды для изучения динамики измерения показателей в течение сеанса тестирования.

• Централизованное управление. Подготовка к выполнению сеансов, планирование, запуск и остановка сеансов, просмотр результатов - все эти процессы должны выполняться из единой точки. Процедуры конфигурирования и управления состоянием исполняющих систем, измерительных мониторов и агентов должны осуществляться в автоматическом режиме.

• Гибкость моделирования. Инструментальное средство тестирования должно обладать способностью построения реалистичных по составу потоков тестовых запросов. Необходимо иметь возможность независимого исполнения нескольких тестовых транзакций с различными тестовыми смесями, для каждой транзакции должен задаваться свой план выполнения и число имитируемых пользователей. Для мо-

делирования сложных систем, особенно связанных с документооборотом, требуется поддержка конвейерной модели выполнения тестов с асинхронной передачей результатов между этапами выполнения.

• Развитые средства хранения конфигурации сеансов и результатов тестирования. Конфигурация сеансов тестирования представляет достаточно сложную систему взаимосвязанных параметров, поэтому инструментальное средство должно предоставлять возможности по структурированному хранению конфигурации сеансов. Необходимо иметь возможность многократного запуска каждого сеанса тестирования с сохранением статистических результатов по всем реализациям с целью последующего проведения сравнительного анализа. Наилучшим решением является использование реляционной СУБД для хранения конфигураций и связанных с ними наборов результатов.

• Наличие средств мониторинга показателей системной статистики. Параллельный анализ показателей системной и прикладной статистики, привязанных к единой временной шкале, позволяет более точно определить причину возникновения узких мест и несбалансированности в системе.

• Наличие средств регистрации событий (логирование), необходимых для выполнения автоматизированной фиксации нештатных ситуаций и записи сообщений об обнаруженных в ходе тестирования отклонениях в поведении испытываемой системы.

Указанные требования реализованы в программном комплексе тестирования Сервер-Тест 2.5, разработанном в ГИЦ ПС ВТ, зарегистрированном в Роспатенте и сертифицированном Госстандартом России. Комплекс прошел всестороннюю апробацию на ряде крупных банковских систем обработки оперативной информации.

СРАВНИТЕЛЬНЫЙ АНАЛИЗ НЕКОТОРЫХ АЛГОРИТМОВ РАСПОЗНАВАНИЯ

В.В. Круглое, И.В. Абраменкова

Целью настоящей статьи является изложение результатов сравнительного анализа разработанного авторами алгоритма распознавания, реализующего методы адаптивной нечеткой логики с известными алгоритмами - методом эталонов и нейросетевым с использованием сети встречного распространения. Подобный анализ проводился путем реализации имитационного эксперимента в среде математической системы МЛТЬЛБ [1]. Сравнение алгоритмов проводилось путем сопоставления количества ошибок распознавания при обучающих и тестовых выборках, одинаковых для всех алгоритмов.

Процедура построения (обучения) предлагаемого нечеткого адаптивного распознавателя выглядит следующим образом.

1. Из т (т<] где N - общее число примеров обучающей выборки) произвольных примеров <£', (возможно, с учетом имеющейся априорной информации) обучающей выборки составляется начальная база знаний распознавателя, отображаемая

матрицей итХ(П+8) со строками вида (£1, £2 , — , , , /2 , — , ), 1 = 1, т , где Т £п - количест-

венные признаки образов (компоненты вектора признаков \ е ); Zl ^ zs - индикаторы образов,

принимающие значения +1 или -1 и образующие вектор 8 - общее количество распознаваемых образов.

Такое представление полагается эквивалентным набору нечетких правил:

П1: если ^ есть Лц и \2 есть Лц и ...

... и есть Л^ , то Zl = zJ и Z2 = z2 и ...

и zs = zS , 1 = 1, т , (1)

где Лц = Лц(а, \у) - функция принадлежности ко-локолообразной

Лц(а, \ у) = ехр

- Кj - Ф2

2a?

(2)

или двойной экспоненциальной формы Ay(a, \ j) = exp|- ai| \ j- j J,

(3)

симметричные относительно центров , aj - параметры данных функций (компоненты вектора а), для начальной базы правил выбираемые в соответствии с рекомендациями [2], например, для функции (2) как

ч •

ai = а2 = ••• = am = (0.5 -f 2) • max—•, (4)

• mj

где j = \ jmax — \ jmjn , mj - количество функций

принадлежности, ассоциированных с \= 1, п ) .

2. Для всех примеров обучающей выборки рассчитываются прогнозируемые значения

ZJ = ZI(^к), I = 1,8, к = 1,] в соответствии с алгоритмом нечеткого вывода Сугэно нулевого порядка [1-3] с тем отличием от классического варианта данного алгоритма, что степень истинности предпосылки каждого правила находится как нечеткая импликация в форме Ларсена, то есть как произведение

ak = П Aij(a, j. j=l j j

(5)

Четкое значение переменных вывода (с учетом их отмеченной бинарности) определяется при этом с помощью дискретного варианта центроидного метода:

zk = £,(^k) = sign

Z «N

i=1 m k

Z «k i=1

(6)

Далее проверяется условие останова процедуры 1 N S . . ,

— ZZ (zik - zf)2 < £ , (7)

N • Sk=ii=1

где £>0 - заданное значение ошибки распознавателя. При выполнении неравенства - переход к п. 5 процедуры.

3. Для каждой новой экспериментальной точки (из числа точек, не вошедших в базу знаний) <^r, zr> по соотношениям (5), (6) рассчитываются прогнози-

ЛГ л Г/"£Г\

руемые значения Zj = Zj (q ) и проверяется неравенство S

Z zr - Zf > 0 . (8)

1=1

При его выполнении база знаний распознавателя пополняется путем добавления в матрицу U строки

(qf , , — , ^п , z1, z2 , ... , zS). В противном случае матрица U остается без изменений.

4. Выполняется параметрическая оптимизация нечетких правил путем решения оптимизационной задачи

N S . . 2 aopt = min ZZ (zk - Zf)2 . (9)

к=11 =1

Принимается, что теперь функции принадлежности текущей базы правил зависят от найденного нового (оптимального) вектора параметров а. Осуществляется переход к п.2 процедуры, если только т<]

5. Конец процедуры. Вывод информации об элементах матрицы и и вектора а.

Предлагаемая авторами процедура построения распознавателя обладает следующими свойствами:

а) обеспечивает генерацию взаимно непротиворечивых правил;

б) относится к классу процедур адаптивной нечеткой логики и обеспечивает получение оценки разделяющей функции в виде обобщенной регрессии;

в) данная оценка идентична функции, восстанавливаемой обобщенно-регрессионной нейронной сетью (сетью вИШ) [1];

г) от процедур непараметрической регрессии и отмеченного нейросетевого подхода предложенная процедура отличается способом формирования базы знаний, в том числе за счет использования имеющейся априорной информации, а также наличием промежуточного этапа параметрической оптимизации;

д) указанное формальное сходство с непараметрической регрессией и обобщенно-регрессионной нейронной сетью позволяет определить асимптотические свойства распознавателя: в случае разделимых классов при увеличении объема обучающей выборки вероятность ошибки распознавания стремится к нулю.

Сравним работоспособность предложенного метода распознавания и его точность с нейросетевым методом и методом эталонов для различных случаев расположения объектов двух образов. Предварительно отметим, что процесс распознавания при известных и, а, т и заданном \ отображается формулами (2) (или (3)), (5), (6).

В качестве инструментального средства для проведения имитационного эксперимента была выбрана

математическая система MATLAB. Это было сделано из следующих соображений: MATLAB сочетает в себе язык программирования высокого уровня для технических вычислений, наличие целого ряда пакетов и библиотек расширения системы (например, пакета оптимизации Optimization Toolbox, пакета нечеткой логики Fuzzy Logic, пакета расширения по нейронным сетям), наличие инструментальных средств для разработки графического интерфейса пользователя (GUI-интерфейса) и сервера независимо исполняемых приложений (Runtime Server).

Для сравнения методов распознавания использовался созданный авторами комплекс программ в системе MATLAB.

Комплекс программ состоит из следующих компонентов:

- приложения с окном графической визуализации результатов для создания обучающей и тестовой выборки и сохранения ее в виде внешних файлов (с расширениями *.obv, и *.tsv);

- приложений с реализацией классификатора на основе метода эталонов, классификатора с применением нейронной сети встречного распространения (для сравнения с описанным выше адаптивным нечетким распознавателем) с окном графической визуализации результатов;

- приложения с реализацией адаптивного нечеткого распознавателя с окном графической визуализации результатов.

Для распознавания в качестве модельных были выбраны примеры с двумя образами, объекты которых моделировались с использованием датчиков (функций) случайных чисел, распределенных по нормальному закону. Объекты характеризовались двумя независимыми признаками ^ и , при этом на рисунке 1 показаны зоны, накрывающие 90% объектов образов.

1

^2 ' 1

а)

±2а

б)

Рис. 1. 90%-е доверительные зоны для объектов модельных образов: а - пример 1, б - пример 2

Разумеется, во многих случаях погрешность распознавания зависит и от типа распознавателя. Так, для ситуаций, отображенных на рисунке 1, практически неработоспособным будет метод эталонов, значительно хуже отрабатывает нейросетевой метод и хорошие результаты дает разработанный авторами адаптивный нечеткий распознаватель.

Обучающие выборки для всех примеров имели по 12, а тестовые по 1000 объектов. Результаты моделирования отражены в таблице, в клетках которой

указано количество ошибочно классифицированных объектов тестовых выборок.

Таблица

Алгоритм Пример 1 Пример 2

адаптивный нечеткий

распознаватель 87 5

эталонов 205 505

нейросетевой 181 14

Сравнение приведенных результатов, по крайней мере на рассмотренных модельных примерах, показывает очевидное преимущество разработанного распознавателя.

Заметим, что чисто теоретический анализ погрешностей распознавателя в данной ситуации провести невозможно.

Рис. 2. Классификация объектов тестовой выборки адаптивным нечетким распознавателем

На рисунке 2 приведен пример функционирования разработанного комплекса программ - результат распознавания объектов с помощью одного из классификаторов (созданного по разработанному и описанному выше алгоритму адаптивного нечеткого распознавателя) - для заранее заданных и обсужденных выше проблемных областей.

Выполненный сравнительный анализ показал высокую эффективность алгоритма распознавания, построенного на основе методов адаптивной нечеткой логики. Отметим, что в процессе реализации машинного эксперимента авторами была отработана недокументированная в известных источниках методика построения программных комплексов и ОШ-приложений в среде МЛТЬЛБ в сочетании с использованием имеющегося базового набора функций специализированных пакетов расширений.

Список литературы

1. Дьяконов В.П., Абраменкова И.В., Круглов В.В. МЛТЬЛБ 5.3.1 с пакетами расширений. - М.: Нолидж,- 2001.

2. Круглов В.В., Борисов В.В. Гибридные нейронные сети. - Смоленск.: Русич, 2001.

3. Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. - М.: Горячая линия - Телеком, 2001.

2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

i Надоели баннеры? Вы всегда можете отключить рекламу.