Оценка эффективности непараметрических алгоритмов распознавания образов в решении задачи прогнозирования типов папиллярных узоров пальцев рук

Полищук Б.В.; Молоков В.В.

Актуальные проблемы авиации и космонавтики. Информационные технологии

последовательностей и диаграмм состояний. На этапе создания физической модели детальное проектирование выполняется с использованием диаграмм классов, диаграмм компонентов, диаграмм развертывания.

В процессе работы над проектом, был выбран определённый сегмент деятельности данного учреждения, а именно, аттестация учащихся. На текущий момент большинство бизнес-процессов выполняются вручную. Следовательно, необходимо создать удобную, эффективно используемую систему электронного документооборота, которая обеспечит необходимую защиту данных, а также будет надёжна и устойчива. Для бизнес моделирование главным является выбор основных функций или прецедентов. Основными прецедентами (функциями) разрабатываемой информационной системы будут являться:

1) создание новой электронной аттестационной ведомости;

2) заполнение электронной аттестационной ведомости;

3) создание электронной справки на пересдачу экзамена/зачёта;

4) заполнение электронной справки на пересдачу экзамена/зачёта;

5) отправление результатов аттестации на информационный портал университета;

6) обмен мгновенными сообщениями.

Также имеются второстепенные функции, связанные с добавлением, удалением, редактированием учащихся, групп или преподавателей в базе данных. Необходимым является и контроль выполнения определённых бизнес-процессов, наличие статуса и срока выполнения вышеперечисленных бизнес-процессов. Главными действующими личностями (actor) будут являться дирекция и преподаватель.

На основе информации, выявленной на этапе бизнес-моделирования, выполняется разработка концептуальной модели данных, которая будет использо-

ваться в разрабатываемой системе. В данном проекте я использую сервис-ориентированную архитектуру и BPEL (язык выполнения бизнес-процессов) [2], что необходимо учесть при создании клиент-приложения. Использование языка BPEL позволяет создавать бизнес-процессы любой сложности, производить любые вычисления, обеспечивает возможность простого взаимодействия с любыми внешними системами, предоставляющими свои интерфейсы в виде веб-сервисов [3]. Учитывая все выше перечисленное, использование BPEL представляется перспективным в системах электронного документооборота. Далее идёт моделирование статического вида системы с точки зрения развёртывания, для этого описываем топологию аппаратных средств, на которых выполняется система. В данном случае используется сервер, связанная с ним база данных и какое-либо множество рабочих мест, имеющие связь сервером, по средствам сети. Особенностью моего проекта является то, что технология сервис-ориентированной архитектуры позволяет установить сервер на любое рабочее место [4].

Библиографические ссылки

1. Рамбо Дж., Блаха М. Объектно-ориентированное моделирование и разработка. М. : Питер, 2007.544 с.: ил.

2. Автоматизация бизнес процессов с помощью BPEL [Электронный ресурс]. URL: http http:// www.bytemag.ru/articles/detail.php?ID=18165. 2011.

3. Business Process Execution Language for Web Services. Version 1.1 [Электронный ресурс]. URL:http://ifr.sap.com/bpel4ws/index.html. 2010.

4. Matjaz B. Juric; Marcel Krizevnik. WS-BPEL 2.0 for SOA Composite Applications with Oracle SOA Suite 11g; Packt Publishing Ltd, 2010. 594 c.

УДК 004.93

Б. В. Полищук Научный руководитель - В. В. Молоков Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

ОЦЕНКА ЭФФЕКТИВНОСТИ НЕПАРАМЕТРИЧЕСКИХ АЛГОРИТМОВ РАСПОЗНАВАНИЯ ОБРАЗОВ В РЕШЕНИИ ЗАДАЧИ ПРОГНОЗИРОВАНИЯ ТИПОВ ПАПИЛЛЯРНЫХ УЗОРОВ ПАЛЬЦЕВ РУК

Рассматриваются непараметрические и статистические алгоритмы распознавания образов в пространстве дискретных признаков, приводятся результаты анализа эффективности предлагаемых алгоритмов в задаче прогнозирования типов папиллярных узоров пальцев рук человека.

Целью моей работы является создание информационной системы анализа и прогнозирования сочетаемости определенных типов папиллярных узоров пальцев рук человека. Подобная задача встречается при определении принадлежности отпечатков пальцев рук, оставленных на месте преступления одному человеку. Оригинальность подхода заключается в применении непараметрических алгоритмов распознава-

ния образов для анализа вероятностных характеристик изучаемых признаков.

Алгоритмы распознавания образов, на которых строится информационная система, так или иначе, используют обучающую выборку - в нашем случае набор реально обработанных отпечатков пальцев рук.

Пусть V = , / = 1, N, k = 1,10) обучающая выборка, составленная из параметров складывающейся

Секция «Информационно-управляющие системы»

ситуации и1 наблюдений типов папиллярных узоров пальцев рук человека. Компоненты вектора качественных признаков ик е О^ (и), ] = 1, М, к = 1,10

принимают значения одного из типов М = 9 папиллярных узоров, кодированных в соответствии с классификацией, предложенной в работе В.Е. Корноухова.

В общем случае предлагаемый подход заключается в следующих предположениях. За класс берем, например, тип папиллярного узора пальца левой руки и по типам папиллярного узора пальцев (одного или нескольких) правой руки прогнозируем (определяем класс) тип папиллярного узора пальца левой руки. Если типы распознанного и реально снятого отпечатка совпадают, то гипотезу принадлежности отпечатков пальцев рук одному человеку принимаем, либо отвергаем с определенной степенью достоверности.

Рассмотрим два алгоритма распознавания образов, которые предлагаются для решения данной задачи:

1. Статистический алгоритм распознавания образов в пространстве дискретных признаков. Решение об отнесении ситуации и к одному из классов осуществляется на основе сравнения вероятностей встречаемости ситуации в классах.

2. Непараметрический алгоритм распознавания образов в пространстве дискретных признаков. В основе идеи этого алгоритма лежит использование непараметрических коллективов решающих правил. При этом решающее правило классификации формируется с учетом знака уравнения разделяющей поверхности / 12(и):

где

,(и):

£а(и1 )Ф

:О2

/12(и) ^ 0

7и(и) > о'

712 (и ) = "

( Р(и) - ) Л с1

Ф

Р2(и) -Р2(и1) с2

( Р(и) - Р[{и1) Л с1

Ф

( Р2(и) - Р2(и1) Л с2

Параметры с1 и с2 находятся в режиме «скользящего экзамена» из условия минимума ошибки распознавания.

Для определения эффективности применения предлагаемых алгоритмов в условиях реальной задачи был проведен вычислительный эксперимент, в ходе которого определялась ошибка распознавания при использовании данных алгоритмов. В нашем случае ошибка - отношение неверно распознанных ситуаций ко всему объему тестовой выборки.

Для первого метода к ошибочным решениям алгоритма относились и данные, не относящиеся ни к одному из классов, вследствие отсутствия рассматриваемой ситуации в обучающей выборке.

Для выяснения зависимости ошибки распознавания от объема тестовой выборки был проведен вычислительный эксперимент со следующими параметрами:

- объем тестовой выборки - 150 тысяч записей;

- количество итераций для усреднения полученного результата - 5;

- объем обучающей выборки - 150 и 300 тысяч записей.

- шаг увеличения тестовой выборки - 10 тысяч записей, начальное значение - 10 тысяч записей.

Для выяснения зависимости ошибки классификации от объема обучающей выборки был проведен вычислительный эксперимент со следующими параметрами:

- объем обучающей выборки - 350 тысяч записей;

- количество итераций для усреднения полученного результата - 5;

- объем тестовой выборки - 150 тысяч записей;

- шаг увеличения тестовой выборки - 20 тысяч записей, начальное значение - десять тысяч записей.

При исследовании этих зависимостей использовалась следующая структура выборки: за класс принят тип узора среднего пальца левой руки, параметрами являются тип большого и указательного пальца правой руки.

Проведение вычислительных экспериментов показало, что при объеме обучающей выборки, равном 150 тысяч записей, выборка обладает недостаточной информативностью. Ошибка классификации для обоих методов растет с ростом тестовой выборки и при достижении максимального объема составляет примерно 75% для первого метода и 60% для второго.

При увеличении объема обучающей выборки в два раза, а значит и повышении информативности и неоднозначности, наблюдается значительное снижение ошибки распознавания с ростом тестовой выборки. Наилучшие результаты распознавания показывает второй метод. Показатели ошибки при достижении максимального объема тестовой выборки равны примерно 31 % для первого метода и 24 % для второго.

Важным фактором является объем обучающей выборки с ростом, которого ошибка классификации стабильно снижается и при достижении максимального объема приблизительно равна 28 % для первого метода и 19 % для второго.

Зависимость времени классификации от объема тестовой выборки показывает, что второй метод требует больше вычислительных ресурсов. Однако предварительное сохранение параметров модели позволяет ускорить процесс принятия решения в будущем.

По результатам проведенных экспериментов можно сделать вывод, что второй метод наиболее приемлем для реализации поставленной задачи.

и

1=1

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Полищук Б.В., Молоков В.В.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Полищук Б.В., Молоков В.В.