Информатика, вычислительная техника и управление
УДК 519.688
ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА ИДЕНТИФИКАЦИИ ОБЪЕКТОВ С ПОМОЩЬЮ АЛГОРИТМОВ ИММУННЫХ СИСТЕМ
Ю.И. Еременко, И.В. Мельникова, А.А. Шаталов
В статье представлено исследование возможности применения иммунного алгоритма клонального отбора для построения системы идентификации объектов на примере установления автора русскоязычного рукописного текста по образцу его почерка. Разработаны комплекс программ, позволяющий тестировать различные модификации алгоритма, и база данных образцов почерков
Ключевые слова: интеллектуальная система, распознавание, экспертиза, рукописный текст, алгоритм клонально-го отбора, идентификация личности по почерку
Введение
В настоящее время все большую популярность приобретают методы решения различных задач на основе алгоритмов искусственного интеллекта. Иммунные сети являются естественным продолжением практики применения механизмов биологических систем для решения множества задач в широкой области приложений. Одной из областей их применения являются распознание и идентификация различных образов и объектов. Научные исследования, связанные с развитием теории распознавания образов, не теряют своей актуальности более полувека. Однако, при всей видимой схожести терминов распознание и идентификация, следует различать эти задачи.
Методы автоматического распознавания образов и их реализация — одна из самых плодотворных интеллектуальных информационных технологий. Например, системы оптического чтения текстов (OCR-системы). Идентификация в ряде случаев представляет собой сравнение неких общих характеристик объектов с целью установления их идентичности.
Одной из таких задач является биометрическая аутентификация и идентификация, где требуется установить соответствие образа эталонному образцу. Это предполагает систему распознавания людей по одной или более физических или поведенческих черт.
Среди современных средств биометрической идентификации выделяют системы для
Еременко Юрий Иванович - СТИ НИТУ МИСиС, д-р техн. наук, профессор, тел. 8(4725) 42-31-18, e-mail: [email protected]
Мельникова Ирина Владимировна - СТИ НИТУ МИСиС, ст. преподаватель, тел. 8(4725) 22-62-28, e-mail: [email protected]
Шаталов Андрей Александрович - СТИ НИТУ МИСиС, аспирант, тел. 8(4725) 43-09-38, e-mail: [email protected]
идентификации личности по почерку. Основное применение эти системы находят в криминалистике.
"Криминалистическая экспертиза
почерка является одним из самых распространенных и в то же время наиболее сложных и спорных в плане) объективности результатов. На экспертизы данного вида приходится наибольшее количество вероятных выводов, а также выводов о невозможности решения поставленных перед экспертами вопросов."[1]
Одной из наиболее существенных проблем в судебном почерковедении являются экспертные ошибки.
При производстве почерковедческих экспертиз решаются разнообразные задачи. Это объясняется сложностью объекта исследования: формирование почерка зависит от многочисленных факторов - как психофизиологических свойств пишущего, особенностей обучения письму, так и различных эпизодических условий внутреннего и внешнего характера. Возможность ошибок в выводах в большей степени зависит от их сложности. Исходя из исследования, проведенного Аубакировой А.А. в работе [2], полностью исключить возможность экспертной ошибки не представляется по ряду причин. Такими причинами, например, могут являться квалификация эксперта и его физическое состояние. Согласно анализу, приведенному в [3] «Использование средств автоматизации экспертной работы, на наш взгляд, не только повышает производительность труда эксперта, но и в целом повышает объективность оценки того или иного комплекса признаков почерка. Один из основных источников данных для проведения экспертиз, решения идентификационных задач, а также для обеспечения информационной безопасности - это биометрическая информация. Технические
биометрические системы, основанные на рукописных объектах, можно использовать не только для непосредственной идентификации личности по почерку, но и для определения некоторых ее специфических характеристик, таких как возраст, пол, рост и т. п. признаки. Для решения задач информационной безопасности, розыска и поиска преступников возможно использование результатов диагностических по-черковедческих исследований рукописных документов, в том числе и в электронном виде».
На сегодняшний день в криминалистике используется ряд алгоритмов предлагаемых в различных методиках и рекомендациях. [4], [5].
Однако авторы ряда отечественных работ [6] ссылаются на снижение адекватности проведения почерковедческих экспертиз, в связи с тем, что применяемые методы были разработаны на основании прописей старого образца и в настоящее время требуют доработки, или необходима разработка новых методов для анализа почерковых объектов.
Однако, несмотря на многочисленные попытки исследовать теорию и практику, а так же предпринятые попытки использования математических методов и компьютерной техники в криминалистике, многие проблемы по-прежнему не нашли однозначного реше-ния.[7,8]
Это способствовало тому, что в настоящее время для решения вышеупомянутых проблем все шире начинают использоваться такие алгоритмы биологических систем, как нейросети, искусственные иммунные системы (ИИС), алгоритм роя и т.п. [9,10,11,12]. Наиболее широкое применение на сегодняшний день получили системы основанные на нейронных сетях [13], однако ряд исследований [14] доказывает превосходство алгоритмов ИИС над нейросетевыми при решении задач распознавания и идентификации образов и изображений. По итогам анализа известных работ по применению аппарата ИИС для идентификации автора рукописного текста, можно сделать следующие выводы:
- Большая часть известных на сегодняшний день исследований решают задачу распознавания и идентификации печатных и рукописных текстов [14,27]. На конечном этапе развития эти системы стремятся к языковой универсальности. Количество возможных языков будет определяться лишь наличием соответствующей базы шаблонов ;
-системы идентификации автора рукописного текста составляют меньшую долю разработок и не столь универсальны[15,16]. Прин-
ципиально иная постановка задачи здесь требует изначальной настройки системы на символы конкретного языка.
В итоге, по мнению авторов, наиболее перспективным для идентификации автора рукописного текста на русском языке представляется применение аппарата иммунных сетей. Распознавание образов и анализ данных на основе принципов молекулярного узнавания является одной из основных областей применения иммунных алгоритмов, обозначенных еще в основополагающих работах L. N. De Castro и F.J. Von Zuben [17].
1. Разработка обобщенной модели обработки информации на основе иммунносете-вого аппарата для решения задачи идентификации почерка
Почерк - это динамическая саморегулирующаяся система. Почерк человека имеет ряд индивидуальных признаков, не имеющих возможности в своей совокупности повториться в почерке другого лица.
Основной задачей исследования почерка в практической деятельности является идентификация конкретного исполнителя рукописи (подписи). Классическая методика решения данной задачи сводится к поиску индивидуальных особенностей и сравнение их между собой. Как правило, образцы почерка представляют собой ряд слов или фраз написанных лицом, личность которого нужно установить. В компьютерной среде подобные образцы сканируются и сохраняются в любом из известных графических форматов. В дальнейшем будем называть такое изображение шаблоном или образом.
В настоящее время известно несколько разновидностей иммунных алгоритмов. Для распознавания шаблонов в основном применятся алгоритм клонального отбора (CLONALG) [18,20], иммунные сети (AINet) [19] и пока еще менее исследованный алгоритм дендритных клеток (DCA) [20,21].
Алгоритм клонального отбора CLONALG представлен на рис. 1. Принцип работы CLONALG представляет собой выборку наиболее подходящих элементов из базы данных (БД), отвечающих определенному критерию с последующим их клонированием, мутацией и проверкой критерия остановки. Если критерий остановки не выполнен, то вышеописанные действия повторяются. Свойство обучения реализуется за счет занесения результирующей выборки клонов в первоначальную популяцию, за счет замены наиболее худших элементов.
Алгоритм DCA основан на теории опасности (danger theory). Принцип действия алгоритма DCA основан на сборе информации о распознаваемом объекте, с последующим его отнесением к одному из идентифицируемых классов [20] Примером может быть аутентификация пользователя по его рукописной подписи. Поскольку алгоритм DCA является скорее вспомогательным алгоритмом, в качестве основного был принят алгоритм CLONALG [17,18].
Задачу исследования можно разбить на следующие этапы, последовательность которых формировалась с учетом практики анализа почерка в судебно-медицинской экспертизе [22] :
1.Обработка контекста. Выделение полезной информации (подпись, текст) на представленном графическом объекте, например, в бумажном письме.
2.Выделение индивидуальных признаков.
3.Сравнение выделенной полезной информации с информацией находящейся в БД.
4.Обработка информации, полученной при выполнении предыдущего пункта.
Под выделением полезной информации понимают задачу сегментации исходного текста на отдельные символы - шаблоны. Нужно отметить, что задача до настоящего времени является не до конца решенной [21]. На сегодняшний день существует несколько методов для решения задачи сегментации, применение которых дают хорошие результаты. Ряд алгоритмов для решения это задачи представлен, например, в работе [23]. Однако все эти методы имеют определенное ограничение: символы в представленном тексте должны быть разделены, в противном случае качество сегментации может весьма разниться. Входными данными является изображение текста, который необходимо идентифицировать. При этом предполагается, что текст уже выровнен и очищен от шума. Далее можно выделить 2 этапа:
1. Определение текстовых зон. Данная задача решается при помощи анализа гистограммы изображения.
2. Сегментация текста.
Задачу идентификации почерка предполагается решать посредством соотнесения выделенных символов, - образцов почерка неизвестного лица, с символами, находящимися в ранее созданной БД, которая представляет собой хранилище образцов почерка для разных лиц. Предполагается, что другие образцы почерка неизвестного лица ранее уже попадали в БД. Для облегчения иллюстрации механизмов работы иммунных алгоритмов, в дальнейшем элементы БД будем называть антителами. Мас-
сив выделенных символов представляет собой сегментированный текст, полученный на предыдущем этапе сегментации. Выделенный символ будем называть антигеном. Задача сводится к нахождению наиболее схожего антитела для каждого антигена. Данные сводятся в статистическую выборку и впоследствии анализируются на предмет возможного автора представленного образца почерка.
С Пуск 3
Создание начальной популяции антител
Вычисление аффинности каждого антитела
Отбор лучших антител согласно их аффинности
Останов
Клонирование отобранных антител. Создание популяции клонов
Гипермутация антител из популяции клонов
Вычисление аффинности антител в популяции клонов
Отбор лучших антител согласно их аффинности из популяции клонов
I -
Перенос лучших антител согласно их аффинности из популяции клонов в основную популяцию
Отбор худших антител в основной популяции и их замена новыми случайно сгенерированными антителами
Рис. 1. Блок-схема алгоритма CLONALG
Формальное представление алгоритма выглядит следующим образом:
Математическое определение антитела: At=<Mas, М >, где Mas{0-255} -массив признаков. ^ - значение антитела.
Массив признаков представляет собой монохромное изображение, в котором 0 - соответствует черному цвету, а 255 - белому. Каждый признак представляет собой пиксель изображения.
Далее признаки будем называть генами. Мр={А^ - БД или основная популяция антител. А£=<Маэ> - антиген.
Степень схожести или аффинность Ag-At ожет быть вычислена при использовании следующей метрики:
- манхэттенское расстояние (также используется при вещественном или целочисленном кодировании)
l
D = X 1 at. - ag. \; Ы 1 1
(1)
где 1 - количество элементов массива генов, аЪ - ьй ген антитела At, - ьй ген антигена Ag.
Гены могут изменяться или мутировать. Для выполнения мутации используется оператор обратно пропорциональной мутации, со-
гласно которому вероятность мутации обратно пропорциональна аффинности антитета. Формула 2, предназначенная для расчета степени мутации, была получена авторами экспериментальным путем. В операторе мутации сила мутации определяется максимальным и минимальным порогами, которые, в свою очередь, зависят от значения разницы между сравниваемыми генами. Разница между ними определяет процент мутации гена, направление мутации определяется случайным образом.
Pm(ati) = var* * Кт / Б; (2)
где уаг - число, которое случайно принимает значения 1 и -1, Кт - коэффициент, выставляемый опытным путем, Datl - аффинность между и 1-ым геном agl антигена Ag.
Для контроля размеров промежуточной популяции предполагается использовать формулу 3, так же полученную экспериментальным путем.
F(Б) = Б *М *—; (3)
Ds
где D - аффинность между антителом А1 и антигеном Аg. Антитело - элемент базы образцов почерка, антиген - образец почерка, авторство которого необходимо установить.
М - размер популяции антител. Ds - суммарная аффинность между всеми антителами и антигеном.
Таким образом, количество клонов рассчитывается прямо пропорционально аффинности: N=F(D);
2. Разработка метода вывода и анализа результатов работы алгоритма идентификации
Механизм работы алгоритма CLONALG позволяет идентифицировать единичные данные за один проход. Алгоритм может работать с большими массивами данных, однако не имеет возможности определять их значение в совокупности. Выходными данными для CLONALG являются: антиген; массив возможных «авторов» исследуемого символа; аффинность исследуемого символа с вероятными авторами.
Методы судебной экспертизы почерка показывают, что наиболее вероятным владельцем почерка будет признано лицо, особенности почерка которого чаще всего встречаются в исследуемом образце, но не исключено, что на возможное авторство может указывать лишь один признак из множества схожих. Подобная неоднозначность оценки усложняет анализ конечных данных. Степень аффинности при подобном подходе носит вероятностный характер, однако не расходится с форматом представле-
ния данных алгоритмом CLONALG. Не вдаваясь в классификацию всех исследуемых в ходе судебной экспертизы признаков образца почерка, стоит отметить, что в предлагаемом подходе анализ производится в их совокупности.
Ввиду того, что статистическая информация, предоставляемая алгоритмом CLONALG равнозначна, предложено рассчитывать суммарную аффинность Afs для каждого класса (возможного автора) а по формуле 4, где afa -аффинность антигена к классу а.
Afsa =Z afa ; (4)
Большое значение аффинности покажет наиболее вероятного автора исследуемого почерка. Здесь не используются данные о размере выборки, что на первый взгляд кажется недостатком. Однако из-за наличия оператора мутации, в алгоритмах DCA и CLONALG это может даже положительно сказываться на общей эффективности анализа.
3. Разработка модульной и классовой структуры тестовой программной системы
Весь алгоритм идентификации можно представить в виде следующей последовательности действий:
1. Получить изображение с образцом почерка.
2. Выделить отдельные элементы и сформировать из них шаблоны.
3. Найти автора почерка.
Соответствие между понятиями иммунного аппарата и понятиями в судебной экспертизе почерка представлены в таблице
Соотношение понятий иммунного аппарата с понятиями судебной экспертизы почерка
Антиген Отдельный символ в образце идентифицируемого почерка
Антитело Символ, находящийся в базе данных с установленным автором
Иммунитет База данных антител
Аффинность между антителом и антигеном Степень схожести символа из БД с исследуемым символом
На рис. 2 представлена модульная структура программной системы идентификации почерка.
Лимфоцит - единичный элемент базы данных. Содержит шаблон, значение, вещественные характеристики литеры, данные автора. Реализует методы расчета аффинности и
мутации, а так же, методы для сохранения и загрузки своей информации. БД антител -представление множества лимфоцитов в виде организованной структуры. Содержит виртуальное пространство для распределения лимфоцитов, методы доступа к элементам, записи элементов, перераспределения элементов, методы загрузки и сохранения БД.
ных блоков программы. Данный блок содержит настройки всей программной системы и методы для их мониторинга и изменения.
Рис. 2. Модульная структура программной системы
Обработка контекста - блок реализует методы, необходимые для сегментации текста.
Обработка и формирование шаблонов антигенов - реализует формирование антигенов, а так же их представление.
Организация взаимодействия между лимфоцитами - блок содержит иммунный алгоритм и реализует возможность идентификации отдельных символов. Входными параметрами являются
предварительно сформированные антигены для задачи идентификации. В процессе работы, иммунный алгоритм собирает статистику, которая направляется в блок обработки результата.
Обработка результата - блок содержит методы анализа статистики идентификации в процессе работы иммунного алгоритма. На основе анализа происходит формирование отчета о результатах идентификации, который направляется пользователю.
На рис. 3 можно увидеть меню программной системы. На основе модульной структуры была разработана классовая модель, представленная на рис. 4.
Опциональный блок - в виду гибкости задачи идентификации, оператор должен иметь возможность изменения характеристик основ-
Рис. 3. Меню программной системы
Функционал интерфейса позволяет открывать в центральной рабочей области изображение форматов *jpg и *.bmp. Программа использует SDI(Single Document Interface
4. Опытное тестирование программы
В текущей версии программы, вследствии вышеупомянутых проблем сегментации предлагается разделять текст на отдельные символы вручную. Пользователь программы выделяет интересующий его компонент, который сразу же попадает в список шаблонов. В окне «Patterns» находится список шаблонов, которые выбрали из главного окна. В главном окне находится образец текста, авторство которого предстоит установить.
Современная классификация почерка насчитывает не менее 60 идентификационных признаков [12].
Очевидно, что точная настройка программы для работы с таким количеством характеристик выходит далеко за рамки данной работы.
Как следствие, алгоритмы тестировались на работоспособность и выявление «слабых» мест. Для этого было предложено установить авторство рукописного символа «а» с использованием ранее собранной тестовой базы образцов написания одноименного символа различными людьми.
Разработанный с использованием библиотеки Qt, интерфейс отображен на рис. 5.
Обработчик опций
■некоторые коэффициенты; double
»методы возаарата иозффициенп(): double (J-
. »методы задания коэффициентов) V Сохранение настроеК) ♦Загрузка настроеЦ)
Обработчик статистики
— »Аолуаль статистику!! »Обработка статистикИ) вернуть результат! I: <не указано» •вернуть ошибку)}: «не указано»
Обработчик шаблонов
Шаблон: tntflO Координата х шаблона; Int Коорд ината у шаблона: kit -Массив антигенов: int||[]|]
♦Получить массив шаблонов!) 'Подготовка антиген^) ♦Вернуть массив антигенов): <не указано» ♦Рисование шаблона!): <не указано»
ItiiMiAA
ппппия
■Загрузка графического файле!) Загрузка БД» Сохранение БД) Запуск идентификации!) ■•Вызов опций() -pj-Обучеии« ЕД() Загрузка шаблона!) »Сохранение шаблон^)
I
о-
Обработчик коитакста Изображение :int|](| Промежуточное изображение: in«f 1(1 ■Массив шаблонов: intflllll
»Получить иэображеииеЦ Выравнивание по угл^О ■Поиск арок!) •Деление по литерам!) »Вернуть массив шаблоне!!): int()|][|
Обработчик взаимодействий
•Статистика
»Клональный алгоритм) ■метод клонирований) »Сохранить или загрузило »вернуть статистику!) :<не указано» »Обучение с учителем!)
J
ад
Линейный массив антигенов: Лимфоцит!) ■Контейнер с ассоциативным доступом
«Добавить элемент() ♦удалить мемент!)
«Получить мемеит(): Лимфоцит «Обновиться) «Сохранить ЕД) «затрузнтьедо
I
Массив-шаблон :вмПП «Собственно* значение: char «Автор: char
координата х в пространстве: int координата у в пространстве: int ■координата г в пространстве: int »Порядковый номер родителя: int ■Последнее значение аффинности: double
«Вернуть шаблонО: ИШ «Получить шаблои!) «Аффинность!! ♦Мутация!)
«вернуть значение аффинности); double
♦Метод сохранены!)
«Метод загрузки!)
«вернуть коордииаЫ): *int
♦Задать координать<)_
Рис. 4. Классовая модель программной системы идентификации почерка
Рис. 5. Интерфейс, спроектированный с использованием библиотеки Qt
Ряду лиц было предложено написать десяток образцов литеры «а» и несколько слов, в которых эта буква присутствует в разных местах: в конце слова, в середине и в начале.
Рис. 6. Образец почерка
Таким образом, было достигнуто разнообразие начертания символа у испытуемых. Пример такого образца представлен на рисунке 6.
а
Рис. 7. Распознаваемый шаблон
Примером распознаваемого шаблона является шаблон, изображенный на рис. 7.
Размер используемой базы составил 200 элементов. Количество порождаемых клонов находилось в пределах 60. Эксперимент проводился на следующей конфигурации компьютера: Intel Core (2 ядра) 1.7 МГц, 2 Гб ОЗУ, ОС Windows XP SP3. Одна итерация алгоритма при этих характеристиках занимала от полуминуты до минуты. Таким образом, время работы алгоритма для идентификации десяти образцов почерка составляло менее 10 минут. На графиках, изображенных на рисунке 8, представлен срез из 20-ти опытов, - ось абсцисс, иллюстрирую-
щий производительность программы и качество идентификации для 10-ти образцов почерка. Время работы алгоритма рассчитывалось от начала процесса идентификации и до появления в консоли результата идентификации. На верхнем графике видно, что при размере базы в 200 элементов программе требуется в среднем 10 минут. Соответственно, с увеличением размера базы данных почерков, увеличивается и время идентификации В каждом из опытов на идентификацию подавалось 10 символов. Все символы являлись образцами почерка человека, личность которого требовалось установить . На нижнем графике показано количество корректно идентифицированных символов в каждом из опытов, дающее качество идентификации в 6070%.
Процент неверных результатов был связан с двумя причинами:
1. Программа «ошибалась», когда анализируемый образец нес малую идентификационную значимость, другими словами был слишком просто написан. Нужно отметить, что подобные задачи ввиду малого количества исходной информации вызывают затруднения даже у экспертов-криминалистов.
2. Уменьшение производительности программы в ряде случаев связано с механикой работы алгоритма
CLONALG. Когда на анализ попадает шаблон с малым количеством идентификационных признаков (похож на большинство объектов в базе), на этапе мутации порождается большое количество клонов.
При этом общее время работы алгоритма идентификации прямо пропорционально квадрату числа клонов. Уменьшения производительности можно избежать путем настройки коэффициентов, использованных в математической модели алгоритма, тем самым минимизируя количество порождаемых клонов. Однако следует учесть, что подобный шаг может иметь негативные побочные эффекты и требует дополнительных исследований.
Был проведен ряд опытов с множественной идентификацией. На каждой итерации распознавания алгоритм анализирует лучший результат и заносит его в стек, который по окончании процесса анализа выводится пользователю. Например, на рис. 9 изображен пример ответа программы, с правильным результатом распознавания, выведенный через отладочную консоль. Наиболее вероятным автором предлагается считать лицо, наибольшее количество раз появившееся в результирующем списке.
Производительность алгоритма ндонтификаинн почерка
1 2 S 4 S в 7 В 9 10И1215Ы151ЛГ71Я19Х>
200 элементов —400 элементов No опыта
Качество идентификации почерка
г
I J_
1 2 5 4 5 6 7 8 »20Uttl31dlSl£171B19ao
—Число правильно идентифицированных символов № опыта
Среднее качество идентификации: 60-70%
Характеристики ПК Intel Core (2 ядра) 1.7 МГц, 2 ГБ ОЗУ. ОС Windows ХР SP3
Рис. 8. Качество работы алгоритма идентификации
При сравнении с известными на сегодняшний день разработками:
ARRANGE done with time: 593 Final array size is 11
el "anton* зг aff 99 count 12
el "anton" sr aff 99 count 15
el "mi3haw sr aff 99 count 14
el "anton* sr aff 92.1459 count 281
el "stas" sr aff 99 count 10
el "anton" sr aff 99 count 11
el "anton" sr aff 91.6957 count 23
el "antonw sr aff 99 count 8
el "aaton" sr aff 90.5294 count 17
el "stas" sr aff 94,7368 count 19
el "inisha" sr aff 99 count 8
CLOANLG Stoped
Сообщения сборки Результаты поиска |
Рис. 9. Результат работы алгоритма идентификации почерка
-Для программы «тап^О-тап»[24] -правильное решение было принято в 76% случаях, ошибочное — 11% , невозможность принять верное решение в 13% случаях. -Для АРМ [13] с применением нейросетевых технологий был зафиксирован показатель: 56%
- правильное решение, 16 % ошибочное, 28 % -невозможность принять решение.
Для подпрограммы идентификации исполнителя
рукописи количество ошибок при определении авторства документов, выполненных одним лицом, составило 0.5% против предыдущего показателя в 14%.[25].
Однако, процент случаев, при которых удавалось правильно определить исполнителя здесь не указан Временные показатели при этом не столь существенны, т.к. в реальности криминалистическая экспертиза почерка занимает от нескольких суток, до нескольких недель.
В ходе исследования было установлено, что оптимизация клонального алгоритма и использование некоторых функций иммунного алгоритма АШЕТ позволят повысить показатели системы в сравнении с приведенными выше.
Например, оригинальная версия алгоритма позволяла проводить идентификацию единовременно только одного элемента из множества анализируемых, но не в их совокупности. Для устранения данной проблемы, был органи-
зован внутренней цикл, позволяющий перебирать все элементы, пришедшие для анализа. Таким образом, алгоритм стал работать по принципам механизма, напоминающего «естественный отбор» в теории эволюции. Постепенно остаются антитела наиболее схожие с исследуемыми антигенами, быстрее мутируют, вытесняют наименее схожие. Система приходит к равновесию, и на конечных итерациях основная и временная популяции содержит множество антител, наиболее схожих с анализируемыми образцами. Оператор мутации, не позволяет получать антитела, одновременно похожие на все исследуемые антигены.
В соответствии с изначальной версией алгоритма CLONALG, для отбора N лучших антител необходима сортировка элементов базы данных почерков по их аффинности с исследуемым образцом почерка, что предполагало как минимум несколько проходов по массиву данных, представляющую базу данных Увеличения производительности работы алгоритма удалось добиться, избавившись от необходимости сортировать антитела. Переменная N, как правило, представлена константным значением. Такой подход не учитывал различные размеры загружаемых для анализа баз данных. Чтобы избежать подборки размерности базы данных было введено понятие порог выборки или Pv. Порог выборки позволяет учитывать размер базы данных и задавать границу отбора «интересующих» антигенов, и таким образом выбирать для анализа необходимое число антигенов, некоторый процент от общего числа элементов базы. Опытным путем, для расчета порога выборки получена следующая формула 5:
(5)
Pv=D ■ +(D min 4 1
max - Dmin)*k
где Dmm - минимальная аффинность, полученная между At и Ag на текущей итерации алгоритма; k - некоторый коэффициент, определяющий процент отбираемых антител в диапазоне от Dmm до Dmax. Заключение
В итоге проведенного исследования была разработана модификация алгоритма CLONALG для решения задачи идентификации автора по почерку. Проанализированы процесс почерковедческой экспертизы и базовые подходы в теории иммунных сетей, разработана математическая модель. В итоге можно сделать вывод следующие выводы:
1. Полученные результаты позволяют говорить о высокой эффективности предлагаемого метода. Уже первоначальные экспериментальные данные вполне сопоставимы с показа-
телями имеющихся разработок и данных приведенных в ряде работ [14,15,16]
2. Наиболее эффективные на сегодняшний день нейросетевые технологии [22,23] имеют ряд общеизвестных недостатков [26,28], к-е отсутствуют у иммунных сетей. Это закрытость вычислений, непредсказуемое время обучения, особенно при больших объемах данных, невозможность переобучения без полной перенастройки сети, сложность изменения первоначальных параметров. Система же, на базе иммунных систем быстро обучаема, не имеет особых ограничений по размерности. Обучающая выборка легко и просто модифицируется.
3. Применение искусственных иммунных систем, хотя еще и находится на начальной стадии разработки, имеет большой потенциал и представляет большой интерес при решении всех видов задач, связанных с распознанием, идентификацией и классификацией информации.
Литература
1. Хомяков, Э.Г. «Метод фазового анализа письменных объектов при проведения почерквоедческих исследований». Диссертация. Ижевск : Удмурдский государственный универсистет, 2002 г.
2. А.А., Аубакирова.» Следственные и экспертные ошибки при формировании внутреннего убеждения». Автореферат диссертации. 2010 : Южно-Уральский государственный университет, г.Челябинск .
3. Кулик С. Д., Никонец Д. А. «Автоматизация криминалистического исследования рукописных документов и вопросы безопасности» // Научная сессия МИФИ-2008. XV Всероссийская науч. конф. «Проблемы информационной безопасности в системе высшей школы». Сб. науч. трудов. М.: МИФИ, 2008. С. 88-89.
4. Tomislav Fotak, Miroslav Baca, Petra Koruga « Handwritten signature identification using basic concepts of graph theory», Faculty of Organization and Informatics, Centre for biometrics University of Zagreb, Published in: ■ Journal WSEAS Transactions on Signal Processing, Volume 7 Issue 4, October 2011 Pages 117-129.
5. Sargur N. Srihari and Sangjik Lee « Automatic Handwriting recognition and Writer Matching on Anthrax-related Handwritten», Mail Center of Excellence for Document Analysis and Recognition (CEDAR) University at Buffalo, State University of New York (SUNY) 520 Lee Entrance, Suite 202 Amherst, NY 14228, USA fsri-hari,[email protected]
6. Кошманов М.П., Кошманов П.М. «Классификации идентификационнных признако в в почерковедческой экспертизе» Логические и программные средства интеллекутального анализа криминалистических данных. автореферат диссертации. Москва : ВИНИТИ РАН, 2010 г.
7. В.Н., Мальцев. «Нетрадиционные методы исследования в криминалистике.». Дис. ... канд. юрид. наук : 12.00.09. Владивосток : б.н., 2001 г. с.. 8.
8. А.С., Комаров. «Логические и программные средства интеллектуального анализа криминалистических данных». Диссертация на соискание ученой степени кандидата технических наук. Москва : ВИНИТИ РАН, 2010 г.
9. Azah Kamilah bt. draman @ muda «Authorship in-varianceness for writer identincation using invariant discretization and modified immune classifier».A thesis submitted in fultilment of the requirements for the award of the degree of Doctor of Philosophy (Computer Science) .Faculty of Computer Science and Information System Universili Teknologi Malaysia, august 2009 .
10. Azah Kamilah Muda & Siti Mariyam Shamsuddin «An Approach of Bio-inspired Generalized Shape for Writer Identification». Faculty of Computer Science & Information System,University Technology of Malaysia, 81310 Skudai, Johor, Malaysia. [email protected]; [email protected]. Proceedings of the Postgraduate Annual Research Seminar 2006.
11. Khaled Mohammed Bin Abdl and 2Siti Zaiton Mohd Hashim, «Swarm-Based Feature Selection for Handwriting Identification», Journal of Computer Science 6 (1): 8086, 2010 ISSN 1549-3636,© 2010 Science Publications
12. Julie Greensmith, Amanda Whitbrook, Uwe Aickel-in «Artificial Immune Systems», Handbook of Metaheuristics, 2nd edition, Springer, 2010, 27p.
13. Кулик С.Д., Никонец Д.А. «Примеры использования нейросетевого алгоритма в методиках для эксперта-почерковеда». Нейрокомпьютеры: разработка и применение. 2009 г., 9, с.. 61-65.
14. Yu Yang «Handwritten Armenian character recognition based on discrete cosine transform and artificial immune system Information Technology and Artificial Intelligence Conference (ITAIC), 2011 6th IEEE Joint International Date of Conference: 20-22 Aug. 2011. Conference Publications Volume: 2 Page(s): 14 - 16
15. Djeddi, C. "Artificial Immune Recognition System for Arabic writer identification», Innovation in Information & Communication Technology (ISIICT), 2011 Fourth International Symposium on, 29 2011-Dec. 1 2011,Amman, Conference Publications. Page(s): 159 -165
16. Muda, Azah Kamilah and Shamsuddin, Siti Mari-yam «A framework of artificial immune system in writer identification.» In: BIC05, Puteri Pan Pacific, Conference or Workshop ,24 May 2007 .
17. L. N. De Castro, F.J. Von Zuben, 2000a.» Artificial Immune Systems: Part I I - A Survey of Application. Technical Report» -RT DCA 02/00..
18. Utpal Garain, Mangal P. Chakraborty, Dipankar Dasgupta.» Recognotion of handwritten indic script using Clonal Selection Algorithm». H. Bersini and J.Carneiro(Eds.): ICARIS 2006, LNCS 4163, pp.256-266, 2006
19. de Castro, L.N., Von Zuben, F.J. aiNet: An artificial Immune Network for Data Analysis // Data Mining: A
Heuristic Approach / Eds. H.A. Abbass, R.A. Saker, C.S. Newton, Idea Group Publ., USA, Chapter XII. -2001. -P. 231-259.
20. Julie Greensmith, Uwe Aickelin, Gianni Tedesco. Information Fusion for Anomaly Detection with the Dendritic Cell Algorithm. Information Fusion 11 (1). 2010. - 21-34pp.
21. И. В. Мельникова, А. А. Шаталов Сегментация рукописных символов с использованием алгоритма дендритных клеток DCA, Научно-издательский центр «Открытие», otkritieinfo.ru, АКТУАЛЬНЫЕ ВОПРОСЫ СОВРЕМЕННОЙ НАУКИ Материалы VI международной научной конференции30-31 мая 2013 года г. Санкт-Петербург, с..31
22. Томилин В. В. «Физиология, патология и судебно-медицинская экспертиза письма». - М.: Медгиз, 1963г. - 235 с.
23. Братчиков И.Л. Хан Тхе Ань. Новые методы предварительной обработки для систем распознавания рукописного текста / Вестник СПбГУ. Сер. 10, 2008, вып 1. - 16-24сс.
24. Кулик С.Д. Свидетельство на программу №2001610385, Российская Федерация, «Фактографическая система для определения пола исполнителя рукописи (подсистема распознавания)» (man-WO-man) / С.Д.Кулик (Россия). Заявка №2001610125; Заяв. 8.02.2001; Зарегис.. 5.04.2001. Бюл. №3(36). С.20-21. (РОСПАТЕНТ).
25. Рыкова Е.В., Лепенков К.В., Королева Н.Г. Инструментальные средства для эксперта - криминалиста. 13-я Международная телекоммуникационная конференция студентов и молодых ученых "Молодежь и наука". Москва : НИЯУ "МИФИ", 2010.
26. Манжула В.Г., Федяшов Д.С. «Нейронные сети кохонена и нечеткие нейронные сети в интеллектуальном анализе данных «// Фундаментальные исследования. -2011. - № 4 - с.. 108-115
27. . Методы и алгоритмы контурного анализа для задач классификации сложноструктурируемых изображений [Текст] / М.В. Дюдин, А.Д. Поваляев, Е.С. Подвальный, Р.А. Томакова // Вестник Воронежского государственного технического университета. - 2014. - Т. 10. -№ 3. - С. 54-59.
28. Гусев, К.Ю. Нейросетевая модель прогнозирования интегральных экономических показателей. Системы управления и информационные технологии [Текст] / К.Ю. Гусев, В.Л. Бурковский. - 2012. - Т. 48. - № 2.1. - С. 132135.
Старооскольский технологический институт им. А.А. Угарова (филиал) ФГБОУ ВПО "Национальный исследовательский технологический университет "МИСиС"
INTELLIGENT SYSTEM FOR IDENTIFICATION OF OBJECTS USING THE ALGORITHM
OF IMMUNE SYSTEMS
Yu.I. Eremenko, I.V. Melnikova, A.A. Shatalov
The article presents research into possible application of immune algorithm of clonal selection for building a Russian-language system for author identification based on handwriting. Complex of programs, that allows testing different modifications of algorithm, and database of handwriting samples were developed
Key words: intelligent system, handwriting identification, expertise, individual's identification based on handwriting, the algorithm of clonal selection