Научная статья на тему 'Интеллектуальный анализ данных в почерковедении: программная реализация'

Интеллектуальный анализ данных в почерковедении: программная реализация Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY-NC-ND
380
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / INTELLIGENCE DATA ANALYSIS / ДСМ-МЕТОД / JSM-METHOD / ПОЧЕРКОВЕДЧЕСКАЯ ЭКСПЕРТИЗА / HANDWRITING EXPERTISE / GRAPHOLOGY / ВЕБ-ПРИЛОЖЕНИЕ / WEB APPLICATION / ТРЕХУРОВНЕВАЯ КЛИЕНТ-СЕРВЕРНАЯ АРХИТЕКТУРА / MULTITIER ARCHITECTURE / ПОЧЕРК

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Комаров Алексей Сергеевич

В статье описывается программный продукт для реализации интеллектуального анализа почерковедческих данных, предназначенный для почерковедческих исследований и поддержки почерковедческой экспертизы. Интеллектуальный анализ данных опирается на ДСМ-метод автоматического порождения гипотез. Описываемый программный продукт позволяет группе исследователей совместно работать с системой. Указаны задачи, решаемые в настоящий момент и планируемые для решения в дальнейшем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Комаров Алексей Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Intellectual data analysis in graphology: Software implementation

This article describes software product for intelligence handwriting data analysis which meant for handwriting experiments and handwriting expertise support. Intelligence data analysis is based on JSMmethod for automatic generation of hypotheses. This software product makes it possible to several researchers work with one system. The article specifies problem which developer solve now and plan to solve in the near future.

Текст научной работы на тему «Интеллектуальный анализ данных в почерковедении: программная реализация»

А.С. Комаров

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ В ПОЧЕРКОВЕДЕНИИ: ПРОГРАММНАЯ РЕАЛИЗАЦИЯ*

В статье описывается программный продукт для реализации интеллектуального анализа почерковедческих данных, предназначенный для почерковедческих исследований и поддержки почерковедческой экспертизы. Интеллектуальный анализ данных опирается на ДСМ-метод автоматического порождения гипотез. Описываемый программный продукт позволяет группе исследователей совместно работать с системой. Указаны задачи, решаемые в настоящий момент и планируемые для решения в дальнейшем.

Ключевые слова: интеллектуальный анализ данных, ДСМ-метод, по-черковедческая экспертиза, почерк, веб-приложение, трехуровневая клиент-серверная архитектура.

В настоящее время почерковедческая экспертиза, призванная помочь при расследовании преступлений, находится в кризисе. Это связано в первую очередь с тем, что эксперт-почерковед при решении идентификационной задачи почерковедческой экспертизы или установлении каких-либо атрибутов исполнителя рукописи (пол, возраст и т. п.), а также при решении атрибутивно-диагностических задач традиционно опирался на соответствующие методики. Создание таких методик - длительный и трудоемкий процесс. Основные методики были созданы во второй половине прошлого века. В их создании принимали участие несколько научно-исследовательских институтов. Методики опирались на прописи, использовавшиеся для обучения детей письму в школе.

© Комаров А.С., 2010

* Работа выполнена при поддержке РФФИ, проект № 09-07-0087-а «Интеллектуальная система анализа криминалистических данных».

В настоящее время прописи того образца устарели, а создание новых методик на основе современных стандартов прописей не финансируется. Поэтому возникает потребность в поиске новых подходов к созданию инструментов для почерковедческой экспертизы.

Методы, применяющиеся для решения задач почерковедческой экспертизы, в основном носят вероятностно-статистический характер (графологические методы не рассматриваются, так как они не имеют строгого научного обоснования). Исключение составляет метод фазового анализа1, а также количественные методы криминалистического исследования кратких записей, выполненных намеренно измененным почерком скорописным способом, основанные на теории кубического сплайна, разработанные Е.В. Яковлевой2.

В работе В.Ф. Орловой3 утверждается, что зависимости между исполнителем рукописи и его почерком носят принципиально вероятностно-статистический характер. Однако результаты исследования связей между факторами, влияющими на почерк, и признаками почерка4 позволяют предположить, что детерминистская составляющая в этих зависимостях присутствует.

Такое расхождение в суждениях объясняется большой сложностью задачи, вызванной многокомпонентностью в описании исполнителя рукописи и множественностью факторов, влияющих на формирование почерка. Подобная многокомпонентность и многофакторность проявления особенностей если и не исключает полностью возможности существования детерминированных связей, то сильно затрудняет, а иногда и делает практически неосуществимым их выявление. Однако из этого еще не следует, что связи носят статистический характер и могут быть обнаружены только вероятностно-статистическими методами.

Очевидно, что поиск детерминированных связей является крайне трудоемким процессом, который не под силу человеку без применения компьютерных методов.

Существующие компьютерные программы, которые используются в этой области в настоящее время, можно разделить на две категории по своей функциональности:

- автоматизирующие процесс вычисления;

- прогнозирующие ответ задачи.

Программы первой категории носят исключительно прикладной характер. Они представляют собой некий программный интерфейс, в который заложены определенная методика и алгоритм вычисления, и предназначены исключительно для автоматизации вычислений, связанных с этой методикой. Без заранее разработанных методик существование таких программ невозможно.

К программам второй категории относится система, разрабатываемая в настоящий момент в МИФИ5. В основе этой системы лежат нейронные сети, что позволяет ей не только предсказывать правильный ответ задачи, но и обучаться на примерах. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными и выходными данными, а также выполнять обобщение. В системах такого рода методики могут использоваться при проектировании нейронной сети, но не являются необходимым элементом при создании системы, в отличие от систем первой категории.

Все эти программы объединяет одно: прогнозируя или вычисляя результат задачи, они не вскрывают зависимостей в системе «человек-рукопись», а для дальнейших исследований в области почерковедения требуется именно это. Экспертам-почерковедам необходимы новые подходы, применяя которые можно было бы создавать новые или модернизировать старые методики, анализируя выявленные зависимости. В данной статье рассматривается программная реализация одного из таких подходов - интеллектуального анализа почерковедческих данных.

Интеллектуальный анализ данных позволяет выявить зависимости в системе «человек-почерк», уточнить модель предметной области и подсказать подходы к решению некоторых конкретных задач. Этот анализ осуществляется с помощью ДСМ-метода автоматического порождения гипотез6. Дадим краткое описание этого метода7.

ДСМ-метод автоматического порождения гипотез для баз данных (фактов) с неполной информацией является логико-комбинаторным средством анализа структурированных данных и порождения гипотез о причинно-следственных зависимостях, неявно содержащихся в базах фактов (БФ). Гипотезы о возможных причинах изучаемых эффектов являются средствами для прогнозирования этих эффектов.

ДСМ-метод образован четырьмя компонентами:

1) автоматизированные правдоподобные рассуждения;

2) аксиоматизированные условия их применимости к БФ определенного типа;

3) представление знаний в виде квазиаксиоматических (открытых) теорий, лишь частично характеризующих предметную область. Квазиаксиоматические теории состоят из аксиом предметной области, аксиом структуры данных, аксиом, представляющих процедуры и правила правдоподобного вывода (индукции, аналогии, абдукции);

4) интеллектуальные системы типа ДСМ, состоящие из решателя задач, базы фактов и базы знаний и специального интерфейса.

Решатель задач типа ДСМ содержит рассуждатель, реализующий формализованные эвристики анализа данных в БФ. Эти эвристики являются правдоподобными рассуждениями, которые осуществляют синтез познавательных процедур:

- эмпирической индукции - порождения из БФ, содержащей позитивные (+)- и негативные (-)- примеры, гипотез о (+)- и (-)- причинах изучаемого эффекта;

- аналогии - предсказания наличия (отсутствия) этого эффекта в случаях неопределенности посредством гипотез о (+)- и (-)- причинах;

- абдукции - объяснения начального состояния БФ посредством (+)- и (-)- гипотез либо для принятия гипотез на достаточном основании, либо расширения БФ, либо для констатации «практической расходимости» процесса предсказания.

ДСМ-метод реализует важный принцип: «сходство объектов определяет сходство эффектов и их повторяемость». Это отличает его от статистических методов и делает инструментом формализованного качественного анализа данных.

ДСМ-метод решает определенный класс задач, называемых ДСМ-задачами, и дает положительный результат только при условии хорошо разработанной предметной области.

Предварительный анализ задач почерковедческой экспертизы показал их принадлежность к классу ДСМ-задач. Но данная предметная область крайне сложна, и построение удачной модели с первого раза не представляется возможным. По этой причине проблема адаптации ДСМ-метода для решения задач почерковедческой экспертизы носит итерационный характер, где на каждом этапе решается вопрос необходимости изменения объектной модели и пополнения базы данных.

В итоге перед разработчиками системы интеллектуального анализа почерковедческих данных встала задача создания программы, позволяющей хранить данные, работать с ними и проводить их интеллектуальный анализ с применением ДСМ-метода. Кроме того, подразумевается, что с одним массивом данных должны иметь возможность работать как разработчики системы, так и эксперты-почерковеды, то есть группа, члены которой могут выполнять разные операции в зависимости от своих прав доступа. Таким образом, система должна поддерживать авторизацию пользователей и обеспечивать одновременный доступ с разных компьютеров в независимости от их местонахождения и установленного программного обеспечения. Важным фактором также является нормальное функционирование системы на слабых компьютерах при условии трудоемких вычислений.

В ходе анализа поставленной задачи была выбрана реализация данной системы в виде веб-приложения с трехуровневой архитектурой. Подробнее трехуровневая архитектура и ее реализация в данной системе будет описана далее, сейчас рассмотрим принцип работы веб-приложения.

Под веб-приложением понимается клиент-серверное приложение, в котором в роли клиента выступает браузер, а в роли сервера приложений - веб-сервер. Веб-приложение получает запрос от пользователя, выполняет вычисления, после этого формирует вебстраницу и отправляет ее пользователю по сети с использованием протокола HTTP. Логика приложения сосредоточивается на сервере, а функция браузера заключается в основном в отображении информации, загруженной по сети с сервера, и передаче обратно данных пользователя. При этом вся основная вычислительная нагрузка ложится на сервер, предъявляя высокие требования к компьютеру, на котором он находится. Единственным требованием к компьютеру пользователя остается наличие на нем установленного браузера и подключения к одной с сервером сети. Браузер, как правило, входит в состав каждой операционной системы. Функции его обновления и сопровождения лежат на поставщике операционной системы и никак не связаны с разработчиком самого веб-приложения. Все браузеры способны отображать веб-страницы и обладают схожим функционалом, что обеспечивает независимость веб-приложения от конкретной операционной системы конечного пользователя и делает его межплатформенным сервисом. Кроме того, современные технологии позволяют создавать веб-приложения, способные взаимодействовать с пользователем в интерактивном режиме, практически стирая грань между веб-приложениями и локальными приложениями.

В отличие от классического устройства клиент-серверного приложения в данной системе хранение данных вынесено на отдельный уровень, что соответствует принципам трехуровневой архитектуры, которая предполагает наличие следующих компонентов приложения: клиентское приложение, подключенное к серверу приложений, который в свою очередь подключен к серверу базы данных. Рассмотрим структуру системы подробнее.

Под клиентским приложением (или терминалом) понимается интерфейсный компонент, который представляет первый уровень -собственно приложение для конечного пользователя. Первый уровень не должен иметь прямых связей с базой данных и не должен быть нагружен бизнес-логикой. (Здесь и далее под бизнес-логикой понимается реализация правил и ограничений автоматизируемых операций. Синонимом является термин «логика предмет-

ной области». При разработке системы бизнес-логика реализуется в классах и методах классов в случае использования объектно-ориентированных языков программирования или процедурах и функциях в случае применения процедурных языков.) На первый уровень могут быть вынесены и обычно выносятся простейшие фрагменты бизнес-логики: интерфейс авторизации, алгоритмы шифрования, проверка вводимых значений на допустимость и соответствие формату, несложные операции (сортировка, группировка, подсчет значений) с данными, уже загруженными на терминал. Клиентское приложение со столь ограниченным функционалом еще принято называть «тонким клиентом». В нашем случае роль тонкого клиента, как уже было сказано, может выполнить любой имеющийся на компьютере конечного пользователя браузер. Бизнес-логика на этом уровне в рассматриваемой системе включает в себя проверку вводимых пользователем значений и операции с полученными с сервера данными. Она реализована на языке JavaScript - скриптовом языке, который используется при создании сценариев поведения браузера, встраиваемых в веб-страницы, - при использовании фреймворка jQuery.

Сервер приложений располагается на втором уровне. На этом уровне сосредоточена большая часть бизнес-логики, отвечающая за реализацию правил взаимодействия объектов предметной области. Вне его остаются фрагменты, экспортируемые на терминалы, а также погруженные в третий уровень хранимые процедуры и триггеры. В описываемой системе на этом уровне расположена часть бизнес-логики, связанная с обработкой и анализом данных, авторизацией пользователей и разграничением их прав. Она реализована на языке PHP версии 5. PHP - скриптовый язык, предназначенный для генерации HTML-страниц на веб-сервере и работы с базами данных. В качестве сервера приложений в данной системе выступает HTTP-сервер Apache версии 2.2, поддерживающий исполнение скриптов, написанных на языке PHP.

Сервер базы данных обеспечивает хранение данных и выносится на третий уровень. Обычно это стандартная реляционная или объектно-ориентированная система управления базами данных (СУБД). Если третий уровень представляет собой базу данных вместе с хранимыми процедурами, триггерами и схемой, описывающей приложение в терминах реляционной модели, то второй уровень строится как программный интерфейс, связывающий клиентские компоненты с прикладной логикой базы данных. В данной системе в качестве СУБД используется MySQL Community Server версии 5.1. Объектная модель разрабатываемой системы реализована в рамках схемы базы данных.

В сравнении с приложениями, обладающими двухуровневой клиент-серверной или файл-серверной архитектурой (приложения с файл-серверной архитектурой схожи по своей структуре с локальными приложениями и используют сетевой ресурс только для хранения программы и данных; функция сервера -хранение данных и кода приложения, вся обработка данных происходит исключительно на стороне клиента), можно выделить следующие достоинства приложений с трехуровневой архитектурой:

- масштабируемость - способность системы увеличивать свою производительность при добавлении ресурсов (обычно аппаратных);

- конфигурируемость - изолированность уровней друг от друга позволяет (при правильном развертывании архитектуры) быстро и простыми средствами переконфигурировать систему при возникновении сбоев или при плановом обслуживании на одном из уровней;

- высокая безопасность;

- высокая надежность;

- низкие требования к скорости канала (сети) между терминалами и сервером приложений;

- низкие требования к производительности и техническим характеристикам терминалов.

Недостатки таких приложений вытекают из их же достоинств:

- более высокая сложность создания приложений;

- сложнее в разворачивании и администрировании;

- высокие требования к производительности сервера приложений и сервера базы данных, а значит, и высокая стоимость серверного оборудования;

- высокие требования к скорости канала (сети) между сервером базы данных и сервером приложений.

Таким образом, выбранная реализация полностью удовлетворяет предъявленным к системе требованиям. Единственным недостатком при эксплуатации данной системы остаются высокие требования к серверной части: необходимость как минимум одного мощного компьютера и сложность в разворачивании и администрировании на нем системы.

В настоящий момент с системой работает небольшая группа людей, что позволяет использовать конфигурацию системы, когда физически сервер приложений совмещен с сервером базы данных на одном компьютере, к которому по сети могут подключаться один или несколько терминалов. Это частично сглаживает недостатки архитектуры, снимая требование к скорости канала между серве-

ром базы данных и сервером приложений и понижая требования к производительности серверов. Подобная конфигурация применима и в случае развертывания системы в компьютерном классе. В то же время при увеличении нагрузки на систему всегда можно разнести сервер приложений и сервер баз данных на разные компьютеры, не теряя работоспособности системы и не изменяя программного кода.

Как говорилось выше, решение задачи интеллектуального анализа криминалистических данных с применением ДСМ-метода носит итерационный характер. При этом идет постоянный процесс модернизации существующей системы.

В первую очередь в системе реализован функционал, связанный с доступом к данным и их хранением. Пользователи могут вводить, просматривать и редактировать имеющуюся в базе информацию.

В основу схемы базы данных системы заложена объектная модель предметной области. К основным объектам модели относятся люди (исполнители рукописей) и документы (рукописи). Для каждого человека содержится информация о его возрасте и поле. Каждый документ представляет собой описание рукописного документа в терминах языка описания общих признаков почерка. Для каждого человека хранится связь с документом, исполнителем которого он является. На данный момент в единой базе хранятся подготовленные экспертами-почерковедами сведения о более чем 250 образцах почерка.

Кроме того, в рамках системы реализован алгоритм интеллектуального анализа данных на основе модифицированного ДСМ-метода. Применение данного алгоритма к имеющимся данным позволяет проводить эксперименты по выявлению гипотез о зависимостях между полом исполнителя и признаками его почерка и между разными группами признаков почерка. Совместный с экспертами-почерковедами анализ полученных гипотез показал недостаточность описания почерка только общими признаками для решения задачи определения и, как следствие, необходимость расширения объектной модели за счет введения новых параметров описания как самих документов, так и их испол-нителей8.

В настоящий момент ведутся исследования возможности расширения объектной модели за счет добавления описания психологических свойств человека и частных признаков почерка и адаптации алгоритмов для их анализа. Также рассматривается вопрос о целесообразности включения дерматоглифики в рамки предметной области.

Примечания

См.: Хомяков Э.Г. Метод фазового анализа письменных объектов при проведении почерковедческих исследований: Дис. ... канд. юрид. наук. Ижевск, 2002. См.: Яковлева Е.В. Криминалистическое исследование кратких записей, выполненных намеренно измененным почерком скорописным способом: Дис .... канд. юрид. наук. М.: Российской Федерации центр судебной экспертизы, 2006. См.: Орлова В.Ф. Судебно-почерковедческая диагностика: Учеб. пособие для студентов вузов. М.: ЮНИТИ-ДАНА; Закон и право, 2006. См.: Шварц В.Б. К проблеме врожденного и приобретенного в развитии двигательных способностей // Проблемы генетической психофизиологии. М., 1978; Марютина Т.М. О генотипической обусловленности вызванных потенциалов человека // Там же; Сергиенко Л.П., Кореневич В.П. Соотношение влияния наследственности и среды в процессе обучения движениям человека // Вопросы психологии. 1989. № 4.

Кулик С.Д., НиконецДА, Ткаченко К.И. Решение задач криминалистики при исследовании почерка кратких записей // Научная сессия МИФИ-2007. Сб. науч. трудов: В 17 т. Т. 12: Информатика и процессы управления. Компьютерные системы и технологии. М.: МИФИ, 2007. С. 24-25.

См.: Гусакова С.М., Комаров А.С, Устинов В.В., Федорович В.Ю. Применение ДСМ-метода к решению задач почерковедческой экспертизы // X национальная конференция по искусственному интеллекту «КИИ-2006», Обнинск, 2528 сентября 2006: Труды конференции. Т. 1. М.: Физматлит, 2006; Гусакова С.М., Комаров А.С. Возможности применения ДСМ-метода для решения задач почерковедческой экспертизы // НТИ. Сер. 2. 2007. № 10. Финн В.К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ // Итоги науки и техники. М., 1991. Т. 15. С. 54-98. Гусакова С.М., Комаров А.С., Устинов В.В., Федорович В.Ю. Критерий достаточного основания как средство интеллектуального анализа криминалистических данных // Третья Международная конференция «Системный анализ и информационные технологии», Звенигород, 14-18 сентября 2009: Труды конференции. М., 2009. С. 173-175.

1

2

3

4

5

6

7

8

i Надоели баннеры? Вы всегда можете отключить рекламу.