Научная статья на тему 'Концепция информационной системы «Актуализация историко-культурного наследия»'

Концепция информационной системы «Актуализация историко-культурного наследия» Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
273
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННАЯ СИСТЕМА / INFORMATION SYSTEM / АКТУАЛИЗАЦИЯ / ACTUALIZATION / КУЛЬТУРНОЕ НАСЛЕДИЕ / CULTURAL HERITAGE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Усачев Александр Владимирович, Румянцев Максим Валерьевич, Барышев Руслан Александрович

В статье представлена оригинальная концепция архитектуры и внутренней структуры информационной системы (ИС), позволяющей в цифровом виде интегрировать данные историко-культурных, археологических, этнографических исследований об исчезающих объектах культурного наследия Средней Сибири. Проект ИС предполагает использование новых методов интерпретации, визуализации и поиска знаний (Data Mining), а также технологий Xwiki, XML, ASP. NET и т. п.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The concept of information system «Actualization of a historical and cultural heritage»

In article is presented the original concept of architecture and internal structure of the information system allowing in a digital form to integrate the data of historical and cultural, archaeological, ethnographic researches about disappearing objects of a cultural heritage of Average Siberia. Project IS assumes use of new methods of interpretation, visualization and search of knowledge (Data Mining), and also technologies Xwiki, XML, ASP. NET, etc.

Текст научной работы на тему «Концепция информационной системы «Актуализация историко-культурного наследия»»

№ 2(32) 2011

А. В. Усачев, канд. техн. наук,доцент Сибирского федерального университета, г. Красноярск М. В. Румянцев, канд. филос. наук,директор Гуманитарного института Сибирского федерального университета, г. Красноярск

P.A. Барышев, канд. филос. наук, ст. преподаватель Сибирского федерального университета, г. Красноярск

Концепция информационной системы «Актуализация историко-культурного наследия»

В статье представлена оригинальная концепция информационной системы, содержащей данные историко-культурных, археологических, этнографических и других исследований об исчезающих объектах культурного наследия Средней Сибири.

Введение

Историко-культурные исследования в последние несколько десятилетий все более тесно связаны с использованием различных информационных технологий. Несмотря на слабую формализованное^, данные этих исследований транслируются в цифровую форму, что позволяет не только обеспечивать их сохранность, но и применять к ним новые методы интерпретации, визуализации и поиска знаний (Data Mining). Одной из наиболее востребованных форм презентации большого массива данных чаще всего является информационная система (ИС), разработанная на основе web-технологий.

В настоящий момент опыт создания ИС представлен двумя подходами. Первый — традиционный, когда ИС строится как закрытая система, а наполнение базы происходит преимущественно из одного источника и только после верификации и формализации данных. Второй подход связан с применением в той или иной степени принципов, выработанных в рамках перспективных технологий Web 2.0 и Web 3.0, что позволяет, несмотря на очевидные недостатки, обусловленные отсутствием модерации и администрирования в таких системах, за-

пускать «самоорганизующиеся» в сети Интернет информационные системы.

Рассматривая ИС, связанные с представлением историко-культурного контента, следует обратить внимание на два основных вектора их развития. Первый и наиболее популярный — разработка географических информационных систем (ГИС)1. Их популярность объясняется наличием обширного визуального материала, привлекательного для широкой аудитории. Второй — создание ИС, содержащих данные об исторических событиях либо объектах культурного наследия. Эта категория ИС менее распространена в сети Интернет и, как правило, представляет собой опНпе-модуль, встроенный в web-пpeдcтaвитeльcтвo крупного музея или библиотеки2.

Отметим, что последние годы также ознаменованы появлением двух крупных про-

1 Great Britain Historical GIS (http://www.visionofbrit-ain.org.uk); China Historical GIS (http://www.fas.harvard. edu/~chgis); David Rumsey Historical Map Collection (http://www.davidrumsey.com); Electronic Cultural Atlas Initiative (http://www.ecai.org); National Historical Geographic Information System (http://www.nhgis.org) u flp.

2 The Metropolitan Museum of Art (http://www. metmuseum.org); Louvre Museum Official Website (http:// www.louvre.fr); Library of Congress Home (http://www.loc. gov/index.html) u flp.

№ 2(32) 2011

ектов в области создания информационных систем, связанных с представлением историко-культурного наследия. В 2008 г. Европейский союз открыл для широкого доступа Европейскую электронную библиотеку «Европеана»3, объединяющую цифровые ресурсы более 1500 европейских учреждений культуры (музеев, библиотек, архивов); 15 млн единиц хранения Европеаны — это изображения (картины, рисунки, карты, фотографии, в том числе музейных экспонатов), тексты (книги, газеты, письма, дневники и архивные источники), аудио (музыка и устное слово из цилиндров, кассет, дисков и радио), видео (фильмы, кинохроника и телевизионные передачи). В апреле 2009 г. Библиотека Конгресса США при поддержке ЮНЕСКО представила международной общественности проект Всемирной цифровой библиотеки4 — web-сайт с бесплатным доступом в многоязычном формате к большому количеству материалов культуры разных стран мира: редким книгам, картам, рукописям, фильмам и фотографиям из коллекций национальных и университетских библиотек Франции, Бразилии, Швеции, Египта, России и многих других стран.

В рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг. коллективом Гуманитарного института Сибирского федерального университета на основе мультидисципли-нарного подхода начата научно-исследовательская работа, итогом которой в 2011 г. станет ИС, в цифровом виде интегрирующая данные историко-культурных, археологических, этнографических исследований об исчезающих объектах культурного наследия Средней Сибири. Разрабатываемая в настоящем проекте информационная система «Актуализация историко-культурного наследия» (ИС АИКН) должна обеспечить использование имеющихся достижений

3 http://www.europeana.eu/portal/.

4 http://www.wdl.org/en/.

в области информационно-коммуникационных технологий в работе с информацией, относящейся к сфере историко-культурного наследия.

Концепция архитектуры и внутренней структуры ИС АИКН

Слабая формализованность и разно-форматность данных, используемых в ходе исследований об исчезающих объектах культурного наследия, накладывают особые требования на способы их представления в цифровом виде. Такого рода данные, как правило, представлены слабоструктурированными блоками, характеризующими каждый объект исследований. Объекты могут быть связаны между собой системой направленных отношений и параметров (например, «является частью»/«состоит из», «подобен», «предшествует»/«построен на месте» и т.п.), при этом каждый из них имеет типизированные ссылки на данные, которые не могут быть представлены в текстовом виде: изображения, чертежи, схемы, ЗО-модели, видеоролики и т. п. На этапе проектирования ИС выяснилось, что набор сценариев ее поведения и перечень выполняемых функций необходимо сформулировать в широких пределах. Это объясняется тем, что представления о задачах такой системы могут существенно различаться для групп экспертов. Каждый объект культурного наследия существует, с одной стороны, объективно сам по себе, но, с другой — как совокупность аспектов, интересующих конкретного субъекта (эксперта, ученого, исследователя). Например, жилой дом, обнаруженный в ходе археологических раскопок, для археолога представляет собой прежде всего физический объект, созданный в определенное время в конкретном месте, тогда как для историка более важным может быть то, кто в этом доме жил, каков был быт его обитателей, какую роль они играли в истории данной местности. Следовательно, необходимо создать базовую платформу, предоставляющую средст-

№ 2(32) 2011

Интерфейс пользователя (ИП)

Интерфейс открытого доступа (ИОД)

Система регистрации пользователей (СРП)

Система меню и гипертекстовой навигации (СМГН)

Система полнотекстового поиска информации (СПП)

Модуль вариативной политики безопасности (МВПБ)

Редактор хранилищ системы (РХС)

>

Интерфейс администратора (ИА) <— Интерфейс пользователя с ограниченными правами администрирования (ИПОПА)

1 ) г

Редактор Редактор Конструктор

словаря базы запросов

терминов знании (КЗ)

(PCT) (РБЗ)

Модульная система визуализации и интерпретации (МСВИ)

Модуль представления текстовой информации (МПТИ)

Модуль представления мультимедиа объектов

> 1 \ г > ' 1 Г 1 г

Видео Аудио Flash Фото Статическое и динамическое ЗР

Модуль интеллектуальной обработки информации (МИОИ)

Система доступа к данным (СДД)

Модуль открытого доступа к хранилищу

Модуль доступа к базе знаний

Модуль доступа к словарю терминов

Модуль доступа к конструктору запросов

Модуль доступа к машине вывода

L_____________________________________________ ______________________________________________

Хранилище

БД «Текстовые документы» БД «Мультимедиа» БД «Объекты системы» БД «База знаний» БД «Словарь терминов» БД «Пользователи системы»

Рис. 1. Структура ИС АИКН

ва для хранения объектов и доступа к ним пользователей системы. Основным требованием при этом являются максимальная гибкость используемых решений и возможность расширения системы.

С точки зрения программной реализации структура системы, удовлетворяющая вы-

шеперечисленным требованиям и способная оперировать объектами сложносостав-ной структуры, изображена на рис. 1.

На текущий момент реализованы некоторые компоненты ИС АИКН (на рис. 1 они выделены серым цветом). В частности, разработано трехуровневое web-пpилoжeниe,

№ 2(32) 2011

Рис. 2. Структура и параметры типового объекта системы

в котором данные хранятся в нереляционной, документо-ориентированной базе данных, доступ к которым осуществляется посредством протокола HTTP по технологии REST; интерфейс пользователя и бизнес-логика системы обеспечиваются сервером приложений, состоящим из сервера на базе Windows 2003 Server, промежуточного web-сервера, преобразующего запросы, и серверного приложения, созданного с использованием технологии ASP. NET MVC.

Описанные выше требования к разрабатываемой системе определенным образом ограничивают выбор программных решений, средств реализации интерфейса пользователя и хранение данных. В первую очередь возникает вопрос о хранении данных системы, включая информацию об объектах и их свойствах, а также всего многообразия дополнительных данных, сопровождающих эти объекты. На рисунке 2 дано представление о структуре и параметрах типового объекта системы.

Во-первых, каждый объект однозначно определяется своим уникальным идентификатором. Во-вторых, его характеристиками являются свойства и связи с другими объектами. При этом, как было сказано ранее, строгая типизация объектов невозможна, что означает — в общем случае каждый объект будет обладать своим собственным набором свойств. Более того, со временем, в результате детального изучения конкретного объекта или после его изучения «с другой стороны», этот набор свойств может быть изменен. Например, объект, считавшийся памятником архитектуры и внесенный в систему с набором свойств, описывающих его сущность, впоследствии может быть рассмотрен как памятник культуры, что расширит перечень необходимых для его описания свойств.

Наилучшее решение для хранения и обработки таких объектов — создание до-кументо-ориентированной БД, учитывающей особенности объектов, существенно затрудняющие задачу их хранения, по-

№ 2(32) 2011

скольку для них становится невозможным разработать универсальные табличные структуры данных, необходимые для реляционных систем управления БД. Однако на сегодняшний день СУБД не являются единственным способом создания надежного и эффективного хранилища данных. Для слабоструктурированных данных все чаще используются так называемые 1\1о301_-системы5. Они призваны обеспечивать лучшую масштабируемость, отказоустойчивость и возможность справляться с большими объемами данных. Их главное преимущество — вложенные структуры данных и нефиксированный набор атрибутов, которые может иметь сущность (объект системы).

Таким образом, основными требованиями к ИС АИКН стали:

а) работа в сетевой среде (Интернете);

б) масштабируемость (возможность изменять параметры ИС АИКН в области пополнения баз данных и баз знаний без перепрограммирования исходного кода);

в) реализация политики безопасности (аутентификация пользователей и разграничение областей доступа);

г) реализация алгоритмов поиска знаний;

д) мультиформатность (возможность оперирования практически любыми типами данных).

Компоненты, входящие в структуру ИС АИКН

Интерфейс пользователя (ИП). Задача, реализуемая ИП, — комплексный доступ ко всем видам и типам информации, хранимой в системе. Более того, ИП должен обеспечивать удобный функционал по манипулированию всеми форматами данных, хранящихся в системе. Состоит ИП ИС АИКН из 11 компонентов. Изначально пользова-

5 Аббревиатура NoSQL (Not only SQL) вовсе не означает отказ от возможности сохранять структуру и осуществлять стандартные запросы к системе.

тель взаимодействует с интерфейсом от-крытогодоступа (ИОД).

ИОД представляет собой web-интерфейс, функционал которого позволяет просматривать открытую для всеобщего доступа информацию в мультиформатном (отображаются данные всех типов) режиме. Корректировка или пополнение информации в этом режиме не предусмотрены.

ИОД визуально выглядит как типовое решение wiki-порталов (Xwiki) со средствами навигации по БД и создается стандартными средствами разработки на основе XML-тех-нологии, ASP. NET и ADO. NET (ActiveX Data Objects. NET) — набора классов, реализующих программные интерфейсы для облегчения подключения к базам данных из приложения, независимо от особенностей конкретной системы управления БД и от структуры самой БД.

Пользователь может ограничиться применением системы меню и гипертекстовой навигации (СМГН) и системы полнотекстового поиска информации (СПП) или же зарегистрироваться в ИС АИКН с расширенными правами доступа к хранилищу. В первом случае СМГН и СПП обеспечат доступ к открытой для всеобщего пользования информации через стандартный web-интерфейс путем применения любого из существующих браузеров, но доступ к встроенным редакторам, конструктору запросов и модулю интеллектуальной обработки информации (МИОИ) будет закрыт. Во втором случае необходима система регистрации пользователей (СРП) ИС АИКН.

СРП позволяет проводить процедуры регистрации и авторизации пользователей, включает в себя модуль вариативной политики безопасности (МВПБ), который должен обеспечивать многопользовательскую работу и администраторские возможности ИС АИКН по определению ролей пользователей, их прав по ролям или наборам объектов. Безопасность системы основывается на ролевом доступе, при возникновении специфических требований вводится система ACL (Access Control Lists), позволяющая за-

№ 2(32) 2011

давать уровни доступа для каждого ее объекта в отдельности. Таким образом, после регистрации пользователь получает доступ к расширенному функционалу ИС АИКН, который реализуется через отдельный интерфейс.

Интерфейс администратора (ИА), аналогично ИОД, разработан с помощью упомянутых выше технологий и представляет собой web-страницу с системой меню и системой гипертекстовой навигации. В зависимости от установленных политикой безопасности прав доступа ИА трансформируется в интерфейс пользователя с ограниченными правами администрирования (ИПОПА). Количество ИПОПА может быть неограниченным, визуально ИПОПА похож на ИА, но количество пунктов меню и гиперссылок определяется установленными каждому конкретному пользователю ограничениями доступа к информации. Основными компонентами ИА являются:

• редактор хранилищ системы (РХС);

• редактор словаря терминов (РСТ);

• редактор базы знаний (РБЗ);

• конструктор запросов (КЗ).

РХС позволяет пополнять системные БД новой информацией, корректировать параметры объектов или даже проводить их удаление. Функционал РХС предусматривает возможность загрузки на сторону сервера файлов различных форматов, в том числе: pdf, avi, jpg, flv и т. п. (в ADO. NET существует набор стандартных классов, интерфейсов и программных средств, используемых при реализации вышеуказанных возможностей). РХС также позволяет работать с множествами объявлений классов, которые содержат объявления унаследованных методов и свойств, предназначенных для решения задачи извлечения информации из БД; с множеством объектов-представителей классов, обеспечивающих работу с БД; с множеством значений и свойств конкретных объектов, отражающих специфику структуры конкретной БД. Функциональные особенности этой сложной системы взаимодействующих классов обеспечивают единообразную работу с мультиформатными БД

независимо от системы управления базами и ее реализации, дают возможность применять подходы реализации интеллектуальных информационных систем и технологий Data Mining. В частности, с учетом отсутствия в системе встроенного алгоритма распознавания и анализа текста технический ввод объектов и их свойств в систему затруднен. Некоторой сложностью является необходимость участия эксперта при внесении информации в хранилище системы и сам процесс внесения, так как по некоторым объектам число параметров может составлять десятки и сотни единиц. С точки зрения реализации ввода объектов имеющихся на базе текстов удобный интерфейсный элемент ввода реализовать крайне затруднительно. Вариантом решения данной проблемы может быть создание многоуровневого вложенного меню ввода с системой автозаполнения (автозапроса) параметров. Другая проблема функционирования РХС — отсутствие шаблонов свойств объектов и самих объектов. Таким образом, функционал РХС при разработке должен быть расширен для реализации функционала конструктора шаблонов, т. е. задача РХС не только добавлять/удалять данные, но и изменять структуру их хранения (реализовывать шаблоны). РХС предусматривает работу со стандартными типами данных с возможностью расширения пользовательскими типами.

Рассмотрим компонент ИА — редактор словаря терминов (РСТ). Выделение словаря терминов в отдельный модуль ИС АИКН связано со следующими причинами:

• разрабатываемая система должна оперировать большим массивом текстовой информации, при этом количество авторов текстов также велико, что приводит к появлению различных трактовок одних и тех же событий и явлений. Словарь терминов позволит однозначно устанавливать соответствие терминов разных авторов друг другу (устранение синонимии и т.п.), данное сопоставление можно будет проводить либо путем привлечения экспертов проблемной области с помощью инструментария РСТ,

№ 2(32) 2011

либо вследствие применения модуля интеллектуальной обработки информации, который в автоматизированном режиме на базе вероятностных алгоритмов оценит степень соответствия одного термина другому;

• наличие РСТ и самого словаря терминов позволит в случае необходимости резко повысить эффективность использования системы за счет ресурсов, представленных на иностранных языках (ИС АИКН изначально проектируется с поддержкой мультиязыч-ности). К примеру, для того чтобы эксперты, владеющие только английским языком, могли применить ИС АИКН, следует осуществить перевод терминов, имеющихся в словаре, и элементов интерфейса. Таким образом, все внутренние связи разноформатных объектов (данных) останутся без изменений, внутренняя логика системы также не будет требовать переформатирования (перепрограммирования).

Следующий компонент ИА — редактор базы знаний (РБЗ). Одна из ключевых особенностей проектируемой ИС АИКН — возможность осуществлять поиск знаний внутри хранилища системы, логический вывод на базе нескольких классических подходов построения систем классификации и интеллектуальных систем. База знаний предназначена для хранения и модификации процедур логического вывода, а РБЗ — как для формирования данных процедур, так и для отражения их результатов. Также РБЗ предусмотрено создание Байесовской сети с целью ответа на вероятностные вопросы получения нового знания о состоянии подмножества переменных системы. Так, Байесовская сеть может быть использована для вычисления вероятности того, кто является создателем историко-культурного объекта по наличию или отсутствию ряда параметров (даты постройки, местоположения, материала, архитектурного стиля и т. д.).

Необходимо отметить, что хранилище системы постоянно пополняется, и на каждом этапе параметры объектов будут пе-ресчитываться, так как теорема Байеса —

логическая основа пересмотра суждений в зависимости от происходящих событий, т.е. добавление объекта приводит к появлению новых параметров для обучения и, следовательно, постоянной корректировке этих параметров. Указанный вероятностный вывод, в частности, может быть применен для оценки степени соответствия одного термина другому в словаре терминов ИСАИКН.

Конструктор запросов (КЗ) представляет собой механизм доступа к данным хранилища посредством использования структурированного меню, отражающего параметры хранимых объектов. В отличие от полнотекстового поиска, КЗ позволяет проводить сортировку отображаемых параметров и выводить их в виде отчетов формата.рс!!. Такой способ построения логического вывода иногда оказывается более удобным, чем поиск по ключевым словам. Визуально пользователю необходимо отметить «галочкой» соответствующие параметры запроса в специальных полях (checkboxes). Отчеты КЗ формируются динамически на сервере хранилища, однако, выбранный способ реализации ИС АИКН дает возможность формировать их удаленно, используя стандартный функционал браузеров.

Модульная система визуализации и интерпретации (МСВИ) — набор модулей, реализующих визуализацию имеющейся в хранилище информации в удобной форме. Основной используемой технологией выступает SilverLight (Microsoft Silverlight — это плагин для браузера, который позволяет запускать приложения, содержащие анимацию, векторную графику и аудио- и видеоролики). Необходимо отметить, что, помимо возможности скачать материалы ИС АИКН на свой персональный компьютер, пользователь может их просматривать в режиме реального времени. Еще одним преимуществом такой программной реализации МСВИ выступает доступ к информации ИС АИКН с мобильных терминалов.

Остановимся подробнее на модуле интеллектуальной обработки информации

№ 2(32) 2011

нейроподобные элементы

МЕХАНИЗМ ВНИМАНИЯ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

У,

\М2

1 . 1 1

регистр сдвига

м2

к

а,-п аг-п+1

м2

связи между НЭ различных уровней; связи между НЭ одного уровня

Рис. 3. Схема механизма внимания

(МИОИ), определяющем принципы поиска знаний в ИС АИКН и связанным с ее экспертными возможностями.

В соответствии с рис. 1 (см. стр. 49) каждый хранимый объект в системе имеет свой набор связей различного типа с другими объектами. Для осуществления поиска знаний в такой системе представления объекты необходимо отразить в семантическую сеть. Посредством РБЗ корректируется ядро модуля интеллектуальной обработки информации, которое содержит алгоритмическое описание отражения знаний о предметной области в семантическую сеть. Для хранения вспомогательной информации об объектах семантической сети в хранилище ИС АИКН предназначена БД «База знаний». Отображение объектов в сигнальное пространство семантической сети можно реализовать с применением динамических ассоциативных запоминающих устройств (ДАЗУ) на основе статистического анализа. Соответственно, чем больше будет объем хранилища ИС АИКН, тем более точные результаты можно получить. Добавление нового объекта в хранилище автоматически ведет к пересчету параметров всех объектов, хранящихся на текущий момент. Динамические ассоциативные запоминающие устройства представляют собой мно-

жество нейронов 1ЖЛ, имеющих общий вход и выход, и моделируют п-мерное сигнальное пространство [2]. Выход ДАЗУ замыкается на дополнительный общий вход всех нейроподобных элементов (НЭ) через механизм управления, называемый механизмом внимания (МВ), что реализует обратную связь. Общим входом всех НЭ является регистр сдвига (РС), сканирующий объекты и их параметры окном длины п элементов (п — максимальное количество параметров у каждого типа объекта (рис. 3)). РС может представлять собой параметрическую интерфейсную форму, заполняемую экспертом при внесении новых объектов или их параметров в БД ИС АИКН.

Нейроподобный элемент реализуется в виде элемента памяти и содержит адресную часть — вектор весов , интерпретируемый как координаты точки в СП, хранящийся в хт!-формате в БД «База знаний». Общий вход всех НЭ — это РС с размерностью, равной размерности адреса НЭ. На каждом такте работы сети содержимое РС сдвигается, и в освободившиеся позиции добавляется очередной объект (его описание). При обучении ДАЗУ запоминает образ /4Л = (ал') входной последовательности параметров объектов /4 в СП во множестве НЭ, 1ЖЛ = {жл'} выделяемых динамиче-

№ 2(32) 2011

ски, причем повторяющиеся точки запоминаются один раз:

wгn+' = а1, 5А;831: = ал'; / = 1... т, (1)

где т — число НЭ, задействованных к моменту Г.

Пусть имеется последовательность объектов с кортежем параметров

А — А.| ^ А,-^ А^ >

где А — некоторые хранимые объекты ИС АИКН;

[+] — операция конкатенации (параметры объекта).

Тогда:

А — А^ (Х-|2 (Х23 Ас, ^ (Х32 ^ I

где ард отражает связь — участок, соответствующий фрагменту, образованному концом Ар и началом А*. Точки участка К, будут пройдены дважды, и запомненная в соответствии с (1) траектория WЛ = 1/Цл +ю^2+ю23 +Юд2 +^2Л представляет граф и отражает связи между объектами и их параметрами. Введем пороговое преобразование Н точек образа Wл по частоте встречаемости. Задание порога преобразования Л = 2 позволяет выделить из траектории 1Ж2 ее повторяющийся участок 1Ж2л:НР(А)=1Ж2Л, что исключает дублирование одинаковых параметров у различных объектов. Траектория объекта по своей сути представляет его структуру и описание механизма наследования. Если сформировать класс параметрических последовательностей А*, в которых в разных комбинациях встречаются последовательности {Аи /42,...,/4;}, то, отображая все последовательности в СП и применяя к ним пороговое преобразование, мы сформируем множество траекторий НР(А*)={1^Л,1Ж2Л...,1ЖуЛ}, соответствующее множеству составляющих элементов последовательностей класса А* — словарь объектов (терминов) с привязкой к их параметрам.

Использование многоуровневой ИС ДАЗУ, где выход ДАЗУ каждого уровня соединен со входом ДАЗУ следующего, позволяет сформировать представление объектов в виде многоуровневой иерархии их параметров, где каждый параметр может быть отражен в виде составного объекта, имеющего другие параметрические характеристики.

ДАЗУ первого уровня хранят все возможные наименования объектов, параметров и их значений, встретившихся при обучении системы (вводе данных через РХС), в виде запомненных в своих адресах лгграмм (п-грамм первого уровня):

= (ал,-„1+1.....ал,аЧ-1)^1+1 =

= а4 -п1+2.....а4, а4+1)

и т. д., которые образуют словарь терминов первого уровня {^гЛ1}. ДАЗУ выдает на выход последовательность индексов НЭ (г').

ДАЗУ следующего уровня содержит все возможные сочетания лгграмм первого уровня, встретившиеся при обучении, в виде л2-грамм индексов:

г' : = (/-'"п2+1,-/~1,г'),^8Л2+1 =

и т.д., образуя словарь связей параметров второго уровня {^8Л2+1}. Аналогично происходит обучение всех остальных уровней ИС ДАЗУ. Пример представления в ИС ДАЗУ объекта «музей-поселение» приведен на рис. 4.

Такое представление позволяет автоматически выделить повторяющиеся свойства и параметры объектов и отобразить их в один элемент сети, а различный контекст представить как связи с другими элементами, т.е. автоматически сформировать шаблон.

По окончании обучения структура отражения объектов хранилища реализуется в виде многократно вложенного суперграфа — иерархии связанных сетей нескольких уровней, элементы которых соответствуют основным объектам и их параметрам

№ 2(32) 2011

музеи-поселение

ДАЗУ. Уровень 4. Объекты уровня 2

архитектурным стиль

... N

строение №1

ДАЗУ. Уровень 3. Объекты уровня 1

строение №2

предназначение строения

. М

архитектор

ДАЗУ. Уровень 2. Параметры

дата построики

материал

... Р

1976

ДАЗУ. Уровень 1. Объекты,

материал

черный

параметры,значения параметров V у

М. А. Петров

строение

Рис. 4. Пример представления объектов в ИС ДАЗУ

| (шаблонам свойств); поуровневые связи ме-

<| жду ними задают отношения вхождения этих

| параметров в объекты, а межуровневые свя-

g зи — отношения вхождения одних единиц

=с в другие (в том числе, отражение механизма

!s наследования, реализация шаблонов).

Рисунок 4 можно трактовать так: у строе-

| ний № 1 и №2 единый архитектурный стиль;

оба они были построены в 1976 г. из мате-5s риала, который использовал архитектор | М. А. Петров; известно, что архитектор | строения №1 — М. А. Петров. Таким обра! зом, логический вывод системы может быть fc следующим: предположительно архитекто-з ром строения №2 также является М. А. Пет! ров, вероятность этого составляетх процен-g tob (х — значение, рассчитываемое системой автоматически, и чем больше количе-

! ство объектов анализа в базе, тем точнее §

5 осуществляется логический вывод). Сформированное в ИС ДАЗУ представление мо-

■Ц жет быть интерпретировано как семанти-

* ческая модель предметной области — база

=| знаний, где каждый из элементов описыва-

Ц ется и набором составляющих его структуру

¿е элементов более низких уровней, и набором

ассоциативно связанных с ним элементов, которые могут быть интерпретированы как его параметры.

Наличие обученной (наполненной шаблонами) ИС ДАЗУ позволяет классифицировать новую информацию на входе. При этом актуализация элементов в сети входной информацией означает ее отнесенность не только к актуализированным, но также ко всем элементам, ассоциативно связанным с ними. Распознавание осуществляется как отнесение вновь вводимого объекта и его параметров к соответствующим элементам сети за счет актуализации элементов, ассоциативно связанных с ними, интерпретируемых как семантические признаки. В качестве распознанного выбирается актуализированный элемент.

Для реализации распознавания в ДАЗУ определим уровень активации х, элемента в момент времени Г:

х, (Г) = х, (Г -1) + х, (Г) + £ (Г), (2)

/=1

где и wjj — веса элементов и связей, определяемые далее [2].

№ 2(32) 2011

Как видно, уровень активации элемента отражает его совокупную активацию как с входа, так и со стороны связанных с ним элементов на интервале времени работы сети (на каждой итерации ввода новой информации в хранилище ИС АИКН). Предполагается, что все объекты уже находятся в ДАЗУ, и постоянной торможения, используемой при размытых параметрах анализируемой информации, можно пренебречь.

Определим реакцию НЭ через пороговую функцию активации:

у. (Г) = 1 /'еслих'(г) - (г) 1, (3) ' [0, в противном случае]

где значение у, (Г) отражает отсутствие/наличие распознавания в НЭ, а значение порога Л,-(Г) — чувствительность НЭ к уровню активации хДГ).

Работа ДАЗУ в режиме распознавания управляется механизмом, реализующим функцию, подобную концентрации (локализации) и рассредоточению (генерализации) внимания, и потому называемым механизмом внимания (МВ). Идея работы МВ основана на использовании ранее распознанной информации для предсказания следующей и подстройки параметров ДАЗУ под наилучшее распознавание ожидаемой.

Рассмотрим динамику процесса распознавания под управлением МВ, регулирующего пороги ЛДГ) НЭ.

При включении сети в распознавание (Г = Г0) значения всех х,(Г) и у (Г) равны нулю, а значения порогов Ь^) устанавливаются в некоторое начальное общее для всех НЭ. Это соответствует отсутствию распознавания и генерализации внимания на представленных НЭ. При поступлении на вход сети информации начинает происходить активизация отдельных НЭ, уровень активации {х((Г)} в целом возрастает и по истечении некоторого интервала времени превышает значение порога на одном из НЭ объекта: : х( (Г) > (Г), что означает распознавание: у((Г) ф 0. После наступает

этап локализации внимания на НЭ , что реализуется уменьшением его порога и порогов связанных с ним НЭ {^(Л}ас = Рас(^(л), а также увеличением порогов на всех остальных НЭ {:ш'-}оещ. Локализация внимания — подстройка сети под восприятие входной информации (объекта, его параметров и их значений), относящейся к ранее распознанной, и уменьшение чувствительности к другой. Уменьшение порога на распознающем НЭ позволяет устойчиво (без прерываний) сохранять распознавание в нем, если содержание входной информации изменяется несильно. Уменьшение порога на ассоциативно связанных НЭ (признаках элемента) актуализирует функции предсказания информации на входе и подстройку сети под наилучшее восприятие ожидаемой (распознавание по наименованию объекта кортежа его параметров, определение параметров, являющихся составными объектами) [2].

Распознавание в многоуровневой ИС ДАЗУ под управлением МВ реализуется аналогичным образом с тем отличием, что перемещение локализации внимания происходит не только внутри уровня ДАЗУ, но и между ДАЗУ разных уровней.

Особенность работы МВ в ИС ДАЗУ — локализация внимания на НЭ ДАЗУ наиболее высокого уровня ИС, где осуществляется распознавание. Это соответствует захвату внимания элементом, реализующим представление информации более высокого уровня. Сложносоставные объекты автоматически займут НЭ самого высокого уровня. На более низких уровнях ИС внимание локализуется только в тех НЭ, которые входят в структуру элемента или являются значением его параметров, представленных распознающим НЭ верхнего уровня и ассоциативно связанных с ним [2].

В целом распознаванию в ИС ДАЗУ соответствуют динамический процесс переключения внимания по отдельным НЭ в ДАЗУ каждого уровня и перемещение уровня локализации внимания по уровням ДАЗУ в ИС. В предлагаемой модификации алго-

-N ПРИКЛАДНАЯ ИНФОРМАТИКА

№ 2 (32) 2011 ' -

ритма локализация внимания означает выборку/реализацию шаблона.

Отражение объектов в виде НЭ позволяет реализовать на их основе целостное семантическое представление — семантическую сеть в отдельном ДАЗУ. Для определения ассоциативных связей между объектами и их параметрами в семантической сети используется критерий их вхождения друг в друга. Такая связь может быть представлена в НЭ ДАЗУ 2-граммой (или п-граммой для n-понятий) индексов соответствующих НЭ из ИС ДАЗУ.

Каждому элементу семантической сети ставится в соответствие числовая величина, отражающая вероятность появления некоторого понятия среди объектов и их параметров, вводимых при наполнении хранилища ИС АИКН — вес элемента w*. Каждая связь между парой элементов характеризуется величиной, отражающей условную вероятность появления одного понятия (объекта) | в смысловой связи с другим — весом связи <| w^. Оценка весов понятий и связей осуще-| ствляется на основе оценки всех связанных g с ними понятий. В результате наибольший =с вес приобретают понятия (объекты), обла-!s дающие разнообразными и мощными связями, находящимися в центре «семантиче-| скихсгущений».

Такая оценка проводится по итерацион-

5s ному алгоритму: §

& N

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

| w, (Г +1) = f(Xwp (t)w] (t)),wp(t +1) =

t м M (4)

^ = wlp (t)wp (t)w-p] (t));

Л p=1

к

| w (o) = ,f(s) = o(s) =-,

>§ llK ' z, w v ' (1 + e~ks)

IS

s *

Л где^,.(0) = Inln z(;

z, — частота встречаемости понятия в хра-

j| нилище ИС АИКН;

* zfj — частота совместной встречаемости nail раметров понятий w] и w"s; =| Xwa— совокупная характеристике ка мощности связей понятия w] с другими

понятиями w*, а значение ^wjp(t)w" (t)wpj(Г) учитывает косвенные связи понятия w] с w"¡ через все промежуточные параметры понятия w".

Введение сигма-функции а(s) осуществляет нелинейную нормировку значений весов после каждой итерации алгоритма (ввода данных), что обеспечивает его сходимость к установившемуся состоянию: w]{t +1) = w]{t) = w'jycT^

и wß (t +1) = wß (t) = wf¡ycT.

аналогично процессу в рекуррентной нейронной сети Хопфилда [1].

Установившиеся значения w"¡ycT и wßycT принимаются за окончательные оценки. Таким образом, каждый объект, описание которого внесено в хранилище ИС АИКН, будет иметь дополнительные вероятностные характеристики, вычисленные на базе статистического анализа данных объектов и их параметров. Отражение траекторий связей параметров объектов является методом Data Mining, позволяющим по-новому взглянуть на введенный в ИС АИКН массив текстовой информации, представляющий историко-культурное наследие.

Система доступа к данным (СДкД) — набор программных модулей и алгоритмов, обеспечивающих основной функционал системы. Эти модули не подлежат изменению без перепрограммирования. Иными словами, вся логика ИС АИКН построена через процедуры и функции данных модулей. Используемая среда разработки — Microsoft Visual Web Developer 2008 Express Edition.

Хранилище ИС АИКН представляет собой набор БД, реализованных посредством нескольких СУБД, в том числе СУБД Microsoft SqIServer 2008 Express, которая обеспечивает хранение и обработку слабоструктурированных данных в формате XML, имеет возможность полнотекстового поиска и неограниченный объем для хранения двоичных данных. Хранилище оперирует с множеством данных разных форматов, в упрощенном же виде каждый объект исследова-

№ 2(32) 2011

ния может быть представлен в виде некоторого типизированного описания с кортежем свойств, например: у объекта «X» есть кортеж свойств [описание; тип объекта; компоненты; внешние данные]. На конкретном примере такое описание будет иметь следующий вид: «Поселение Широкий лог-2» [Памятник расположен в 100 м северо-восточнее п. Широкий лог. Открыт Енисейским отрядом АЭ СФУ под руководством Ю. А. Титовой (Абдулиной) в 2008 г. Тогда в осыпях 15-17-метровой левобережной Енисейской террасы были найдены многочисленные фрагменты керамики с валиками, рассеченными пальцевыми защипами. Поверхность памятника относительно ровная, немного понижается к южной части, где ограничивается двумя глубокими ложками; Поселение; Пункты сбора; Фото poselenie.jpg].

Также вышеуказанная СУБД позволяет организовать работу с шаблонами свойств. Шаблон свойств представляет собой именованную совокупность имен и типов свойств. Каждому объекту может быть назначено неограниченное количество шаблонов. После назначения объекту шаблона он получает все свойства, хранящиеся в нем (реализует шаблон). Если объект уже имел свойства с таким же именем, то они могут быть связаны с шаблоном или созданы новые свойства с уникальным именем, связанным с этим шаблоном. Идентификация шаблонов, как и других сущностей, происходит по ссылке с префиксом (scheme), например: [scheme/ Паспорт Объекта]. Для получения шаблонных данных объекта используется следующий синтаксис: [объект (Имя шаблона)/ Свойство шаблона]. Если объект реализует только одно свойство шаблона с таким именем, то имя шаблона можно не указывать — [объект/Свойство шаблона].

Например, имеются такие шаблоны:

• паспорт объекта;

• номер (Строка, табельный номер в системе);

• площадь (Десятичное, площадь в квадратных метрах);

• привязка к классификатору К;

• номер (Число, табельный номер в системе по классификатору К).

Объект [оЬ]/Поселение Широкий лог-2] с уже заданными свойствами [Номер] и [Общая площадь]. Наложим на него шаблон [эсЬете/Паспорт Объекта]. При этом [оЬ]/Поселение Широкий лог-2 (Паспорт Объекта)/Номер] будет ссылаться на [оЬ|/ Поселение Широкий лог-2/Номер] автоматически, а для [эсЬете/Паспорт Объекта/ Площадь] нужно сделать выбор, создать новое свойство в объекте или привязать к уже существующему свойству [Общая площадь]. После привязки к общей площади запрос [оЬ]/Поселение Широкий лог-2 (Паспорт Объекта)/Площадь] или [о^/По-селение Широкий лог-2/Площадь] вернет значение свойства [оЬ]/Поселение Широкий лог-2/Общая площадь]. Таким образом, реализуется механизм наследования (элемент фреймового подхода) при работе с множеством однотипных объектов. Теперь можно наложить шаблон [Привязка к классификатору К], свойство [Номер] которого не должно совпадать с табельным номером в системе. Для этого создается новое поле, [Номер К] и запрос [оЬ]/Поселение Широкий лог-2 (Привязка к классификатору К)/Номер] будет возвращать значение [оЬ]/Поселение Широкий лог-2/Номер К]. Итак, получение свойства объекта проходит по алгоритму:

• если явно указан шаблон, то свойство, привязанное к нему, наследуется;

• если в объекте есть свойство с таким именем, оно также наследуется;

• если объект реализует хотя бы один шаблон, у которого имеется такое свойство, то наследуется свойство первого объекта в списке шаблона.

Структуру данных можно представить в следующем виде.

Объект: Историко-этнографический музей-заповедник.

Описание: Краевое государственное

бюджетное учреждение культуры «Исто-

рико-этнографический музей-заповед-

№ 2(32) 2011

ник» — уникальный комплекс под открытым небом.

Тип объекта: музей-поселение. Включает в себя:

Строение 1; Описание: ...

Тип объекта: деревянное здание. Включает в себя: бревно; окно; печь;

Внешние данные: фото: вид снаружи; фото: вид изнутри; чертеж: план первого этажа; чертеж: план второго этажа; 30-тос1е1: модель дома.

Строение 2;

Внешние данные: фото — вид сверху; фото — вход в музей; видео — экскурсия по музею; карта — карта музея;

ИС АИКН создается как wiki-портал со средствами навигации по базе данных. Изначально в систему вносятся все объекты в виде текста вручную либо с помощью специальных плагинов. После этого большие объекты разбиваются на более мелкие составляющие. Объектам назначаются свойства, шаблоны реализации. Модуль интеллектуальной обработки информации использует свою отдельную базу знаний, построенную в соответствии с предложенными в проекте методами Data Mining, модуль интеллектуальной обработки информации структурно представляет собой БД, реализованную в виде многомерной семантической сети, на основе которой возможна постройка сетей подобия (по запросам пользователей) с применением байесовского подхода и нормированием связей и весов элементов по алгоритмам построения рекуррентной сети Хопфилда. Хранилище

системы можно представить как гипертекстовую СУБД с удобной навигацией и возможностью делать произвольные запросы к имеющимся базам данных.

Заключение

В ходе анализа типов и видов данных историко-культурных, археологических и этнографических исследований в рамках проекта «Актуализация историко-культурного наследия» была разработана концепция информационной системы, интегрирующей эти данные. Концепция включает в себя описание архитектуры проектируемой системы, технологий ее реализации и основных программных алгоритмов. Предложен и описан новый алгоритм Data Mining, интегрирующий несколько подходов к построению интеллектуальных ИС, в том числе подход к отражению текстовой информации в семантическую сеть на базе нейроподобных элементов с нормированием весов и связей аналогично нейронной сети Хопфилда с расчетом дополнительных вероятностных характеристик объектов на основе сетей Байеса. Таким образом, помимо основной функции — сохранения и отображения данных об историко-культурных, археологических и этнографических исследованиях — система будет обладать функцией поиска знаний, т.е. будет являться экспертной.

Описок литературы

1. HopfieldJ. J. Neural networks and physical systems with emergent collective computational abilities/Proc. Natl. Acad. Sei. 79, 1982. P. 2554-2558.

2. Харламов A.A., Ермаков A.E., Кузнецов Д. М. Технология обработки текстовой информации с опорой на семантические представления на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. 1998. №2. С. 26-32.

3. Румянцев М. В., Барышев Р. А., Гэнвапьд А. С. Web-представительство регионального музея // Прикладная информатика. №5 (29). 2010. С. 70-77.

i Надоели баннеры? Вы всегда можете отключить рекламу.