Научная статья на тему 'Интеллектуальные хранилища данных в системах государственного управления'

Интеллектуальные хранилища данных в системах государственного управления Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
125
161
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Суховилов Б. М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Интеллектуальные хранилища данных в системах государственного управления»

ких каталогах и т.д.). Взаимодействие между программными агентами происходит через сообщения, которые кодируются в соответствии со спецификацией «FIPA ACL Message structure specification».

Решение различных задач на основе AOSE показывают перспективность такого подхода во многих отраслях, в том числе для обучающих систем [6,7].

Список литературы

1. Кибяков П.П. Мир нейронных сетей и агенты - двойники. (http://oasis.peterlink.ru/~dap/nneng/nnlinks/NNAgents-Doubles.html).

2. Тарасов В.Б. Агенты, многоагентные системы, виртуальные сообщества: стратегическое направление в информати-

ке и искусственном интеллекте. // Новости искусственного интеллекта. - 1998. - №3. - С .5-54.

3. Ian Dickinson. The Semantic Web and Software Agents: Partners, or Just Neighbours? AgentLink News 15, 2004, pp. 3-6.

4. Daniel Elenius. Tools for Semantic Web Services. AgentLink News, 18.

5. Monique Calisti. Latest News from the Standardisation World. //AgentLink News, 18, 2005, pp. 31-32.

6. Kabassi, K., & Virvou, M. Using Web Services for Personalised Web-based Learning. Educational Technology & Society, 6(3), 2003, рр.61-71.

7. Келеберда И.Н., Лесная Н.С., Репка В.Б. Использование мультиагентного онтологического подхода к созданию распределенных систем дистанционного обучения. //Educational Technology & Society 7(2), 2004, pp. 190-205.

ИНТЕЛЛЕКТУАЛЬНЫЕ ХРАНИЛИЩА ДАННЫХ В СИСТЕМАХ ГОСУДАРСТВЕННОГО УПРАВЛЕНИЯ

Б.М. Суховилов

Применение интеллектуальных хранилищ данных (ИХД) в сфере государственного управления является закономерным процессом, обеспечивающим качественно новый уровень в накоплении, систематизации, анализе и представлении экономической и социологической информации. Интеллектуальность хранилища определяется его способностью к иерархической организации информации, классификации, разделению доступа и защите хранящихся данных, а также наличием поисковой системы с развитым языком запросов. Исторически рассматриваемый проект хранилища данных поэтапно развивался от файлового менеджера с Интернет доступом [1-3] к ИХД.

Рассмотрим основные характеристики разработанного ИХД.

Хранилище представляет собой иерархически организованную многопользовательскую централизованную систему хранения информационных объектов (папки, файлы произвольного формата и интернет-ссылки).

Работа с хранилищем не зависит от географического местонахождения пользователей. Выполнение этого условия обеспечивается тем, что ИХД использует клиент-серверную программную архитектуру, а средой передачи данных является Интернет. Программная система хранилища реализует все операции взаимодействия с пользователем через протокол http. Этот подход обеспечивает максимальную доступность ИХД в сети, так как http - это, пожалуй, единственный протокол, гарантированно пропускаемый многочисленными системами ограничения доступа к сетевым ресурсам.

Исходя из условия, что пользователями хранилища могут быть люди, не имеющие специального компьютерного образования, клиентская часть системы хранилища сделана максимально простой для развертывания и использования. Достигается это тем, что доступ в систему пользователь осуществляет из стандартного инструмента Windows, которым является Microsoft Internet explorer. Процесс разме-

щения материала в системе интуитивно понятен и во многом напоминает привычный для пользователя интерфейс "проводника" вплоть до поддержки операции "перетащи и брось".

Хранилище является защищенным. Пользователь получает доступ только к той информации, которая находится в его компетенции. С другой стороны, хранилище является разделяемым, то есть пользователь хранилища при необходимости имеет возможность предоставить другим пользователям права для совместной работы над группами документов.

Учитывая, что с хранилищем будут работать пользователи разной компьютерной квалификации, был разработан программный антивирусный модуль, автоматически противодействующий распространению вирусного заражения файлов пользователей хранилища. Модуль выполнен в виде сервиса Windows и реализует следующий алгоритм работы. Антивирусный файловый сканер настраивается на периодическую проверку файлов хранилища. Результатом такой проверки является файл отчета, помещаемый сканером в одну из папок сервера. Антивирусный модуль ИХД перехватывает событие появления нового файла и анализирует этот отчет. При обнаружении в отчете записей, свидетельствующих о заражении какого-либо файла, антивирусный модуль помещает в БД ИХД информацию об этом. Это позволяет программе, обслуживающей хранилище, принять решение о блокировании загрузки пользователем зараженных файлов. Файлы, которые еще не прошли антивирусную проверку, соответствующим образом помечаются в интерфейсе пользователя.

Кратко опишем процесс работы с хранилищем. Новый пользователь ИХД должен отправить запрос на регистрацию в системе, сообщив о себе требуемые данные. Администратор ИХД с помощью инструментов администратора обрабатывает запрос на регистрацию и назначает пользователю роль в системе, квоту на объем данных или отказывает ему в регистрации.

23

После регистрации и успешного входа в систему пользователь получает возможность, зависящую от его роли в системе, создавать свои личные каталоги и работать в каталогах других пользователей системы или только работать с каталогами других пользователей, доступ к которым ему разрешают авторы соответствующих каталогов. Условно эти роли в системе называются соответственно "писатель" и "читатель". Доступ к каталогам осуществляется непосредственно после успешного входа в систему.

В целом программное обеспечение ИХД разработано на основе объектной многоуровневой модели по схеме:

• представление - интерфейс пользователя;

• бизнес-правила - управление логикой работы хранилища;

• уровень данных - управление хранением данных;

• сервис антивирусной защиты хранилища.

Первый уровень модели представляет собой набор DHTML-документов, клиентских и серверных скриптов, посредством которых пользователь взаимодействует с хранилищем. Интерфейс реализован для русского и английского языков. Выбор языка осуществляется автоматически с учетом языковых настроек программы просмотра Microsoft Internet explorer.

Уровень бизнес-правил имеет объектно-ориентированную структуру. Для рассматриваемого уровня разработан набор COM-объектов, инкапсулирующих функциональность данного уровня и обеспечивающих независимость модификации каждой задачи.

Функциональность объектов данного уровня обеспечивает работу следующих подсистем:

• регистрация пользователей;

• управление учетными записями пользователей, группами пользователей, каталогами, доступом к каталогам;

• администрирование;

• обеспечение безопасности;

• взаимодействие с сервисом антивирусной защиты;

• лингвистическая поддержка полнотекстового поиска;

• классификация.

Третий уровень, уровень данных, использует комбинированную схему, содержащую файловую и реляционную компоненты. Файловая компонента хранит специальным образом организованную иерархию объектов данных ИХД. Реляционная компонента базируется на реляционной СУБД и содержит метаинформацию об объектах ИХД, включающую их местоположение в иерархии хранилища, тип объектов, параметры безопасности и т.д.

При разработке ИХД были рассмотрены два варианта его организации. Первый вариант предполагал хранить все данные системы в реляционном хранилище. Его достоинством являлась простота обеспечения транзакционной целостности данных. Но он обладал рядом недостатков, таких как низкое быстродействие системы при загрузке и выгрузке объем-

ных данных и сложность обеспечения антивирусной защиты.

Комбинированный вариант обладает достаточным быстродействием при работе с объемными данными, так как задействует стандартные механизмы файловой системы. Что касается антивирусной защиты, комбинированный вариант позволяет применить для выявления вирусов в хранилище широко распространенные файловые антивирусные сканеры. Однако обеспечение транзакционной целостности данных потребовало дополнительных усилий, так как стандартный механизм транзакций реляционных СУБД позволяет обеспечить целостность только ме-таинформации, но не информационных объектов файловой компоненты. Данная проблема была решена путем создания хранимых процедур в реляционной компоненте ИХД. Эти процедуры непосредственно взаимодействуют с файловой компонентой и обеспечивают управление комбинированными транзакциями файловой и реляционной частей системы.

Комбинированная архитектура хранилищ является, на наш взгляд, весьма перспективной. Аналогичный подход к организации хранилищ данных демонстрирует перспективная файловая система WinFS фирмы Microsoft, предназначенная для следующих версий ОС Windows.

Хранилище содержит инструменты, позволяющие проводить полнотекстовый поиск по документам известных офисных форматов. Основная идея полнотекстового поиска заключается в том, что запрос пользователя на поиск обрабатывается специальным образом, и служба выполняет поиск не только указанных слов, но и их словоформ, что значительно увеличивает качество поиска.

Основой работы полнотекстового поиска является стандартная служба индексирования ОС Windows. Эта служба позволяет индексировать файлы и выполнять запросы на поиск. Служба проста в администрировании и работает достаточно устойчиво. Количество проиндексированных документов может достигать сотен тысяч. Для хранения индекса необходимо 15-20% от общего объема исходных документов. В стандартной поставке службы не предусмотрена поддержка русского языка, однако служба поддерживает подключение внешних лингвистических модулей. Независимые разработчики имеют возможность задействовать свои способы обработки на различных этапах индексирования. Для этого необходимо создать COM-объект, поддерживающий нужные интерфейсы: IFilter, IWordBreaker, IStemmer.

Интерфейс IFilter выполняет выделение свойств документа и его содержания. IWordBreaker разбивает сплошные блоки текста на слова и словосочетания.

IStemmer предназначен для генерации различных словоформ слова.

В процессе построения индекса для каждого файла каталога выделяются свойства документа и его содержание (процедура определяется интерфейсом IFilter для соответствующего типа файла). Для стандартных форматов (doc, htm* и т.д.) этот интерфейс уже встроен в службу. Выделенный текст разбивается на слова и фразы с помощью интерфейса

24

ШогйБгвакег для соответствующего языка. Полученный список слов нормализуется (преобразовывается к верхнему регистру). Удаляются малозначащие слова (предлоги, местоимения и др.), список этих слов можно задать для каждого языка. Оставшиеся слова сохраняются в индексе.

Введенный пользователем запрос обрабатывается следующим образом. Из исходного запроса выделяются параметры и текст для поиска. Выделенный текст разбивается на слова с помощью ШогйБгваквг. Если задан режим полнотекстового поиска, то для искомого текста генерируются словоформы с помощью интерфейса Шешшег. Список слов для поиска нормализуется, и из него удаляются малозначащие слова. Выполняется запрос, оцениваются (ранжируются) результаты и возвращаются пользователю.

При разработке лингвистических модулей в ИХД был задействован свободно распространяемый словарь проекта АОТ (http://www.aot.ru/download/ RusMorph.zip).

Для поддержки русского языка в службе индексирования были написаны две библиотеки - MyStem-mer.dll и My_search.dll.

Библиотека MyStemmer.dll содержит внутри специально организованный лингвистический словарь, основой которого является словарь проекта АОТ, и обрабатывает запросы на генерацию словоформ. Она регистрируется как серверное приложение СОМ+ на уровне бизнес-логики программной системы ИХД. После регистрации этого приложения можно обращаться к нему через СОМ-интерфейс IMyStemmer, содержащий два метода: GenerateForms (функция генерирует словоформы для заданного слова и возвращает их количество); GetForm (функция позволяет получить по номеру уже сгенерированные словоформы).

Библиотека My_search.dll предназначена для связи службы индексирования и внешних лингвистических ресурсов. Она содержит методы внешнего интерфейса, используемые для полнотекстового поиска в хранилище. Эта библиотека регистрируется как СОМ-объект на уровне бизнес-логики программной системы ИХД.

В настоящее время разрабатывается подсистема классификации ИХД, позволяющая производить самоорганизацию потока входящей информации посредством ее автоматической классификации и записи в определенные тематические каталоги.

В заключение отметим, что сценарии использования ИХД в системах государственного управления весьма разнообразны и охватывают системы защищенного документооборота, централизованные хранилища данных с удаленным доступом, электронные библиотечные системы и т.п.

Более подробно ознакомиться с системой можно по адресу http://puma.inf.susu.ac.ru/ffms/ (виртуальная организация "Конференция", пользователи demo1 (пароль demo1), роль "писатель" и demo2 (пароль de-mo2), роль "читатель").

Список литературы

1. Суховилов Б.М., Григорова Е.А. Многопользовательская система хранения данных с удаленным доступом (БМЯ). Современные проблемы атомной науки и техники. // Сб. науч. тр. международ. науч.-практ. конф. - Снежинск (Челябинск. обл.): Изд-во СГФТА, 2003. - 592 с.

2. Суховилов Б.М. Использование авторизованных хранилищ данных в дистанционном образовании //Матер. конф.: Новые университеты - Роль информационных технологий в становлении гуманитарного образования. - Челябинск, ЮУрГУ.- 2003.

3. Суховилов Б.М. Применение в учебном процессе многопользовательской системы хранения данных с удаленным доступом // Матер. науч.-метод. конф.: Проблемы высшего образования и новые образовательные технологии. - Челябинск, ЮУрГУ.- 2003.

АРХИТЕКТУРА ПРОГРАММНОГО КОМПЛЕКСА ОБРАБОТКИ ЭЛЕКТРОННЫХ ПЛАТЕЖНЫХ ДОКУМЕНТОВ В СИСТЕМЕ ФЕДЕРАЛЬНОГО КАЗНАЧЕЙСТВА

Б.М. Суховилов, Е.А. Григорова, А.П. Леутин

Проблема создания надежного комплекса обмена и хранения документов особенно актуальна, когда речь идет о платежных документах. И если в небольших коммерческих организациях чаще полагаются на готовые решения, присутствующие на рынке, то в крупных государственных структурах, таких как Управление федерального казначейства (УФК), надежности уделяется особое внимание. Перед разработчиками, создающими подобные комплексы, возникают следующие задачи:

- обеспечение достаточного уровня секретности;

- простота обслуживания;

- легкость настройки (возможность перенастройки программного комплекса в условиях постоянной смены внешних и внутренних форматов без внесения изменений в программный код);

- обеспечение взаимодействия с комплексом функциональных программ внутреннего пользования УФК (связь по данным); интеграция с существующей системой документооборота;

- создание надежного, крупного, быстрорастущего хранилища данных для всех входящих и исходящих шифрованных пакетов с возможностью поиска по разнообразным параметрам.

Для обеспечения универсальности, простоты настройки, изолированности объектов, решающих отдельные задачи программного комплекса, на этапе проектирования модель системы была условно разделена на четыре уровня: уровень данных; уровень доступа к данным; уровень бизнес-правил; уровень презентации - интерфейс пользователя.

Уровень данных базируется на нормализованной реляционной базе данных (БД) и содержит совокуп-

25

i Надоели баннеры? Вы всегда можете отключить рекламу.