Научная статья на тему 'Структурирование контента информационного пространства технического университета с использованием процессного подхода и семантической идентификации'

Структурирование контента информационного пространства технического университета с использованием процессного подхода и семантической идентификации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
906
183
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИЗНЕС-ПРОЦЕСС / СИСТЕМНАЯ МОДЕЛЬ / ТЕОРИЯ КАТЕГОРИЯ / ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ. / BUSINESS PROCESS / CATEGORY THEORY / SYSTEM MODELS / SUBJECT AREA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Куликов Г. Г., Шилина М. А., Старцев Г. В., Бармин А. А.

В статье рассматривается процесс обеспечения идентифицируемости и прослеживаемости слабоструктурированных информационных ресурсов информационного пространства технического университета. Приводится методика идентификации информационных ресурсов на основе системных моделей процессов предметной области. Приводится пример реализации предложенной методики с использованием информационно-поисковых систем на базе веб-портала выпускающей кафедры.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Куликов Г. Г., Шилина М. А., Старцев Г. В., Бармин А. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Structuring of subject area of technical university using process approach and semantic identification

Article present process of identification and tracking of information resources of information area of technical university. Presenting methodic of identification of information resources based on system models, supplement example with information retrieval system.

Текст научной работы на тему «Структурирование контента информационного пространства технического университета с использованием процессного подхода и семантической идентификации»

ISSN 1992-6502 ( P ri nt)_

2014. Т. 18, № 4 (65).С. 115-124

Ъыьмт QjrAQnQj

ISSN 2225-2789 (Online) http://journal.ugatu.ac.ru

УДК 004.65

Структурирование контента информационного пространства

технического университета с использованием процессного подхода и семантической идентификации

г. г. Куликов 1, м. а. Шилина 2, г. в. Старцев 3, а. а. Бармин 4

[email protected], 2тапа.$ЫИпа@§таМ.сот, 3Б1аг1$еу@§таМ.сот, 4аЬагт1п@ои1:1оок.сот ФГБОУ ВПО «Уфимский государственный авиационный технический университет» (УГАТУ) Поступило в редакцию 1 ноября 2013 г.

Аннотация. Рассматривается процесс обеспечения идентифицируемости и прослеживаемости слабоструктурированных информационных ресурсов информационного пространства технического университета. Приводится методика идентификации информационных ресурсов на основе системных моделей процессов предметной области. Приводится пример реализации предложенной методики с использованием информационно-поисковых систем на базе веб-портала выпускающей кафедры.

Ключевые слова: бизнес-процесс; системная модель; теория категория; информационно-поисковые системы.

ВВЕДЕНИЕ

Опыт российских и зарубежных университетов показывает, что использование современных информационных технологий в деятельности вуза в настоящее время является необходимостью. Требования к автоматизации отражены в стандарте ISO 9001:2011, директивах ENQA, а также в образовательных стандартах третьего поколения и новой редакции Федерального закона «Об образовании». Отмечается, что необходимым условием развития современных университетов является создание и поддержание единого информационного пространства для обеспечения информационной прозрачности и мониторинга, в том числе со стороны государства, повышения качества образования, а также устранения территориальных барьеров (то есть академической мобильности, в том числе виртуальной). В связи с присоединением России к Болонскому соглашению, потребовалось создание новых образовательных стандартов, ориентированных на поддержку концепции «образование в течение всей жизни».

Создание и поддержание единого информационного пространства подразумевает использование банков и баз знаний, технологий их сопровождения и использования, а также информационных телекоммуникационных систем, обеспечивающих взаимодействие и удовлетво-

рение информационных потребностей пользователей.

В процессе функционирования университет накапливает значительный объем данных. Использование этих данных может быть эффективным, если к ним обеспечивается оперативный доступ. Таким образом, актуально решение проблемы структурирования информационного пространства образовательного учреждения на основе систематизации процессов сбора, обработки и анализа данных об учебном процессе, а также обеспечения их идентификации и про-слеживаемости.

Свойства идентификации и прослеживаемости являются необходимыми требованиями для адекватности построения сложных систем. В формализованных (структурированных) областях деятельности (область конструирования, производства и т.п.) эти требования составляют основу соответствующих стандартов (CAD / CAM / CAE).

Проблема прослеживаемости - это прежде всего документирование идентифицированных объектов в различной документации предметной области, а следовательно, и в едином информационном пространстве, являющимся ее отображением.

Как показывает опыт, информационное пространство современного вуза является гетерогенным. В этом случае данные, характеризую-

щие учебный процесс и отдельные его объекты, оказываются распределенными по различным репозиториям и имеют разный формат представления. Кроме того, в процессе создания информационных объектов принимают участие несколько пользователей, поэтому ни один из них не может обладать знаниями обо всех его характеристиках. Таким образом, эффективное удовлетворение информационных потребностей пользователей возможно только с использованием развитых информационно-поисковых систем.

В статье рассматриваются вопросы формирования и структурирования единого информационного пространства вуза с использованием СЛЬ8-технологий, методика идентификации информационных объектов на основе их семантической аннотации, и обеспечение идентификации и прослеживаемости информационных объектов с использованием информационно-поисковых систем. Также приводится пример создания такой системы на примере выпускающей кафедры технического вуза.

НЕОБХОДИМОСТЬ ФОРМИРОВАНИЯ ЕДИНОГО ИНФОРМАЦИОННОГО ПРОСТРАНСТВА ВУЗА С ПРИМЕНЕНИЕМ СЛЬ8-ТЕХНОЛОГИЙ

Университеты представляют собой консервативные социально-экономические системы. Тем не менее переход к информационному обществу, а следовательно, изменение способов, сроков обработки информации, привел к значительному увеличению ее объемов, но вместе с те - к расширению доступа к этой информации, существенному снижению межгосударственных и внутрироссийских барьеров, что требует от университетов непрерывной адаптации к новым условиям. Немаловажным фактором является также постоянное изменение потребностей рынка труда, а также новации в глобальной информационной инфраструктуре [1].

Необходимым условием выполнения требований стандартов серии ГОСТ Р ИСО 9000 и ENQA является высокая степень автоматизации бизнес-процессов и соответствующих процессов управления с целью обеспечения информацией, необходимой для поддержки процессов, жизненного цикла продукции и процессов, составляющих основу создания, поддержания и постоянного улучшения системы качества организации, а также их непрерывный мониторинг.

Структура информационного пространства большинства вузов характеризуется большим

количеством информационных систем, автоматизирующих различные задачи и характеризующиеся разрозненным хранением данных, представленных в различных форматах (рис. 1).

Информационные системы (ИС) для управления финансово-хозяйственной деятельностью вуза: 1С:Предприятие, Галактика, Парус, SAPR3 и т.д. Системы веб-конференций, видеоконференций, вебинаров на платформе AdobeConnect, OpenMeetings, Mirapolis, CiscoWebExMeetingsCentem т.д.

ИС, обеспечивающие учет, хранение, обработку и анализ информации об основных процессах вуза: 1С:Университет, Галактика Управление Вузом, а также собственные разработки вузов и т.д. Системы поддержки учебного процесса для организации электронного и дистанционного обучения, т.н. LMS, CMS (Blackboard, Moodle, Прометей, 1СЭлектронное обучение, ILIASи т.д.)

Системы документооборота: 1С:Документооборот, DocVision, Логика СЭД, Directum, Дело, Ефрат-Документооборот и т.д. Системы для проведения аттестации, компьютерного тестирования, анкетирования (ФЭПО, VeralTest, eTesto т.д.)

Иные ИС (в том числе системы мониторинга, BPMS, системы управления проектами и т.д.) Веб-порталы университета, его филиалов и подразделений.

Рис. 1. Основные виды информационных систем в информационном пространстве вуза

Для использования этих данных в качестве обратной связи для информационной поддержки принятия решений требуется решить задачу сбора, централизованного хранения, применения специализированных процедур обработки, а также решение проблемы дублирования и логического несоответствия. В результате исходные данные превращаются в ценную аналитическую информацию, являющуюся надежной базой для принятия управленческих решений.

Доступ к актуальным первичным данным позволяет оперативно получать новую информацию и в условиях изменяющихся бизнес-процессов - новые знания. Однако многократно увеличивающиеся объемы обрабатываемой информации и сложность такой обработки и интерпретации данных требуют использования принципиально новых решений, методов и технологий, использования хранилищ данных и средств многомерного анализа, а также развитых поисковых инструментов. При этом разработка поисковой системы требует создания и реализации соответствующих математических моделей и методик.

Любая система может быть представлена как целостный объект или как совокупность связанных и взаимодействующих друг с другом составных частей — объектов меньшего масштаба. Информационное отображение физических объектов или процессов называют информационным объектом (ИО). Совокупность информационных объектов, отражающих свойства

системы и протекающих в ней процессов, называют информационным пространством.

Понятие единого информационного пространства или интегрированной информационной среды является ключевым понятием концепции CALS (Continuous Acquisitionand Life -Cycle Support), успешно применяемой многими зарубежными и российскими промышленными предприятиями.

При создании единого информационного пространства вуза необходимо руководствоваться базовыми принципами CALS, к которым относят:

• системную информационную поддержку жизненного цикла образовательного процесса, основанную на использовании информационных систем, формирующих единое информационное пространство;

• безбумажное представление информации, основанное на электронном обмене данными между участниками процессов жизненного цикла;

• информационную интеграцию, которая может быть достигнута за счет стандартизации описаний объекта управления;

• реинжиниринг бизнес-процессов;

• стандартизацию структур данных и интерфейсов доступа к ним [2].

Кроме того, реализация принципа стандартизации структур данных и интерфейсов доступа к ним накладывают определенные ограничения на разрабатываемые модели. Например, характеристики информационного объекта "Студент" не должны противоречить спецификации IMS LIP (Learner Information Package), признанной стандартом за рубежом и поддерживаемой многими E-learning-системами, что является необходимым условием для обеспечения информационной интеграции и взаимодействия с внешними потребителями информации, например, в процессе академической мобильности (в т. ч. виртуальной), и соответствует принципам CALS.

Характерным свойством информационного пространства является его структурированность. Это означает, что выделены его элементы, установлены связи между ними, введены обозначения, элементы и связи упорядочены. Свойство структурированности в разных видах информационных пространств может быть выражено в разной степени. Высокий уровень структурированности обеспечивает возможность представления информации в виде документов и манипулирования данными с помо-

щью программно-технических средств информационных систем.

Благодаря формированию единого информационного пространства появляется возможность не просто хранить зафиксированные в электронном видерезультаты учебного процесса (оценки и т. п.), а гораздо более адекватные модели знаний и процессов, что позволит обеспечить более высокое качество информационной поддержки учебного процесса, прослеживае-мость показателей и, как следствие, повышение эффективности управления.

МЕТОДИКА ИДЕНТИФИКАЦИИ СЛАБОСТРУКТУРИРОВАННЫХ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ НА ОСНОВЕ СЕМАНТИЧЕСКОЙ АННОТАЦИИ

Информационные ресурсы являются элементами информационного пространства (совокупности результатов семантической деятельности человека), которое представляется в виде совокупности:

• банков и баз знаний;

• технологий их сопровождения и использования;

• информационных телекоммуникационных систем, функционирующих на основе общих принципов и обеспечивающих информационное взаимодействие организаций и граждан, а также удовлетворение их информационных потребностей.

Таким образом, основными элементами информационного пространства являются:

• информационные ресурсы;

• средства информационного взаимодействия;

• информационная инфраструктура.

Информационные ресурсы, представленные

в различных хранилищах, отличаются по степени структурированности. Так, ресурсы, представленные в виде реляционных или нереляционных баз данных, являются наиболее структурированными, так как определены модели данных, а следовательно, все атрибуты данных. Информационные ресурсы, представленные в форме текстовых файлов, являются неструктурированными и уникально идентифицируются только именем файла. Современные файловые системы позволяют создавать не только иерархические, но и фасетные классификации файлов.

Также существует представление информационных ресурсов в форме баз знаний. Наи-

большее распространение получили базы знаний на основе гипертекстовых технологий. В данном случае информационные ресурсы идентифицируются с помощью уникального имени, связи между ними устанавливаются с помощью гиперссылок.

Таким образом, в каждом из описанных представлений:

• существует класс объектов 0ЬС, обладающих общими свойствами;

• между объектами этого класса существуют отношения - реляционные связи в базе данных, гипертекстовые связи в базе знаний, отношения категоризации в файловой системе. Эти отношения имеют различную природу, но в общем случае они отображают одни элементы одного класса в другие элементы того же или другого класса, то есть являются функциями. Таким образом, можно сделать вывод о наличии морфизмов НотС(А,В) между объектами (А,В)е0Ьс;

• для каждой пары морфизмов / 6 Нот(А, В) ид 6 Нот(В, С) определена композиция / о д 6 Нот(А, С) - объекты информационного пространства связаны и возможен переход от одного объекта к другому, например, с помощью гиперссылок, в этом случае операция композиции ассоциативна [3].

На основе изложенных выше положений можно сделать вывод о существовании категории над множеством объектов и связей информационного пространства (объекты и связи информационного пространства - граф информационного пространства).

Таблица 1

Полнота системной модели

Модель/аспект описания системы ФМ, % ИМ, % ДМ, % Итого, %

Функциональное содержание системы 60-80 10 10 80-90

Информационное содержание системы 10 60-70 10 80-90

Описание поведения системы во времени в пространстве 10 10 60-70 80-90

Бизнес-процесс (деловой процесс) - множество из одной или нескольких связанных операций или процедур, в совокупности реализующих некоторую цепь производственной деятельности, осуществляемой обычно в рамках заранее определенной организационной струк-

туры, которая описывает функциональные роли участников и отношения между ними.

При исследовании, проектировании и создании реальной системы необходимо определить элементы и структуру их взаимодействия во времени и пространстве с помощью различных мер. При этом существует диалектическая пара между реальной системой и ее информационным отображением - информационной системой.

В прикладном аспекте проблемы создания автоматизированных информационных систем тесно связаны с методами CASE-технологий (Computer-Aided Software Engineering), объединяющих множество формализованных методов проектирования в едином информационном пространстве. Структурное представление основных категорий и положение диалектики позволяет сформулировать следующий четырехмерный базис построения информационной системы, как отражения реальной системы:

• система элементов и отношений (функциональное содержание системы);

• система сущностей и связей (информационное содержание);

• причинно-следственные связи (динамика);

• семантика (количественная неопределенность).

Степень полноты интегрированного, формализованного описания свойств реальной системы, ее функциональной, информационной, динамической моделей можно оценить показателями, приведенными в табл. 1 [4].

Анализ итоговых показателей, приведенных в табл. 1, показывает, что если полное адекватное описание системы может составлять 300%, то в модели 10-20% всех знаний и данных о реальной системе остается неопределенным.

Методология SADT поддержана рядом CASE-средств, построенных на стандартах IDEF0, IDEF1, IDEF1X, IDEF/CPN -ERWinDataModeler, ERWinProcessModeler, BusinessStudio, Яатши другие.

В стандарте IDEF первоначально обеспечивается единая информационная среда, и система формализованных правил увязывает в единый комплекс модели: семантическую, функциональную, информационную и динамическую, поэтому дальнейшее рассмотрение ведется в аспекте стандарта SADT.

Множество информационных объектов вуза представим в виде подмножеств структуриро-

ванных, слабоструктурированных и неструктурированных информационных объектов:

о = о5ионио и, (1)

гдеD - множество информационных объектов информационного пространства, - подмножество структурированных информационных объектов, - подмножество слабоструктурированных информационных объектов, - подмножество неструктурированных информационных объектов.

Подмножество структурированных информационных объектов можно представить в виде модели в нотации IDEF1X. В этом случае информационные объекты являются сущностями, а отношения между ними - связями. Сущности имеют уникальное имя и содержат ключевые и неключевые атрибуты. Ключевые атрибуты однозначно идентифицируют каждый экземпляр сущности в рамках информационного пространства, что позволяет отследить его положение в бизнес-процессе.

Модель структурированного информационного пространства можно представить в виде ориентированного графа, где узлами выступают сущности, а дугами - отношения между ними:

03 = (Еа,Ка), (2)

- множество сущностей предметной области, -множество отношений между сущностями.

Каждая сущность в структурированном информационном пространстве представляется в виде уникального имени и совокупности атрибутов:

Е1а = (п, А к, А а), где А = А а и А к, (3)

гдеn - наименование сущности^ - атрибуты сущности:

- неключевые атрибуты сущности, -ключевые атрибуты сущности.

Слабоструктурированные информационные объекты содержат в себе структурированную и неструктурированную части. Структурированная часть информационного объекта может быть представлена в виде информационной модели, неструктурированная часть - в виде совокупности терминов некоторой онтологии, характерной для предметной области.

Ин = № и Т0), (4)

- структурированная часть информационного ресурса, Т0 - множество терминов онтологии О.

Модель онтологии имеет вид:

0 = (Т,Я ,Р) , (5)

где О - онтология, Т - термины предметной области, которые определяют онтологию О,R -конечное множество отношений между терминами предметной области, F - конечное множество функций интерпретации заданных на терминах или отношениях онтологии О.

Неструктурированные информационные объекты представлены только совокупностью терминов некоторой онтологии.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для представления неструктурированных информационных объектов с помощью онтологии необходимо определить термины предметной области. Термины можно выделить путем индексирования всех информационных ресурсов или из тезауруса моделей бизнес-процессов, выполняющихся в информационном пространстве.

Тезаурус представляет собой множество упорядоченных пар терминов предметной области и их описаний :

Th.es = { (% (г)} . (6)

В тезаурус модели бизнес-процесса входят термины всех входных и выходных данных, нормативных документов и механизмов, участвующих в бизнес-процессе. На основе терминов предметной области формируется многомерный классификатор информационного пространства, в рамках которого могут быть идентифицированы неструктурированные ресурсы.

Классификацию и идентификацию неструктурированных информационных объектов можно провести на основе терминов, присутствующих в них, то есть представить информационный ресурс в виде вектора терминов:

К = { , Ь2.....Ьп}. (7)

Представим модель бизнес-процесса также в виде подмножеств терминов онтологии предметной области:

М = (I , С, 0, М) = (Т, Тс, То, Тт), (8)

гд eI - входные данные, Т- термины, связанные со входными данными, С - нормативные документы, - термины, связанные с нормативными документами, О - выходные данные, -термины, связанные с выходными данными, М -механизмы и исполнители бизнес-процесса, -термины, связанные с механизмами и исполнителями.

Таким образом, каждую функцию модели бизнес-процесса можно описать в виде множества терминов:

^ = (Т1, ТС, Т1 , Т1), (Т1, ТС, Т1 , Т1) 6 Т1. (9)

Используя (9) и (7), можно идентифицировать объекты, относящиеся к каждой конкретной функции бизнес-процесса, то есть обеспечить их прослеживаемость в рамках бизнес-процесса.

Использование семантической идентификации не позволяет однозначно идентифицировать информационный объект, соответствующий запросу, но позволяет выделить группу объектов, удовлетворяющих запросу в определенной степени. Степень соответствия между информационным объектом можно определить на основе семантического расстояния между ними.

Запрос к информационному пространству представляется в виде совокупности множеств терминов и булевых операций между ними

и может быть представлен в дизъюнктивной нормальной форме д а

ч = (Т«,*я) = ЧйпГ=\] дI, (10)

(=1..ЛГ

гд е д ¿-/-я конъюнктивная компонента запроса q.

Пусть / - индекс термина £ ( из таксономии О (/=1,...М), г1 - информационный объект, принадлежащий информационному пространству В. Информационный объект будем рассматривать как вектор , где - вес, ассоциированный с парой .

Для каждого термина £ ¿, который не входит во множество терминов, связанных с информационным объектом , его вес равен нулю:

= 0 .

Введем также инверсную функцию , соответствующую индексу термина , которая определяется следующим образом:

.Данная функция показывает вес /-го термина в ]-м информационном объекте.

Мера близости информационного ресурса г1 и запроса д - 5 Ш(г],д) определяется выражением:

5 1т (г!,д) (11)

(1- если Э<аг£: 6 цйп/) Л (ук: дк(д{) =

V 0, иначе.

То есть принимает значение 1,

если существует такая конъюнктивная компонента , входящая в дизъюнктивную нормальную форму , что инверсная каждого термина Жданной конъюнктивной компоненты совпадает с этой же инверсной функцией для инфор-

мационного объекта . В противном случае оказывается равной 0.

Таким образом, если s im (г1 ,q ) = 1 , то информационный объект является релевантным запросу q.

Определим граф со следующими объектами и ребрами:

n - неструктурированное информационное пространство,

i- семантически идентифицированное пространство,

- семантическая идентификация информационного пространства,

m - множество моделей процессов информационного пространства,

- формализация бизнес-процессов информационного пространства в виде множества моделей,

s - семантически аннотированные модели бизнес-процессов информационного пространства,

- семантическое аннотирование моделей бизнес-процессов на основе терминов онтологии и тезауруса моделей,

r - результат идентификации информационных ресурсов на основе моделей бизнес-процессов,

- семантический поиск в аспекте модели бизнес-процесса.

Матрица смежности для полученного графа представлена в табл. 2.

Таблица 2

Матрица смежности графа информационного поиска

n i m s r

n ident modeling

i search

m annotation

s search

r

ОБЕСПЕЧЕНИЕ ИДЕНТИФИЦИРУЕМОСТИ И ПРОСЛЕЖИВАЕМОСТИ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ

С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

Предложенная выше модель аннотирования и идентификации может быть реализована с использованием информационно-поисковых систем. Информационно-поисковая система - это программно-аппаратный комплекс, предостав-

ляющий возможность индексирования и поиска информации.

Информационный поиск - это процесс поиска в большой коллекции (хранящейся, как правило, в памяти компьютера) некоторого неструктурированного материала (обычно документа в виде файла), удовлетворяющего информационные потребности пользователя.

Под неструктурированными данными понимаются данные, которые не имеют ясной, семантически очевидной и легкореализуемой на компьютере структуры. В реальности полностью неструктурированных данных не существует, даже обычные текстовые документы имеют структуру, они разделены на разделы, которые оформлены заголовками, текст разбит на абзацы, абзацы на предложения. Все эти структуры очевидны для естественного языка, но не всегда пригодны для автоматизированного поиска.

Под документами в данном контексте понимаются любые объекты, на основе которых решено построить систему информационного поиска. Группа документов, по которым выполняется поиск, называется коллекцией, термин -единица индексирования.

Простейший вариант поиска документальной информации в такой коллекции предполагает последовательный просмотр всех документов - прямой поиск. Данный подход обладает существенным недостатком - при каждом пользовательском запросе приходится просматривать все пространство, поэтому поиск занимает значительное время.

Во избежание последовательного пересмотра всех документов, заранее составляется индекс документов. В этом случае для каждого документа создается запись, в которой указано, содержит ли он конкретный термин предметной области. В результате возникает бинарная инцидентность «термин-документ», которая может быть представлена в форме матрицы. Теперь в зависимости от порядка просмотра этой матрицы (по строкам или по столбцам) можно получить вектор термина, в котором указано, в каких документах он встречается, либо вектор документа, в котором указано, какие термины в нем употребляются.

Для большой коллекции документов матрица может занимать значительный объем памяти и не помещаться целиком в память одного компьютера. Кроме того, матрица будет чрезвычайно разряженной, то есть содержать лишь небольшое количество ненулевых элементов. Для решения данной проблемы используется техно-

логия создания инвертированного индекса, алгоритм создания:

1. Записываем в память словарь терминов (dictionary) (иногда его называет словником (vocabulary) или лексиконом (lexicon)).

2. Для каждого термина создается список документов, содержащих данный термин.

3. Каждый элемент такого списка получает дополнительную информацию о координате термина в документе - словопозицию (posting).

Получившийся в результате список (postinglist) и является инвертированным индексом.

Цель использования информационно-поисковых систем - поиск документов из коллекции, которые являются наиболее релевантными по отношению к произвольным информационным потребностям, сообщаемым системе при помощи однократных, инициированных пользователем запросов. Документ является релевантным с точки зрения пользователя, если он содержит ценную информацию, удовлетворяющую его информационную потребность.

Для простейших моделей поиска поисковый запрос представляется в форме булевых выражений вида:

«Образование» И «Высшее»

Обработка такого запроса выполняется по следующему алгоритму:

1. Обнаруживаем термин «Образование» в словаре.

2. Находим список его словопозиций.

3. Обнаруживаем термин «Высшее» в словаре.

4. Находим список его словопозиций.

5. Находим пересечение списков словопо-зиций [5].

Словарь терминов информационно-поисковой системы может формироваться авто-матизированно на основе терминов документов предметной области, также он может быть сформирован пользователем самостоятельно на основе тезауруса моделей предметной области.

Использование моделей бизнес-процессов позволяет сузить область поиска за счет добавления в поисковый запрос параметров, характерных для каждого бизнес-процесса. Например, для бизнес-процесса «Учет успеваемости» поисковый запрос может быть сформирован в виде:

«Иванов» И «Философия» И «Журнал успеваемости»

Таким образом, использование информационно-поисковых систем позволяет идентифицировать и проследить состояние документа в рамках бизнес-процесса.

РЕАЛИЗАЦИЯ ИНФОРМАЦИОННОГО ПОИСКА В КОНТЕНТЕ КОРПОРАТИВНОГО ВЕБ-ПОРТАЛА ВЫПУСКАЮЩЕЙ КАФЕДРЫ ТЕХНИЧЕСКОГО ВУЗА

Автоматизированная информационная система образовательного учреждения в процессе своей деятельности накапливает существенный объем данных. Эти данные находятся в разнородных хранилищах и представлены в разнообразных форматах. Использование портальных технологий на основе сервис-ориентированной архитектуры в образовательном учреждении позволяет обеспечить централизованный доступ к информационному пространству с использованием тонкого клиента - интернет-браузера. Использование информационно-поисковых систем в качестве сервиса информационного пространства обеспечивает оперативный поиск информации.

Обмен данными между сервисами корпоративного веб-портала выполняется с использованием веб-сервисов, для обеспечения взаимодействия которых используются следующие стандарты:

• XML - расширяемый язык разметки, используемый для хранения и передачи структурированных данных;

• SOAP - протокол обмена сообщениями на базе XML;

• WSDL - язык описания внешних интерфейсов веб-службы на базе XML.

Информационно-поисковая система является сервисом, выполняющим две функции:

1. Создание и обслуживание поискового индекса объектов информационного пространства.

2. Выдача ссылок на объекты информационного пространства, удовлетворяющие поисковому запросу.

Каждый бизнес-процесс представляет собой отдельную задачу веб-портала, доступ к которой регламентируется с помощью системы прав доступа. Создание индекса объектов информационного пространства требует доступа к задачам веб-портала с правами супер-пользователя -все объекты информационного пространства должны попасть в поисковый индекс.

Использование объектно-ориентированных технологий при разработке веб-портала позволяет логически группировать классы, относящиеся к одному бизнес-процессу в один пакет. Это позволяет разрабатывать и использовать задачи независимо. Тем не менее наличие большого количества унаследованных технологических решений создает дополнительные сложности при создании сервис-провайдера (serviceprovider).

Для решения возникшей задачи был использован принцип инверсии управления, который используется для уменьшения связанности в объектно-ориентированных приложениях. Использование данного принципа предполагает создание требуемых объектов во время выполнения приложения, что позволяет использовать метаданные для гибкой настройки приложения.

Фрагмент информационной модели, описывающий метаданные о сущностях предметной области приведен на рис. 2.

Каждая сущность объектно-ориентированного информационного пространства представлена в виде класса. Некоторые сущности должны иметь возможность долговременного хранения своего состояния в базе данных, поэтому перед сохранением и обновлением данных должна проверяться согласованность данных на уровне логики бизнес-процессов. В системе реализованы типовые валидаторы для проверки данных на пустоту, выбор из списка и соответствие требуемому формату данных.

Описание объектов предметной области с использованием метаданных позволяет легко адаптировать отображение данных под требования пользователя - в системе реализована поддержка перевода интерфейса CRUD-операций на насколько языков.

На основе метаданных экземпляры объектов предметной области сохраняются в XML-документы, которые затем отправляются в поисковый сервис.

Получение результатов поиска также происходит путем обмена XML-сообщениями между сервисом веб-портала и сервисом информационного поиска. XML-сообщения со ссылками на объекты предметной области в соответствии с метаданными, хранящимися в базах данных, преобразуются в доступный для пользователя вид.

Динамическая модель взаимодействия пользователя, веб-портала и сервиса информационного поиска представлена на рис. 3.

Рис. 2. Фрагмент информационной модели метаданных предметной области

Рис. 2. Динамическая модель взаимодействия с сервисом поиска

Описанное выше решение реализовано с использованием объектно-ориентированного языка программирования PHP 5, системы управления базами данных MySQL, сервера приложений Apache. В качестве сервиса информационного поиска выступает типовое решение ApacheSolr.

ЗАКЛЮЧЕНИЕ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Свойства идентификации и прослеживаемо-сти являются необходимыми требованиями для адекватности построения сложных систем. В формализованных (структурированных) областях деятельности (область конструирования, производства и т.п.) эти требования составляют

основу соответствующих стандартов (CAD / CAM / CAE). Единое информационное пространство является ключевым компонентом концепции CALS. Данные, содержащиеся в едином информационном пространстве, относятся, в том числе, и к системе менеджмента качества. Таким образом, можно сделать вывод, что структурирование единого информационного пространства, систематизация сбора, обработки данных ведут к повышению качества и оперативности информационной поддержки управления, а следовательно, повышению эффективности управляемых процессов.

Семантическое аннотирование слабоструктурированных объектов информационного пространства позволяет идентифицировать их в рамках бизнес-процессов образовательного учреждения, организовать информационную поддержку жизненного цикла образовательного процесса на всех его этапах жизненного цикла. Таким образом, устанавливается соответствие между моделями бизнес-процессов и их экземплярами в информационном пространстве вуза.

Использование информационно-поисковых систем позволяет в автоматизированном режиме производить идентификацию объектов информационного пространства, выполнять их поиск и навигацию.

Применение информационно-поисковой системы в качестве сервиса корпоративного портала позволяет выполнять оперативный поиск информации в различных источниках. Доступ к корпоративному порталу осуществляется с помощью тонкого клиента - веб-браузера, доступного практически на любых устройствах. Таким образом, можно получать оперативную информацию об объектах информационного пространства.

СПИСОК ЛИТЕРАТУРЫ

1. Тихомирова Н. В. Образовательный процесс в электронном университете: условия и направления трансформации // Высшее образование в России. 2011. № 2. С. 3-11.[ N.V. Tihomirova, "Education in electronic university," (in Russian), High education in Russia, no. 2, pp. 3-11, 2011. ]

2. Агапов Р. Н., Куликов Г. Г., Старцев Г. В, Шили-на М. А. Формирование иерархического интегрированного информационного пространства образовательного учреждения с использованием интранет-технологий // Открытое образование, 2011. № 4 (87). 2011. С. 29-37. [ R. N. Agapov, G. G. Kylikov, G. V. Startsev, M. A. Shilina, "Forming hierachical integrated information space of high school using intranet technologies," (in Russian), Open Education, no. 4 (87), pp. 2937, 2011. ]

3. Кук Д., Бейз Г. Компьютерная математика. М.: Наука, 1990. 384 с.[ D. Kyk, G. Beiz, Computer math, (in Russian). Moscow: Nauka, 1990. ]

4. Куликов Г. Г., Набатов А. Н., Речкалов А. В. Автоматизированное проектирование информационно-управляющих систем. Уфа: УГАТУ, 1998. 104 с.[ G. G. Kylikov, A. N. Nabatov, A.V. Rechkalov, Automated design of automated management systems, (in Russian). Ufa: USATU, 1998. ]

5. Ландэ Д. В., Снарский А.А ., Безсуднов И. В. Ин-тернетика: Навигация в сложных сетях: модели и алгоритмы. М.: Либроком, 2009. 264 с.[ D.V. Lande, A.A. Snarsky, I. V. Bezsudnov, Internetica: navigation in networks, (in Russian). Moscow: Librocom, 2009. ]

ОБ АВТОРАХ

КУЛИКОВ Геннадий Григорьевич, проф., зав. АСУ. Дипл. инж. по автом. машиностроения (УАИ, 1971). Д-р техн. наук по сист. анализу, авт. управлению и тепл. двигателям (УАИ, 1989). Иссл. в обл. АСУ и упр. сил. установками ЛА. ШИЛИНА Мария Анатольевна, доц. той же каф. Дипл. информатик-экономист (УГАТУ, 2006). Канд. тех. наук по АСУ (УГАТУ, 2009). Иссл. в обл. упр. учеб. процессом с исп. инф. технологий.

СТАРЦЕВ Геннадий Владимирович, доц. той же каф. М-р техн. и технол. по инф.-упр. системам (УГАТУ, 2003). Канд. техн. наук по АСУ (УГАТУ, 2006). Иссл. в обл. проектир. инф. систем на основе веб-технологий.

БАРМИН Александр Александрович, асп. каф. АСУ. Дипл. информатик-экономист (УГАТУ, 2011). Готовитдис. в обл. инф.-поисковых систем.

METADATA

Title: Structuring of subject area of technical university using

process approach and semantic identification. Authors: G. G. Kylikov1, M. A. Shilina2, G. V. Startsev3,

4

A. A. Barmin Affiliation:

Ufa State Aviation Technical University (UGATU), Russia. Email: 1gennadyg_98@yahoocom, [email protected],

3 [email protected], [email protected] Language: Russian.

Source:Vestnik UGATU (scientific journal of Ufa State Aviation Technical University), vol. 18, no. 4 (65), pp. 115-124, 2014. ISSN 2225-2789 (Online), ISSN 1992-6502 (Print). Abstract: Article present process of identification and tracking of information resources of information area of technical university. Presenting methodic of identification of information resources based on system models, supplement example with information retrieval system. Key words: Business process; category theory; system models; subject area.

About authors:

KULIKOV, Gennady Grivorievich, Prof., Dept. of Automated Systems. Dipl. Ingeneer automator (UAI, 1987). Dr. of Tech. Sci. (UGATU, 1989).

SHILINA, Maria Anatolievna, Dept. of Automated Systems. Informatics and economist (USATU, 2006), PhD (USATU, 2009).

STARTSEV, Gennady Vladimirovich, Dept. of Automated Systems. Master of technique and technology (USATU, 2003). PhD (USATU, 2006).

BARMIN, Aleksandr Aleksandrovich, Postgrad. (PhD) Student, Dept. of Automated Systems. Informatics and economist (USATU, 2011).

i Надоели баннеры? Вы всегда можете отключить рекламу.