Научная статья на тему 'Подход к интеграции баз данныхпо свойствам неорганических веществ на основе метабазы'

Подход к интеграции баз данныхпо свойствам неорганических веществ на основе метабазы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
104
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТАБАЗА / METABASE / ИНТЕГРАЦИЯ БД / DATABASES INTEGRATION / НЕОРГАНИЧЕСКИЕ ВЕЩЕСТВА / INORGANIC SUBSTANCES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дударев В. А., Филоретова О. А.

В настоящее время существует огромное количество баз данных (БД) по свойствам неорганических веществ и материалов, содержащих разнонаправленную информацию. Разработка современных многофункциональных устройств требует знания самых разных свойств материалов, что делает актуальной задачу интеграции БД в данной предметной области. Статья посвящена вопросам создания интегрированной информационной системы по свойствам неорганических веществ.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A metabase based approach to databases integration on inorganic substances properties

Currently an enormous number of databases on inorganic substances and materials properties exist that contains multidirectional information. Modern multifunctional devices development requires knowledge of a diverse set of materials properties. That makes the integration task of databases in the problem domain of great importance. The article is devoted to questions of integrated information system on inorganic material properties creation.

Текст научной работы на тему «Подход к интеграции баз данныхпо свойствам неорганических веществ на основе метабазы»

№ 4 (46) 2013

В. А. Дударев, канд. техн. наук, доцент Московского государственного университета

тонких химических технологий им. М. В. Ломоносова О. А. Филоретова, канд. техн. наук, Московский государственный университет тонких химических технологий им. М. В. Ломоносова

Подход к интеграции баз данных по свойствам неорганических веществ на основе метабазы

Обеспечение химиков достоверной информацией о свойствах современных веществ представляется необходимым условием развития инновационной промышленности. На текущем этапе качественная информационная поддержка специалистов осуществляется с использованием специализированных баз данных (БД), основным преимуществом использования которых по сравнению с печатными публикациями является существенное сокращение времени поиска требуемой информации.

Бведение

Разработка информационных систем (ИС) по свойствам неорганических веществ ведется во многих странах [1]. При этом наибольшего прогресса в этом вопросе добились США и Япония, которые на базе NIST (National Institute of Standards and Technology — Национальный институт стандартов и технологий, США) и NIMS (National Institute for Materials Science Technology — Национальный институт материаловедения, Япония) предлагают обширные комплексы материаловедческих баз данных. Россия также обладает неплохим потенциалом и все еще находится в лидирующей группе, однако в последние годы можно отметить определенный застой в этой области, связанный с недостаточным финансированием. В результате в нашей стране существует ряд специализированных баз данных, разработанных различными организациями и никак не связанных друг с другом.

Ни одна из разработанных БД по свойствам неорганических веществ и материалов (БД СНВМ) не способна предоставить исчерпывающую информацию о совокупно-

сти свойств конкретного вещества или материала. Очень часто специалисты вынуждены просматривать десятки БД СНВМ, чтобы найти необходимые им значения параметров заданного вещества. Одним из путей решения проблемы является интеграция информационных источников с целью предоставления пользователям полной совокупности данных о неорганических веществах.

иерархия химических сущностей

Ключевой проблемой при интеграции является стандартизация понятий предметной области. Описание химических сущностей и их свойств в различных БД СНВМ происходит с разной степенью детализации. Значения свойств, хранимые в информационных источниках, определяются, в первую очередь, составом неорганических веществ (набором образующих их химических элементов и соотношением их друг с другом). В свою очередь, физические свойства веществ во многом зависят от кристаллической структуры.

Таким образом, может быть построена иерархия понятий, используемая при описании свойств химических сущностей (рис. 1).

№ 4 (46) 2013

Раствор

*

Кристаллические модификации

S 00

s

i <

Ci

eo

! 1 ca

Рис. 1. Иерархия химических сущностей

Обозначив сущности второго уровня общим термином «вещество», получаем трехуровневую иерархию химических объектов: система, вещество и кристаллическая модификация. Вся информация о свойствах химических сущностей, описываемых в интегрируемых информационных источниках, может быть представлена на одном из этих трех уровней. Для детального описания объектов каждого уровня использован математический аппарат теории множеств. Предложенная иерархия объектов используется в контексте построения интегрированной ИС.

Подходы к интеграции БД

Принципиально возможны два подхода к интеграции баз данных. Первый подразумевает слияние всех данных в единую информационную систему — Data Warehouse. Именно такой подход является основой методологии интеграции ETL (Extract, Transform, Load) [6], при которой данные из разных БД после унификации и очистки от неточностей загружаются в общее хранилище данных — Data Warehouse. Однако при всей заманчивости такой мегабазы данных процедура унификации информации баз данных, созданных в разных организациях и/или странах, с использованием различных языков, аппаратных и программных средств, отличающихся по точности данных, является крайне сложной технической и организационной задачей, а ее создание и эксплуатация требует огромных финансовых вложений.

Другой путь — это виртуальная интеграция БД СНВМ и создание неоднородной

распределенной информационной системы. Именно этот путь позволяет обеспечить независимость развития отдельных баз данных и организовать доступ ко всему массиву данных о конкретном веществе или материале для конкретного пользователя, это основная цель интеграции.

При виртуальной интеграции БД возможно использовать два основных технологических приема:

• интеграция корпоративной информации (Enterprise Information Integration, EII) [4];

• интеграция корпоративных приложений (Enterprise Application Integration, EAI) [3].

В первом случае разрабатывается программный интерфейс доступа (API — Application Programming Interface) к информационным источникам, с помощью которого можно извлекать необходимые данные из разных БД. То есть строится некая центральная информационная система, взаимодействующая с распределенными источниками данных, извлекающая и предоставляющая пользователю агрегированную информацию о запрашиваемом веществе из разных БД СНВМ.

Использование второго подхода (EAI) наиболее целесообразно, когда БД СНВМ включают прикладные программы. При реализации этого подхода объединяются не сами БД, а только их пользовательские интерфейсы, осуществляющие доступ к расчетным подсистемам. Такими интерфейсами могут быть веб-приложения соответствующих информационных систем.

В связи с тем, что интегрируемые БД СНВМ могут пересекаться по набору

№ 4 (46) 2013

свойств веществ, а качество информации (достоверность и полнота) в каждой БД отличается для разных свойств, необходима подсистема, поддерживающая экспертные оценки информации интегрируемых БД. Экспертиза должна проводиться высококвалифицированными специалистами, которые выставляют оценки, характеризующие качество данных в раз интегрируемых ИС. Таким образом, при наличии информации по какому-либо свойству вещества в нескольких интегрируемых БД интегрированная система должна выдавать не только сами данные, но и степень их достоверности, рассчитанную на основе экспертных оценок. Разработка такой подсистемы экспертизы информации интегрируемых баз данных — одна из самых сложных организационных задач интеграции БД СНВМ.

Необходимо также учесть, что квалифи-з цированные пользователи не всегда доверяют экспертным оценкам коллег. В связи | с этим БД СНВМ должны содержать гипер-§ ссылки на полные тексты исходных публи-§ каций, из которых извлечена информация. и Таким образом, квалифицированные польза зователи смогут получить доступ не только Ц к значениям конкретных свойств, но также § и к информации о том, каким образом, ко-| гда и кем были получены соответствующие результаты.

£ £

| интегрированная система баз данных | по свойствам неорганических веществ | и материалов иМЕт РАн

| Авторский опыт интеграции информаци-§ онных ресурсов в области неорганического § материаловедения [5] показал, что ни один Л из существующих подходов не решает все проблемы объединения информационных ^ источников и программных приложений баз Ц данных по свойствам неорганических ве-¡2 ществ и материалов. Поэтому был предло-| жен уникальный комплексный подход к ин-* теграции, сочетающий интеграцию на уров-|| не данных и пользовательских интерфейсу сов + EAI) [7]. В рамках предлагаемого

подхода предоставляется как доступ к текущим пользовательским интерфейсам БД и свободное перемещение пользователей между ними (EAI), так и богатые возможности по сбору и агрегации информации, полученной из разнородных распределенных источников данных по свойствам веществ, согласно общей разработанной информационной схеме (EII). Использование описанного подхода для интеграции российских БД СНВМ, разработанных в ИМЕТ РАН, показало, что он предоставляет мощные инструментальные средства виртуальной интеграции информационных ресурсов, созданных с использованием самых разных компьютерных платформ, операционных систем, СУБД, отличающихся по языку и достоверности информации.

В настоящее время интегрированная система баз данных по свойствам неорганических веществ и материалов объединяет все разработанные в ИМЕТ РАН информационные системы (БД Фазы, Elements, Диаграмма, Кристалл и BandGap), а также БД AtomWork, разработанную в NIMS (Япония) [7]. Интегрированная система также включает подсистему для компьютерного конструирования неорганических соединений и прогнозирования их свойств (ИАС — Информационно-Аналитическая Система) [2]. Особенностью разработанной интегрированной системы является то, что входящие в ее состав БД СНВМ созданы с использованием различных СУБД и функционируют на принципиально различных компьютерных платформах: Sun UltraSPARC (БД «Диаграмма») и Intel (прочие БД) под управлением разных операционных систем: от Sun Solaris (БД Диаграмма) и Unix (AtomWork) до Microsoft Windows Server (прочие БД).

При интеграции баз данных необходимо предусмотреть возможность просмотра информации, содержащейся в других БД, о выбранном пользователем веществе. Таким образом, нужен некоторый координирующий центр, который знает о том, в каких БД и какая информация хранится. То есть должен существовать некий центр, который

№ 4 (46) 2013

описывает информацию, содержащуюся в интегрируемых БД. Такую функцию выполняет предложенная нами метабаза — специальная база данных, содержащая справочные сведения о содержимом интегрируемых БД [5].

Формализация метабазы и релевантной информации

Ограничившись для простоты изложения только самым верхним уровнем иерархии (уровень химических систем), получим следующую формализацию для описания метабазы. В метабазе содержится информация по интегрируемым информационным системам (множество D), химическим системам (множество S) и их свойствам (множество P). Для описания взаимосвязи между элементами множеств D, S и P определено тернарное отношение W на множестве U = D х S х P. Принадлежность элемента ^, в,p) отношению W, где d е D, в е S, p е P, интерпретируется следующим образом: «в интегрируемой информационной системе d содержится информация по свойству р химической системы в».

Поиск релевантной информации по конкретной химической системе э сводится к определению отношения Я, являющегося подмножеством декартова произведения S х S (иными словами, Я с S2). Таким образом, о любой паре (э1, в2) е Я можно сказать, что система в2 релевантна системе э1. То есть чтобы решить задачу поиска релевантной информации в интегрируемых информационных системах, необходимо определить отношение Я. Можно предложить следующие правила для построения Я:

1. Для любых множеств е S, э2 е S, состоящих из химических элементов е-ф

в1 = е12,..,е1п }, в2 = {е21,е22,..,е2 т } BерH0,

что если с э2 (т. е. все химические элементы из системы содержатся в системе в2), то (э1, в2) е Я.

2. Отношение Я симметрично. Иными словами, для любых е S, э2 е S верно, что если (э1, э2) е Я, то и (э2, э1) е Я.

<0

При необходимости в первом правиле §

можно заменить отношение с э2 более ¡1

1 2 §

строгим = э2, тогда получим в качестве ре- з левантных только те химические сущности, ® которые состоят из единого набора химиче- сэ ских элементов. <|

Отметим, что ни одно из определений ^ не является подходящим для решения всех задач по определению релевантной инфор- ^ мации в распределенных ИС, и на практике часто используются несколько разных отношений релевантности Я, называемые классами релевантности. Более того, возможно более четкое определение релевантной информации при использовании отношений Я вида: Я с э1,р1)хэ2,р2), где d1,d2 е D; э1, э2 е S; р1, р2 е Р.

Безопасный просмотр релевантной информации в интегрируемых ис

Для обеспечения безопасности при переходах пользователей между веб-приложениями ИС предложено использовать систему шлюзов безопасности, санкционирующих переходы пользователей между ИС и обеспечивающих отображение релевантной информации. Шлюз метабазы санкционирует переход между ИС, а шлюз ИС выполняет сопряжение централизованной системы безопасности с системой безопасности интегрируемой ИС.

При работе с интегрированной системой зарегистрированный пользователь входит в одну из баз данных, размещенных по адресу в Интернете: http://www.imet-db.ru. При работе, например, с БД BandGap, пользователь, выбрав вещество из списка, получает на экране меню, содержащее ссылки на другие БД с релевантной информацией. При «щелчке» по этой ссылке пользователь автоматически переходит в БД «Диаграмма» на систему или в БД «Кристалл» на вещество, содержащие тот же набор элементов, которые образуют выбранное соединение (рис. 2). Естественно, что такие переходы возможны, если БД содержат информацию об аналогичных веществах.

№ 4 (46) 2013

Веб-сервис

Интегрируемая ИС

ИС с релевантной информацией

to

iS

Si

<u со

ig u о

V §

is =1

I

ig §

S

iS £

о со U

о с

й Ü to

t J

SS

S *

Рис. 2. Интеграция ИС с поиском релевантной информации в метабазе

Заключение

В данной работе кратко рассмотрен подход к интеграции информационных систем на основе метабазы, успешно примененный в ИМЕТ РАН для обеспечения совместной работы ряда гетерогенных программных комплексов по свойствам неорганических веществ и материалов, созданных как в нашей стране, так и за рубежом.

Интеграция баз данных по свойствам веществ и материалов в настоящее время является основным направлением развития информационных ресурсов в материало-ведческих областях. Именно она позволит создать информационную структуру XXI в. в области химии и материаловедения, позволяющую обеспечить специалистов достоверными и полными данными о свойствах веществ и материалов и доставить эту совокупную информацию в любую точку мира по сети Интернет.

Список литературы

1. Киселева Н. Н., Земсков В. С., Дударев В. А. Компьютерные информационные ресурсы неорга-

нической химии и материаловедения // Успехи химии. № 2. 2010. С. 163-188.

2. Поляков E. A, Масютин В. В., Дударев В. А. Компьютерное конструирование неорганических соединений на основе интегрированной информационной системы // Прикладная информатика. № 4 (40). 2012. С. 38-43.

3. Morgenthal J. P., Forge B. L. Enterprise Applications Integration with XML and Java. Prentice Hall Ptr, 2001. — 504 p.

4. Morgenthal J. P. Enterprise Information Integration: A Pragmatic Approach. LULU Press, Morrisville, 2005. — 324 p.

5. Kornyshko V. F., Dudarev V. A. Software Development for Distributed System of Russian Databases on Electronics Materials // Information Theories & Applications. V. 13. № 2. 2006. Р. 121-126.

6. Kimball R, Caserta J. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data // John Wiley & Sons. 2004. — 416 p.

7. Dudarev V. A, Kiselyova N. N., Xu Y, Yamaza-ki M. Virtual integration of the Russian and Japanese databases on properties of inorganic substances and materials // Proc. MITS-2009. Symposium on Materials Database (NIMS), 2009. Р. 37-48.

42

i Надоели баннеры? Вы всегда можете отключить рекламу.