Приглашенная лекция
ИНТЕГРИРОВАННАЯ СИСТЕМА БАЗ ДАННЫХ ПО СВОЙСТВАМ НЕОРГАНИЧЕСКИХ ВЕЩЕСТВ И
МАТЕРИАЛОВ
Дударев Виктор Анатольевич
Институт металлургии и материаловедения им. А.А. Байкова Российской
академии наук, Москва Национальный исследовательский университет "Высшая школа экономики", Москва, [email protected]
DOI: 10.24411/9999-004A-2019-10002
Значительные объемы информации, накапливаемые человечеством во многих отраслях, делают неизбежным использование баз данных (БД) для сбора, систематизации и дальнейшей обработки информации, включая ее использование для получения новых сведений. В неорганической химии и материаловедении за последние годы количество БД многократно возросло. Подробный обзор БД по свойствам неорганических веществ и материалов (БД СНВМ) дан в нашей статье [1] и справочной информационной системе IRIC (Information Resources of Inorganic Chemistry) [2]. Поскольку ни одна из БД не содержит исчерпывающих сведений, нами была предпринята попытка консолидации информационных ресурсов, чтобы обеспечить пользователей наиболее полной информацией. Разработанная нами интегрированная система (ИС) баз данных по свойствам неорганических веществ и материалов, доступная из сети Интернет [3], объединяет БД ИМЕТ РАН:
БД по свойствам неорганических соединений «Фазы» [1] в настоящее время содержит информацию о параметрах около 53 тыс. тройных соединений (т.е. соединений, образованных тремя химическими элементами) и около 34 тыс. четверных соединений, почерпнутую из более 35 тыс. литературных источников. Она включает краткую информацию о наиболее распространенных свойствах неорганических соединений: кристаллохимических (типы кристаллической структуры, сингония, пространственная группа, число формульных единиц в элементарной ячейке, параметры кристаллической решетки) и теплофизических (тип и температура плавления, температура распада соединения в твердой или газообразной фазах и температура кипения при атмосферном давлении), а также о сверхпроводящих свойствах соединений. Объем БД «Фазы» более 37 Гбайт.
БД «Elements» [1] включает информацию о 90 свойствах химических элементов: теплофизических (температура плавления и кипения при 1 атм, стандартные теплопроводность, молярная теплоемкость, энтальпия атомизации,
энтропия и т.д.), размерных (ионные, ковалентные, металлические, псевдопотенциальные радиусы, объем атома и т.д.), других физических свойствах (магнитной восприимчивости, электропроводности, твердости, плотности и т.д.) и т.д.
БД «Диаграмма» [1, 4, 5] содержит информацию, собранную и оцененную высококвалифицированными экспертами, о десятках фазовых P-T-x-диаграммах полупроводниковых систем и о физико-химических свойствах, образующихся в них фаз.
БД «Bandgap» [6] включает информацию о ширине запрещенной зоны более 4 тыс. неорганических веществ.
БД «Кристалл» [1, 5] включает информацию о свойствах (пьезоэлектрических (пьезоэлектрические коэффициенты, упругие постоянные и т.д.), нелинейно-оптических (нелинейно-оптические коэффициенты, компоненты тензора Миллера и т.д.), кристаллохимических (тип кристаллической структуры, сингония, пространственная и точечная группа, число формульных единиц в элементарной ячейке, параметры кристаллической решетки), оптических (показатели преломления, область прозрачности и т.д.), теплофизических (температура плавления, теплоемкость, теплопроводность и т.д.) и т.д.), более 140 акустооптических, электрооптических и нелинейнооптических веществ, собранную и оцененную высококвалифицированными экспертами в данной предметной области.
Все БД ИМЕТ РАН включают подсистему полных текстов публикаций (более 46 тыс.), из которых извлечены материаловедческие данные.
ИС также объединяет БД, разработанные в других организациях:
БД «AtomWork» (National Institute for Materials Science Technology, Япония) [7, 8] содержит информацию о более 82 тыс. кристаллических структур, 55 тыс. значений свойств материалов и 15 тыс. фазовых диаграмм.
БД по термическим константам веществ «ТКВ» (ОИВТ РАН и МГУ) [9] содержит информацию об около 27 тыс. веществ, образованных практически всеми химическими элементами.
БД СНВМ широко используются в фундаментальных и прикладных исследованиях и промышленности, однако ни одна из разработанных информационных систем не может дать исчерпывающие сведения обо всей совокупности свойств конкретного вещества или материала. Часто специалисты вынуждены просматривать десятки БД, чтобы найти необходимые им значения параметров заданного вещества. Для обеспечения релевантного и быстрого поиска данных о конкретном веществе из разных информационных систем нами предложено [1, 10] использовать виртуальную интеграцию БД СНВМ. Термин «виртуальная» означает, что данные не переносятся в одно хранилище данных, а находятся в исходных информационных системах, функционирующих в организациях-разработчиках. Интегрированная ИС позволяет специалисту получить сразу всю информацию о конкретном веществе из различных БД,
находящихся в разных организациях и странах, созданных с использованием разных программных и аппаратных средств.
Для интеграции БД по свойствам неорганических веществ и материалов была использована SOA (сервисно-ориентированная архитектура), базирующаяся на применении Web-сервисов для обеспечения взаимодействия между гетерогенными информационными системами. Для поиска релевантной информации в контексте информационных систем используется специально разработанная метабаза [10], описывающая содержимое интегрируемых БД в терминах формализованной иерархии понятий, присущих неорганической химии и материаловедению.
При работе с интегрированной системой зарегистрированный пользователь входит в одну из БД, доступных по адресу [3]. Например, при работе с БД «Bandgap» пользователь, выбрав вещество из списка, получает на экране меню, содержащее ссылки на другие БД с релевантной информацией. При «щелчке» по этой ссылке пользователь автоматически переходит, например, в БД «Диаграмма» на полупроводниковую систему или в БД «Кристалл» на вещество, содержащие тот же набор химических элементов, которые образуют выбранное в БД «Bandgap» соединение.
Очень часто при поиске данных по свойству того или иного вещества пользователь не знает к какой БД СНВМ стоит обратиться для поиска информации. Поэтому нами разработана информационная система, доступная по адресу http://meta.imet-db.ru, названная "единой точкой входа" [10] (дополнительно модуль поиска размещен по адресу http://www.imet-db.ru). С ее помощью любой пользователь по заданному набору химических элементов может получить релевантную информацию, содержащуюся во всех БД СНВМ, консолидированных в рамках ИС ИМЕТ РАН.
Рис. 1. Фрагмент графа релевантности для Cu-In-S и М^.
Для поиска релевантной информации и получения количественной меры оценки релевантности в рамках интегрированной ИС СНВМ предложено использовать графовую модель, в основе которой лежит взвешенный граф G=(V,E), построенный на химических объектах, описываемых в рамках
19
интегрированной ИС СНВМ. Множество вершин V={S, C, M} графа G, состоит из трех непересекающихся подмножеств: S - множество химических систем, C -множество химических веществ и M - множество кристаллических модификаций конкретных веществ. Определение взвешенного множества ребер графа, позволяющее найти для каждой вершины связный подграф, задает релевантную информацию, а длина пути между вершинами - меру релевантности.
В качестве примера рассмотрим фрагмент графа релевантности для химических систем Cu-In-S и In-S (рис. 1). Граф релевантности разбивается на подграфы, построенные на базе вершин из множества химических систем S, т.е. не существует пути в графе между веществами из разных химических систем в обход вершин химических систем. Вершины систем связаны ребром только в случае, если множество элементов одной из систем является собственным подмножеством другой системы и их мощности отличаются на единицу. По близости количественного состава связываются вершины подграфа веществ химической системы и подграфы модификаций. По сути, предложенная графовая модель является попыткой отразить степень похожести химических сущностей. В этом смысле, стоимость пути является мерой различия между соответствующими химическими объектами, являющимися вершинами графа.
Консолидация информации позволяет использовать средства анализа данных: от простейших способов агрегации информации, обработки сложных многокритериальных запросов, программ статистического анализа и визуализации результатов до сложных систем искусственного интеллекта. Разработанная нами специальная информационно-аналитическая система (ИАС) [11], помимо информационного обслуживания специалистов, предназначена для поиска закономерностей в больших массивах химических данных и компьютерного конструирования неорганических соединений [1]. Для поиска закономерностей используются программы распознавания образов по прецедентам [12, 13]. Помимо этого, ИАС расширяет возможности традиционных БД по свойствам веществ и материалов, предоставляя пользователю не только информацию об уже исследованных веществах, но и прогнозы для еще не изученных соединений и оценку их свойств.
Список литературы:
1. Киселева Н.Н., Дударев В.А., Земсков В.С. Успехи химии. 2010. Т.79. N.2. С. 162.
2. БД IRIC. http://iric.imet-db.ru. - (дата обращения: 01.09.2019).
3. Базы данных ИМЕТ РАН. http://www.imet-db.ru/ - (дата обращения: 02.04.2018).
4. Земсков В.С., Киселева Н.Н., Петухов В.В. и др. // Изв. ВУЗов. Материалы электронной техники. 1998. N.3, С. 17.
5. Киселева Н.Н., Прокошев И.В., Дударев В.А. и др. // Неорган. материалы. 2004. Т.42. N. 3. С.380.
6. Киселева Н.Н., Дударев В.А., Коржуев М.А. // Материаловедение. 2015. N.
7. С.3.
7. Xu Y., Yamazaki M., Villars P. // Jap. J. Appl. Phys. 2011. V. 50. N. 11. P. 11RH021.
8. БД "AtomWork". https://crystdb.nims.go.jp/index_en.html. - (visited on 01.09.2019).
9. БД "ТКВ" http://www.chem.msu.su/cgi-
bin/tkv.pl?show=welcome.html/welcome.html. - (дата обращения: 01.09.2019).
10. Дударев В.А. Интеграция информационных систем в области неорганической химии и материаловедения. М.: URSS, 2016. 314 с.
11. Kiselyova N.N., Stolyarenko A.V., Ryazanov V.V. et al. // Pattern Recognition and Image Analysis. 2011. V.21. N.1. P. 88.
12. Журавлев Ю.И., Рязанов В.В., Сенько О.В. «РАСПОЗНАВАНИЕ». Математические методы. Программная система. Практические применения. М.: ФАЗИС, 2006. 176 с.
13. Гладун В.П. Процессы формирования новых знаний. София: СД "Педагог-6", 1995. 192 с.
Работа выполнена при частичной финансовой поддержке РФФИ, проект 1807-00080. Работа выполнялась по государственному заданию № 075-00746-1900.