№ 4 (40) 2012
A. Е. Поляков, аспирант Московского государственного
университета тонких химических технологий
B. В. Масютин, аспирант Московского государственного
университета тонких химических технологий
В. А. Дударев, канд. техн. наук, доцент, старший научный сотрудник Института металлургии и материаловедения РАН, г. Москва
Компьютерное конструирование неорганических соединений на основе интегрированной информационной системы
В настоящее время существует огромное количество баз данных (БД) в различных предметных областях, что делает актуальной задачу рационального использования необходимой информации, содержащейся в них. Не является исключением и химическая отрасль. Статья посвящена развитию средств автоматизации исследований в этой отрасли.
Введение
Информация из БД может быть применена как для информационной поддержки, так и для формирования новых знаний, с целью выявления закономерностей, зависимостей и прогнозирования неизвестных значений параметров объекта, а также для обеспечения специалистов в области неорганических соединений высококачественной информацией о свойствах и методиках получения перспективных неорганических веществ. Современные тенденции таковы, что невозможно представить работу специалистов в какой-либо области без использования специализированных информационных систем (ИС), осуществляющих удаленный доступ через Интернет. Разработка ИС в области неорганических соединений и материаловедения ведется во всех развитых странах. Одним из крупнейших разработчиков в России является Институт металлургии и материаловедения им. А. А. Байкова (ИМЕТ РАН).
Базы данных в области неорганической химии и материаловедения ИМЕТ РАН
База «Кристалл» (http://crystal.imet-db.ru) содержит экспериментальные данные о свойствах акустооптических, электрооптических и нелинейнооптических веществ, погрешностях, методах измерений, условиях получения и т. д. Существенно, что основная часть информации базы данных собрана и оценена российскими специалистами, непосредственно участвующими в разработке и использовании химических соединений, относящихся к этим классам веществ. Информация по свойствам каждого вещества дополнена аналитическим обзором, в котором кратко описана технология получения веществ, возможные области их применения.
База «Фазы» (http://phases.imet-db.ru) содержит данные по свойствам химических систем и тройных неорганических соединений. БД содержит информацию о десятках тысяч тройных соединений (соединений, образованных тремя химическими эле-
ПРИКЛАДНАЯ ИНФОРМАТИКА /-
' № 4 (40) 2012
ментами), почерпнутую из тысяч публикаций. В БД хранятся следующие сведения о соединениях: область гомогенности химического соединения, тип и температура плавления (при давлении 1 атм), температура кипения и распада в твердой и/или газообразной фазе (при давлении 1 атм), типы кристаллических структур с указанием температуры и давления, выше которых образуется данная кристаллическая модификация, сингонии, федоровские группы, число формульных единиц в элементарной ячейке критические температуры перехода в сверхпроводящее состояние и верхнего критического магнитного поля при температуре 4,2 К. Помимо этого, БД содержит краткую характеристику для каждой химической системы: температуры изученных изотермических сечений и обозначения исследованных квазибинарных разрезов. Библиографические ссылки даны для каждой тройной системы.
Интеграция БД
Интеграция баз данных в области неорганического материаловедения позволяет создавать ИС по наиболее перспективным соединениям, поскольку в различных БД зачастую содержится дополняющая друг друга информация по свойствам веществ и методикам их получения. Интеграция является лишь первым шагом к разработке интеллектуальных информационных систем с целью компьютерного конструирования перспективных неорганических веществ. Интегрированная ИС, в совокупности с разработанными прикладными программами, решает проблему поиска затребованных пользователем сведений об определенных неорганических веществах. Дальнейшая интеллектуализация баз данных непосредственно связана с оснащением информационных систем программными комплексами анализа огромных массивов химической информации, с поиском присутствующих в ней закономерностей. Найденные закономерности позволяют конструировать
еще неполученные вещества с заданными Ц свойствами, что расширяет возможности -5 БД, превращая их из компьютерного спра- ^ вочника в интеллектуальные информационные системы (рис. 1), которые дают воз- | можность прогнозировать еще эксперимен- § тально неизученные вещества, оценивать § их параметры и принимать решение о путях ^ поиска новых веществ с заданными свой- §*■ ствами. |
Задача конструирования новых неорга- е| нических соединений заключается в нахож- ^ дении совокупности химических элементов А и их соотношения для создания (при заданных внешних условиях) определенной пространственной молекулярной или кристаллической структуры соединения, позволяющей реализовать необходимые функциональные свойства. Исходной информацией для расчетов должны быть только свойства химических элементов и данные о других уже изученных соединениях. Таким образом, речь идет о поиске зависимостей между свойствами систем (например, свойствами соединений) и химических элементов, образующих эти системы.
Одним из наиболее эффективных путей решения задачи конструирования многокомпонентных неорганических соединений является компьютерный анализ информации БД с целью поиска сложных закономерностей образования соединений определенных типов с использованием методов обучения ЭВМ распознаванию образов. Найденные закономерности могут быть представлены в виде ассоциативной структуры данных, например, искусственной нейронной сети или растущей пирамидальной сети, а также в форме булевского выражения, продукционных правил, системы алгебраических уравнений и т. д. Переменными в найденных закономерностях, как правило, являются свойства химических элементов. В качестве целевого параметра могут быть выбраны возможность образования соединения или тип его кристаллической структуры при заданных условиях, некоторое пороговое значение физического параметра,
№ 4 (40) 2012
€ Й
Её
и £
0 §
1
I
!
со о
! Й £ ЕЁ
о о
1
5
0 и
13 *
£
1 £
I
I
Её §
<и
Её
6
И 5
Рис. 1. Схема ИС для компьютерного конструирования неорганических веществ
например, критическая температура перехода в сверхпроводящее состояние: выше 4,2 K или ниже и т. д.
Методика проведения компьютерного эксперимента
Согласно информации из БД «Кристалл» соединения состава A2BCl4 относятся к группе сегнетоэлектрических кристаллов типа K2SO4, охватывающей около десятка соединений, наиболее известными из которых являются Rb2ZnCl4, K2ZnCl4, Rb2ZnBr4, Для этих соедине-
ний характерно то, что переход от сегнето-электрической фазы к параэлектрической происходит через промежуточную несо-
размерную фазу. У кристаллов A2BCl4 выявлены электрооптические и нелинейные оптические свойства. По данным, кристаллы Rb2ZnCl4 генерируют вторую оптическую гармонику. С целью поиска еще не синтезированных сегнетоэлектрических хлоридов авторами проведено прогнозирование новых соединений состава A2BCl4 ^ и B — разные металлы).
Решение поставленной задачи включало несколько этапов:
1) отбор примеров соединений A2BCl4 для компьютерного анализа;
2) отбор свойств элементов для включения в классифицирующую закономерность;
3) отбор наиболее важных для классификации свойств элементов и простейших
40
№ 4 (40) 2012
алгебраических функций от этих свойств с помощью программы поиска классифицирующих параметров;
4) выбор алгоритмов компьютерного анализа данных, основанных на методах распознавания образов по прецедентам и предназначенных для поиска классифицирующих критериев, и обучение ЭВМ;
5) поиск классифицирующих критериев для отобранных примеров уже известных веществ с применением методов обучения ЭВМ и прогнозирование возможности образования при обычных условиях (298 К и 1 атм) новых соединений состава А2ВС14 с использованием найденных критериев.
1. Отбор примеров соединений для компьютерного анализа
Исходной информацией для компьютерного анализа является матрица, каждая строка которой соответствует уже исследованному веществу и представляет собой набор значений свойств компонентов — химических элементов А и В или простых хлоридов. Каждой строке соответствует также значение целевого признака — возможности образования соединения. Такая выборка называется обучающей, и ее представительность и достоверность в значительной степени определяют точность последующего прогнозирования. Как правило, отбор примеров неорганических веществ для компьютерного анализа осуществляется высококвалифицированными специалистами-химиками с использованием информации из разработанных баз данных по свойствам неорганических веществ и материалов, в том числе и БД ИМЕТ РАН, которые в настоящее время содержат сведения о десятках тысяч веществ и доступны зарегистрированным пользователям сети Интернет (http://imet-db.ru).
2. Отбор свойств элементов для включения в классифицирующую закономерность
Наиболее сложной, влияющей на качество прогнозирования задачей является от-
бор свойств компонентов, важных для классификации неорганических соединений. Как правило, значения свойств химических элементов извлекаются из БД «Элементы» (http://phases.imet-db.ru/elements). В настоящей работе на основе физико-химических представлений о природе изучаемых фаз в исходный набор свойств были включены 67 параметров элементов А и В и простых хлоридов состава АС1 и ВС12.
3. Отбор наиболее важных
для классификации свойств компонентов
Для нахождения набора свойств элементов и простых галогенидов, наиболее важных для классификации систем А - В - С1 на системы с образованием и без образования соединений А2ВС14, использовалась программа, включенная в разработанную в ИМЕТ РАН информационно-аналитическую систему (ИАС) для компьютерного конструирования неорганических соединений. Программа основана на минимизации функционалов обобщенной ошибки выпуклых корректирующих процедур над наборами предикторов, построенных по отдельным свойствам компонентов. В качестве оценки информативности набора свойств использовалось отношение точности распознавания контрольной выборки для исходного набора свойств компонентов к точности распознавания, проводимого без учета оцениваемого набора свойств.
4. Выбор алгоритмов компьютерного анализа данных
Для компьютерного анализа данных был использован комплекс алгоритмов распознавания образов по прецедентам, включенный в разработанную в ИМЕТ РАН информационно-аналитическую систему. В настоящее время она включает программы, основанные на таких методах, как алгоритм вычисления оценок, метод бинарных решающих деревьев, линейный дискриминант Фишера, программная система распознава-
ем ! I
ва
I
а
и .Э
ва ва еа
1
41
№ 4 (40) 2012
€ Й
Её
и £
0 £
1
I
!
со
0
1 Й £ её
о £
о
1
5
0 и
13 *
£
1
Её
13
I
Её §
<и
Её
6
И 5
ния LoReg, поиск логических закономерностей классов, поиск двумерных линейных разделителей, алгоритм линейной машины, различные варианты обучения нейронных сетей, метод к ближайших соседей, голосование по тупиковым тестам, метод опорных векторов, статистически взвешенное голосование, формирование понятий с использованием растущих пирамидальных сетей и т. д.
При решении задачи с использованием разных вышеприведенных наборов свойств элементов проводился отбор наиболее точных алгоритмов, для чего применялось экзаменационное распознавание со скользящим контролем на материале обучающей выборки, которое является традиционным средством оценки качества обучения ЭВМ.
Для повышения точности прогнозирования соединений была использована стратегия коллективов алгоритмов. В ИАС включены следующие алгоритмы построения коллективных решений: метод Байеса, области компетенции, шаблоны принятия решений, динамический метод Вудса, комплексные комитетные методы, логическая коррекция, выпуклый стабилизатор, обобщенный полиномиальный корректор и алгебраический корректор. Как правило, использование стратегии коллективов алгоритмов позволяет улучшить точность прогнозирования за счет взаимной компенсации недостатков одного алгоритма преимуществами других.
Для оценки точности «коллективных» алгоритмов применялось экзаменационное распознавание 50 примеров, случайно выбранных из обучающей выборки и неиспользованных в обучении ЭВМ (на завершающем этапе прогнозирования контрольные примеры возвращались в обучающую выборку).
5. Прогнозирование возможности образования соединений состава А2ВС14
Найденная классифицирующая закономерность была использована для прогно-
зирования еще не полученных соединений. Следует отметить, что для прогнозирования новых соединений использовались только значения свойств компонентов.
Результаты компьютерных экспериментов
На основе анализа информации БД по свойствам неорганических соединений «Фазы» была сформирована выборка, содержащая 68 примеров соединений А2ВС14 и 30 примеров систем без образования соединений состава А2ВС14.
Было установлено, что наиболее важными для классификации систем по признаку существования или отсутствия соединений являются: изобарный потенциал образования простого галогенида ВС12, температура плавления элемента А и псевдопотенциальный радиус элемента В.
На основе анализа результатов экзаменационного распознавания можно сделать вывод о том, что лучшие результаты прогнозирования могут быть получены с использованием программ на основе алгоритмов «метод бинарных решающих деревьев», «логические закономерности», «метод опорных векторов» и «статистически взвешенные синдромы». Именно эти алгоритмы были использованы при принятии коллективного решения.
С целью дальнейшего увеличения точности прогнозирования были проведены компьютерные эксперименты по поиску эффективных методов принятия коллективного решения с использованием наиболее точных алгоритмов распознавания образов по прецедентам. Лучшие результаты были получены при использовании алгоритма «выпуклый стабилизатор».
В таблице 1 даны прогнозы новых соединений состава А2ВС14. Приняты следующие обозначения: 1 — прогноз возможности образования соединения состава А2ВС14 при обычных условиях; 2 — прогноз отсутствия соединения А2ВС14 в системе А - В - С1. Значком # обозначены уже существующие
42
№ 4 (40) 2012
соединения, информация о которых использована для обучения ЭВМ.
Таблица 1
Прогнозы возможности образования соединений состава A2BCl4.
A B Li Na K Rb Cs Tl
Be #1 #1 #1 #1 #1 #1
Mg 1 #1 #1 #1 #1 #2
Ca #2 #2 #2 #2 #1 2
Ti #1 #1 #1 #1 #1 1
V 1 1 #1 #1 #2 1
Cr #1 #1 #1 #1 #1 1
Mn 1 #1 #1 #1 #1 #2
Fe #1 1 #1 #1 #1 1
Co #1 #1 #1 #1 #1 #1
Ni 1 #2 1 1 1 1
Cu #2 #2 #1 #1 #1 1
Zn 1 #1 #1 #1 #1 #1
Sr 2 #2 #1 #1 #2 #2
Cd 1 #1 #1 #1 #1 #1
Sn #2 #2 #2 #1 #1 #2
Ba #2 #2 #1 #1 #1 #2
Eu #2 #2 #1 #2 #2 #2
Yb 1 #2 #2 1 #1 2
Hg #1 #1 #1 #1 #1 1
Pb #2 #2 #1 #1 #1 #1
Заключение
Интеграция баз данных в области неорганической химии открывает принципиально новые возможности, связанные с анализом данных, накопленных в рамках существующих отраслевых ИС. Данный подход дает
пользователю возможность получать пол- Ц ную картину свойств веществ. Компьютер- S ное конструирование перспективных неор- ^ ганических соединений на основе интегрированных ИС позволяет спрогнозировать | еще неполученные соединения, информа- § ция о которых может быть применена спе- § циалистами для поддержки принятия взве- ^ шенных решений при выборе того или ино- §*■ го вещества с заданными свойствами для | использования в области неорганической i§ химии и материаловедения. ¡^
Список литературы
1. Дударев В. А., Колыбанов К. Ю. Повышение экономической эффективности разработки полифункциональных материалов на основе интеграции баз данных // Ученые записки МИТХТ. Вып. 14 / сб. статей под ред. В. С. Тимофеева и др. М.: МИТХТ, 2005. С. 79-80.
2. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. М.: изд-во ФАЗИС, 2006. С. 176.
3. Киселева Н. Н. Компьютерное конструирование неорганических соединений: использование баз данных и методов искусственного интеллекта // Ин-т металлургии и материаловедения им. А. А. Байкова. М.: Наука, 2005. С. 289.
4. Киселева Н. Н, Дударев В. А, Земсков В. С. Компьютерные информационные ресурсы неорганической химии и материаловедения // Успехи химии. 2010. Т. 79. № 2. С. 162-188.
5. Li L., Wolfel A., Schonleber A., Mondal S., Schreurs A. M. M, Kroon-Batenburg L. M. J., van Smaalen S. Modulated anharmonic ADPs are intrinsic to aperiodic crystals: a case study on incommensurate Rb2ZnCl4 // Acta Crystallogr. 2011. V. B67. № 3. P. 205-217.
6. Sanctuary R., Gunter P. Electrooptic properties of Rb2ZnCl4 in the incommensurate and ferroelectric phases // Phys. status solidi (a). 1984. V. 84. № 1. P. 103-111.
7. Sanctuary R., Jundt D., Baumert J. - C., Gunter P. Nonlinear optical properties of Rb2ZnCl4 in incommensurate and ferroelectric phases // Phys. Rev. B. 1985. V. 32. № 3. P. 1649-1660.