Научная статья на тему 'Методы распознавания образовв компьютерном конструировании неорганических соединений'

Методы распознавания образовв компьютерном конструировании неорганических соединений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
138
49
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ОБРАЗОВ / PATTERN RECOGNITION / КОМПЬЮТЕРНОЕ КОНСТРУИРОВАНИЕ НЕОРГАНИЧЕСКИХ СОЕДИНЕНИЙ / INORGANIC COMPOUND DESIGN / ФЕРРОМАГНИТНЫЕ МАТЕРИАЛЫ / FERROMAGNETIC MATERIALS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дударев В.А., Филоретова О.А., Брыкина Г.В.

По свойствам неорганических веществ и материалов существует огромное количество баз данных, содержащих разнонаправленную информацию. Статья посвящена вопросам использования накопленных данных для поиска методами распознавания образов закономерностей, позволяющих осуществлять прогнозирование образования еще не синтезированных веществ и оценку их свойств.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дударев В.А., Филоретова О.А., Брыкина Г.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Pattern recognition methods usage to computer-aided design of inorganic compounds

Currently an enormous number of databases on inorganic substances and materials properties exist that contains multidirectional information. The article is devoted to questions of accumulated data usage to find out regularities by means of pattern recognition methods that allow predicting formation of not synthesized substances and estimating its properties

Текст научной работы на тему «Методы распознавания образовв компьютерном конструировании неорганических соединений»

№ 2 (50) 2014

В. А. Дударев, канд. техн. наук, доцент кафедры Информационных технологий Московского государственного университета тонких химических технологий им. М. В. Ломоносова,

vic@imet.ac.ru

О. А. Филоретова, канд. техн. наук, ассистент кафедры Информационных технологий Московского государственного университета тонких химических технологий им. М. В. Ломоносова,

ugolek84@gmail.com

Г. В. Брыкина, канд. техн. наук, доцент кафедры Информационных технологий Московского государственного университета тонких химических технологий им. М. В. Ломоносова,

2464650@mail.ru

Методы распознавания образов в компьютерном конструировании неорганических соединений

По свойствам неорганических веществ и материалов существует огромное количество баз данных, содержащих разнонаправленную информацию. Статья посвящена вопросам использования накопленных данных для поиска методами распознавания образов закономерностей, позволяющих осуществлять прогнозирование образования еще не синтезированных веществ и оценку их свойств.

Ключевые слова: распознавание образов, компьютерное конструирование неорганических соединений, ферромагнитные материалы.

введение

Прогнозирование возможности образования и свойств неорганических соединений исключительно на основе информации о параметрах химических элементов, входящих в их состав, является одной из сложнейших химических задач. Для ее решения известны следующие подходы:

• квантово-механический, основанный на решении уравнения Шредингера или его обобщений (уравнения Клейна—Гордона, Паули, Дирака и т. п.);

• простейшие эмпирические двух- и трехмерные критерии образования соединений с заданными свойствами (например, фактор толерантности Гольдшмидта, правило Лавеса);

• многомерные эмпирические классифицирующие закономерности, получаемые с помощью методов компьютерного распо-

знавания образов в N-мерном пространстве признаков.

Решение уравнения Шредингера очень объемно даже для самых несложных химических систем. Поэтому химикам пришлось разрабатывать простейшие эмпирические критерии для классификации химических объектов. Как правило, подобные классификации являлись приближенными, грубыми оценками, для более сложных химических систем их точность была недостаточна, поэтому были разработаны многомерные критерии. Переход к большому числу критериев возможен только при использовании компьютеров и специальных систем поиска взаимосвязей в больших объемах данных. Так сформировалась предметная область «компьютерное конструирование соединений».

Термин «компьютерное конструирование» (computer-assisted design) в химии впервые появился в семидесятых годах прошлого века в работах Corey и Wipke приме-

№ 2 (50) 2014

нительно к синтезу сложных органических соединений с помощью компьютера. Соблюдение правил валентности для углерода и водорода упрощает решение задачи компьютерного конструирования органических соединений в отличие от неорганических соединений, где правило валентности соблюдается не для всех видов химических связей между атомами.

Термин «компьютерное конструирование неорганических соединений», появившийся в 90-е годы прошлого века, обозначает поиск совокупности химических элементов и их соотношения для создания определенной молекулярной или кристаллической пространственной структуры соединения, позволяющей реализовать необходимые функциональные свойства.

С помощью методов компьютерного конструирования неорганических соединений в данное время решаются следующие типы задач:

• образование (отсутствие образования) соединений в химической системе;

• образование (отсутствие образования) соединений заданного количественного состава в химической системе;

• прогнозирование типа кристаллической структуры;

• интервальное прогнозирование значений свойств неорганических соединений.

Для компьютерного конструирования неорганических соединений обязательным является выполнение двух условий: 1) наличие больших объемов достоверной информации о свойствах неорганических веществ и материалов; 2) использование алгоритмов для анализа накопленных химических данных и поиска в них взаимосвязей, позволяющих осуществлять прогнозирование различных свойств неорганических веществ.

Базы данных по свойствам неорганических веществ

Интегрированная система баз данных по свойствам неорганических веществ и материалов (БД СНВМ), разработанная в Ин-

ституте металлургии и материаловедения | им. А. А. Байкова РАН (ИМЕТ РАН), является Ц источником информации для компьютерного ^ анализа. В настоящее время она объединя- ^ ет следующие базы данных (БД) [1]: §

1) по свойствам неорганических соеди- S^ нений «Фазы», содержащую информацию g о свойствах более 46 тыс. тройных соедине- ® ний (т. е. соединений, образованных тремя ^ химическими элементами) и более 17 тыс. четверных соединений; <|

2) фазовым диаграммам полупроводни- ¿i ковых систем «Диаграмма», содержащую ^ оцененную высококвалифицированными В экспертами информацию о фазовых диаграммах полупроводниковых систем. В настоящее время в этой БД собрана детальная информация о нескольких десятках наиболее важных для полупроводниковой электроники систем;

3) свойствам акустооптических, электрооптических и нелинейнооптических веществ «Кристалл», которая сейчас включает информацию о параметрах более 120 материалов;

4) ширине запрещенной зоны неорганических веществ «Bandgap», которая в настоящее время содержит данные о более 3 тыс. веществ;

5) свойствам химических элементов «Elements», включающую данные о более 90 параметрах химических элементов.

Общий объем БД около 9 Гбайт. Интегрированная информационная система позволяет специалистам получать совокупную информацию о свойствах веществ и материалов сразу же из разных БД. Система доступна зарегистрированным пользователям из сети Интернет (http://www.imet-db.ru).

Постановка задачи

Формальная постановка задачи компьютерного конструирования неорганических соединений может быть дана следующим образом. Пусть каждое неорганическое соединение описано вектором

№ 2 (50) 2014

X = (х(1), х™,

,(2)

х (1) х (2) х (2)

M

(L) х (L)

хм ,...,X1 ,X

X (L)) M

1 I

0

U

1

Í

!

£

I

S

t

Sé §

5 §

и

Si

со со о п

а

о

§

lg §

5

где L — количество химических элементов в соединении, а М — количество параметров химических элементов, выбранных для описания. Каждое соединение, а, также характеризуется принадлежностью к определенному классу: а(х) е {1,2,...,К}, где К — количество классов. Обучающая выборка состоит из N объектов: в = {х1,...,хы}.

Обозначим подмножество объектов обучающей выборки из класса а1,} = 1,...,К как Эа] = {х I а(х) = а]}. Цель обучения — построить классифицирующие правила, которые позволяют не только отличить объекты разных классов в обучающей выборке, но и обладают прогностической способностью образовывать новые комбинации химических элементов, которые не использовались для обучения, и относить их к одному из К классов. Таким образом осуществляется переход к классической задаче распознавания образов по прецедентам. Особенностью предметной области является только формирование признакового описания, имеющего составную структуру: набор свойств элементов (компонентов неорганического вещества) повторяется L раз. Часто для улучшения признакового описания добавляют алгебраические функции от свойств элементов или свойств простых двухкомпо-нентных соединений.

Количество классов К зависит от конкретной задачи. Например, при прогнозировании возможности образования соединений заданного состава АхВуС экспериментально исследованные химические системы разбиваются на два класса: с образованием соединения состава АхВуС и без образования соединения этого состава при обычных условиях. При прогнозе типа кристаллической структуры известные соединения разбиваются на несколько классов, соответствующих разным кристаллическим структурам при нормальных условиях.

Методика прогнозирования

Для компьютерного анализа данных используются методы обучения ЭВМ распознавания образов по прецедентам [3]: алгоритм вычисления оценок (АВО); метод бинарных решающих деревьев (МБРД); линейный дискриминант Фишера (ЛДФ); логические закономерности (LoReg); поиск логических закономерностей (ПЛЗ); поиск двумерных линейных разделителей (ПДЛР); алгоритм линейной машины (АЛМ); обучение нейронных сетей (ОНС); метод k ближайших соседей (KNN); голосование по тупиковым тестам (ГТТ); генетический алгоритм (ГА); статистическое взвешенное голосование (СВГ); метод опорных векторов (SVM); формирование понятий с использованием растущих пирамидальных сетей (ConFor) — разработка ИК им. В. М. Глуш-кова НАН Украины [4].

В результате компьютерного анализа каждый алгоритм распознавания образов строит классифицирующую закономерность, переменными которой являются свойства химических элементов, включенные в описание химических систем. С помощью процедуры скользящего контроля выбираются наилучшие алгоритмы распознавания образов, которые далее используются для принятия коллективного решения с использованием следующих подходов [5]: метод Байеса (МБ); области компетенции (ОК); шаблоны принятия решений (ШР); динамический метод Вудса (МВ); комплексный комитетный метод — голосование по большинству (КГ); комплексный комитетный метод — усреднение (КС); логическая коррекция (ЛК); выпуклый стабилизатор (ВС).

Наилучший алгоритм принятия коллективного решения выбирается на основе распознавания объектов, выбранных по таблице случайных чисел (равномерное распределение), которые исключаются из обучающей выборки и в процессе обучения, и в процессе принятия коллективного решения. На последнем этапе конструирова-

84

№ 2 (50) 2014

ния неорганических соединений объекты, использованные для оценки качества распознавания, добавляются в обучающую выборку, и заново инициируется процесс построения коллективного решения с использованием выбранного наилучшего алгоритма. Наиболее точные алгоритмы обучения и принятия коллективного решения используются далее для прогнозирования [2]. Принадлежность еще не изученной химической системы к тому или иному заданному классу прогнозируется путем подстановки в найденные закономерности только значений свойств элементов, входящих в состав неисследованной системы.

конструирование соединений типа AlMnCu2

Приведем пример использования методов распознавания образов в неорганической химии для решения задачи поиска новых перспективных магнитных материалов. Неорганические соединения состава АВХ2 со структурой А1МпСи2 (фазы Гейсле-ра) привлекают внимание в качестве перспективных магнитных материалов для создания запоминающих устройств большой емкости.

В качестве исходных данных анализировались данные о 278 известных фазах Гейс-лера состава АВХ2, 70 соединениях со структурой МдСиА12, 38 соединениях со структурой GdSnPt2, 37 соединениях со структурой YSiPd2, 20 соединениях со структурой №Т1, 11 соединениях со структурой PrGaGo2, 10 соединениях со структурой YSiRh2, 16 соединениях со структурой, отличной от приведенных выше, и 486 примерах отсутствия соединений состава АВХ2 (А и В — металлы или полуметаллы; Х-Мд, А1, Fe, Со, N Си, Ru, Rh, Pd, Ад, 1г, Pt или Аи), извлеченные из БД СНВМ.

Данные о системах представлялись в виде набора значений свойств химических элементов А, В и X, в который входили следующие параметры: псевдопотенциальный радиус (по Цангеру), энтальпия ис-

парения, температуры плавления, кипения и Дебая, первые три потенциала ионизации, расстояния до внутренних и до валентных электронов (по Шуберту), регулярный номер (по Менделееву — Петтифору), электроотрицательность (по Полингу), химический потенциал Мидемы, квантовый номер, теплопроводность, номер группы в Периодической системе, молярная теплоемкость, энтальпии плавления, испарения и атомиза-ции, энтропия твердого тела, атомный вес, плотность, линейный коэффициент термического расширения, металлический радиус (по Веберу) и т. д. (всего 108 значений для каждой системы).

В таблице 1 даны результаты экзаменационного распознавания со скользящим контролем. По четыре лучших алгоритма для каждого распознаваемого класса (выделены серым фоном) были использованы при принятии коллективного решения, результаты которого приведены в табл. 2 (серым фоном отмечены методы, которые были далее использованы при прогнозировании новых соединений для каждого класса). Следует отметить, что использование коллективов алгоритмов позволило значительно повысить достоверность прогнозирования.

Заключение

Благодаря большим массивам накопленной материаловедческой информации появляется возможность использования хранимых данных для получения новых знаний. В данной работе показывается эффективность применения алгоритмов распознавания образов и методов коллективного принятия решения для получения высококачественных прогнозов при оценке образования неорганических соединений. Результаты этого подхода иллюстрируются на задаче прогнозирования новых фаз Гейслера с благородными металлами. Дело в том, что в последние годы сплавы Гейслера с Со, Fe или N стали применяться для производства жестких дисков большой

I

&

иа"

оа £

¡5

I

сэ р"

I

I

оа

85

№ 2 (50) 2014

Таблица 1

Прогнозирование возможности образования и типа кристаллической структуры интерметаллидов состава ABX2 разными алгоритмами

Алгоритм Достоверность экзаменационного распознавания, %

Прогнозируемый класс

Возможность образования соединения Многоклассовое прогнозирование Фазы Гейслера №Т1 YSiRh2 МдСиА12 GdSnPt2 YSiPd2 РгёаСо2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

АВО 80 60,4 71,9 81,6 79,5 67,6 — 53,9 58,0

ПДЛР 80 — 71,6 81,3 74,2 42,7 37,2 51,1 49,1

МБРД 56,9 63,1 47,5 50,6 53,2 57,7 40,8 40,7 48,4

ЛДФ 81,3 76,5 70,6 80,9 79,3 65,2 53,9 62,9 66,5

АЛМ 88 84,1 83,8 86,6 87,5 58,9 44,7 59,9 61,8

LoReg 86 76,8 82,6 86,9 85,4 64,3 52,0 57,3 60,2

ОНС 82,9 68,5 70,2 79,3 82,2 — — — 56,7

КШ 92,3 89,6 89,4 93,5 94,1 63,4 44,7 40,7 39,7

ConFor 97,0 95,2 91,3 91,8 90,0 86,7 82,4 81,4 83,5

SVM 59,3 59,0 60,2 73,7 94,5 48,0 51,2 49,5 54,7

СВГ — 28,8 75,2 — 76,9 — 20,6 43,2 45,4

1 £

г

0

1 $

I

I £

£

I §

§

0

1

и §

со со о со

0

1 §

§

3 5

а

Таблица 2

Прогнозирование возможности образования и типа кристаллической структуры интерметаллидов состава ABX2 разными методами принятия коллективного решения

Достоверность экзаменационного распознавания, %

Прогнозируемый класс

Метод Возможность образования соединения Многоклассовое про-гнозирова-ние Фазы Гейслера №Т1 В МдСиА12 GdSnPt2 YSiPd2 РгёаСо2

МБ 100 99,2 99,7 100 98,6 94,7 92,1 97,0 96,5

ОК 100 100 100 100 96,2 94,5 91,3 93,4 93,8

ШР 100 100 100 100 98,8 96,8 93,9 96,4 96,6

МВ 77,9 76,2 98,9 81,2 86,7 87,1 94,4 81,4 79,7

КГ 96,5 92,3 95,8 97,4 97,2 86,3 62,5 92,4 92,5

КС 96,5 100 100 100 98,6 96,9 95,1 94,7 95,1

ЛК — 99,8 99,9 100 98,7 90,6 95,6 92,1 92,2

86 у

№ 2 (50) 2014

емкости, однако проблемой в этом случае является высокая реакционноспособность нанопорошков на основе Со, Fe или N Поэтому для повышения плотности записи было предложено начать экспериментальный поиск новых более химически стойких ферромагнитных фаз Гейслера с благородными металлами. Полученные теоретические прогнозы позволят сократить время и затраты на поиск химически стойких новых фаз Гейслера.

Список литературы

1. Дударев В. А., Киселева Н. Н., Земсков В. С. Интегрированная система баз данных по свойствам материалов для электроники // Перспективные материалы. № 5. 2006. С. 20-25.

4.

Поляков E. A, Масютин В. В., Дударев В. А. Компьютерное конструирование неорганических соединений на основе интегрированной информационной системы // Прикладная информатика. № 4 (40). 2012. С. 38-43.

Журавлев Ю. И., Рязанов В. В., Сенько О. В. «РАСПОЗНАВАНИЕ». Математические методы. Программная система. Практические применения. М.: ФАЗИС, 2006. — 176 с. Гладун В. П., Величко В. Ю, Киселева Н. Н., Мос-калькова Н. М. Вывод гипотез о составе и свойствах объектов на основе аналогии // Искусственный интеллект. 2000. № 1. С. 44-52. Ветров Д. П., Кропотов Д. А. Алгоритмы выбора моделей и построения коллективных решений в задачах классификации, основанные на принципе устойчивости. М.: URSS, 2006. — 112 с.

I

£ ва

S

S

î

ci SP

I

Jt

ва

V. Dudarev, Ph. D. (Eng.), Associate Professor of Information Technology Department, Moscow Lomonosov State Academy of Fine Chemical Technology, vic@imet.ac.ru

O. Filoretova, Ph. D. (Eng.), Assistent of Information Technology Department, Moscow Lomonosov State Academy of Fine Chemical Technology, ugolek84@gmail.com

G. Brykina, Ph. D. (Eng.), Associate Professor of Information Technology Department, Moscow Lomonosov State Academy of Fine Chemical Technology, 2464650@mail.ru

Pattern recognition methods usage to computer-aided design of inorganic compounds

Currently an enormous number of databases on inorganic substances and materials properties exist that contains multidirectional information. The article is devoted to questions of accumulated data usage to find out regularities by means of pattern recognition methods that allow predicting formation of not synthesized substances and estimating its properties. Keywords: pattern recognition, inorganic compound design, ferromagnetic materials.

i Надоели баннеры? Вы всегда можете отключить рекламу.