Научная статья на тему 'Прогнозирование химических соединений с комплексом необходимых свойств'

Прогнозирование химических соединений с комплексом необходимых свойств Текст научной статьи по специальности «Математика»

CC BY
359
57
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ГИПЕРКОМПЛЕКСНЫЕ АЛГЕБРЫ / МОДЕЛИРОВАНИЕ И ПРОГНОЗ СВОЙСТВ ВЕЩЕСТВ / МНОГОЗНАЧНЫЕ ЛОГИКИ / МНОГОМЕРНЫЕ ЛОГИЧЕСКИЕ ФУНКЦИИ / НЕЙРОННЫЕ СЕТИ / ПАРАКОМПЛЕКСНЫЙ ПЕРСЕПТРОН / РЕГУЛЯТОРЫ РОСТА РАСТЕНИЙ / ФУНГИЦИДНАЯ АКТИВНОСТЬ / ХИМИЧЕСКАЯ СТРУКТУРА / CHEMICAL STRUCTURE / FUNGICIDAL ACTIVITY / HYPERCOMPLEX ALGEBRA / MODELING AND PREDICTION OF THE PROPERTIES OF MATERIALS / MULTIDIMENSIONAL LOGIC FUNCTIONS / MULTI-VALUED LOGIC / NEURAL NETWORKS / PLANT GROWTH REGULATORS / PARACOMPLEX PERCEPTRON

Аннотация научной статьи по математике, автор научной работы — Арсланов И. Г., Дмитриев Г. Ю., Гиниятуллин В. М., Зайцева А. А., Кирлан С. А.

Рассматривается способ представления химических структур в виде аргументов многомерных функций троичной логики. Вычислительный эксперимент показал перспективность предложенного метода реализации троичной логики. Графическое представление результатов значительно облегчает обратный синтез химических соединений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Арсланов И. Г., Дмитриев Г. Ю., Гиниятуллин В. М., Зайцева А. А., Кирлан С. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Prediction chemical compounds with a set of required properties

In this paper the method of representing chemical structures as arguments multidimensional functions ternary logic is considered. Computer experiment showed promising implementation of the proposed method ternary logic. A graphical representation of the results facilitates reverse synthesis of chemical compounds.

Текст научной работы на тему «Прогнозирование химических соединений с комплексом необходимых свойств»

УДК 004.032.26

В

И. Г. Арсланов (д.т.н., проф.)1, Г. Ю. Дмитриев (студ.)1, М. Гиниятуллин (к.т.н., доц.)1, А. А. Зайцева (асп.)2

С. А. Кирлан| (д.т.н., доц.)3

ПРОГНОЗИРОВАНИЕ ХИМИЧЕСКИХ СОЕДИНЕНИИ С КОМПЛЕКСОМ НЕОБХОДИМЫХ СВОЙСТВ

1 Уфимский государственный нефтяной технический университет, кафедра вычислительной техники и инженерной кибернетики 450062, Россия, Уфа, Космонавтов, 1 2Уфимский государственный авиационный технический университет, кафедра экономической информатики 450077, Россия, г. Уфа, Карла Маркса, 12 3Научно-исследовательский технологический институт гербицидов и регуляторов роста растений Академии наук Республики Башкортостан 450029, г. Уфа, ул. Ульяновых, 65; тел. (347) 2424735, e-mail: [email protected]

G. Arslanov1, G. Yu. Dmitriev1, V. M. Giniyatullin1, A. A. Zaytseva2,| S. A Kirlan3

PREDICTION CHEMICAL COMPOUNDS WITH A SET OF REQUIRED PROPERTIES

1 Ufa State Petroleum Technological University I, Kosmonavtov Str., 450062, Ufa, Russia 2Ufa State Aviation Technical University I2, K. Marksa Str., 450000, Ufa, Russia 3Research Technological Institute of Herbicides and Plant Growth Regulators of Academy of Sciences of Republic Bashkortostan 65, Uljanovykh Str., 450029, Ufa, Russia; ph. (347) 2424735, e-mail: [email protected]

Рассматривается способ представления химических структур в виде аргументов многомерных функций троичной логики. Вычислительный эксперимент показал перспективность предложенного метода реализации троичной логики. Графическое представление результатов значительно облегчает обратный синтез химических соединений.

Ключевые слова: гиперкомплексные алгебры; моделирование и прогноз свойств веществ; многозначные логики; многомерные логические функции; нейронные сети; паракомплексный персептрон; регуляторы роста растений; фунги-цидная активность; химическая структура.

В настоящее время перед учеными различных специальностей — химиками, биологами, фармакологами — стоит задача разработки эффективных препаратов, обладающих комбинацией полезных свойств. Создание новых препаратов требует значительных финансовых и временных затрат, проведения множества экспериментов по оценке биологических свойств 1. Решение проблемы возможно, если еще до стадии синтеза будут применены математические

Дата поступления 20.03.15

In this paper the method of representing chemical structures as ar guments multidimensional functions ternary logic is considered. Computer experiment showed promising implementation of the proposed method ternary logic. A graphical representation of the results facilitates reverse synthesis of chemical compounds.

Key words: chemical structure; fungicidal activity; hypercomplex algebra; modeling and prediction of the properties of materials; multidimensional logic functions; multi-valued logic; neural networks; plant growth regulators; paracomplex perceptron.

методы моделирования и компьютерные технологии, позволяющие существенно ограничить область поиска химических соединений с требуемыми свойствами 2.

В данной работе приведены результаты прогнозирования одновременного наличия двух свойств — рострегулирующей и фунги-цидной активности химических соединений. Исходной информацией для исследования являются молекулярные формулы и опытные данные о наличии или отсутствии исследуемых активностей.

Формирование троичных обучающих выборок. Исследуемые обучающие выборки формируются из массива структурных формул химических соединений с рострегули-рующей и фунгицидной активностью, разбитых на фрагменты (монады) 3. В работе 4 описана структура и модифицированный алгоритм обучения комплекснозначного персепт-рона. Комплекснозначный персептрон удачно дополняет методологию SARD 5, в частности, была экспериментально продемонстрирована его прогностическая способность.

В методологии SARD для каждой монады вычисляется информативность:

r = (П • n4 - n2 • Пз)

V^i ■ N2 • N3 • N4

где N\ — количество активных химических соединений в обучающей выборке;

n1 — количество активных соединений, содержащих данную монаду;

щ — количество активных соединений, не содержащих данную монаду;

N2 — количество не активных химических соединений в обучающей выборке;

щ — количество не активных соединений, содержащих данную монаду;

n4 — количество не активных соединений, не содержащих данную монаду; N3 — сумма n1 и П3; N4 — сумма n2 и n4.

Информативность это безразмерный коэффициент, значение которого изменяется в интервале ]—1; + 1[. Считается, что чем больше положительное значение информативности некоторой монады, тем с большей вероятностью соединение будет проявлять требуемую активность, чем больше отрицательное значение информативности, тем с большей вероятностью соединение не будет проявлять требуемой активности. Монады, информативность, которых близка к нулю, в дальнейших расчетах можно игнорировать.

Округляя значения информативности до целых, получим обучающую выборку в терминах троичной логики: +1 — данная монада увеличивает вероятность требуемой активности; 0 — монада не влияет на активность; —1 — присутствие этой монады не желательно.

В работе 6 описаны структура и алгоритм обучения паракомплексного персептрона, который может реализовывать многомерные функции троичной логики.

Структура паракомплексного пер-септрона. Входной вектор паракомплексной искусственной нейронной сети (ИНС) состоит из троичных значений: TRUE, кодируется +1; ZERO, кодируется 0; FALSE, кодируется —1.

Первый промежуточный слой состоит из нейронов, реализующих 2-х мерные функции 3—2 логики 7, т.е. этот слой преобразует троичные входные сигналы в бинарные. Следующий слой состоит из 2-х нейронов, реализующих функции двоичной логики, а именно, многомерные AND. В последнем слое имеется один нейрон, реализующий 2-х мерную XOR—по-добную функцию двоично-троичной логики, он из 2-х бинарных входов формирует 1 троичный выход.

В паракомплексном персептроне можно выделить «зеленую» и «красную» части (рис. 1): «зеленая» часть обрабатывает положительные входные сигналы и отсутствие сигнала, «красная» часть обрабатывает отрицательные входные сигналы и отсутствие сигнала. Если и «зеленая» и «красная» части генерируют сигнал, то выходной нейрон преобразует такую комбинацию в нейтральное выходное значение.

В процедуре обучения паракомплексного персептрона используется частичная обратимость функций AND и XOR— подобной функции. Если на выходе ИНС требуется значение + 1, то входом XOR — подобной функции будет вектор {0;1}, единицу здесь формирует, «зеленый» AND (рис. 1). Если на выходе ИНС требуется значение —1, то входом XOR — подобной функции будет вектор {1;0}, единицу здесь формирует, «красный» AND. Если на выходе функции AND требуется ИСТИНА, то и все его входы должны содержать ИСТИНУ.

Количество паракомплексных нейронов в первом промежуточном слое определяется длиной входного вектора через «попарные сочетания». Для каждого такого нейрона можно построить таблицу истинности, т.е. выбрать

1 из 512 возможных функций 2-х мерной 3—

2 логики. На этом процедура обучения завершается.

Структурные формулы химических соединений, входящих в обучающую выборку дезагрегируются на монады, количество полученных монад — это размерность входного вектора паракомплексного персептрона. Например, выборка соединений с рострегулирующей активностью из 152 веществ дезагрегируется на 89 монад. Всего входных векторов для этой выборки может быть 389, очевидно, что простой перебор такого количества вариантов невозможен.

Химические соединения с двумя свойствами

Таблица 1

Значение +1 в некотором индексе входного вектора говорит, что соответствующая монада увеличивает вероятность требуемой активности, значение —1 уменьшает эту вероятность. Значение 0 говорит, что эта монада на активность не влияет, либо этой монады в соединении нет.

- m нейронов

2 нейрона

1 выход

Ml

M2 M3

«зеленый»АЫВ

Нейроны 3-2 логики

Рис. 1. Структура нейронной сети

Обученный персептрон правильно опознает всю обучающую выборку. Кроме того, с использованием частичной обратимости функций 3—2 логики был реализован эвристический алгоритм, который выбирает все всевозможные входные вектора, принадлежащие к требуемому классу.

Объединение свойств двух классов активностей. Для изучения возможности объединения свойств двух классов использовались выборки из регуляторов роста растений (РРР) и фунгицидно активных (ФА) соединений 8. Из двух обученных персептронов составим новую ИНС (рис. 2). Объединенная ИНС выдает положительный сигнал только тогда, когда и РРР-персептрон и ФА-персептрон генерируют истину.

Зеленый

AND 1—О

Красный

[Fun 10 [Fun ll

[Fun 12]

Рис. 2. Объединенная искусственная нейронная сеть

Разработанный эвристический алгоритм обнаружил 52003 входных вектора, которые опознаются, как обладающие двумя активностями. Для экспериментального подтверждения достоверности полученных результатов была составлена еще одна выборка из соединений, гарантировано обладающих обоими свойствами 9. Назовем эту выборку экзаменационной, часть структур из нее приведена в табл. 1.

РРР-выборка, состоящая из 152 соединений, дезагрегируется на 89 монад, ФА-выборка, состоящая из 145 соединений, дезагрегируется на 98 монад, экзаменационная выборка, состоящая из 21 соединения, дезагрегируется на 71 монаду. Номенклатура монад трех выборок пересекается лишь частично, суммарно после объединения получилось 146 монад (длина входного вектора объединенного пер-септрона). Монадам, добавленным из других выборок, приписывается нулевая информативность.

Добавляя по нескольку структур из экзаменационной выборки как в РРР-выборку, так и в ФА-выборку, проверяем остальные структуры на предмет наличия обоих свойств. Результат этого теста приведен в табл. 2.

Таблица 2 Эксперименты с изменением исходных выборок

Структуры, добавленные в РРР-выборку Структуры, добавленные в ФА-выборку Структуры, распознаваемые, как имеющие оба свойства

3, 7 2, 4 2, 3, 4, 7, 11

2, 4, 6 3, 7 2, 4, 6, 7, 10, 11

11, 12 3 3, 4, 10, 11

3, 5 11 3, 4, 5, 11

В последнем столбце табл. 2 жирным шрифтом выделены номера структур из экзаменационной выборки, которых не было в обучающих выборках. Таким образом, можно сказать, что предложенная ИНС не просто запоминает обучающую выборку, но и реализует некоторый критерий сходства химических формул.

Результаты

Совместный анализ табл. 1 и 2 приводит к следующим утверждениям: монады 1, 3, 14, 24, 44, 162 обязательны; монады 2, 4, 26, 42, 67 допустимы.

m входов

т

СНгСН2гСНз

О

Рис. 3. Структурная формула 3-аза-3-пропил-4-(фурил-2)-гексан-1-ола и разложение на монады

На рис. 3 приведена дезагрегация соединения №10 из экзаменационной выборки (3-аза-3-пропил-4-(фурил-2)-гексан-1-ола) на монады. Обозначая монады на изображениях всех структурных формул из табл. 1, можно видеть, что монады 1, 2, 3, 4, 8 и 9 соответствуют углеводородному скелету соединения, а 2-х валентный кислород (монада 24) и двойная связь (монада 44) могут содержаться в фури-ловом кольце. Теперь можно сформулировать утверждения в терминах химика-синтетика: углеводородный скелет вариативен (монады 1, 2, 3, 4, 8, 9); 3-х валентный азот и фуриловое кольцо (монады 14 и 162) обязательны; гидро-ксильная группа (монада 26), 4-х валентный кремний (монада 67) и 2-х валентный кислород (монада 24) допустимы как раздельно, так и в комбинации друг с другом.

Графическое представление результатов дезагрегации структурных формул в монадное представление значительно облегчает обратный синтез искомых соединений. Автоматиза-

Литература

1. Кубиньи Г. В. В поисках новых соединений-лидеров для создания лекарств // Рос. хим. ж.-2006.- №2.- С.5.

2. Филимонов Д. А., Поройков В. В. Прогноз спектра биологической активности органических соединений. //Рос. хим. ж. 2006.- Т. L. Вып. 2.- С.66-76.

3. Akhmetsin R.M., Giniyatullin V. M., Kirlan S. A. Identification of Structures of Organic Substances by Means of Complex_Valued Perceptron // Optical Memory and Neural Networks (Information Optics). - Allerton Press.

2012.- Vol.21, №1.- Pp. 11-16.

4. Akhmetsin R. M., Giniyatullin V. M., Kirlan S.A., Kirlan A. V., Melnitskaya E.I. Testing Complex_Valued Perceptron Properties Experimentally // Optical Memory and Neural Networks (Information Optics).- Allerton Press.

2013.- V.22, №1.- Pp. 65-71.

5. Тюрина Л.А., Тюрина О.В., Колбин А.М. Методы и результаты дизайна и прогноза биологически активных веществ.- Уфа: Изд-во «Ги-лем», 2007.- 331 с.

ция визуального представления дезагрегации — это одна из целей последующих работ.

Одним из недостатков троичной логики считается неоднозначность трактовки промежуточного состояния ZERO. Его можно понимать как неопределенность исхода (возможны и TRUE и FALSE), а можно понимать и как отсутствие информации в текущий момент времени 10. Изменим точку зрения на противоположную: неоднозначность трактовки это не недостаток, а преимущество троичной логики. Тогда прикладные задачи, в которых имеется некая неоднозначность, неопределенность, неформализуемость, можно формализовать в терминах троичной логики. В обсуждаемой работе нулевое значение информативности приписывается как отсутствующим в обучающей выборке монадам, так и монадам, не влияющим на целевую активность.

Паракомплексный персептрон — это многослойная ИНС, каждый слой которой выполняет определенную функцию. Первый промежуточный слой преобразует троичные входные сигналы в бинарные с помощью нейронов, реализующих функции смешанной 3—2 логики. Выходной нейрон реализует функцию из другой смешанной логики — двоично-троичной, он из нескольких бинарных сигналов формирует троичный выход. Таким образом, вычислительный эксперимент показал перспективность предложенного метода, поскольку структуры из экзаменационной выборки паракомплексный пер-септрон распознает как вещества, обладающие двумя необходимыми свойствами.

References

1. Kubin'i G. V. V poiskakh novykh soedinenii-liderov dlya sozdaniya lekarstv [In search of new compounds for drug development leaders]. Russian Chemical Journal, 2006, no.2, p.5.

2. Filimonov D.A., Poroikov V.V. [Prediction spectrum of biological activity of organic compounds]. Russian Chemical Journal, 2006, v. L, no.2, pp 66-76.

3. Akhmetsin R.M., Giniyatullin V. M., Kirlan S.A. [Identification of Structures of Organic Substances by Means of Complex_Valued Perceptron]. Optical Memory and Neural Networks (Information Optics), Allerton Press, Vol. 21, no. January 2012, pp. 11-16.

4. Akhmetsin R.M., Giniyatullin V.M., Kirlan S.A., Kirlan A.V., Melnitskaya E.I. [Testing Complex_Valued Perceptron Properties Experimentally]. Optical Memory and Neural Networks (Information Optics), Allerton Press, Vol. 22, no. January 2013, pp. 65-71.

5. Tyurin L.A., Tyurin O.V., Kolbin A.M. Metody i rezul'taty dizaina i prognoza biologicheski aktivnykh veshhestv [Methods and results of the

6. Гиниятуллин В.М. Моделирование логических функций в нейросетевом базисе // Нефтегазовое дело. 2008.- Т.6, №1.- C.35-43.

7. Арсланов И.Г., Богданова П.Д., Гиниятуллин В.М., Габитов Р.Н., Салихова М.А. Способы реализации функций троичной логики // NB: Кибернетика и программирование. — 2014. №2.- С.1-31. DOI: 10.7256/23064196.2014.2.11918. URL: http://e-notabene.ru/ kp/article_11918.html

8. Свидетельство об официальной регистрации базы данных № 2007620237. Структурные характеристики для молекулярного конструирования соединений с комплексом пестицидных свойств / Кирлан С.А., Сементеева Л.Ш., Кантор Е. А., Тюрина Л. А. (RU). Зарегистрировано в Реестре баз данных 06.07.2007.

9. Тюрина Л.А., Сементеева Л.Ш,, Кирлан С.А., Пешкина И.В., Тюрина О.В.. Фефелов A.A., Кантор Е.А. Соотношение структурных характеристик пестицидов и типов их действия. Сообщение 1. Оценка взаимосвязи признаков фунги-цидной активности в комплексе пестицидных свойств. //Изв. вузов. Сер. хим. и хим. тех-нол. 2005.- Т.48. Вып. 11.- С.83-84.

10. Дейт К.Дж. Введение в системы баз данных. М.: Вильямс, 2000.- 848 с.

design and prediction of biologically active substances]. Ufa, Gilem Punl., 2007, 331 p.

6. Giniyatullin V.M. Modelirovanie logicheskikh funktsii v neirosetevom bazise [Simulation of logic functions in the neural]. Oil and gas business, 2008, V. 6, no.1, pp. 35-43.

7. Arslanov I.G., Bogdanov P.D., Giniyatullin V.M., Gabitov R.N., Salikhova M.A. [Ways to implement ternary logic functions]. NB: Cybernetics and programming, 2014, no.2. pp.1-31. DOI: 10.7256 / 2306-4196.2014.2.11918. URL: http://e-notabene.ru/kp/article_11918.html

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8. Kirlan S.A., Sementeeva L.S., Kantor E.A., Tyurin L.A. [The structural characteristics for the molecular design of compounds with complex pesticidal properties]. Certificate of official registration database №2007620237 RF. Registered in the Registry database 06.07.2007.

9. Turina L.A., Sementeeva L.SH., Kirlan S.A., Peshkina I.V., Turin O.V., Fefelov A.A., Kantor E.A. Sootnoshenie strukturnykh kharakteristik pestitsidov i tipov ikh deistviya. Soobshhenie 1. Otsenka vzaimosvyazi priznakov fungitsidnoi aktivnosti v komplekse pesticidnykh svoistv [The ratio of the structural characteristics of the type of pesticides and their actions. Message 1. Evaluation of fungicidal activity relationship attributes in combination pesticidal properties]. zvestiya vysshikh uchebnykh zavedenii. Seriya khimiya i khimicheskaya tehnologiya. [Proceedings of the universities. Chemistry and chemical technology], 2005, v. 48, is. 11, pp. 83-84.

10. Deyt K.Dzh. Vvedenie d sistemy baz dannykh [Introduction to Database Systems]. Moscow,

i Надоели баннеры? Вы всегда можете отключить рекламу.