№ 1(19)2009
П. Г. Пронкин, О. Н. Сорокина, Ю. В. Ботнарь
Эволюция средств и методов информатики в практической и фундаментальной химии
Применение компьютерной техники с появлением новых технологий передачи, обработки, накопления и представления информации облегчило и ускорило вычислительную работу во многих областях науки, и химии, в частности. Относительно низкая цена и WIMP-интерфейс делает основную часть специализированных решений доступными для широкого круга пользователей. В статье дан краткий обзор существующих направлений прикладных продуктов, систем и информационных технологий, используемых в современной химической практике.
Компьютерная химия является сравнительно молодой отраслью химии, тесно связанной с информатикой. Эта область химии основана на применении теории графов к химическим задачам фундаментального и прикладного характера. Исходя из наиболее общего определения химии как науки о веществах и их взаимных превращениях, можно сказать, что вещества (молекулы) моделируются в компьютерной химии молекулярными графами, а превращения веществ (химические реакции) — формальными операциями с графами. Такое (формальное) представление задач компьютерной химии позволяет использовать аппарат комбинаторики и дискретной математики и искать решения с помощью компьютерных программ. При этом наряду со специальными программами в компьютерной химии могут применяться и универсальные — для работы с таблицами (Microsoft Excel), математические программы (Mathematica) и т. д.
В качестве примера типовых задач компьютерной химии можно назвать:
• поиск зависимостей типа «структура — свойство»;
• генерация наборов химических структур, отвечающих заданным параметрам (составу, наличию функциональных групп);
• перечисление всевозможных химических реакций между заданными реагентами (так называемый компьютерный синтез).
Наряду с общими химическими задачами в компьютерной химии существует также большая группа узкоспециальных, тесно связанных
с задачами химической информатики, например, задачи распознавания химических структур при обращении кхимическим и физико-химическим базам данных.
Постановка задач современной химической информатики на сегодняшний день уже невозможна без применения ЭВМ. И это несмотря на то, что химическая информатика как наука возникла значительно раньше, чем появились первые компьютеры. Для решения задач ученые тогда использовали многочисленные химические справочники и реферативные журналы, быстрый поиск информации по которым осуществлялся посредством системы указателей (авторского, предметного, формульного). Основные принципы обработки информации, разработанные еще тогда, легли в основу современной химической информатики. Компьютерная же химия направлена на решение сложных многопараметрических задач, путем создания некоторого алгоритма и реализующей его компьютерной программы. В этом заключается основное методологическое отличие химической информатики и компьютерной химии.
Синтез новых лекарственных форм, обеспечивающий эффективное развитие фармацевтической промышленности, требует прогнозирования фармакологического и токсикологического действия разрабатываемых препаратов. С этой целью создаются специализированные банки данных весьма значительного объема, в которых объединяются и упорядочиваются данные о молекулярных структурах известных
№ 1(19)2009
а а €
>а
0 а
J3 §
1
■I
а
>а §
» а
И
«о
а
1 € 8! «о о
о §
€ а
«о
S
&
IS
соединений и сопоставляются их физико-химические и биологические свойства. Одной из важнейших проблем химической информатики является разработка эффективных способов кодирования структурных формул органических соединений в таких банках данных.
Одним из лучших решений в области представления структурных формул является образ молекулярных структур в привычном для химика двумерном виде, который описывается теорией графов.
Созданные в 1980 годах, первые системы по вводу структурных формул (СФ) работали в пакетном режиме и, естественно, использовали некиедирективныеязыки.Затем возникли системы редактирования СФ, ориентированные на работу с печатающими терминалами в диалоговом режиме. Появление и развитие ПЭВМ существенно упростило технологию кодирования формул химических соединений. Для решения задач создания химических структур, схем реакций в полиграфических целях, использования их при создании баз данных, поиска в информационных системах, программах квантовой химии и других областях создано достаточно много различных программных средств, называемых молекулярными редакторами. Основные режимы работы такого графического редактора: рисование, удаление, редактирование, сборка из фрагментов, создание ароматических комплексов, манипулирование структурными формулами.
Применение современных молекулярных редакторов позволяет химику мыслить в удобной и привычной для него форме, не обликая свои замыслы искусственным языком. Этим объясняются высокие выходные характеристики систем: с помощью молекулярных редакторов можно быстро откорректировать структурную формулу, а навык автоматической работы вырабатывается у пользователя за один сеанс.
Большую значимость в организации автоматизированного хранения,поиска и обработки информации о строении вещества имеют специализированные языки представления структурированных данных. Например, граф структурной формулы химического соединения может быть представлен множеством соответствующих ему дескрипторов, если в каче-
стве языка представления данных выбран де-скрипторный язык.
SMILES (Simplified Molecular Input Line Entry Specification — Спецификация упрощенного представления молекул в строке Ввода) — система правил (спецификация) однозначного описания состава и структуры молекулы химического вещества с использованием таблицы компьютерных символов ASCII. Строка символов, составленная по правилам SMILES, может быть преобразована многими молекулярными редакторами в двумерную или трехмерную структурную формулу молекулы.
На сегодняшний день известны две разновидности этой спецификации — каноническая и изометрическая. Первая спецификация включает правила, позволяющие записать формулу молекулы любого вещества уникальным образом, и применяется для индексирования и проверки уникальности молекул в базах данных. Изометрическая SMILES представляет собой расширения, которые позволяют включать в запись данные о нуклидах, хиральности (свойстве молекулы быть несовместимой со своим зеркальным отражением любой комбинацией вращений и перемещений в трехмерном пространстве) и конфигурациях двойных связей (цис-и трансизомеров). Особенность этой версии спецификации — в точном отражении пространственной структуры веществ-изомеров.
В канонической SMILES атомы записываются стандартными обозначениями химических элементов в парных квадратных скобках, которые могут быть опущены для химических элементов, входящих в состав органических соединений (углерода, кислорода, азота, серы, фосфора, бора и др.). Если в формуле скобки опущены, то водородные атомы не записываются (формула SMILES для воды — О, а для этилового спирта — ССО). Кратные связи (двойные и тройные) обозначаются в SMILES символами «=» и «#» соответственно (например, диоксид углерода записывается как О = С = О, а формула синильной кислоты имеет вид С# N). Разветвления химических связей записываются с помощью парных круглых скобок, а для обозначения циклических соединений используется нумерация, обозначающая одинаковое положение атомов в молекуле (например, углеводород
70
№ 1(19)2009
циклогексан записывается как С1ССССС1). Ароматические (непредельные) органические соединения записываются строчными буквами.
В изометрической SMILES конфигурация относительно двойной связи записывается при помощи слэша «/» и «\». Например, F/С = С/F соответствует транс-дифторэтану (атомы фтора находятся по разные стороны двойной связи), а F/С = С\F или F\С = С/F соответствует его изомеру цис-дифторэтану (атомы фтора находятся с одной стороны двойной связи).
Практика применения вызвала распространенное заблуждение, что в компьютерном поиске структур производится сравнение записей-цепочек, в то время как осуществялется гораздо более эффективное сравнение графов, построенных на основании формул SMILES.
Альтернативой подхода к заданию конфигураций химических структур может служить представление химической формулы в виде изоморфного объекта (матрицы смежности). При поиске информации в базе данных каждое из представлений обладает определенными достоинствами и недостатками.
При создании компьютерных систем в области химических исследований ввод, вывод и манипулирование структурными формулами молекул осуществляется молекулярным редактором. Поиск информации в БД осуществляется по любому полю или совокупности полей, включая подструктурный поиск — путем рисования структурного фрагмента и/или фрагментов графическим редактором и внесения их в поисковые предписания на специально разработанном языке запросов. Идентификация химических веществ осуществляется по каноническому коду, программно порождаемому системой.
Таким образом, при решении задач компьютерной химии широко используются различные вычислительные методы и операции с топологическими индексами. В ряде случаев формально-логический подход расширяется химическими подходами, например, в дополнение к топологическим индексам, отображающим строение молекулы, используется электроотрицательность атомов в молекуле соответственно составу вещества.
Методы компьютерной химии часто используются в сочетании с методами квантовой
химии, молекулярной механики. Для обработки результатов вычислительного эксперимента широко применяются методы математической статистики. В некоторых случаях для поиска решений применяются методы искусственного интеллекта.
Первоначально создание программного обеспечения для химической лаборатории оставалось уделом программистов-энтузиастов. Активно разрабатывались программы для обработки результатов химических и физико-химических экспериментов. Примером могут служить программы для вариационного исчисления параметров уравнений химической кинетики и подбора спектральных характеристик. Академические традиции живы, и в настоящее время известен ряд интересных проектов по созданию свободного программного обеспечения.
Для начала отметим проект Jmol. Одноименная программа относится к упомянутым ранее молекулярным редакторам, однако позволяет химику просто и легко использовать возможности трехмерной визуализации химических структур. Проект активно развивается: поощряется модификация пользователями текущего кода программы и в целях удовлетворения их собственных нуждивцелях роста проекта. На сайте проекта практически ежедневно сообщается об изменениях в функциональности программы. Первая буква в названии программы говорит о том, что Jmol базируется на Java. Для реализации графического пользовательского интерфейса используется SWING, разработанная компанией Sun Microsystems библиотека классов JFC. Компоненты SWING обеспечивают адаптацию к графическому интерфейсу платформы, поскольку поддерживают специфические динамически подключаемые элементы. Jmol может использоваться в качестве апплета в web-страницах и позволяет создавать скрипты.
В качестве 2Э-расширения к Jmol разработан редактор химических структур JChemPaint, который также базируется на Java. Программа поддерживает большинство функций, присущих коммерческим аналогам, и позволяет импортировать структуры в растровые изображения, а также в файлы Postscript и Scalable Vector Graphics.
Описанные программы поддерживают SMILES и специализированный язык разметки Chemical Markup Language, CML.
J3 &
%
S о >e
es
S
о
S
ai
I
71
№ 1(19)2009
а а €
>а
0 а
J3 §
1
■I
а
>а §
» а
И
«о
а
1 € 8
! «о о
о §
€ а
«о
S
&
IS
Специфические задачи и методы химической информатики обусловили возникновение специальных средств разработки, например Chemical Development Kit (CDK) — специализированная Java-библиотека, которая должна обеспечить разработчиков всеми базовыми классами и инструментами для создания программного обеспечения химической лаборатории. Этот продукт относится к категории свободного программного обеспечения и выпускается под лицензией GPL (General Public License).
Свободное программное обеспечение сегодня обладает хорошей функциональностью: на наш взгляд, возможности описанных молекулярных редакторов вполне достаточны для автоматизации большой доли повседневной работы химика. Открытость проектов свободного программного обеспечения позволяет максимально полно использовать его возможности.
Производители программного обеспечения, ориентированные на традиционный тип лицензии, предлагают мощные решения, с характерными чертами корпоративных информационных систем. Использование серверов баз данных для хранения информации о химических свойствах соединений, журналов лабораторных экспериментов делает «коммерческие» продукты востребованными в крупных научных центрах и рабочих группах.
Пакет химических приложений ChemOffice позволяет ученым автоматизировать многие рутинные процедуры, дабы сосредоточиться непосредственно на работе. Выпущенная в 2005 году версия этого популярного продукта компании CambridgeSoft включает в себя новые усовершенствованные версии программ ChemDraw 9.0, Chem3D 9.0, ChemFinder 9.0, E-Notebook 9.0, расширенные базы данных ChemInfo 9.0, а также два совершенно новых приложения Inventory и BioAssay.
Программа BioViz предоставляет химику удобные инструменты для визуализации данных: различные функции анализа и визуализации данных из пользовательской базы. Среди стилей графиков — распределения, кривые и гистограммы с возможностью задания цвета, фильтрации точек, а также много других опций.
Программа Inventory 9.0 позволяет эффективно организовать, хранить и анализировать данные на компьютере пользователя. Программа использует процессор данных MSDE (Microsoft Data Engine) и включает распространенные химические базы данных Available Chemicals eXchange, ChemACX Database. Также отметим, что новая версия программы для поиска в удаленных хранилищах данных ChemFinder9.0 в этой версии пакета ChemOffice поставляется с новым модулем ChemFinder/Oracle, таким образом появляется возможность использования решения Oracle для работы с химическими базами данных.
В состав пакета входит молекулярный редактор ChemDraw 9.0 (рис. 1), который предоставляет удобство создания и редактирования формул химических соединений и импортирования их в другие программы, например в продукты MS Office.
ChemDraw 9.0 позволяет автоматически (по молекулярной структуре) подбирать номенклатурные наименования для самых разных химических соединений, включая неорганические и соединения металлов. Chem3D 9.0 специально предназначен для визуализации трехмерных структур молекул и задач структурного анализа (рис. 2).
В его состав входят разнообразные инструменты, например Dihedral Driver. Этот инструмент позволяет рассчитывать зависимости энергии связи от величины одного или двух углов между молекулярными гранями, что является важным входе исследований строения вещества (рис. 3).
Программа E-Notebook 9.0 имеет функцию полной сверки журнала эксперимента. Каждая сохраненная копия документа включает данные о пользователе и времени сохранения, что особенно важно для организации обмена результатами исследований в рамках крупных научных проектов. Новая функция AutoText ChemOffice 2005 позволяет добавлять заранее подготовленные протоколы к тексту эксперимента.
Приложение BioAssayявляется рабочим инструментом биолога и предназначено для моделирования и хранения данных. ChemNMR позволяет химику проводить точный анализ спектров ядерного магнитного резонанса непосредственно в ChemOffice.
72
№ 1(19)2009
Рис. 1. Молекулярный редактор ChemDraw 9.0
Рис. 2. Визуализация трехмерных структур молекул
@ ChemDrâ™°Panel CtrlÜv
2м
EL Measurement Table
в Output Box
в Comments Box
tu
Align With ►
Model Display Mode ►
ï ™
и Red & Blue
и Chromatek Glasses
SS Stereo Pairs
â Perspective
s9 Depth Fading
Вч Background Color... ►
Color By ►
"' 1
Л* .1И
л Ï
i «
00
Sî
«Î
И
5
as о
Î
о
6
Рис. 3. Исследование строения вещества
73
№ 1(19)2009
а а € S
>а
0 ï
J3 §
1
■I
а
>а §
» а
И
«о
а
fi € 8-
il «о о
о g
€ а
«о
S
& §
Таким образом, пакет программ ChemOffice превращает компьютер в рабочую станцию для проектирования и работы с химическими базами данных и профессиональной документацией.
Помимо рассмотренных примеров, существует еще одна разновидность специализированных химических программ, практикуемая лишь в целях обучения. Так, программы типа «химическая лаборатория», посредством кото-рыхучащиеся овладевают основами практических работ, содержат богатый иллюстративный материал для изучения основных реакций, свойств веществ и элементов.
Квантовая химия, молекулярная механика, планирование химического синтеза, получение и обработка экспериментальных данных с помощью новых информационных технологий и компьютерной техники — вотлишь некоторые из типичных примеров тех направлений химической науки, развитие которых невозможно без применения новейших средств прикладной информатики. Внедрение информационных технологий в химическую практику обусловлено в первую очередь появлением персональных компьютеров, обладающих высокими эксплуатационными характеристиками, а также новых технологий передачи и обработки информации. Благодаря тесному содружеству информатики и химии такое оборудование стало обычным для большинства химических лабораторий и учебных заведений по всему миру.
Безусловно, данное здесь описание программных продуктов на полноту не претендует, «за бортом» остались, например, инструменты трехмерной визуализации химических объектов в Internet. Это программа Chime (компания MDL Information Systems), технологии VET — ViewPoint (США), Cult3D — Cycore (Швеция) и язык VRML. Здесь затронуты только Java апплеты. Нерассмотренными остались также популярные среди специалистов по компьютерной химии продукты GAUSSIAN-94(98), GAUSS VIEW 2.1, HYPERCHEM, GAMESS, MOPAC, AMPAC. Авторы надеются отметить их в будущем.
СПИСОК ЛИТЕРАТУРЫ
1. Мучник В. Б., Нигматуллин Р. С., Осипов А. Л. Диалоговая система ввода молекулярных структур-
ных формул в химические базы данных // НТИ. Информационные процессы и системы. 1985. № 8.
2. Ash J. E, Chubb P. A., Ward S. E, Welford S. M, Willet P. Communication, Storage and Retrieval of Chemical Information. Ellis Horwood Limited, 1985.
3. Нигматуллин Р. С., Осипов А. Л., Лазуткин Е. Ю. Программные средства для создания, поиска и анализа данных, представленных в виде двумерных графических диаграмм / Тезисы докладов III Всесоюзной конференции «Методы и средства обработки сложной графической информации». Горький, 1988.
4. Нигматуллин Р. С., Осипов А. Л.,Лазуткин Е. Ю. Многотерминальная система для конструирования оригинальных химических структур с заданными свойствами // Телекоммуникационные средства использования банков данных: сб. научных трудов ГПНТБ СО АН СССР. Новосибирск, 1990.
5. Осипов А. Л., Мотовилов М. Б., Семенов В. Д. Автоматизированное рабочее место для исследования связи химическая структура — биологическая активность на базе РС АТ/ХТ/Тезисы докладов II Всесоюзной конференции «Математические методы и ЭВМ в аналитической химии». Москва, 1991.
6. Осипов А. Л., Нигматуллин Р. С., Семенов Р. Д. Компьютерная система поиска и анализа данных о структурных, биологических и физико-химических свойствах веществ (CHANCE)/Тезисы докладов II Всероссийской конференции. «Математические проблемы экологии». Новосибирск, 1994.
7. Daylight Depict: http:Zwww.daylight.com/daycgi/ depict
8. Online-редактор PubChem, поддерживающий SMILES/SMARTS, InChI и все распространенные форматы химических формул: http:Zpubchem.ncbi.nlm.nih.gov/edit/ index.html
9. ACD/ChemSketch свободно распространяемый молекулярный редактор: http:Zwww.acdlabs.com/download/ chemsk.html
10. Jmol для просмотра формул SMILES: http:/ jmol.sourceforge.net
11. Химические приложения топологии и теории графов/под ред. Р. Кинга/Chemical Applications of Topology and Graph Theory, ed. by R. B. King. М.: Мир, 1987.
12. Искусственный интеллект: применение в химии / под ред. Т. Пирса, Б. Хони / Artificial Intelligence Applications in Chemistry,ed.T. H. Pierce. М.: Мир, 1988.
13. Трофимов М. И., Смоленский Е. А. Применение индексов электроотрицательности органических молекул в задачах химической информатики // Известия Академии наук. Серия химическая. 2005. № 9.
14. Информационный ресурс, ссылка http:/ www.exponenta.ru
74