Подход для создания атом-атомного отображения с использованием наивного байесовского классификатора

Хайруллина Аделя Исмагиловна; Маджидов Тимур Исмаилович; Нугманов Рамиль Ирекович; Афонина Валентина Александровна; Баскин Игорь Иосифович; Варнек Александр Алексеевич

2018, Т. 160, кн. 2 С.200-213

УЧЕНЫЕ ЗАПИСКИ КАЗАНСКОГО УНИВЕРСИТЕТА. СЕРИЯ ЕСТЕСТВЕННЫЕ НАУКИ

ISSN 2542-064X (Print) ISSN 2500-218X (Online)

УДК 544.412

ПОДХОД ДЛЯ СОЗДАНИЯ АТОМ-АТОМНОГО ОТОБРАЖЕНИЯ С ИСПОЛЬЗОВАНИЕМ НАИВНОГО БАЙЕСОВСКОГО КЛАССИФИКАТОРА

А.И. Хайруллина1, Т.И. Маджидов1, Р.И. Нугманов1, В.А. Афонина1, И.И. Баскин2, А.А. Варнек'ъ

1 Казанский (Приволжский) федеральный университет, г. Казань, 420008, Россия 2Московский государственный университет имени М.В. Ломоносова, г. Москва, 119991, Россия 3Университет Страсбурга, г. Страсбург, 67084, Франция

Аннотация

Ключевым этапом в компьютерном анализе информации о химических реакциях является поиск соответствия между атомами реагентов и продуктов. Процедура установления данного соответствия называется атом-атомным отображением (ААО). Наличие ААО является ключевым фактором для установления механизма и типа реакции, поиска по схожести и подструктуре, моделировании, проверки качества данных. В работе был предложен новый подход к поиску оптимального ААО в химических реакциях, основанный на применении методов машинного обучения. Задача обучения формулируется как классификация: для каждой пары атома реагента - продукта необходимо установить их отнесение к верному/неверному отображению. В работе использовался простой наивный байесовский классификатор. Данная работа представляет собой первый пример самообучающегося алгоритма для создания ААО.

Ключевые слова: атом-атомное отображение, химические реакции, машинное обучение, классификация, хемоинформатика

Введение

Фундаментальным первым шагом в компьютерном анализе химических реакций является определение соответствия между атомами реагентов и продуктов (рис. 1), которые называются атомно-атомным отображением (ААО) [1]. ААО используется для нахождения изменяющейся части молекул реагента и продукта, то есть реакционного центра [2]. Зная реакционный центр, можно выполнить структурный поиск в реакциях, например поиск по подструктурам и схожести, установление типа и классификация реакций по механизму и т. д.

Обычно для создания ААО используются специальные алгоритмы, которые извлекают необходимую информацию непосредственно из структур, участвующих в превращениях, что значительно быстрее ручного установления соответствий между атомами на основе экспертного мнения и, тем более, быстрее экспериментальных методов установки (метода изотопных меток) [2]. С учетом алгоритмизации автоматическое выявление ААО является КР-полной проблемой [3],

N'

Г 7

Рис. 1. Атом-атомное отображение в реакциях. Цифрами указано соответствие атомов. На рисунке приведены корректное ААО, с разрывающейся связью С8-17 и образующейся связью С8-М4

и, следовательно, в разумные сроки могут быть найдены субоптимальные решения либо для поиска оптимального решения нужно использовать дорогостоящие подходы. Существующие на данный момент алгоритмы для создания атом-атомного отображения имеют в своей основе различные подходы для решения поставленной задачи, из которых можно выделить следующие [4, 5].

1. Методы, основанные на поиске общей подструктуры, которые находят не изменяющиеся в ходе реакции фрагменты в молекулярных графах реагентов и продуктов, за счет чего далее устанавливается реакционный центр. В настоящее время существует несколько алгоритмов данного типа, такие как метод расширенной связанности (РС) [6] и подходы поиска максимальной общей подструктуры (МОП) [7-9]. Данный подход приводит к субоптимальным решениям и для адекватного установления ААО требует наличия сформулированных на знаниях о механизмах реакций правил (эвристик).

2. Оптимизационные методы основаны на поиске наименьшей химической дистанции (НХД) [10]. Этот принцип основан на утверждении, что большинство механизмов химических реакций идет таким образом, чтобы количество разорванных и образованных связей было минимальным. Для решения таких проблем используются детерминистические методы комбинаторной оптимизации [11, 12], линейного ограниченного программирования [13, 14] или стохастической оптимизации [15]. Проблема методов такого типа состоит в том, что не всегда данный подход дает химически корректное отображение атомов. Эти алгоритмы вычислительно неэффективны и пока не приспособлены для реакций, в которых упущена информация о реагентах или продуктах.

Наиболее известные и непревзойденные алгоритмы реализованы в программах EPAM ICMap [16], Accelrys Automapper [17], ChemAxon JChem [18], DREAM [19] и Indigo [20]. Существующие на данный момент алгоритмы имеют высокую степень эвристичности, приводящую к тому, что для устранения появляющихся ошибок экспертам-разработчикам необходимо вводить новые правила и устранять неполадки внутри созданного алгоритма, что является причиной низкой скорости их совершенствования.

В рамках проведенного исследования был разработан подход, который обучается правилам установления ААО на химических реакциях, используя набор данных с известными корректными отображениями, и с помощью полученной модели находит оптимальное ААО на новых реакциях.

1. Экспериментальная часть

Для достижения поставленной цели, заключающейся в разработке алгоритма, способного обучаться поиску ААО в химических реакциях, был использован «наивный» байесовский классификатор [21, 22], представляющий собой классификационный метод машинного обучения, основанный на применении теоремы Байеса со строгим предположением о независимости. Под классификацией в машинном обучении понимают задачу определения категории (у,), к которой принадлежит ранее не встречавшийся образец с вектором атрибутов (х,), на основании обучающего множества прецедентов, для элементов которого эти категории известны. Достоинством «наивного» байесовского классификатора, отличающего его от других методов, является отсутствие гипер-параметров, подразумевающих регуляризацию и другие настройки методов машинного обучения, независимость результатов обучения от порядка следования элементов выборки, а также, что было важно для создания данного алгоритма, возможность инкрементального (on line) обучения и получения вероятности принадлежности объекта к данному классу.

Для обучения классификатора для каждой реакции генерировались пары атомов реагента и продукта (PAIRS) и отвечающий им вектор значений соответствия пары атомов истинному ААО (7) (рис. 2), где 1 означает, что данная пара атомов соответствует верному отображению, а 0 - неверному.

PAIRS Y PAIRS Y PAIRS Y PAIRS Y

(№1,№1) 1 (СЧ, Ср2) 0 (Са6, Ср3) 0 (Os8, №11) 0

(02, Ср2) 1 (СЧ, Ср3) 0 (Cs6, СЧ) 0 (09, Op7) 0

(Cs2, Ср3) 0 (СЧ, Ср4) 1 (Cs6, 0>5) 0 (Os9, Op8) 0

(Cs2, Ср4) 0 (СЧ, Ср5) 0 (Cs6, 0>6) 1 (0!9, Op9) 1

(Cs2, Ср5) 0 (СЧ, Срб) 0 (Os7, №7) 1 (Os9, №11) 0

(Cs2, Ср6) 0 (Cs5, Ср2) 0 (Os7, №8) 0 (С1Ч0, Clp10) 1

(Cs3, Ci>2) 0 (Cs5, Ср3) 0 (Os7, Ор9) 0 (Osl 1, Op7) 0

(С53, Ср3) 1 (Cs5, Ср4) 0 (07,041} 0 (O'l 1, Op8) 0

(Cs3, Ср4) 0 (Cs5, Ср5) 1 (Os8, Op7) 0 (041,09) 0

(Cs3, Ср5) 0 (Cs5, Ср6) 0 (058, 0>8) 1 (041,011) 1

(Cs3, Ср6) 0 (Cs6, Ср2) 0 (Os8, №9) 0

Рис. 2. Генерация пар и соответствующие им значения ААО

Для каждого атома был сформирован вектор фрагментных дескрипторов [23], которые представляют собой цепочки атомов и связей определенной длины (рис. 3), начинающихся с данного атома.

Рис. 3. Генерация фрагментных дескрипторов для CS6

Полученный набор фрагментов с помощью хеш-функции переводится в битовую строку хешированных молекулярный отпечатков (рис. 4): для каждого фрагмента вычислялся его хэш-код, который затем использовался для выявления позиции битовой строки заранее заданной длины, в которой данному фрагменту будет соответствовать единица. Этот подход позволяет не хранить список соответствий позиций битовой строки фрагментам. Поскольку при выявлении адреса единичного бита, соответствующего фрагменту, возможно случайное совпадение адресов из-за ограниченной длины битовой строки, каждый хеш-код фрагмента активирует два бита.

Далее необходимо было создать вектор признаков для пары атомов в PAIRS. Для этого использовались различные схемы создания обобщенного вектора дескрипторов пары:

а) A&B - формируется в результате поэлементного перемножения элементов битовых строк A и B (рис. 5, а);

б) A + B + A&B - получается конкатенацией битовых строк А, В и A & B (описанной выше);

в) A&B + B&A + A&B - получается конкатенацией битовых строк, применяющих операции поэлементного перемножения между A и не B (рис. 5, б), между B и не A (рис. 5, в), а также A & B ;

г) AФB + A&B - конкатенация строк, полученной применением операции исключающего «или» (XOR) между строками A и B (рис. 5, г), со строкой A & B .

Так как матрица признаков (X), полученная для всех пар атомов всех реакций выборки, может достигать большой размерности (содержит до сотни миллионов строк), возникает проблема хранения ее в оперативной памяти. По этой причине генерация пар атомов и расчет векторов признаков для них производится для одной реакции. Далее, метод «наивного» Байеса обучается итеративно на полученной матрице дескрипторов для данной реакции. Наивный байесовский классификатор является одним из немногих методов, которые могут обучаться итерационно и не зависят от порядка следования объектов (реакций/пар атомов), чем и был обусловлен выбор метода машинного обучения. Таким образом, получается модель, которая способна отличить пары атомов, соответствующие корректным ААО, от тех, которые соответствуют некорректным.

На этапе выявления ААО для новой реакции из тестовой выборки, генерируется матрица признаков (Xtest) по методике, описанной выше. Полученная матрица признаков характеризует все возможные пары атомов в рассматриваемой реакции. С помощью обученной модели предсказываются вероятности отнесения каждой пары атомов (то есть строки матрицы Xtest) к категории верного ААО.

О а) 0=С1=0 Фрагменты С с—О С \ О-С! С \ О--С1=0

1 ЬЦС 6 -3 Хеш-код 73960 74072 70352 53560

X июo55йюooo31ooo...olo...olooolíБoí::^

- 6 б) ) 1 Л Фрагменты С с—ын+ с— \ с с—ЬЖ+

Хеш-код 7396С) 75136 72720

X

Рис. 4. Формирование битовой строки хешированных молекулярных отпечатков (Х), на основании фрагментных дескрипторов: а) С3б; б) Ср6

А 0 (Л (0\ 0 (Л 0

в 0 и и 0 и 0

А&В |0|0|0|0|0|1|0

б)

А 0 г Л (Л (°) 0 ГЛ 0

В 0 и и и 0 и 0

А&В о 1 | 0 1 0 1 0 0 о

в)

А 0 Л\ /о\ Л\ о (Л 0

В 0 и; и и о и 0

В&А о 0 I 1 I 1 1 0 0 1 0

г)

А 0 {ч -Н-- 0 0

\2/ VI/ М/ ЧУ

дев | о | 1 | 1 1 о | о | о

Рис. 5. Операции над битовыми строками хешированных молекулярных отпечатков

В результате перебора всех возможных пар получаем матрицу вероятностей проецирования каждого атома реагента на каждый атом продукта (рис. 6).

Далее требуется найти такие пары атомов, которые с наибольшей вероятностью соответствуют корректному ААО. При этом, очевидно, нужно иметь в виду, что один атом реагента может соответствовать только одному атому продукта и наоборот. Мы поставили задачу следующим образом: требуется выбрать такие паросочетания атомов, которые соответствуют максимуму функции правдоподобия, вычисленный как произведение вероятностей проецирования отобранных пар атомов:

тах П Ру,

где и Р - наборы атомов реагентов и продуктов.

6 1 4 3

1 2 3 4 5 6 7 8 9 10 11

1 71.81 0.00 71.81 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.00

2 0.00 100.0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

3 71.81 0.00 71.81 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.00

4 0.02 0.00 0.02 6.96 0.09 6.96 0.01 0.01 0.01 0.01 0.00

5 0.02 0.00 0.02 0.09 2.62 0.09 0.01 0.01 0.01 0.01 0.00

6 0.02 0.00 0.02 6.96 0.09 6.96 0.01 0.01 0.01 0.01 0.00

7 0.01 0.00 0.01 0.01 0.01 0.01 0.05 0.05 0.05 0.05 0.00

8 0.01 0.00 0.01 0.01 0.01 0.01 0.05 0.13 0.13 0.05 0.00

9 0.01 0.00 0.01 0.01 0.01 0.01 0.05 0.13 87.65 0.05 0.00

10 0.01 0.00 0.01 0.01 0.01 0.01 0.05 0.05 0.05 99.99 0.00

11 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 99.44

Рис. 6. Таблица со значениями вероятностей проецирования атомов (pj, %), где i - обозначение строк в таблице, соответствующих номерам атомов продукта, j - обозначение столбцов, соответствующих атомам в реагенте. Выделенные элементы соответствуют парам с верным ААО

В таком виде задача может быть решена только полным перебором, поэтому задачу поиска максимума правдоподобия мы решали минимизацией суммы отрицательных логарифмов вероятностей (что, очевидно, можно сделать в силу монотонности логарифма):

min ^ (-logpj).

GS, jGP

Это позволяет свести задачу максимизации правдоподобия к хорошо известной «задаче о назначениях», которая может быть решена с помощью алгоритма Манкреса (венгерский алгоритм) [24, 25]. Данный алгоритм выводит такой список пар, который соответствует наименьшей стоимости в заданной квадратной матрице. Сложность оригинального алгоритма составляет O(N), но может быть уменьшена до O(N3).

2. Результаты и их обсуждение

Тестирование программы было проведено на выборках из 1658 и 691 реакций нуклеофильного замещения (SN2) с вручную созданным корректным атом-атомным отображением. Для обучения модели использовалась выборка из 1658 реакций, часть из которых отличалась между собой только условиями проведения. Предсказание проводилось на выборке из 691 уникальных реакций, а полученные ААО автоматически сравнивались с эталонными отображениями с помощью специального алгоритма, основанного на сравнении графов, и проверяли число корректных ААО в числе предсказанных.

Максимальная длина фрагментов

Рис. 7. Зависимость качества модели от длины фрагментации. Сплошной линией показано качество модели при минимальной длине фрагментов, равной одному атому, пунктирной, если минимальная длина фрагмента составляет два атома

2.1. Поиск оптимальных параметров. Для выбора оптимальной длины фрагментных дескрипторов типа «цепочка атомов и связей» изменялись значения минимальной и максимальной длины фрагмента. Рис. 7 демонстрирует, что при использовании фрагментов небольшой длины результаты предсказания неудовлетворительны, что связано с малой информативностью таких фрагментов. При достижении определенного значения длины фрагментов (5-6 атомов) дальнейшее её увеличение также незначительно сказывается на улучшении качества ААО. Таким образом, фрагменты длиной от 2 до 6 атомов являются оптимальными для предсказания ААО. Тем не менее мы решили оставить фрагменты, состоящие из 1 атома для того, чтобы модель имела возможность учитывать отщепление одиночных атомов (например, в реакциях с отщеплением атома галогена).

На рис. 8 проиллюстрирована зависимость качества установления ААО от длины битовой строки, демонстрирующая, что оптимальным значением данного параметра является 2048 бит. При использовании битовых строк меньшей длины было обнаружено возрастание возникновения коллизий адресаций в битовой строке, что, в свою очередь, может привести к потере информации о фрагментах в отдельных реакциях с участием большого числа атомов. Дальнейшее увеличение длины битовой строки является нецелесообразным и существенно замедляет процесс обучения и предсказания.

Было предложено 4 способа объединения битовых строк атомов в битовую строку атомной пары реагент - продукт. Согласно рис. 9 наиболее корректно ААО устанавливается с использованием режима А & В, несколько хуже показали себя режим А&В + В&А + А&В и АФВ + А&В . Повышенный процент ошибок при использовании режима А + В + А&В можно объяснить тем, что использование «наивного» Байесовского классификатора предполагает независимость признаков. В последнем случае битовая строка состоит из 3 частей, причем 3-я часть, получаемая перемножением строк А и В (часть, соответствующая А&В), является зависимой и содержит 1 в тех же позициях, в который стоят 1 в битовых строках А (1 -я часть) и В (2-я часть битовой строки). Наблюдается сопоставимое качество установления ААО при использовании режимов А&В + В&А + А&В и А Ф В + А&В, что объясняется схожестью

о <

<

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

100.0 95.0 90.0 85.0 80.0 75.0 70.0 65.0 60.0 55.0 50.0

1024 2048 4096

Длина битовой строки, бит

8192

Рис. 8. Зависимость качества модели от длины битовой строки

100 95

О <

<

|

А + В + А&В

А&В + В&А + А&В АфВ + А&В

Способ объединения битовых строк

Рис. 9. Сравнение результатов оценки качества модели, при использовании различных способов объединения битовых строк атомных пар (А - реагента, В - продукта)

строк (часть строки кодирует фрагменты, которые имелись у атомов реагентов, но отсутствовали в продуктах, и наоборот, последняя часть строки соответствует общим фрагментам). При этом строка, генерируемая в режиме АФВ + А&В, на треть короче. Длина строки влияет на скорость исполнения алгоритма, поэтому необходимо учесть, что строка, полученная в режиме А&В, имеет заданную пользователем длину (ту же, что и битовые строки А и В), А Ф В + А&В -вдвое длиннее, А&В + В&А + А&В и А + В + А&В - втрое длиннее. Таким образом, с учетом качества и времени работы алгоритма предпочтителен режим объединения строк А&В.

2.2. Анализ ошибок. Самый оптимальный набор параметров дескрипторов при обучении модели обеспечивает 82.2% корректно предсказанных ААО на тестовой выборке. Это показывает перспективность предложенного алгоритма установления ААО.

Подавляющее большинство выявленных ошибок предсказания (рис. 10), связано с наличием в молекулах симметрично-эквивалентных атомов. Последние

Рис. 10. Реакции с корректным ААО (а) и ошибочно предсказанным ААО (б)

имеют одинаковые вектора признаков (хг), и, как следствие, для них предсказываются одинаковые значения вероятностей проецирования (рис. 6, см. вероятности, соответствующие атомам 1 и 3 в реагентах и продуктах).

Таким образом, дальнейшее совершенствование алгоритма должно в первую очередь решить эту проблему, поскольку не связана с ошибками обучения. В ряде случаев были обнаружены другие ошибки обучения, возникающие из-за совпадения битовых строк атомов, имеющих близкое окружение. И наконец, были обнаружены немногочисленные случаи возникновения ошибок, возникших из-за неверных предсказаний классификатора.

Заключение

Впервые предложен подход для создания ААО в химических реакциях на основе использования методов машинного обучения. В рамках этого подхода ААО для реакций создается на основе обучения модели на наборе данных с известными корректными отображениями. В работе использовался «наивный» байесовский классификатор для предсказания вероятности отображения атомов реагентов на атомы продуктов и алгоритм Манкреса для установления отображения, соответствующего максимальному правдоподобию.

Проанализировано влияние различных опций на качество получаемого ААО. Показано, что наилучшими фрагментами для описания являются цепочки атомов длиной от 1 до 6 атомов. Лучшим способом объединения атомных строк для создания вектора признаков пары атомов реагент - продукт являются простое побитовое перемножение строк, соответствующих атомам реагентов и продуктов.

Предложенный алгоритм был апробирован на базе данных реакций бимолекулярного нуклеофильного замещения. На тестовой выборке количество корректно предсказанных ААО составило более 82%, что показывает перспективность данного подхода. Ошибки, совершаемые программой, в первую очередь связаны с наличием одинаковой вероятности проецирования некоторых атомов друг на друга, причина которых заключаются в наличии симметрично-эквивалентных атомов.

В заключение можно отметить, что предложенный подход имеет перспективы использования не только для установления ААО в реакциях, но и для решения задач, связанных с выравниванием меченых по вершинам и ребрам графов (вложение графов, выравнивание сетей и др.)

Благодарности. Работа выполнена при финансовой поддержке Российского

научного фонда (проект № 14-43-00024).

Литература

1. VarnekA., FourchesD., HoonakkerF., Solov'ev V.P. Substructural fragments: An universal language to encode reactions, molecular and supramolecular structures // J. Comput. Aided. Mol. Des. - 2005. - V. 19, No 9-10. - P. 693-703. - doi: 10.1007/s10822-005-9008-0.

2. Chen W.L., Chen D.Z., Taylor K.T. Automatic reaction mapping and reaction center detection // Wiley Interdiscip. Rev. Comput. Mol. Sci. - 2013. - V. 3, No 6. - P. 560-593. -doi: 10.1002/wcms. 1140.

3. Raymond J.W., Willett P. Maximum common subgraph isomorphism algorithms for the matching of chemical structures // J. Comput. Aided. Mol. Des. - 2002. - V. 16, No 7. -P. 521-533. - doi: 10.1023/A:1021271615909.

4. Маджидов Т.И., Баскин И.И., Варнек А.А. Хемоинформатика. Конспект лекций. -Казань: Казан. ун-т, 2014. - 137 с.

5. Маджидов Т.И., Нугманов Р.И., Гимадиев Т.Р., Лин А.И., Антипин И.С., Варнек А. Консенсусный подход к созданию атом-атомного отображения в химических реакциях // Бутлеровские сообщ. - 2015. - Т. 44, № 12. - P. 170-176.

6. Lynch M.F., Willett P. The automatic detection of chemical reaction sites // J. Chem. Inf. Comput. Sci. - 1978. - V. 18, No 3. - P. 154-159.

7. Vleduts G.E. Development of a combined WLN/CTR multilevel approach to the algorithmic analysis of chemical reactions in view of their automatic indexing: Report No. 5399 - London: British Library, Research and Development Department, 1977.

8. McGregor J.J. Backtrack search algorithms and the maximal common subgraph problem // Softw. Pract. Exp. - 1982. - V. 12, No 1. - P. 23-34. - doi: 10.1002/spe.4380120103.

9. Funatsu K., Endo T., Kotera N., Sasaki S.I. Automatic recognition of reaction site in organic chemical reactions // Tetrahedron Comput. Methodol. - 1988. - V. 1, No 1. -P. 53-69. - doi: 10.1016/0898-5529(88)90008-5.

10. Jochum C., Gasteiger J., Ugi I. The Principle of Minimum Chemical Distance (PMCD) // Angew. Chem. Int. Ed. Engl. - 1980. - V. 19, No 7. - P. 495-505. - doi: 10.1002/anie.198004953.

11. Akutsu T. Efficient extraction of mapping rules of atoms from enzymatic reaction data // J. Comput. Biol. - 2004. - V. 11, No 2-3. - P. 449-462. - doi: 10.1089/1066527041410337.

12. Heinonen M., Lappalainen S., Mielikainen T., Rousu J. Computing atom mappings for biochemical reactions without subgraph isomorphism // J. Comput. Biol. - 2011. - V. 18, No 1. - P. 43-58. - doi: 10.1089/cmb.2009.0216.

13. First E.L., Gounaris C.E., Floudas C.A. Stereochemically consistent reaction mapping and identification of multiple reaction mechanisms through integer linear optimization // J. Chem. Inf. Model. - 2012. - V. 52, No 1. - P. 84-92. - doi: 10.1021/ci200351b.

14. Mann M., Nahar F., Schnorr N., Backofen R., Stadler P., Flamm C. Atom mapping with constraint programming // Algorithms Mol. Biol. - 2014. - V. 9, No 23. - P. 1-12. - doi: 10.1186/s13015-014-0023-3.

15. Fontain E. The problem of atom-to-atom mapping. An application of genetic algorithms // Anal. Chim. Acta. - 1992. - V. 265, No 2. - P. 227-232. - doi: 10.1016/0003-2670(92)85028-5.

16. ICMAP. - InfoChem GmbH. - URL: http://www.infochem.de/products/software/icmap.shtml, свободный.

17. Moock T.E., Nourse J.G., Grier D., Hounshell W.D. The implementation of atom-atom mapping and related features in the reaction access system (REACCS) // Chemical Structures: The International Language of Chemistry / Ed. by W. Warr. - Berlin, Heidelberg: Springer-Verlag, 1988. - P. 303-313.

18. JChem Base. - ChemAxon. - URL: https://www.chemaxon.com/products/jchem-base, свободный.

19. First E.L., Gounaris C.E., Floudas C.A. DREAM - Determination of Reaction Mechanisms. - 2012. - URL: http://selene.princeton.edu/dream, свободный.

20. Indigo Toolkit. - EPAM. Life Sciences Open Source - URL: http://epam.github.io/ lifescience/indigo/index.html, свободный.

21. Domingos P., Pazzani M. On the Optimality of the Simple Bayesian Classifier under Zero-One Loss // J. Machine Learning. - 1997. - V. 29. - P. 103-130. - doi: 10.1023/A:1007413511361.

22. Rish I. An empirical study of the naive Bayes classifier // IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. - N. Y.: IBM, 2001. - V. 3. - P. 41-46.

23. Маджидов Т.И., Баскин И.И., Антипин И.С., Варнек А.А. Введение в хемоинфор-матику. Компьютерное представление химических структур. - Казань: Казан. ун-т, 2013. - 174 с.

24. Kuhn H.W. Variants of the Hungarian method for assignment problems // J. Naval Res. Logistics Quarterly. - 1956. - V. 3, No 4. - P. 253-258. - doi: 10.1002/nav.3800030404.

25. Munkres J. Algorithms for the assignment and transportation problems // J. Soc. Indust. Appl. Math. - 1957. - V. 5, No 1. - P. 32-38. - doi: 10.1137/0105003.

Поступила в редакцию 16.11.17

Хайруллина Аделя Исмагиловна, лаборант отдела органической химии Казанский (Приволжский) федеральный университет ул. Кремлевская, д. 18, г. Казань, 420008, Россия E-mail: adelihajrullina@kpfu.ru

Маджидов Тимур Исмаилович, кандидат химических наук, старший научный сотрудник отдела органической химии

Казанский (Приволжский) федеральный университет ул. Кремлевская, д. 18, г. Казань, 420008, Россия E-mail: Timur.Madzhidov@kpfu.ru

Нугманов Рамиль Ирекович, кандидат химических наук, старший научный сотрудник отдела органической химии

Казанский (Приволжский) федеральный университет ул. Кремлевская, д. 18, г. Казань, 420008, Россия E-mail: rainugmanov@kpfu.ru

Афонина Валентина Александровна, инженер-проектировщик отдела органической химии Казанский (Приволжский) федеральный университет ул. Кремлевская, д. 18, г. Казань, 420008, Россия E-mail: ValAAfonina@kpfu.ru

Баскин Игорь Иосифович, доктор физико-математических наук, кандидат химических наук, ведущий научный сотрудник кафедры физики полимеров и кристаллов

Московский государственный университет имени М.В. Ломоносова

Ленинские горы, д. 1, г. Москва, 119991, Россия E-mail: igbaskin@gmail.com

Варнек Александр Алексеевич, доктор химических наук, заведующий лабораторией хемоин-форматики; главный научный сотрудник отдела органической химии Университет Страсбурга

ул. Рене Декарта, д. 5, г. Страсбург, 67084, Франция

Казанский (Приволжский) федеральный университет ул. Кремлевская, д. 18, г. Казань, 420008, Россия E-mail: varnek@unistra.fr

ISSN 2542-064X (Print) ISSN 2500-218X (Online)

UCHENYE ZAPISKI KAZANSKOGO UNIVERSITETA. SERIYA ESTESTVENNYE NAUKI (Proceedings of Kazan University. Natural Sciences Series)

2018, vol. 160, no. 2, pp. 200-213

A New Approach to Atom-to-Atom Mapping Using the Naive Bayesian Classifier

A.I. Khayrullinaa, T.I. Madzhidova , R.I. Nugmanova , V.A. Afoninaa , I.I. Baskin0'"", A.A. Varneka'c"""

aKazan Federal University, Kazan, 420008 Russia 0'Moscow State University, Moscow, 119991, Russia cUniversity of Strasbourg, Strasbourg, 67084 France

* ww www

E-mail: adelihajrullina@kpfu.ru, Timur.Madzhidov@kpfu.ru, rainugmanov@kpfu.ru, ValAAfonina@kpfu.ru, igbaskin@gmail.com, varnek@unistra.fr

Received November 16, 2017 Abstract

The key step in the computer analysis of chemical reactions is the determination of the correspondence between the atoms of reagents and products. This procedure is called atom-to-atom mapping (AAM). The presence of AAM is a key factor for establishing the mechanism and type of reaction, searching for similarities and substructures, modeling, checking the quality of data. A new approach has been proposed to the search for optimal atomic-atom mapping in chemical reactions based on the use of machine learning methods. The learning task is formulated as a classification: for each pair of the reagent-product atom, it is necessary to establish their assignment to the correct/incorrect mapping. We have used a simple naive Bayesian classifier. The approach described in this paper is the first example of a self-learning algorithm for AAM.

Keywords: atom-to-atom mapping, chemical reactions, machine learning, classification, chemoin-formatics

Acknowledgments. The study was supported by the Russian Science Foundation (project no. 14-4300024).

Figure Captions

Fig. 1. Atom-to-atom mapping in reactions. Numbers indicate the correspondence of atoms. The figure shows the correct AAM, with the broken C8-I7 bond and the created C8-N4 bond.

Fig. 2. Generation of pairs and corresponding values of AAM.

Fig. 3. Generation of fragment descriptors for CS6.

Fig. 4. Forming a bit string of hashed molecular fingerprints (X) based on fragment descriptors: a) CS6; b) CP6.

Fig. 5. Operations on bit strings of hashed molecular fingerprints.

212

A.H. XAHPyn^HHA h gp.

Fig. 6. Table with the values of the probabilities of atom-atom mapping (p,j,%), where i - row corresponding to product atoms, j - column corresponding to reagent atoms. Selected elements correspond to the pairs with the correct AAM.

Fig. 7. Dependence of the accuracy of predictions on the fragmentation length. Model quality when minimal fragment length is equal to one atom is shown by solid line, the one when minimal fragment length is equal to two atoms is shown by dotted line.

Fig. 8. Dependence of the accuracy of predictions on the length of the bit string.

Fig. 9. Comparison of the accuracy of predictions using different ways of atomic fingerprint combinations to form atomic pair bitstring (A - reagent atom fingerprint, B - product atom fingerprint).

Fig. 10. Reactions with correct AAM (a) and erroneously predicted AAM (b).

References

1. Vamek A., Fourches D., Hoonakker F., Solov'ev V.P. Substructural fragments: An universal language to encode reactions, molecular and supramolecular structures. J. Comput.-Aided Mol. Des., 2005, vol. 19, nos. 9-10, pp. 693-703. doi: 10.1007/s10822-005-9008-0.

2. Chen W.L., Chen D.Z., Taylor K.T. Automatic reaction mapping and reaction center detection. Wiley Interdiscip. Rev.: Comput. Mol. Sci., 2013, vol. 3, no. 6, pp. 560-593. doi: 10.1002/wcms.1140.

3. Raymond J.W., Willett P. Maximum common subgraph isomorphism algorithms for the matching of chemical structures. J. Comput.-Aided Mol. Des., 2002, vol. 16, no. 7, pp. 521-533. doi: 10.1023/A:1021271615909.

4. Madzhidov T.I., Baskin I.I., Varnek A.A. Khemoinformatika. Konspekt lektsii [Chemoinformatics. Lecture Notes]. Kazan, Izd. Kazan. Univ., 2014. 137 p. (In Russian)

5. Madzhidov T.I., Nugmanov R.I., Gimadiev T.R., Lin A.I., Antipin I.S., Varnek A. Consensus approach to atom-to-atom mapping in chemical reactions. Butlerovskie Chteniya, 2015, vol. 44, no. 12, pp. 170-176. (In Russian)

6. Lynch M.F., Willett P. The automatic detection of chemical reaction sites. J. Chem. Inf. Comput. Sci., 1978, vol. 18, no. 3, pp. 154-159.

7. Vleduts G.E. Development of a combined WLN/CTR multilevel approach to the algorithmic analysis of chemical reactions in view of their automatic indexing. Report no 5399. London, Br. Libr. Res. Dev. Dep., 1977. 5399 p.

8. McGregor J.J. Backtrack search algorithms and the maximal common subgraph problem. Software Pract. Exper., 1982, vol. 12, no. 1, pp. 23-34. doi: 10.1002/spe.4380120103.

9. Funatsu K., Endo T., Kotera N., Sasaki S.I. Automatic recognition of reaction site in organic chemical reactions. Tetrahedron Comput. Methodol., 1988, vol. 1, no. 1, pp. 53-69. doi: 10.1016/0898-5529(88)90008-5.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10. Jochum C., Gasteiger J., Ugi I. The principle of minimum chemical distance (PMCD). Angew. Chem., Int. Ed. Engl., 1980, vol. 19, no. 7, pp. 495-505. doi: 10.1002/anie.198004953.

11. Akutsu T. Efficient extraction of mapping rules of atoms from enzymatic reaction data. J. Comput. Biol., 2004, vol. 11, nos. 2-3, pp. 449-462. doi: 10.1089/1066527041410337.

12. Heinonen M., Lappalainen S., Mielikainen T., Rousu J. Computing atom mappings for biochemical reactions without subgraph isomorphism. J. Comput. Biol., 2011, vol. 18, no. 1, pp. 43-58. doi: 10.1089/cmb.2009.0216.

13. First E.L., Gounaris C.E., Floudas C.A. Stereochemically consistent reaction mapping and identification of multiple reaction mechanisms through integer linear optimization. J. Chem. Inf. Model., 2012, vol. 52, no. 1, pp. 84-92. doi: 10.1021/ci200351b.

14. Mann M., Nahar F., Schnorr N., Backofen R., Stadler P., Flamm C. Atom mapping with constraint programming. Algorithms Mol. Biol., 2014, vol. 9, no. 23, pp. 1-12. doi: 10.1186/s13015-014-0023-3.

15. Fontain E. The problem of atom-to-atom mapping. An application of genetic algorithms. Anal. Chim. Acta, 1992, vol. 265, no. 2, pp. 227-232. doi: 10.1016/0003-2670(92)85028-5.

16. ICMAP. InfoChem GmbH. Available at: http://www.infochem.de/products/software/icmap.shtml.

17. Moock T.E., Nourse J.G., Grier D., Hounshell W.D. The implementation of atom-atom mapping and related features in the reaction access system (REACCS). In: Chemical Structures: The International Language of Chemistry. Berlin, Heidelberg, Springer-Verlag, 1988, pp. 303-313.

18. JChem Base. ChemAxon. Available at: https://www.chemaxon.com/products/jchem-base/.

19. First E.L., Gounaris C.E., Floudas C.A. DREAM - Determination of Reaction Mechanisms. 2012. Available at: http://selene.princeton.edu/dream.

20. Indigo Toolkit. EPAM. Life Sciences Open Source. Available at: http://epam.github.io/lifescience/ indigo/index.html.

21. Domingos P., Pazzani M. On the optimality of the simple Bayesian classifier under zero-one loss. J. Mach. Learn., 1997, vol. 29, pp. 103-130. doi: 10.1023/A:1007413511361.

22. Rish I. An empirical study of the naive Bayes classifier. Proc. IJCAI2001 Workshop on Empirical Methods in Artificial Intelligence. Vol. 3. New York, 2001, pp. 41-46.

23. Madzhidov T.I., Baskin I.I., Antipin I.S., Varnek A.A. Vvedenie v khemoinformatiku. Komp 'uyternoe predstavlenie khimicheskikh struktur [Introduction to Chemoinformatics. Computer Representation of Chemical Structures]. Kazan, Izd. Kazan. Univ., 2013. 174 p. (In Russian)

24. Kuhn H.W. Variants of the Hungarian method for assignment problems. J. Nav. Res. Logistics Q.,

1956, vol. 3, no. 4, pp. 253-258. doi: 10.1002/nav.3800030404.

25. Munkres J. Algorithms for the assignment and transportation problems. J. Soc. Ind. Appl. Math.,

1957, vol. 5, no. 1, pp. 32-38. doi: 10.1137/0105003.

<Для цитирования: Хайруллина А.И., Маджидов Т.И., Нугманов Р.И., Афонина В.А., Баскин И.И., Варнек А.А. Подход для создания атом-атомного отображения с использованием наивного байесовского классификатора // Учен. зап. Казан. ун-та. Сер. Естеств. науки. - 2018. - Т. 160, кн. 2. - С. 200-213.

<For citation: Khayrullina A.I., Madzhidov T.I., Nugmanov R.I., Afonina V.A., Baskin I.I. Varnek A.A. A new approach to atom-to-atom mapping using the naive Bayesian classifier Uchenye Zapiski Kazanskogo Universiteta. Seriya Estestvennye Nauki, 2018, vol. 160, no. 2 pp. 200-213. (In Russian)

Подход для создания атом-атомного отображения с использованием наивного байесовского классификатора Текст научной статьи по специальности «Нанотехнологии»

Текст научной работы на тему «Подход для создания атом-атомного отображения с использованием наивного байесовского классификатора»