Научная статья на тему 'ИДЕНТИФИКАЦИЯ ФАРМАКОЛОГИЧЕСКИХ СВОЙСТВ ХИМИЧЕСКОГО СОЕДИНЕНИЯ НА ОСНОВЕ ПРОГНОЗИРОВАНИЯ РЕЗУЛЬТАТОВ ДОКЛИНИЧЕСКИХ ЛАБОРАТОРНЫХ ИСПЫТАНИЙ'

ИДЕНТИФИКАЦИЯ ФАРМАКОЛОГИЧЕСКИХ СВОЙСТВ ХИМИЧЕСКОГО СОЕДИНЕНИЯ НА ОСНОВЕ ПРОГНОЗИРОВАНИЯ РЕЗУЛЬТАТОВ ДОКЛИНИЧЕСКИХ ЛАБОРАТОРНЫХ ИСПЫТАНИЙ Текст научной статьи по специальности «Фундаментальная медицина»

CC BY
93
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИДЕНТИФИКАЦИИ ФАРМАКОЛОГИЧЕСКИХ СВОЙСТВ / ДОКЛИНИЧЕСКИЕ ЛАБОРАТОРНЫЕ ИСПЫТАНИЯ / ГЛУБОКОЕ МАШИННОЕ ОБУЧЕНИЕ / ПРОГНОЗИРОВАНИЕ ФАРМАКОЛОГИЧЕСКОЙ АКТИВНОСТИ

Аннотация научной статьи по фундаментальной медицине, автор научной работы — Кравец Алла Григорьевна, Лошманов Вадим И.

Представлен метод идентификации фармакологических свойств химического соединения на основе прогнозирования результатов доклинических лабораторных испытаний. Результаты доклинических испытаний используются для получения сведений о безопасности разрабатываемого продукта, как на этапе доклинических исследований, так и в течение жизненного цикла лекарственного средства. Предложенный подход позволяет определить наличие конкретных фармакологических свойств химического соединения на ранних этапах проведения доклинических испытаний. Метод включает проведение факторного анализа для выявления наиболее значимых факторов, влияющих на фармакологическую активность, проявляемую синтезированным химическим соединением. Далее на основе выделенных факторов строится предсказательная модель, использующая данные о количественных характеристиках вещества и описание мишени, участвующей в исследовании. Разработанный подход позволит существенно сократить сроки проведения доклинических исследований новых лекарственных препаратов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по фундаментальной медицине , автор научной работы — Кравец Алла Григорьевна, Лошманов Вадим И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFICATION OF THE PHARMACOLOGICAL PROPERTIES OF A CHEMICAL COMPOUND ON THE BASIS OF PREDICTING THE RESULTS OF PRECLINICAL LABORATORY TESTS

The method of determining the pharmacological properties of a chemical compound based on the prediction of the results of preclinical laboratory tests was presented. The results of preclinical trials are used to obtain information about the safety of the product under development both for the purposes of preclinical studies and throughout the entire drug cycle. The proposed approach makes it possible to determine the presence of specific pharmacological properties of chemicals in the compound intended for preclinical testing. The method includes conducting a factor analysis in order to identify the most significant features that affect the pharmacological activity of the observed synthesized chemical compound. Further, on the basis of the selected factors, a predictive model is built. The model uses data on the quantitative characteristics of the substance and a description of the target involved in the study. The developed approach essentially decreases the period of preclinical studies of new medicines

Текст научной работы на тему «ИДЕНТИФИКАЦИЯ ФАРМАКОЛОГИЧЕСКИХ СВОЙСТВ ХИМИЧЕСКОГО СОЕДИНЕНИЯ НА ОСНОВЕ ПРОГНОЗИРОВАНИЯ РЕЗУЛЬТАТОВ ДОКЛИНИЧЕСКИХ ЛАБОРАТОРНЫХ ИСПЫТАНИЙ»

II. ИНФОРМАЦИОННЫЕ СИСТЕМЫ.АВТОМАТИЗАЦИЯ И СИСТЕМЫ

УПРАВЛЕНИЯ

УДК 004.896

Alla G. Kravets12, Vadim I. Loshmanov1

IDENTIFICATION OF THE PHARMACOLOGICAL PROPERTIES OF A CHEMICAL COMPOUND ON THE BASIS OF PREDICTING THE RESULTS OF PRECLINICAL LABORATORY TESTS

Volgograd State Technical University, Russia, Volgograd, agk@gde.ru

2Dubna State University, Russia, Moskovskaya Oblast region,

Dubna

agk@gde.ru

loshmanov.vadim17@gmail.com

The method of determining the pharmacological properties of a chemical compound based on the prediction of the results of preclinical laboratory tests was presented. The results of preclinical trials are used to obtain information about the safety of the product under development both for the purposes of preclinical studies and throughout the entire drug cycle. The proposed approach makes it possible to determine the presence of specific pharmacological properties of chemicals in the compound intended for preclinical testing. The method includes conducting a factor analysis in order to identify the most significant features that affect the pharmacological activity of the observed synthesized chemical compound. Further, on the basis of the selected factors, a predictive model is built. The model uses data on the quantitative characteristics of the substance and a description of the target involved in the study. The developed approach essentially decreases the period of preclinical studies of new medicines.

Keywords: identification of pharmacological properties, pre-clinical laboratory testing, deep machine learning, prediction of pharmacological activity.

DOI 10.36807/1998-9849-2022-62-88-66-75

Введение

Основной задачей доклинических лабораторных испытаний (ДЛИ) является определение наиболее эффективного из потенциальных лекарственных препаратов по отношению к исследуемой патологии, оценка его безопасности и формирование научной базы, и обоснование перехода к клиническим исследованиям.

Кроме определения таких характеристик химического вещества, как фармакодинамика (выявление локализации, механизма действия и фармакологических эффектов, а также силу и длительность их воздействия), фармакокинетика (кинетические закономерности химических и биологических процессов, происходящих с лекарственным средством в организме человека) и токсичность (токсикометрические показатели, вычисляемые как величина, обратная средней смертельной концентрации

Кравец А.Г. 12, Лошманов В.И.1

ИДЕНТИФИКАЦИЯ ФАРМАКОЛОГИЧЕСКИХ СВОЙСТВ ХИМИЧЕСКОГО СОЕДИНЕНИЯ НА ОСНОВЕ ПРОГНОЗИРОВАНИЯ РЕЗУЛЬТАТОВ ДОКЛИНИЧЕСКИХ ЛАБОРАТОРНЫХ ИСПЫТАНИЙ

волгоградский государственный технический университет, Россия, Волгоград,

Государственный университет Дубна, Россия, Московская

область, Дубна,

agk@gde.ru

loshmanov.vadim17@gmail.com

Представлен метод идентификации фармакологических свойств химического соединения на основе прогнозирования результатов доклинических лабораторных испытаний. Результаты доклинических испытаний используются для получения сведений о безопасности разрабатываемого продукта, как на этапе доклинических исследований, так и в течение жизненного цикла лекарственного средства. Предложенный подход позволяет определить наличие конкретных фармакологических свойств химического соединения на ранних этапах проведения доклинических испытаний. Метод включает проведение факторного анализа для выявления наиболее значимых факторов, влияющих на фармакологическую активность, проявляемую синтезированным химическим соединением. Далее на основе выделенных факторов строится предсказательная модель, использующая данные о количественных характеристиках вещества и описание мишени, участвующей в исследовании. Разработанный подход позволит существенно сократить сроки проведения доклинических исследований новых лекарственных препаратов.

Ключевые слова: идентификации фармакологических свойств, доклинические лабораторные испытания, глубокое машинное обучение, прогнозирование фармакологической активности.

Дата поступления - 20 июля 2022 года

исследуемого вещества), результаты доклинических испытаний используются для получения сведений о безопасности разрабатываемого продукта как на этапе доклинических исследований, так и в течение жизненного цикла лекарственного средства [1, 2].

Современные подходы идентификации фармакологической активности синтезированных химических соединений

Большинство современных исследований в области разработки новых лекарственных средств направлены на выявление возможных вариантов применения подходов машинного обучения для выявления характеристик исследуемого химического соединения, как например в

[3].

Наиболее распространенным подходом в анализе фармакологической активности химических соединений является построение QSAR (поиск количественных соотношений структура - свойство) моделей, которое применяется в основном на ранних стадиях разработки лекарственных средств. Автор Dah G. предложил увеличить количество метапараметров для построения прогноза QSAR, обосновывая это повышением эффективности существующих пакетов для построения, например, байесовской оптимизации. Подобное решение может открыть перспективные возможности для виртуального скрининга активности соединений по отношению к конкретной мишени [4].

Недостатки подхода QSAR в моделировании взаимодействия потенциально активного химического соединения и мишени описаны в работе Bosc N., основной из которых является ограничение количества доступных точек данных и имеющийся дисбаланс между классами воздействия химического вещества. Это влечет необходимость поиска компромисса между количеством построенных моделей, исследуемых точек данных и производительностью моделей. Задача применения прогностических моделей в разработке лекарственных средств заключается в том, что наибольшая эффективность может быть достигнута на ранних этапах, однако в этот момент имеется недостаточное количество данных, необходимых для достижения хороших показателей точности прогноза. В работе автор применил методы, которые позволяют работать с небольшими объемами данных и получать на основе них релевантные результаты [5].

Отдельную нишу занимают работы по построению моделей прогнозирования, основанные на структурах исследуемых химических соединений. Например, в работе Guerra A. представлена прогнозная модель, определяющая характеристики химического соединения, основанная на системе правил однозначного описания состава и структуры молекулы химического вещества (SMILES) [6]. Однако, судя по результатам, точность полученной модели достаточна низкая (около 73% на тестовых данных) по сравнению с моделями, основанными на 2D структуре химического соединения (более 80%) [7]. Наглядным примером сравнения разных подходов к анализу структуры химического соединения является работа Meyer J., который провел оценку двух методов классификации потенциальных лекарственных средств на основе химической формулы с помощью сверточных нейронных сетей и случайных лесов. Исследование показало, что структура химического вещества содержит достаточно информации для построения ее зависимости от различных фармакологических характеристик исследуемого вещества. При этом наличие большого объема данных, связанных со структурой веществ, позволит значительно увеличить точность моделей, что на текущем этапе составило около 88%. Наконец, предлагаемое решение обладает возможностью прогнозирования побочных эффектов лекарственных препаратов и возможность их перепрофилирования, а также проводить анализ сразу на несколько мишеней [8, 9].

Современные средства автоматизации доклинических исследований позволяют только фиксировать результаты лабораторных испытаний [10] с дальнейшим формированием отчетной документации. С другой стороны, активно развиваются подходы по анализу результатов различного рода ДЛИ с применением методов машинного обучения [11, 12]. Задача состояла в интеграции этих методов в средства автоматизации исследований (LIMS). В результате разработана система идентификации фармакологических свойств химического соединения на основе прогнозирования результатов доклинических лабораторных испытаний и предсказательного моделирования наличия маркеров фармакологической активности. Система объединяет функционал LIMS, а именно агрега-

цию результатов ДЛИ [13], и анализ полученных данных с применением методов глубокого машинного обучения [14].

Постановка задачи исследования

В настоящее время большинство исследований нацелено на выявление зависимости "структура-активность" с построением QSAR-модели. Модель основывается на структуре химического соединения в разных интерпретациях: уникальный идентификатор вещества, схема SMILES, 2D- и 3D-изображение структуры вещества.

В качестве гипотезы исследования выдвинуты следующее положение: количественные показатели исследуемого вещества (IC50, вес молекулы, максимальная фаза молекулы и др.) и характеристики мишени (вид ткани мишени, тип организма мишени и др.) позволяют идентифицировать наличие и определить тип фармакологической активности синтезированного химического соединения на ранних этапах проведения доклинических лабораторных исследований.

На рис. 1 изображен набор гипотетических факторов влияния на наличие фармакологической активности исследуемого вещества.

Рис. 1. Гипотетические факторы влияния на наличие фармакологической активности исследуемого вещества

Соединения-лидеры должны обладать следующим набором свойств:

1. Быть синтетически доступными, сохраняя при этом возможность генерации комбинаторных библиотек ближайших структурных аналогов, что необходимо для оптимизации структуры-лидера на его пути к конечной лекарственной субстанции.

2. Принадлежать определенному ряду (желательно комбинаторному) структурно-родственных соединений с известной активностью, для которых определены правила зависимости "структура - активность".

3. Обладать благоприятными фармакокинетиче-скими свойствами, связанными с проникновением через стенки желудочно-кишечного тракта, тканевым распределением, метаболизмом и экскрецией.

4. Обладать минимальной токсичностью [15].

Возможные факторы влияния

Субклеточная фракция мишени. Одним из возможных факторов, влияющих на проявление веществом активности, является субклеточная фракция мишени. Субклеточные фракции используются в исследовании метаболизма лекарственного средства. В процессе фракционирования важно контролировать чистоту фракций. Присутствие в определенной фракции той или иной ор-ганеллы и наличие других компонентов определяют с помощью молекул-маркеров (рис. 2). Распределение ферментов-маркеров в клетке отражает локализацию в ней соответствующих каталитических реакций [16].

Фрагмент списка сублеточных фракций, участвующих в исследовании активности химического соединения приведет в табл. 1.

Концентрация полумаксимального ингибирова-ния. 1С50, или концентрация полумаксимального ин-гибирования, - показатель эффективности лиганда при ингибирующем биохимическом или биологическом взаимодействии. 1С50 является количественным индикатором, который показывает требуемую величину лиганда-инги-

Рис. 2. Молекулы-маркеры исследуемой клетки [16]

Таблица 1. Фрагмент списка субклеточных фракций

Субклеточная фракция Описание

Cell membrane Клеточная мембрана

Cytosolic Fraction Цитозольная фракция

Membrane Мембрана

Microsomal Membrane Микросомальная мембрана

Microsome Микросома

Mitochondria Митохондрия

бирования тестовой реакции in vitro [17]. pIC50 = - log10(IC50).

(1)

битора для ингибирования биологического процесса на 50%. Этот показатель обычно используется в качестве индикатора активности вещества-антагониста в фармакологических исследованиях. Иногда этот показатель применяется в форме pIC50 (отрицательный десятичный логарифм величины IC50 (1)): такая форма применяется в случаях, когда линейный рост концентрации вызывает экспоненциальный рост эффекта. Согласно документам FDA (Food and Drug Administration, управление по санитарному надзору за качеством пищевых продуктов и медикаментов), IC50 является показателем концентрации лекарственного вещества, необходимого для 50 % инги-

Правило Липински. Правило Липински, также известное как правило пяти - эмпирическое правило, помогающее определить наличие в химическом соединении с определенной фармакологической или биологической активностью свойств, которые позволяют отнести его к перорально активным лекарственным средствам для человека. Это правило важно учитывать при создании лекарств, когда фармакологически активный препарат поэтапно оптимизируется для повышения активности и селективности соединения, а также для обеспечения поддержания физико-химических свойств, характерных для соединений, подчиняющихся правилу Липински. Соединения, соответствующие правилу Липински, менее интенсивно расходуются во время клинических испытаний и, следовательно, имеют повышенную вероятность выхода на рынок. Правило Липински означает, что в общем случае перорально активный препарат должен нарушать не более одного из следующих условий [18]:

- не более 5 донорных водородных связей (общее количество азот-водородных и кислород-водородных связей);

- не более 10 акцепторных водородных связей (общее количество атомов азота или кислорода);

- молекулярная масса соединения менее 500 а.е.м.;

- коэффициент распределения октанол-вода (log p) не должен превышать 5.

Методика выполнения доклинических лабораторных исследований

В тоже время в процессе выполнения ДЛИ активно применяются средства автоматизации [19], а именно LIMS (Лабораторные информационные системы) и ELN (Электронные лабораторные журналы) (рис. 3).

Из диаграммы, представленной на рис. 3, следует, что основным недостатком существующего процесса

Рис. 3. Существующий процесс ДЛИ по выявлению активности лекарственного препарата

Рис. 4. Методика проведения ДЛИ по выявлению активности лекарственного препарата

является отсутствие автоматизации анализа результатов ДЛИ.

На рис. 4 представлен процесс выполнения доклинических лабораторных исследований с применением системы идентификации фармакологической активности химических соединений по отношению к конкретной патологии.

Основным отличием предлагаемой методики, который следует из сравнения рис. 3 и рис. 4, является снижение функций, выполняемых руководителями исследования, что позволяет исключить отрицательное влияние человеческого фактора, повысить скорость обработки результатов ДЛИ.

Метод идентификации фармакологической активности

Предложенный метод идентификации фармакологической активности основывается на количественных показателях исследуемого вещества и характеристиках мишени (общий алгоритм представлен на рис. 5).

Алгоритм предложенного метода идентификации состоит из следующих этапов:

Этап 1. Подготовка исходных данных, проведение их предобработки и нормализация.

Этап 2. Проведение тестов и вычисление критериев, позволяющих оценить степень пригодности выборки к проведению факторного анализа.

Этап 3. При успешном завершении этапа 2 провести факторный анализ и определить факторы, которые в большей мере влияют на идентификацию наличия фармакологической активности исследуемого химического соединения. По результатам текущего этапа провести постобработку данных, исключив нерелевантные факторы.

Этап 4. Подготовка и построение моделей классификации, позволяющих определить класс исследуемого химического соединения, основываясь на результатах предыдущего этапа.

Этап 5. Определение статистических характеристик построенных моделей и их валидация. По результатам оценки выявление наиболее эффективного метода для решения исследуемой задачи.

Метод идентификации наличия активности позволит в полной мере определить возможность применения исследуемого химического соединения в качестве лекарственного средства. Набор типов активности, получаемых в качестве результата приведен в табл. 2 [18].

Рис. 5. Алгоритм метода идентификации наличия фарм. активности химического соединения

Построение модели классификации

Описание датасета. Основная цель настоящего исследования - выявить зависимость между структурой химического соединения и наличием возможной фармакологической активности на ранних этапах проведения доклинических лабораторных испытаний. Для достижения поставленной цели планируется использовать данные из открытых источников, а именно CHEMBL (химическая база данных биоактивных молекул, обладающих свойствами, подобными лекарственным средствам). Так

Таблица 2 Фрагмент списка классов форм активности

Тип активности хим. соединения Описание

Active Вещество проявляет фармакологическую активность

Antagonist Вещество-антагонист

Could not be measured Не удалось измерить

Insoluble Нерастворимый

No effect Нет эффекта

No inhibition Нет ингибирования

Not active Не проявляет фармакологической активности

как исходные данные (рис. 6) используются в сыром виде, на первом этапе будет проведена предобработка, а именно нормализация данных и проведение факторного анализа [20].

Рис. 6. Необработанные данные об активности химических соединений

На рис. 7 представлены топ 5 наиболее часто встречающихся типов активности исследуемого химического соединения, информация о которых содержится в обучающей выборке. Как видно из графика, большое число синтезированных веществ отбрасывается на начальных этапах исследования. С другой стороны, процент веществ, которые в конечном итоге проявили фармакологическую активность, составляет около 14%, что, в свою очередь, можно считать достаточно высоким показателем, который соответствует типу мишени, на основе которой проводится исследование. На следующих этапах дополнительно отсеется высокий процент химических соединений и до выхода на рынок в качестве лекарственного средства «дойдет» небольшой процент веществ.

Этот факт можно считать основным доводом в пользу актуальности разрабатываемой модели классификации, т.к. это решение с релевантными показателями точности позволит сэкономить огромное количество ресурсов, затрачиваемых на проверку синтезированных соединений на всех этапах разработки лекарственного средства [19].

Нормализация данных. Для дальнейшей работы с данными проведена их нормализация средствами Python библиотек. Во-первых, удалены данные, выходящие за границы используемого типа данных float. Во-вторых, проведена нормализация меток, которая заключается в кодировании категорированных типов данных в числовой формат. Эта процедура проведена с использованием преобразователя LabelEncoder библиотеки Sklearn. Результат нормализации изображен на рис. 8.

Факторный анализ. Факторный анализ - это метод анализа данных, используемый для определения основных факторов влияния или скрытых переменных, которые помогают интерпретировать данные снижением количества переменных [21]. Предварительно рекомендуется определить критерии сферичности Бартлетта (Bartlett) и Кайзера-Мейера-Олкина (Kaiser, Meyer, Olkin). Тесты выполняются для корреляционных матриц исходных данных. Критерий сферичности Бартлетта оценивает

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 7. Разбиение обучающей выборки по типам активности

Рис. 8. Обучающая выборка после процесса нормализации

изучаемые данные на возможность их сжатия со значимыми результатами: нулевая гипотеза предполагает, что переменные ортогональные, не коррелируют. При этом р^1ие менее уровня значимости предполагает возможность выполнения РСА. Критерий Кайзера-Мейера-Олки-на оценивает степень соответствия изучаемых данных для факторного анализа, является мерой выборочной достаточности общей дисперсии. Значения от 0,5 до 0,7 считаются посредственными, от 0,7 до 0,8 - хорошими, от 0,8 и выше очень хорошими [22].

Тест Кайзера-Мейера-Олкина измеряет пригодность данных для факторного анализа. Он определяет адекватность каждой наблюдаемой переменной и всей модели. Здесь КМО оценивает долю дисперсии среди всех наблюдаемых переменных (2). Меньшая доля больше подходит для факторного анализа. Значения КМО находятся в диапазоне от 0 до 1. Значение КМО менее 0,6 считается недостаточным [21].

Критерий Кайзера вычисляется следующим образом:

(2)

где г к - корреляция между рассматриваемыми переменными, р к является частной корреляцией [23].

Тест ¡Бартлетта на сферичность проверяет степень взаимной корреляции наблюдаемых переменных, используя наблюдаемую корреляционную матрицу. Если тест оказался статистически незначимым, то не следует использовать факторный анализ [22].

Имеется к выборокх1"1, ..., хкпк объемом п. = (.1=1, ..., к) каждая. X.. -.-е значение (измерение) в 1-й серии. Дисперсии выборок и выборочные оценки дисперсий обозначим через о2 и s-2, соответственно.

Критерий Бартлетта проверяет гипотезу Не , что дисперсии всех к выборок одинаковы (3).

Н = О,2 = О/ = ... = Ок2 . (3)

Альтернативная гипотеза Н,: существует, по крайней мере, две выборки - и . (- ф .) с несовпадающими дисперсиями (4).

h1 = а,2 ф of

(4)

Статистика критерия Бартлетта вычисляется в соответствии с соотношением:

T = M/c,

здесь

где лг = 1 щ и Sp2 = i/(w - к) й=1(п( -1) х s? - суммарная оценка дисперсий.

(5)

(6) (7)

(8) (9)

При п>3 (i = 1, ..., к) и справедливости нулевой гипотезы статистика критерия Барлетта имеет распреде-лениеХк2_1 хи-квадрат с (к - 1) степенями свободы [24].

Таблица 3. Результаты тестирования выборки

Тест Результат

Кайзера- Мелкера-Олкина 0.73

Бартлетта (348374.32, 0.0)

Общий тест Кайзера- Мелкера-Олкина для наших данных составляет 0.73, что является достаточным для проведения дальнейшего анализа исследуемых данных. В тесте Бартлетта р-значение равно 0. Тест статистически значимым, что указывает на то, что наблюдаемая корреляционная матрица не является единичной матрицей. Результаты тестов Бартлетта и Кайзера- Мелкера-Олкина (табл. 3) допускают выполнение факторного анализа

График критерия отсеивания осыпи Р. Кеттелла (рис. 9) показывает зависимость каждого фактора и его собственного значения. Здесь можно видеть, что только для 4-х факторов собственные значения больше единицы. Это означает, что необходимо выбрать только 4 фактора (или ненаблюдаемых переменных) для проведения дальнейшего анализа.

На рис. 10 изображена тепловая карта собственных значений факторов влияния в процессе идентификации активности синтезированного химического соединения.

Из табл. 4 можно сделать следующие выводы:

- фактор 1 имеет высокие факторные нагрузки для максимальной фазы молекулы и организма мишени;

- фактор 2 имеет высокие факторные нагрузки для веса молекулы согласно Правилу Липински;

- фактор 3 имеет высокие факторные нагрузки для 1С50 и организма мишени;

- фактор 4 не имеет высоких значений для переменных и не может быть интерпретирован.

В результате вычисления характеристик факторного анализа выявлено, что всего 41% от общего показателя кумулятивной дисперсии приходится на 3 фактора влияния (табл. 4). Дальнейшее построение модели классификации проводится с применением 3-х основных факторов: 1С50; правило Липински; максимальная фаза молекулы. Далее вычислим значения показателей факторного анализа методом вращения варимакс.

Сумма квадратов всех элементов факторной структуры, т.е факторных нагрузок, равна сумме всех общностей и суммарной дисперсии всех переменных, обусловленной общими факторами. Эта величина, деленная на количество признаков, известна как полнота факторизации:

где V - мощность фактора с номером к; X - собственное

3.0 2.5 2.0 1.5 1.0 0.5

\

0 ? 4 6 f 10

Факторы

Рис. 9. График критерия отсеивания каменистой осыпи

Рис. 10. Корреляционная матрица факторов влияния активности исследуемого лекарственного средства

Таблица 4. Факторные нагрузки

Факторы Фактор 1 Фактор 2 Фактор 3 Фактор 4

Максимальная фаза молекулы 0.646 -0.039 0.145 0.165

Вес молекулы -0.067 -0.067 -0.067 -0.067

Правило Липински 0.617 0.617 0.617 0.617

IC50 Relation -0.061 -0.061 -0.061 -0.061

IC50 0.061 0.061 0.061 0.061

IC50 Units -0.022 -0.022 -0.022 -0.022

Организм мишени 0.664 0.664 0.664 0.664

Ткань мишени -0.062 -0.062 -0.062 -0.062

Субклеточная фракция мишени 0.054 0.054 0.054 0.054

число фактора с номером г, hi2 - общность переменной г, а.к - вклад фактора i в переменную к;М- число факторов; Р - число переменных.

Доля дисперсии (коэффициент детерминации) -это собственное значение, деленное на количество переменных, соответствующая заданной компоненте, и используется как показатель информативности компоненты. Коэффициентом детерминации ^2):

К2 =

D[y]

(11)

где D[y] = о;

дисперсия случайной величины у,

а й[у\х] = о2 - условная (по факторам х) дисперсия зависимой переменной (дисперсия ошибки модели).

Кумулятивная функция распределения вещественной случайной величины X есть функция, заданная:

FXx) = P (X < x),

(12)

где правая часть представляет вероятность того, что случайная величина X принимает значение меньше или равно х.

Результаты расчета показателей факторного анализа методом вращения варимакс приведены в табл. 5.

Таблица 5. Таблица дисперсии факторов

Показатель IC50 Правило Липински Максимальная фаза молекулы

Сумма квадратов нагрузок 2.57 2.57 2.57

Доля дисперсии 0.87 0.87 0.87

Накопленная доля дисперсии 0.64 0.64 0.64

Далее построим тепловые карты, используя метод главных компонент (РСА) и факторный анализ без вращения (Unrotated FA). Также на графике изобразим результаты применения метода варимакс вращения ^г^х FA). Как можно заметить, результаты (рис. 11), полученные с применением трех подходов, мало различимы и описанные выше выводы полностью подтверждаются [25].

Оценка построенной модели и результат проверки гипотезы. Для расчета статистических характеристик классификационных моделей использовали экспериментальные (наблюдаемые) и вычисленные (предсказанные) значения активности для соединений обучающей выборки (в условиях кросс-валидации) и тестовой выборки. Качество прогнозов на основе построенных моделей оценивалось расчетом следующих характеристик:

1. Коэффициент детерминации (11).

2. МАРЕ - средняя абсолютная ошибка [18]:

(13)

где п - количество записей в тестовой выборке, R- - наблюдаемое значение для 1-го соединения, F- - прогнозное значение для 1-го соединения.

3. MSE - средний квадрат ошибки [19]:

(14)

где п - количество записей в тестовой выборке, R- - наблюдаемое значение для 1-го соединения, F- - прогнозное значение для 1-го соединения.

4. Среднеквадратичная ошибка (RMSE) [19]:

(15)

где п - количество записей в тестовой выборке, R- - наблюдаемое значение для 1-го соединения, F- - прогнозное значение для 1-го соединения.

По результатам проведения факторного анализа

MoleculeMaxPhase | MoleculeWeight Ro5Violations StandardRelation | StandardValue Standardünits AssayOrganism AssayTissueName AssaySubcallularFraction

PCA Unrotated FA Varimax FA

BfflS

■J

Comp 1 Comp 2

I

Comp 1 Comp 2

L

Comp 1 Comp 2

Рис. 11. Тепловые карты факторного анализа

определены наиболее значимые факторы, и в соответствии с этим подготовлена обучающая выборка. В табл. 6 приведены результирующие оценки точности построенных моделей классификации синтезированных химических соединений по наличию активности.

Таблица 6. Оценка точности построенных классификационных

моделей

Метод Показатель точности

RandomForest 0.87

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

KNN 0.77

Naive Bayes 0.76

Boosted trees 0.75

Выполненные эксперименты показали, что на основе полученных факторов и набора статистических характеристик построенных моделей (табл. 7) наиболее эффективным подходом является метод случайных лесов (RandomForest).

Точность, полученная с применением наиболее эффективного метода классификации, показывает, что выдвигаемая гипотеза полностью подтвердилась. Таким образом, на основе результатов предсказательного моделирования характеристик синтезированного химического соединения, зная характеристики мишени, по отношению к которой проводятся исследования, можно с точностью более 85% предсказать, что вещество обладает фармакологической активностью. Это решение сопоставимо по эффективности с подходами, описанными в начале статьи, однако является более простым в реализации и менее ресурсозатратным, так как в качестве входных данных используются числовые и текстовые значения.

Таблица 7. Статистические характеристики классификационных моделей

Метод MAE MSE RMSE R2

RandomForest 1.33 19.99 4.47 0.04

KNN 2.78 42.29 6.51 0.05

Naive Bayes 2.75 42.18 6.49 0.09

Boosted trees 2.64 37.03 6.08 0.17

Реализация системы идентификации фармакологических свойств химического соединения

Для реализации разработанного метода идентификации предложена методика ДЛИ, включающая следующие этапы (рис. 12):

1. На первом этапе проводится формирование дизайна ДЛИ. Лаборатория получает запрос на исследование, создается список необходимого оборудования и материалов (Модуль учета оборудования и материалов), заполняется общая информация об исследовании (Модуль формирования дизайна исследования) и выбираются испытания, входящие в состав текущего ДЛИ.

2. На втором этапе, в процессе проведения ис-

следования, лаборант вносит получаемые результаты по каждому испытанию (Модуль сбора данных результатов ДЛИ лекарственных препаратов), проверяет их валид-ность и далее переходит к анализу данных (Модуль прогнозирования наличия фармакологической активности химического вещества по отношению к конкретной патологии).

3. На третьем этапе руководитель исследования формирует отчетную документацию по проведенному ДЛИ (Модуль формирования отчетной документации).

Система идентификации фармакологических свойств химического соединения представлена в формате веб-приложения (рис. 13) и разработана с использованием технологий .NET Core и СУБД Postgres.

Модуль прогнозирования наличия фармакологической активности химического вещества по отношению к конкретной патологии разработан с использованием язы-

Рис. 12. Общая схема методики проведения ДЛИ

ка Python, фреймворка TensorFlow и библиотеки Keras.

Щ Доклиническое исследование 2 СанПин 211 /

Рис. 13. Пример экранной формы системы идентификации наличия фармакологической активности химического соединения

Заключение

Научная значимость результатов исследования заключается в том, что они позволяют определить наличие конкретных фармакологических свойств химического соединения на ранних этапах проведения доклинических испытаний. В ходе исследования подтверждена гипотеза, описывающая зависимость количественных показателей исследуемого вещества (IC50, вес молекулы, максимальная фаза молекулы и др.) и характеристик мишени (вид ткани мишени, тип организма мишени и др.) от наличия фармакологической активности синтезированного химического соединения. Проверка гипотезы проводилась в несколько этапов. На первом этапе проведен факторный анализ модели зависимости. По результатам его проведения из 10 исходных факторов наиболее значимыми оказались лишь 3: IC50; правило Липински; максимальная фаза молекулы.

Далее предложен метод идентификации наличия фармакологической активности, который позволяет построить модель классификации. На основе данных открытого источника CHEMBL сформирована обучающая выборка и проведен ряд экспериментов. Эксперименты заключались в построении моделей с применением разных методов машинного обучения: Random Forest, Boosted Trees и т.д. Итоговые результаты показали, что наиболее эффективным методом является метод случайных лесов, точность которого составила 87%.

Также предложена методика ДЛИ, которая использована при разработке системы идентификации наличия фармакологической патологии на основе результатов доклинических лабораторных исследований. Прикладная значимость результатов заключается в том, что предлагаемая система позволит существенно ускорить сроки проведения доклинических исследований новых лекарственных препаратов на основе реализации программно-информационной интеллектуальной поддержки деятельности фармакологических лабораторий.

Работа выполнена при финансовой поддержке РФФИ (грант 20-37-90105).

Литература

1. N .Flemin. How artificial intelligence is changing drug discovery // Nature. 2018. Vol. 557. P. S55-S57.

2. J. Jiménez-Luna, F. Grisoni, G. Schneider. Drug discovery with explainable artificial intelligence // Nat Mach Intell. 202 0. Vol. 2. P. 573-584.

3. F. Cheng and V. Sutariya. Applications of artificial neural network modeling in drug discovery // Journal of Clinical and Experimental Pharmacology 2012. 2(3).

4. E. Lindhardt, P. Gennemark. Automated analysis of routinely generated preclinical pharmacokinetic and pharmacodynamic data // J Bioinform Comput Biol. 2014. Vol. 12(3):1450010. doi: 10.1142/S0219720014500103.

5. G.E. Dah, N. Jaitl. Multi-task Neural Networks for QSAR Predictions // Department of Computer Science,

University of Toronto. 2014.

6. N. Bosc, F. Atkinson, E. Felix, A. Gaulton,

A. Hersey, A.R. Leach. Large scale comparison of QSAR and conformal prediction methods and their applications in drug discovery // Journal of Cheminformatics. 2019. Vol. 11(4).

7. M. Hirohara, Y. Saito, Y. Koda, K. Sato, Y. Sakakibara. Convolutional neural network based on SMILES representation of compounds for detecting chemical motif // BMC Bioinformatics. 2018. Vol. 19(526).

8. A. Guerra, J.A. Paez, N.E. Campillo. Artificial Neural Networks in ADMET Modeling: Prediction of Blood-Brain Barrier Permeation // QSAR & Combinatorial Science. 2008. Vol. 27(5). P. 586-594. DOI: https://doi. org/10.1002/qsar.200710019

9. J.G. Meyer, S. Liu, I.J. Miller, J.J. Coon, A. Gitter. Learning Drug Functions from Chemical Structures with Convolutional Neural Networks and Random Forests // J. Chem. Inf. Model. 2019. Vol. 59(10). P. 44384449.

10. Мусаев, Э.Э., Чистякова Т.Б., Белахов

B.В. Программный комплекс для прогнозирования и исследования характеристик противогрибковых антибиотиков // Известия СПбГТИ(ТУ). 2021. № 57. С. 6874. DOI 10.36807/1998-9849-2020-57-83-68-74.

11. B.W.J. Irwin, J.R. Levell, T.M. Whitehead, M.D. Segall, G.J. Conduit Practical applications of deep learning to impute heterogeneous drug discovery data // J Chem Inf Model. 2020 Vol. 60. P. 2848-2857.

12. Bagheri A., Adorno D.R., Rizzo P., Barraco R., Bellomonte R. Empirical mode decomposition and neural network for the classification of electroretinographic data // Medical and Biological Engineering. 2014. V. 52. P. 619-628.

13. Кравец А.Д., Петрова И.Ю., Кравец А.Г. Агрегация информации о перспективных технологиях на основе автоматической генерации интеллектуальных агентов мультиагентных систем // Прикаспийский журнал: управление и высокие технологии. 2015. № 4(32). С. 141148.

14. T.B. Chistyakova, E.E. Musayev, V.V. Be-lakhov, R.V. Makaruk Applying vector representations of chemical formulas to modeling pharmaceutical characteristics / // Математические методы в технике и технологиях -ММТТ. 2020. Vol. 6. P. 141-145.

15. Myint K.Z., Wang L., Tong Q., Xie X.Q. Molecular Fingerprint-Based Artificial Neural Networks QSAR for Ligand Biological Activity Predictions // Mol. Pharmaceutics. 2012. Vol. 9(10). P. 2912-2923.

16. Фракционирование клеточных структур // URL: http://www.chem.msu.ru/rus/teaching/kolman/200.htm (дата обращения: 13.04.2022).

17. Тиньков О. В., Полищук П.Г., Хачатрян Д.С., Колотаев А.В., Балаев А.Н., Осипов В.Н., Григорьев В.Ю. Количественный анализ «структура - противоопухолевая активность» и рациональный молекулярный дизайн бифункциональных VEGFR-2/ HDAC-ингибиторов // Компьютерные исследования и моделирование. 2019. Т. 11(5).

18. Иванович В., Ранчич М., Арсич Б., Павлович А. Правило пяти Липинского, известные расширения и известные исключения // Chemia Naissensis. Vol. 3(1). 2020.

19. Belakhov V.V., Garabadzhiu A.V., Chistyakova T.B. Polyene Macrolide Antibotic Derivatives: Preparation, Overcoming Drug Resistance, and Prospects for Use in Medical Practice (Review) // Pharmaceutical Chemistry Journal. 2019. Vol. 52. No 11. P. 890-901. DOI 10.1007/s11094-019-01922-3.

20. ChEMBL Database - EMBL-EBI: URL: https://www. ebi.ac.uk/chembl/ (дата обращения: 13.04.2022).

21.Мокеев В.В., Томилов С.В. Об эффективности анализа и распознавания изображений методом

главных компонент и линейным дискриминантным анализом // Вестник Южно-Уральского государственного университета. Серия: компьютерные технологии, управление, радиоэлектроника. 2013. Т. 13(3).

22. Егошин В.Л., Саввина Н.В., Гржибовский А.М. Анализ главных компонент и факторный анализ в программной среде r // West Kazakhstan Medical Journal. 2020. Vol. 62(1).

23. Cureton E.E.j D'Agostino R.B. Factor Analysis // Psychology Press. 2013. doi:10.4324/9781315799476.

24. Кобзарь А.И. Прикладная математическая статистика // Физматлит. 2006. 816 с.

25. M. Allen. Factor Analysis: Varimax Rotation // The SAGE Encyclopedia of Communication Research Methods. 2017.

References

1. N .Flemin. How artificial intelligence is changing drug discovery // Nature. 2018. Vol. 557. P. S55-S57.

2. J. Jiménez-Luna, F. Grisoni, G. Schneider. Drug discovery with explainable artificial intelligence // Nat Mach Intell. 202 0. Vol. 2. P. 573-584.

3. F. Cheng and V. Sutariya. Applications of artificial neural network modeling in drug discovery // Journal of Clinical and Experimental Pharmacology 2012. 2(3).

4. E. Lindhardt, P. Gennemark. Automated analysis of routinely generated preclinical pharmacokinetic and pharmacodynamic data // J Bioinform Comput Biol. 2014. Vol. 12(3):1450010. doi: 10.1142/S0219720014500103.

5. G.E. Dah, N. Jaitl. Multi-task Neural Networks for QSAR Predictions // Department of Computer Science, University of Toronto. 2014.

6. N. Bosc, F. Atkinson, E. Felix, A. Gaulton, A. Hersey, A.R. Leach. Large scale comparison of QSAR and conformal prediction methods and their applications in drug discovery // Journal of Cheminformatics. 2019. Vol. 11(4).

7. M. Hirohara, Y. Saito, Y. Koda, K. Sato, Y. Sakakibara. Convolutional neural network based on SMILES representation of compounds for detecting chemical motif // BMC Bioinformatics. 2018. Vol. 19(526).

8. A. Guerra, J.A. Páez, N.E. Campillo. Artificial Neural Networks in ADMET Modeling: Prediction of Blood-Brain Barrier Permeation // QSAR & Combinatorial Science. 2008. Vol. 27(5). P. 586-594. DOI: https://doi. org/10.1002/qsar.200710019

9. J.G. Meyer, S. Liu, I.J. Miller, J.J. Coon, A. Gitter. Learning Drug Functions from Chemical Structures with Convolutional Neural Networks and Random Forests // J. Chem. Inf. Model. 2019. Vol. 59(10). P. 44384449.

10. Musaev, E.E., Chistyakova T.B., Belahov V.V. Programmnyj kompleks dlya prognozirovaniya i issledo-vaniya harakteristik protivogribkovyh antibiotikov // Izvestiya SPbGTI(TU). 2021. № 57. S. 68-74. DOI 10.36807/19989849-2020-57-83-68-74. (in Rus.)

11. B.W.J. Irwin, J.R. Levell, T.M. White-head, M.D. Segall, G.J. Conduit Practical applications of deep learning to impute heterogeneous drug discovery data // J Chem Inf Model. 2020 Vol. 60. P. 2848-2857.

12. Bagheri A., Adorno D.R., Rizzo P., Barraco R., Bellomonte R. Empirical mode decomposition and

neural network for the classification of electroretinographic data // Medical and Biological Engineering. 2014. V. 52. P. 619-628.

13. Kravec A.D., Petrova I.YU., Kravec A.G. Agregaciya informacii o perspektivnyh tekhnologiyah na os-nove avtomaticheskoj generacii intellektual'nyh agentov mul'tiagentnyh sistem // Prikaspijskij zhurnal: upravlenie i vysokie tekhnologii. 2015. № 4(32). S. 141-148.

14. T.B. Chistyakova, E.E. Musayev, V.V. Be-lakhov, R.V. Makaruk Applying vector representations of chemical formulas to modeling pharmaceutical characteristics / // Математические методы в технике и технологиях -ММТТ. 2020. Vol. 6. P. 141-145.

15. Myint K.Z., Wang L., Tong Q., Xie X.Q. Molecular Fingerprint-Based Artificial Neural Networks QSAR for Ligand Biological Activity Predictions // Mol. Pharmaceutics. 2012. Vol. 9(10). P. 2912-2923.

16. Frakcionirovanie kletochnyh struktur // URL: http://www.chem.msu.ru/rus/teaching/kolman/200.htm (data obrashcheniya: 13.04.2022). Matematicheskie metody v tekhnike i tekhnologiyah - MMTT. 2020. Vol. 6. P. 141-145.

17. Tin'kov O. V., Polishchuk P.G., Hacha-tryan D.S., Kolotaev A.V., Balaev A.N., Osipov V.N., Grigor'ev V.YU. Kolichestvennyj analiz «struktu-ra - protivoopuholevaya aktivnost'» i racional'nyj molekul-yarnyj dizajn bifunkcional'nyh VEGFR-2/HDAC-ingibitorov // Komp'yuternye issledovaniya i modelirovanie. 2019. T. 11(5).

18. Ivanovich V., Ranchich M., Arsich B., Pavlovich A. Pravilo pyati Lipinskogo, izvestnye rasshireni-ya i izvestnye isklyucheniya // Chemia Naissensis. Vol. 3(1). 2020.

19. Belakhov V.V., Garabadzhiu A.V., Chistyakova T.B. Polyene Macrolide Antibotic Derivatives: Preparation, Overcoming Drug Resistance, and Prospects for Use in Medical Practice (Review) // Pharmaceutical Chemistry Journal. 2019. Vol. 52. No 11. P. 890-901. DOI 10.1007/s11094-019-01922-3.

20. ChEMBL Database - EMBL-EBI: URL: https://www. ebi.ac.uk/chembl/ (дата обращения: 13.04.2022).

21. Mokeev V.V., Tomilov S.V. Ob effektivnos-ti analiza i raspoznavaniya izobrazhenij metodom glavnyh komponent i linejnym diskriminantnym analizom // Vestnik YUzhno-Ural'skogo gosudarstvennogo universiteta. Seriya: komp'yuternye tekhnologii, upravlenie, radioelektronika. 2013. T. 13(3).

22. Egoshin V.L., Savvina N.V., Grzhibovskij A.M. Analiz glavnyh komponent i faktornyj analiz v pro-grammnoj srede r // West Kazakhstan Medical Journal. 2020. Vol. 62(1).19. Belakhov V.V., Garabadzhiu A.V., Chistyakova T.B. Polyene Macrolide Antibotic Derivatives: Preparation, Overcoming Drug Resistance, and Prospects for Use in Medical Practice (Review) // Pharmaceutical Chemistry Journal. 2019. Vol. 52. No 11. P. 890-901. DOI 10.1007/s11094-019-01922-3.

23. Cureton E.E., D'Agostino R.B. Factor Analysis // Psychology Press. 2013. doi:10.4324/9781315799476.

24. Kobzar' A.I. Prikladnaya matematicheskaya statistika // Fizmatlit. 2006. 816 s.

25. M. Allen. Factor Analysis: Varimax Rotation // The SAGE Encyclopedia of Communication Research Methods. 2017.

Сведения об авторах

Кравец Алла Григорьевна, д-р техн. наук, профессор, каф. «Системы автоматизированного проектирования и поискового конструирования» ВолгГТУ, Государственный университет «Дубна»; Alla G. Kravets, ORCID 0000-0003-1675-8652, Dr Sei. (Eng.), Professor, Department of Computer-aided design and exploratory design Systems Volgograd State Technical University;

Dubna State University, agk@gde.ru

Лошманов Вадим И., аспирант каф. «Системы автоматизированного проектирования и поискового конструирования» ВолгГТУ; Vadim I. Loshmanov,Department of Computer-aided design and exploratory design Systems Volgograd State Technical University

i Надоели баннеры? Вы всегда можете отключить рекламу.