Научная статья на тему 'ОТБОР ЗНАЧИМЫХ ПРИЗНАКОВ ДЛЯ СОЗДАНИЯ ЭФФЕКТИВНОЙ МОДЕЛИ КЛАССИФИКАЦИИ ГЕПАТОТОКСИЧНЫХ СОЕДИНЕНИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ПОМОЩИ КОМБИНИРОВАННОГО НАБОРА ДАННЫХ'

ОТБОР ЗНАЧИМЫХ ПРИЗНАКОВ ДЛЯ СОЗДАНИЯ ЭФФЕКТИВНОЙ МОДЕЛИ КЛАССИФИКАЦИИ ГЕПАТОТОКСИЧНЫХ СОЕДИНЕНИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ПОМОЩИ КОМБИНИРОВАННОГО НАБОРА ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
49
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННОЕ ОБУЧЕНИЕ / ГЕПАТОТОКСИЧНОСТЬ / DILI

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бурцев В.Д., Митричев И.И.

В данной работе рассмотрен процесс отбора значимых признаков для создания эффективной модели бинарной классификации гепатотоксичности химических соединений с помощью методов машинного обучения при использовании комбинированного набора данных, собранного из различных источников. Также был проведён анализ найденных значимых признаков для сбора информации о том, как ключевые признаки влияют на классификацию гепатотоксичных соединений

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бурцев В.Д., Митричев И.И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SELECTION OF RELEVANT FEATURES TO CREATE AN EFFECTIVE MODEL FOR CLASSIFICATION OF HEPATOTOXIC COMPOUNDS USING MACHINE LEARNING METHODS WTH A COMBINED DATASET

This paper considers the process of selecting relevant features to create an effective model for binary classification of hepatotoxicity of chemical compounds using machine learning methods with a combined set of data collected from various sources. An analysis of the relevant features found was also performed to gather information on how key features influence the classification of hepatotoxic compounds

Текст научной работы на тему «ОТБОР ЗНАЧИМЫХ ПРИЗНАКОВ ДЛЯ СОЗДАНИЯ ЭФФЕКТИВНОЙ МОДЕЛИ КЛАССИФИКАЦИИ ГЕПАТОТОКСИЧНЫХ СОЕДИНЕНИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ПОМОЩИ КОМБИНИРОВАННОГО НАБОРА ДАННЫХ»

УДК 544.169

Бурцев В.Д., Митричев И.И.

Отбор значимых признаков для создания эффективной модели классификации гепатотоксичных соединений с использованием методов машинного обучения при помощи комбинированного набора данных

Бурцев Валентин Дмитриевич - магистр 2-го года обучения кафедры информационных компьютерных технологий; golovkin valentin@mail.ru.

Митричев Иван Игоревич - к.т.н., доцент кафедры информационных компьютерных технологий; ФГБОУ ВО «Российский химико-технологический университет им. Д.И. Менделеева», Россия, Москва.

В данной работе рассмотрен процесс отбора значимых признаков для создания эффективной модели бинарной классификации гепатотоксичности химических соединений с помощью методов машинного обучения при использовании комбинированного набора данных, собранного из различных источников. Также был проведён анализ найденных значимых признаков для сбора информации о том, как ключевые признаки влияют на классификацию гепатотоксичных соединений.

Ключевые слова: машинное обучение, гепатотоксичность, DILI.

Selection of relevant features to create an effective model for classification of hepatotoxic compounds using machine learning methods wth a combined dataset Burtsev V.D., Mitrichev I.I.

D. Mendeleev University of Chemical Technology of Russia, Moscow, Russian Federation

This paper considers the process of selecting relevant features to create an effective model for binary classification of hepatotoxicity of chemical compounds using machine learning methods with a combined set of data collected from various sources. An analysis of the relevant features found was also performed to gather information on how key features influence the classification of hepatotoxic compounds. Key words: machine learning, hepatotoxicity, DILI.

Введение

Печень как орган, который первым вступает в контакт с большинством продуктов пищеварения, играет решающую роль в обмене энергией и биотрансформации ксенобиотиков. А, как правило, страдающая от повреждений печень часто нарушает нормальный обмен веществ, что может приводить к печеночной недостаточности [1]. В течение последних десятилетий одним из основных видов повреждения печени является лекарственное повреждение печени (DILI), которое также является наиболее частой причиной прекращения программ разработки различных лекарств. Кроме того, за последние полвека сотни лекарств были изъяты с рынка и отклонены как кандидаты в лекарства из-за разрушающего воздействия на печень [2].

Современные методы оценки риска для здоровья, связанного с химическими веществами, требуют проведения исследований по тестированию in vivo [3] (на животных) и in vitro [4] (на культурах), которые довольны затратны по количеству требуемого времени, ресурсов, а также непрактичны для оценки тысяч химических веществ [5]. Кроме того, DILI, вызванный большинством лекарств, имеет специфическую природу и обычно плохо коррелирует с данными нормативных экспериментов по токсичности на животных или клетках [6]. Химические соединения, вызывающие тяжелую форму DILI у людей, обычно не проявляют явной гепатотоксичности у животных, а также не имеют явной зависимости гепатотоксичности от концентрации [7]. Механизмы, лежащие в основе

DILI, сложны и разнообразны, и до конца не выяснены, что затрудняет токсикологические исследования DILI.

Таким образом, разработка новых инструментов и подходов для лучшего прогнозирования риска DILI у человека стала важной проблемой. Вычислительные методы имеют ряд преимуществ, таких как дешевизна и скорость получения результатов, поэтому большие усилия были направлены на разработку in silico подходов для прогнозирования DILI с помощью моделей количественных соотношений структура-свойство (QSAR - Quantitative structure-activity relationship), которые строятся с помощью машинного обучения (ML - Machine learning).

Сбор и подготовка данных

Для того чтобы использовать методы машинного обучения для прогнозирования гепатотоксичности химических соединений, необходимо подготовить набор данных, на котором смог бы обучаться алгоритм ML. Подготовка набора данных в данной работе происходила поэтапно:

1. Поиск работ, посвящённых классификации гепатотоксичности химических соединений, и извлечение из найденных работ наборов данных.

2. Объединение наборов в единый комбинированный набор данных и обработка комбинированного набора.

3. Расчёт молекулярных дескрипторов (признаков).

На первом этапе подготовки комбинированного набора данных всего было собрано 13 наборов данных из 9 источников [8-16], наборы данных суммарно

состоят из 4589 соединений (2369 DILI-положительных, 2220 DILI-отрицательных). Под DILI-положительными соединениями понимаются соединения, для которых экспериментально подтверждено что данные соединения могут вызывать повреждения печени. Данные в результирующем наборе представлены в виде пар: формула соединения в формате SMILES и метка класса гепатотоксичности (pos - DILI-положительно, neg - DILI-отрицательно)

На втором этапе производилось объединение найденных наборов в единый комбинированный набор данных, а также обработка данных, в ходе которой удалялись дубликаты формул соединений и соединения с неопределённой гепатотоксичностью, т.е. такие соединения, которые присутствуют в разных наборах данных, но при этом имеют разные классы гепатотоксичности, т.к. нельзя с достаточной долей вероятности отнести эти соединения к одному из классов. Всего в итоге обработки комбинированного набора данных осталось 3069 соединений (1508 DILI-положительных, 1561 DILI-отрицательных).

На третьем этапе проводился расчёт молекулярных дескрипторов и молекулярных структурных отпечатков, которые выступают в качестве признаков, характеризующих каждую отдельно взятую молекулу. Для расчёта дескрипторов использовалась программа PaDEL-descriptor. PaDEL-descriptor - это open source программное обеспечение, которое позволяет рассчитывать 1875 дескрипторов и 12 типов молекулярных отпечатков (суммарно 2756 признаков). Молекулярные дескрипторы - параметры, характеризующие структуру органического

соединения, численно выражающие уникальные особенности этой структуры, например, дескриптором может быть молекулярная масса или число атомов азота. Молекулярные отпечатки - бинарные признаки, которые содержат информацию о присутствии в молекуле соединения определённых структурных элементов, например, бензольных колец.

В итоге был получен набор данных, состоящий из 3010 соединений (1479 DILI-положительных, 1531 DILI-отрицательных) и 2756 признаков (молекулярных дескрипторов и структурных отпечатков). Часть соединений (59 соединений) было исключено из набора данных т.к. для них из-за структурных особенностей не удалось рассчитать часть дескрипторов, что считается оправданным т.к. было исключено лишь 2% данных от общего числа. Процесс формирования комбинированного набора данных показан на рис. 1.

Ннбиры.

Рис. 1. Схема формирования комбинированного набора данных.

Модель

Для предсказания гепатотоксичности в данной работе использована искусственная нейронная сеть -перцептрон - с одним скрытым слоем, состоящим из 110 нейронов. Входами модели являются значения дескрипторов, а выходом - бинарная оценка, токсично ли вещество для печени или нет. Валидация моделей проводилась с помощью 10-кратной перекрёстной проверки. Основным инструментов в данной работе являлся язык программирования python 3 (версия 3.9.5), для работы с машинным обучением использовалась библиотека scikit-learn (версия 1.1.3), а также библиотека LIME (0.2.0.1) для интерпретации моделей ML.

Отбор признаков

После подготовки комбинированного набора данных проводился отбор значимых признаков. Отбор признаков позволяет значительно сократить размерность классификационной модели, что положительно сказывается на точности классификации и приводит к снижению сложности модели, а также упрощает анализ влияния дескрипторов на поведение модели. Но, к сожалению, отбор признаков также является крайне ресурсозатратной процедурой. В данной работе отбор дескрипторов проводился в 2 этапа:

1. Применение методов фильтрации.

2. Применение модифицированного алгоритма

жадного обратного исключения.

На первом этапе к текущему набору признаков был применен метод фильтрации, основанный на отсеве неинформативных признаков, т.е. происходило удаление признаков, принимавших единственное значение для всего набора данных, иными словами, были удалены невариативные признаки. Благодаря фильтрации начальное количество дескрипторов равное 2756 снизилось до 2291, что позволило снизить размерность на 17% от изначального количества признаков. Но число признаков равное 2291 при текущем размере набора данных (3010 соединений) все ещё является неудовлетворительным, т.к. отношение количества химических соединений к числу дескрипторов менее 100, что можно считать нехваткой химических соединений или избытком признаков.

На втором этапе для продолжения процесса отбора признаков применялся модифицированный алгоритм жадного обратного исключения. Жадное обратное исключение - это алгоритм на каждой итерации которого происходит удаление определённого количества нерелевантных признаков из начального множества признаков. Суть алгоритма заключается в использовании выбранной модели классификации на каждой итерации алгоритма отбора с различными подмножествами признаков для определения и удаления признаков, без которых модель показывает лучшие характеристики. Модификация алгоритма жадного обратного исключения заключалась в разделении изначального множества признаков на определённое число подмножеств признаков, из которых затем с помощью классического обратного

исключения удалялся один признак, после этого происходило объединение подмножеств и повторение процедуры. Схема, описывающая принцип действия модифицированного алгоритма жадного обратного исключения представлена на рис. 2.

Рис. 2. Схема принципа действия модифицированного алгоритма жадного обратного исключения.

Для отбора признаков в этой работе было выбрано использовать подмножества, состоящие из 10 признаков, что означает что на каждой итерации алгоритм исключал 10% от количества признаков, полученного на прошлой итерации. Такой подход был выбран для снижения временных затрат на отбор признаков, т.к. удаление одного признака из 10 занимает значительно меньше времени чем постепенное удаление признаков из набора с 2291 признаками. К минусам описанного выше подхода можно отнести возможность удаления признаков значимых для большей доли множества признаков при неудачном делении на подмножества.

В итоге были получены данные об изменении точности модели классификации в зависимости от множеств признаков, выбранных модифицированным алгоритмом жадного обратного исключения на каждой из итераций, которые представлены на рис. 3.

1вменение точности классификация при снижении размерности

310279251 226203 18316514813312010S 97 87 78 70 63 57 51 16 41 37 33 30 27 24 22 20 18 16 14 13 Число дескрипторов

Рис. 3. График изменения точности классификации при снижении размерности с максимумом точности и точкой, при которой достигается минимальное число дескрипторов достаточное для достижения 80% точности.

По рис. 3 можно заметить, что максимум точности классификационной модели достигается при числе признаков равном 251. Также можно наблюдать, что при снижении размерности с числа дескрипторов равному 2291, наблюдается положительный тренд роста точности, который достигает максимума точности при множестве дескрипторов, состоящем из 251 (11% от числа дескрипторов полученных во время первого этапа отбора) дескриптора, после прохождения максимума точность классификации снижается, но остаётся выше 80% вплоть до снижения числа дескрипторов до количества равному 18, т.е. иными словами для достижения точности чуть более 80% достаточно 18 дескрипторов (0.8% от числа дескрипторов полученных во время первого этапа отбора). Более подробно максимум точности при 251 дескрипторе, а также точка достижения минимального набора дескрипторов достаточного для достижения точности в 80% показаны на рис. 4.

В итоге был получен набор признаков, обеспечивающий точность классификации равную 84%, а также минимальный набор дескрипторов достаточный для достижения точности в 80%.

Анализ влияния дескрипторов на поведение модели

В заключительной части данной работы проводился анализ влияния дескрипторов на поведение модели, что дало информацию о том, как значения дескрипторов влияют на то, к какому классу гепатотоксичности будет отнесено соединение при классификации. Для интерпретации процесса классификации

использовалась библиотека языка python - LIME, которая позволяет получить локально интерпретируемое объяснение классификации, не зависящее от устройства используемой модели. В итоге было составлено две таблицы:

1. Таблица №1, в которой описаны топ 5 DILI-положительных и топ 5 DILI-отрицательных дескрипторов для набора, состоящего из 251 дескриптора, при котором модель достигла максимума точности классификации (84%).

2. Таблица №2, в которой описаны топ 5 DILI-положительных и топ 5 DILI-отрицательных дескрипторов для набора, состоящего из 18 дескрипторов, при котором модель достигла достаточной точности классификации (80%).

Топ-5: DILI-отрицательные дескрипторы Топ-5: DILI-положительные дескрипторы

№ Дескриптор (с диапазоном значений) Важность Дескриптор (с диапазоном значений) Важность

1 RDF20s > 0.14 0,0932 SpMin6 Bhm > 0.66 0,1161

2 ndO > 0.33 0,0922 PubchemFP488 <= -0.13 0,1115

3 SpMin3 Bhs > 0.74 0,0916 nsOH > 0.23 0,0963

4 SpMax7 Bhs > 0.56 0,0889 ATSC3s <= -0.40 0,0913

5 ATSCle <= -0.16 0,0855 ZMIC4 > 0.29 0,0901

Таблица №1. Топ 5 DILI-положительных и DILI-отрщательных дескрипторов для набора, состоящего из 251

дескриптора.

Таблица №2. Топ 5 DILI-положителъных и DILI-отрицателъных дескрипторов для набора, состоящего из 18

дескрипторов.

Топ-5: DILI-отрицательные деск рипторы Топ-5: DILI-положительные дескрипторы

№ Дескриптор (с диапазоном значений) Важность Дескриптор (с диапазоном значений) Важность

1 SpMinl Bhs > 0.65 0,1073 nsssCH > 0.16 0,1049

2 3 SpMax2 Bhe > 0.60 ALogP <= -0.50 0,0834 0,0730 ETA Epsilon 3 > 0.60 -0.56 < MATS4m <= -0.03 0,0865 0,0502

4 -0.62 < ETA Epsilon 5 <= -0.06 0,0578 ATSC4s > 0.35 0,0277

5 SssNH <= -0.53 0,0481 -0.70 < CIC2 <= -0.15 0,0116

Заключение

В данной работе был проведён сбор и подготовка комбинированного набора данных для создания модели классификации гепатотоксичности методами машинного обучения. На основе собранного набора данных был проведён отбор дескрипторов гепатотоксичности, что позволило довольно сильно сократить размерность модели, а также повысить точность классификации. Был найденный набор дескрипторов, при котором достигается наименьшее число дескрипторов, по при этом сохраняется достаточная точность. После отбора признаков был проведён анализ влияния дескрипторов на модель, а также получена информация о том, как каждый конкретный дескриптор способен влиять на оценку гепатотоксичности соединения.

Список литературы

1. Real M. et al. Drug-induced liver injury: highlights of the recent literature //Drug safety. - 2019. - Т. 42. - С. 365-387.

2. Regev A. Drug-induced liver injury and drug development: industry perspective //Seminars in liver disease. - Thieme Medical Publishers, 2014. - Т. 34. - №. 02. - С. 227-239.

3. Mattes W. et al. Detection of hepatotoxicity potential with metabolite profiling (metabolomics) of rat plasma //Toxicology letters. - 2014. - Т. 230. - №. 3. - С. 467-478.

4. Tomida T. et al. Multiparametric assay using HepaRG cells for predicting drug-induced liver injury //Toxicology letters. - 2015. - Т. 236. - №. 1. - С. 16-24.

5. Anastas P., Teichman K., Hubal E. C. Ensuring the safety of chemicals //Journal of exposure science & environmental epidemiology. - 2010. - Т. 20. - №. 5. - С. 395-396.

6. Chen M., Borlak J., Tong W. Predicting idiosyncratic drug-induced liver injury-some recent

advances //Expert Review of Gastroenterology & Hepatology. - 2014. - Т. 8. - №. 7. - С. 721-723.

7. Guidance for industry drug-induced liver injury: premarketing clinical evaluation : сайт. - URL: https://www.fda.gov/media/116737/ (дата обращения: 23.05.2023)

8. Ai H. et al. Predicting drug-induced liver injury using ensemble learning methods and molecular fingerprints //Toxicological Sciences. - 2018. - Т. 165. - №. 1. - С. 100107.

9. Zhang C. et al. In silico prediction of drug induced liver toxicity using substructure pattern recognition method //Molecular informatics. - 2016. - Т. 35. - №. 3-4. - С. 136144.

10. Kotsampasakou E., Montanari F., Ecker G. F. Predicting drug-induced liver injury: The importance of data curation //Toxicology. - 2017. - Т. 389. - С. 139-145.

11. He S. et al. An in silico model for predicting drug-induced hepatotoxicity //International journal of molecular sciences. - 2019. - Т. 20. - №. 8. - С. 1897.

12. Xu Y. et al. Deep learning for drug-induced liver injury //Journal of chemical information and modeling. -2015. - Т. 55. - №. 10. - С. 2085-2093.

13. Chen M. et al. Quantitative structure-activity relationship models for predicting drug-induced liver injury based on FDA-approved drug labeling annotation and using a large collection of drugs //toxicological sciences. - 2013. -Т. 136. - №. 1. - С. 242-249.

14. Liew C. Y., Lim Y. C., Yap C. W. Mixed learning algorithms and features ensemble in hepatotoxicity prediction //Journal of computer-aided molecular design. -2011. - Т. 25. - С. 855-871.

15. Greene N. et al. Developing structure- activity relationships for the prediction of hepatotoxicity //Chemical research in toxicology. - 2010. - Т. 23. - №. 7. - С. 12151222.

16. Xu J. J. et al. Cellular imaging predictions of clinical drug-induced liver injury //Toxicological sciences. - 2008. -Т. 105. - №. 1. - С. 97-105.

i Надоели баннеры? Вы всегда можете отключить рекламу.