Научная статья на тему 'КОМБИНИРОВАННЫЙ ПОДХОД К РЕКОНСТРУКЦИИ АССОЦИАТИВНЫХ СЕТЕЙ: ОБЪЕДИНЕНИЕ GRAPHSAGE И СТАТИСТИКИ СОВМЕСТНОЙ ВСТРЕЧАЕМОСТИ'

КОМБИНИРОВАННЫЙ ПОДХОД К РЕКОНСТРУКЦИИ АССОЦИАТИВНЫХ СЕТЕЙ: ОБЪЕДИНЕНИЕ GRAPHSAGE И СТАТИСТИКИ СОВМЕСТНОЙ ВСТРЕЧАЕМОСТИ Текст научной статьи по специальности «Медицинские технологии»

CC BY
4
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
графовые нейронные сети / молекулярно-генетические взаимодействия / автоматический анализ текстов / Escherichia coli / ANDSystеm / ANDDigest / GraphSAGE / graph neural networks / molecular-genetic interactions / text-mining / Escherichia coli / ANDSystem / ANDDigest / GraphSAGE

Аннотация научной статьи по медицинским технологиям, автор научной работы — Иванисенко Тимофей Владимирович, Деменков Павел Сергеевич, Иванисенко Владимир Александрович

Исследование посвящено разработке гибридного подхода к предсказанию молекулярно-генетических взаимодействий, объединяющего графовые нейронные сети (ГНС) и анализ совместной встречаемости сущностей в научной литературе. Эффективности метода продемонстрирована на примере ассоциативной сети Escherichia coli, реконструированной с использованием системы ANDSystem и ее модуля ANDDigest. Результаты показали значительное улучшение точности предсказания взаимодействий относительно соответствия топологии исходного графа, но сравнению е использованием только ГНС. Комбинация подходов позволила улучшить F1-меру c 0.815 до 0.97, а также снизить значение функции потерь c 0.405 до 0.08. Оценка на экспериментально подтвержденных белок-белок взаимодействиях также продемонстрировала высокую эффективность модели (F1-мера 0.9799, коэффициент корреляции Мэттьюса 0.9597). Предложенный метод может найти применение при анализе сложных биологических систем, планировании экспериментов и оптимизации биотехнологических процессов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по медицинским технологиям , автор научной работы — Иванисенко Тимофей Владимирович, Деменков Павел Сергеевич, Иванисенко Владимир Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMBINED APPROACH TO ASSOCIATIVE NETWORK RECONSTRUCTION: INTEGRATING GRAPHSAGE AND CO-OCCURRENCE STATISTICS

This study focuses on developing a hybrid approach for predicting molecular-genetic interactions, combining graph neural networks (GNNs) and co-occurrence analysis of entities in scientific literature. The method’s effectiveness is demonstrated using the associative network of Escherichia coli, reconstructed using the ANDSystem and its ANDDigest module. Results showed a significant improvement in the accuracy of interaction predictions, in terms of conformity to the original graph topology, compared to using GNNs alone. The combination of approaches improved the F1-score from 0.815 to 0.97 and reduced the loss function value from 0.405 to 0.08. Evaluation on experimentally confirmed protein-protein interactions also demonstrated high model efficiency (F1-score 0.9799, Matthews correlation coefficient 0.9597). The proposed method can be applied in analyzing complex biological systems, planning experiments, and optimizing biotechnological processes.

Текст научной работы на тему «КОМБИНИРОВАННЫЙ ПОДХОД К РЕКОНСТРУКЦИИ АССОЦИАТИВНЫХ СЕТЕЙ: ОБЪЕДИНЕНИЕ GRAPHSAGE И СТАТИСТИКИ СОВМЕСТНОЙ ВСТРЕЧАЕМОСТИ»

COMBINED APPROACH TO ASSOCIATIVE NETWORK RECONSTRUCTION: INTEGRATING GRAPHSAGE AND CO-OCCURRENCE STATISTICS

T.V. Ivanisenko, P. S. Demenkov, V.A. Ivanisenko

Kurchatov Genomic Center of ICG SB RAS, Novosibirsk 630090, Russia Institute of Cytology and Genetics, Siberian Branch of Russian Academy of Sciences (SB RAS), Novosibirsk 630090, Russia

DOI: 10.24412/2073-0667-2024-4-37-45 EDN: LEXHCE

This study focuses on developing a hybrid approach for predicting molecular-genetic interactions, combining graph neural networks (GNNs) and co-occurrence analysis of entities in scientific literature. The method's effectiveness is demonstrated using the associative network of Escherichia eoli, reconstructed using the ANDSvstem and its ANDDigest module. Results showed a significant improvement in the accuracy of interaction predictions, in terms of conformity to the original graph topology, compared to using GNNs alone. The combination of approaches improved the Fl-score from 0.815 to 0.97 and reduced the loss function value from 0.405 to 0.08. Evaluation on experimentally confirmed protein-protein interactions also demonstrated high model efficiency (Fl-score 0.9799, Matthews correlation coefficient 0.9597). The proposed method can be applied in analyzing complex biological systems, planning experiments, and optimizing bioteehnologieal processes.

Key words: graph neural networks, molecular-genetic interactions, text-mining, Escherichia eoli, ANDSystem, ANDDigest, GraphSAGE.

References

1. Bornmann L., Haunsehild R., Mutz R. Growth rates of modern science: a latent pieeewise growth curve approach to model publication numbers from established and new literature databases /7 Humanities and Social Sciences Communications. 2021. № 8. P. 224.

2. Kitano H. Systems biology: a brief review /7 Science. 2002. V. 295, № 5560. P. 1662 1664.

3. Zhou .J., Cui G., Hu S., Zhang Z., Yang C., Liu Z., Wang L., Li C., Sun M. Graph neural networks: A review of methods and applications /7 AI Open. 2020. V. 1. P. 57 81.

4. Scarselli F., Gori M., Tsoi A. C., Hagenbuchner M., Monfardini G. The graph neural network model /7 IEEE Transactions on Neural Networks. 2008. V. 20, № 1. P. 61 80.

5. Kolchanov N.A., Ignat'eva E.V., Podkolodnava O.A., Likhoshvai V. A., Matushkin Yu. G. Gennve seti /7 Vavilovskii zhurnal genetiki i selektsii. 2013. T. 17, № 4/2. P. 833 850.

The work was carried out with funding from the Kurchatov Genome Center of the Federal Research Center of iCG SB RAS, agreement with the Ministry of Education and Science of the Russian Federation No 075-152019-1662. Calculations were carried out nsing the resources of the Bioinformatics Center for Collective Use.

(c) T.V. Ivanisenko, P.S. Demenkov, V.A. Ivanisenko, 2024

6. Zitnik M., Agrawal M., Leskovec J. Modeling polypharmacy side effects with graph convolutional networks // Bioinformatics. 2018. V. 34, № 13. P. i457-i466.

7. Ivanisenko T. V., Demenkov P. S., Kolchanov N.A., Ivanisenko V. A. The new version of the ANDDigest tool with improved Al-based short names recognition // International Journal of Molecular Sciences. 2022. V. 23, № 23. P. 14934.

8. Von Mering C., Jensen L. J., Snel B., Hooper S. D., Krupp M., Foglierini M. et al. STRING: known and predicted protein-protein associations, integrated and transferred across organisms // Nucleic Acids Research. 2005. V. 33, Suppl. 1. P. D433-D437.

9. Ivanisenko V. A., Saik O.V., Ivanisenko N.V. et al. ANDSvstem: an Associative Network Discovery System for automated literature mining in the field of biology // BMC Systems Biology. 2015. V. 9, Suppl. 2. P. S2.

10. Ivanisenko V. A., Demenkov P. S., Ivanisenko T.V., Mishchenko E.L., Saik O.V. A new version of the ANDSvstem tool for automatic extraction of knowledge from scientific publications with expanded functionality for reconstruction of associative gene networks by considering tissue-specific gene expression // BMC Bioinformatics. 2019. V. 20. P. 5-15.

11. Hamilton W. L., Ying R., Leskovec J. Inductive representation learning on large graphs // Advances in Neural Information Processing Systems. 2017. V. 30.

12. Blount Z.D. The unexhausted potential of E. coli // eLife. 2015. V. 4. P. e05826.

13. Pontrelli S., Chiu T.Y., Lan E.I., Chen F.Y., Chang P., Liao J.C. Escherichia coli as a host for metabolic engineering // Metabolic Engineering. 2018. V. 50. P. 16-46.

14. Choi K.R., Jang W. D., Yang D., Cho J.S., Park D., Lee S.Y. Systems metabolic engineering strategies: integrating systems and synthetic biology with metabolic engineering // Trends in Biotechnology. 2019. V. 37, № 8. P. 817-837.

15. Hermjakob H., Montecchi-Palazzi L., Lewington C., Mudali S., Kerrien S., Orchard S., Vingron M., Roechert B., Roepstorff P., Valencia A., Margalit H., Armstrong J., Bairoch A., Cesareni G., Sherman D., Apweiler R. IntAct: an open source molecular interaction database // Nucleic Acids Research. 2004. V. 32, Suppl. 1. P. D452-D455.

16. Wren J.D., Garner H.R. Shared relationship analysis: ranking set cohesion and commonalities within a literature-derived relationship network // Bioinformatics. 2004. V. 20, № 2. P. 191-198.

17. Ivanisenko T.V., Saik O.V., Demenkov P. S., Ivanisenko N.V., Savostianov A.N., Ivanisenko V. A. ANDDigest: a new web-based module of ANDSvstem for the search of knowledge in the scientific literature // BMC Bioinformatics. 2020. V. 21. P. 1-21.

18. Loshchilov I., Hutter F. Decoupled Weight Decay Regularization // International Conference on Learning Representations (ICLR). 2019.

КОМБИНИРОВАННЫЙ ПОДХОД К РЕКОНСТРУКЦИИ АССОЦИАТИВНЫХ СЕТЕЙ: ОБЪЕДИНЕНИЕ СКАРНЯАСЕ И СТАТИСТИКИ СОВМЕСТНОЙ ВСТРЕЧАЕМОСТИ

Т. В. Иваписепко, П. С. Деменков, В. А. Иваписепко

Курчатовский Геномный Центр ФИЦ ИЦиГ СО РАН, 630090, Новосибирск, Россия ФИЦ Институт цитологии и генетики СО РАН, 630090, Новосибирск, Россия

УДК 004.85, 577.2, 575.112

DOI: 10.24412/2073-0667-2024-4-37-45

EDX: LEXHCE

Исследование посвящено разработке гибридншх) подхода к предсказанию молекулярно-гснстичсских взаимодействий, объединяющих) графовые нейронные сети (ГНС) и анализ совместной встречаемости сущностей в научной литературе. Эффективность метода продемонстрирована на примере ассоциативной сети Escherichia coli, реконструированной с использованием системы ANDSvstem и ее модуля ANDDigest. Результаты показали значительное улучшение точности предсказания взаимодействий относительно соответствия топологии иеходншх) графа, но сравнению с использованием только ГНС. Комбинация подходов позволила улучшить Fl-меру с 0.815 до 0.97, а также снизить значение функции потерь с 0.405 до 0.08. Оценка на экспериментально подтвержденных белок-белок взаимодействиях также продемонстрировала высокую эффективность модели (Fl-мера 0.9799, коэффициент корреляции Мэттьюса 0.9597). Предложенный метод может найти применение при анализе сложных биологических систем, планировании экспериментов и оптимизации биотехнологичееких процессов.

Ключевые слова: графовые нейронные сети, молекулярно-генетические взаимодействия, автоматический анализ текстов, Escherichia coli, ANDSvstem, ANDDigest, GraphSAGE.

Введение. В настоящее время объем научной литературы увеличивается беспрецедентными темпами, со средним годовым ростом около 4,1 % и удвоением каждые 17 .нет |1|, Только база данных PnbMed содержит в себе более 37 миллионов аннотаций научных исследований, посвященных наукам о жизни и биомедицине, с ежегодным пополнением примерно на 1,5 миллиона документов. Такой обширный корпус опубликованных статей сильно осложняет дня исследователей возможности дня отслеживания релевантной информации. При этом изучение сложных биологических систем, а также планирование экспериментов невозможно без интеграции знаний из различных источников, таких как научная литература, курируемые базы данных и патенты |2|, и напрямую связано с полнотой анализируемой информации.

Работа выполнена за счет финансирования Курчатовского геномного центра ФИЦ ИЦиГ СО РАН, соглашение с Министерством образования и науки РФ № 075-15-2019-1662. Вычисления проводились с использованием ресурсов ЦКП «Биоинформатика».

(с) Т. В. Иваписепко, П. С. Демепков, В. А. Иваписепко, 2024

Графовая нейронная сеть (ГНС) — это класс нейронных сетей, предназначенных для обработки данных, которые могут быть представлены в виде графов [3]. ГНС произвели революцию в анализе структурированных данных, представленных в виде ассоциативных сетей. Их архитектура идеально подходит для моделирования сложных взаимосвязей между молекулярно-генетическими сущностями, соответствующими топологии графов [4]. В основе ГНС лежит принцип обработки данных, где информация распространяется по графовой структуре путем итеративного обновления представлений узлов на основе их локального окружения. Эта особенность позволяет эффективно выявлять как локальные (на уровне ближайшего окружения вершин), так и глобальные (на уровне всего графа) шаблоны взаимодействий в сложных биологических системах, В отличие от классических нейронных сетей, ГНС способны работать с нерегулярными структурами данных, где каждый узел может иметь произвольное количество связей, что особенно важно при анализе молекулярных взаимодействий и генных сетей,

В случае задач из области биологии в качестве ассоциативных сетей чаще всего рассматриваются генные сети, представляющие собой группы координирование функционирующих генов, взаимодействующих друг с другом как через свои первичные продукты (РНК и белки), так и через различные метаболиты и другие вторичные продукты функционирования [5].

Таким образом, ключевым преимуществом ГНС является их способность к обучению и распространению информации через узлы и ребра графа посредством итеративного процесса агрегации и обновления признаков. Это свойство делает их исключительно эффективными для решения таких задач, как предсказание новых связей, классификация узлов и кластеризация в биологических графах знаний. Важным свойством ГНС является их более высокая интерпретируемость в сравнении с другими методами глубокого машинного обучения [6].

Методы, основанные на совместной встречаемости, являются другим подходом для выявления взаимосвязей путем статистического обнаружения пар сущностей, которые значимо упоминаются вместе в одном контексте. Основными преимуществами этого класса являются простота реализации и высокая полнота извлечения информации. Примерами систем, использующих этот подход, являются ANDDigest [7] и STRING [8]. В то же время, основным недостатком такого подхода является высокий уровень ложноположительных результатов,

В данном исследовании нами предлагается гибридный подход к решению задачи предсказания новых взаимодействий между парами объектов графа. На примере ассоциативной сети бактерии Е. coli нами была продемонстрирована его эффективность в сравнении с использованием только ГНН, Разработанный метод объединяет два ключевых источника информации: 1) статистику совместной встречаемости пар сущностей из предопределенной онтологии, извлеченную из корпуса научных рефератов PubMed, и 2) векторные представления узлов графа знаний AND System [9, 10], полученные с помощью архитектуры графовых нейронных сетей GraphSAGE [11].

Escherichia coli является хорошо известным модельным организмом при проведении биологических исследований, включая связанные с промышленными биотехнологиями. Эта бактерия широко используется в различных областях биотехнологии благодаря высокой скорости роста ее популяции, простоте генетических манипуляций и хорошей изученности ее биологических процессов [12], В частности, Е. coli широко применяется при производстве рекомбинантных белков, биотоплива и других ценных метаболитов [13], Не-

Рис. 1. Общая схема гибридного метода предсказания взаимодействий между парами молекулярно-генетических сущностей из онтологии ANDSystem, основанного на комбинированном использовании графовых нейронных сетей и значений статистически значимых совстречаемостей этих

пар в научной литературе

следования на Е. coli часто служат основой для разработки новых биотехнологических процессов и оптимизации существующих производств [14].

Результаты нашего исследования применительно к ассоциативной сети из AND System для данного организма показали, что интеграция ГНН и информации о статистически значимой со-встречаемости пар молекулярно-генетических сущностей из ANDDigest повышает точность классификационной нейронной сети при решении задачи предсказания новых ребер. В частности, наша гибридная модель превосходит базовый подход GraphSAGE, использующий только векторные представления узлов.

1. Результаты и обсуждение. Общая схема разработанного метода представлена на рис. 1. На первом этапе выполнялась реконструкция графа знаний для организма Escherichia coli, согласно протоколу автоматического извлечения знаний, реализованному в системах ANDSystem и ANDDigest [7, 10]. На основе полученной топологии графа проводилась векторизация его вершин методом GraphSAGE, с одновременным обучением двоичной классификационной модели для предсказания вероятности ребра между парами.

Выбор GraphSAGE был обусловлен двумя факторами. Первый — это использование подвыборок: вместо обработки всей сети сразу, алгоритм выбирает ограниченное подмножество соседей каждого узла и часть их локального окружения, что значительно уменьшает объем обрабатываемых данных на каждом шаге, без существенной потери точности. Второй — это индуктивное обучение: поскольку признаки каждого узла вычисляются на основе его окружения, GraphSAGE может генерировать векторные представления для новых узлов, без необходимости повторного переобучения всей модели. Данная особенность имеет ключевое значение при работе с динамическими биологическими системами.

Таблица 1

Оценка точности двоичной классификационной модели на основе белок-белок взаимодействий в Escherichia Coli

Истинно Положительные (ИП) Предсказания Истинно Отрицательные (ПО) Предсказания Ложно Положительные (ЛП) Предсказания Ложно Отрицательные (ЛО) Предсказания Специфичность Точность

Точность классификации Р1-мера

Коэффициент корреляции Мэттьюса

99,452 96,475 3,525 548 0.9648 0.9658 0.9796 0.9799 0.9597

Обучение проводилось независимо двумя способами. В первом случае применялся алгоритм, описанный Hamilton и соавторами [11]. Во втором при обучении классификационной модели в качестве дополнительного входного признака к каждой паре добавлялось значение ее ео-ветречаемоети в литературе, которое бралось из БД ANDDigest (рис. 1). Критерием для остановки обучения в обоих случаях являлось отсутствие улучшений значения функции потерь двоичной классификационной модели на тестовой выборке в течение 50 эпох.

Интересно, что в случае отсутствия параметра ео-ветречаемоети обучение модели длилось только 145 эпох, точность классификационной модели на основе Fl-меры составила 0.815 при значении функции потерь (loss) 0.405. Добавление со-встречаемости увеличило продолжительность обучения до 2065 эпох, позволив улучшить Fl-меру до 0.97, а также снизить значение функции потерь до 0.08.

Для оценки соответствия предсказанных взаимодействий реальным биологическим процессам в бактерии в качестве положительных примеров нами было отобрано 100,000 экспериментально подтвержденных белок-белок взаимодействий ANDSystem, экстрагированных на основе базы данных молекулярных взаимодействий Int Act [15]. Отрицательные примеры формировались на основе случайного выбора аналогичного числа пар векторных представлений белков, не имевших ребер в исходном графе [16]. В обоих случаях рассматривались только примеры, не использовавшиеся при обучении классификационной модели. Полученные результаты приведены в табл. 1.

2. Материалы и методы. Исследование проводилось на основе ассоциативной сети биологических взаимодействий Escherichia coli, экстрагированной из базы знаний ANDSystem [9, 16]. После конвертации в унимодальную неориентированную форму структура графа включала в себя 143,858 вершин и 29,934,978 ребер.

Обучение и сохранение моделей осуществлялось на основе скрипта, реализованного на языке Python версии 3.8, с использованием библиотек DGL (vO.8.1) и PyTorch (v2.1.0). Предобработка данных реализована с использованием библиотек Xumi'у (vi.26.0) и Pandas (vi.4.2). Оценка точности моделей производилась с помощью Seikit-learn (vi. 1.3).

Узлы графа представлялись 14-мерными векторами признаков, где каждая размерность соответствовала типу вершины. Модель энкодера узлов состояла из двух скрытых графовых еверточных слоев типа SAGEConv (GraphSAGE) с агрегацией по среднему значению. Таким образом, вычисление эмбеддингов узлов производилось на основе усред-

ценных векторов признаков выбранного подмножества соседних вершин. Каждый слой содержал 32 нейрона с функцией активации ReLU для введения нелинейности.

Предсказание вероятности существования ребра между парой узлов осуществлялось многослойным перцептроном (МСП), реализованным как двоичный классификатор. Входными данными для предиктора служила конкатенация векторных представлений исходного и целевого узлов, а также признака ребра, представленного p-value совместной встречаемости рассматриваемой пары в научной литературе, извлекаемого из БД ANDDigest, Размерность входного вектора составляла 65, Скрытый слой МСП имел 32 нейрона с активацией ReLU, что обеспечивало вычисление скалярной оценки для каждого ребра, индицирующей вероятность взаимодействия.

Для предсказания взаимодействий решалась задача двоичной классификации с применением функции потерь двоичной кросс-энтропии с логитами, В качестве оптимизатора использовался AdamW [18] с коэффициентом обучения 0,01, комбинирующий адаптивные скорости обучения с Ь2-регуляризацией весов для предотвращения переобучения. Максимальная продолжительность тренировки моделей составляла 5,000 эпох с вычислением метрик каждые 5 эпох. При отсутствии улучшений значения функции потерь на контрольном наборе примеров в течение 50 эпох производились прекращение обучения и сохранение моделей с лучшими значениями функции потерь, а также соответствующих им векторных представлений вершин графа.

Заключение, Комбинирование методов на основе ГНС и классических методов анализа текстов позволяет более эффективно идентифицировать потенциальные взаимодействия между молекулярно-генетичеекими сущностями, предсказывать неизвестные ассоциации и раскрывать базовые процессы в соответствии с исходной топологией графа.

Предложенный гибридный подход, объединяющий архитектуру GraphSAGE и информацию о статистически значимой со-встречаемости пар из ANDDigest, продемонстрировал существенное улучшение точности предсказания новых ребер в ассоциативной сети Е. coli по сравнению с использованием только ГНС,

Добавление параметра ео-ветречаемоети улучшило эффективность предсказательной модели, повысив в процессе обучения Fl-меру с 0,815 до 0,97 и снизив функцию потерь с 0,405 до 0,08, Оценка на экспериментально подтвержденных белок-белковых взаимодействиях показала высокую точность модели со значением Fl-меры 0,9799 и коэффициентом корреляции Мэттьюса 0,9597,

Таким образом, разработанный комбинированный метод может быть полезен для более эффективного предсказания новых взаимодействий, согласующихся с онтологической моделью, В частности, данный метод может применяться при решении задач анализа сложных биологических систем, планировании экспериментов и оптимизации биотехнологических процессов, особенно в контексте быстро растущего объема научной литературы.

Список литературы

1. Bornmann L., Haunschild R., Mutz R. Growth rates of modem science: a latent piecewise growth curve approach to model publication numbers from established and new literature databases // Humanities and Social Sciences Communications. 2021. № 8. P. 224.

2. Kitano H. Systems biologv: a brief review // Science. 2002. V. 295, № 5560. P. 1662-1664.

3. Zhou J., Cui G., Hu S., Zhang Z., Yang C., Liu Z., Wang L., Li C., Sun M. Graph neural networks: A review of methods and applications //AI Open. 2020. Y. 1. P. 57-81.

4. Searselli F., Gori М., Tsoi А. С., Hagcnbuchncr М., Monfardini G. The graph neural network model /7 IEEE Transactions on Neural Networks. 2008. V. 20, № 1. P. 61 80.

5. Колчанов H.A., Игнатьева E. В., Подколодная О. А., Лихошвай В. А., Матушкин Ю.Г. Генные сети /7 Вавиловский журнал генетики и селекции. 2013. Т. 17, № 4/2. С. 833 850.

6. Zitnik М., Agrawal М., Leskovee J. Modeling polypharmacy side effects with graph convolutional networks /7 Bioinformatics. 2018. V. 34, № 13. P. i457-i466.

7. Ivanisenko T.V., Dcmcnkov P. S., Kolehanov N.A., Ivanisenko V. A. The new version of the ANDDigest tool with improved Al-based short names recognition /7 International Journal of Molecular Sciences. 2022. V. 23, № 23. P. 14934.

8. Von Mering C., Jensen L. J., Snel В., Hooper S. D., Krupp M., Foglierini M. et al. STRING: known and predicted protein protein associations, integrated and transferred across organisms /7 Nucleic Acids Research. 2005. V. 33, Suppl. 1. P. D433-D437.

9. Ivanisenko V. A., Saik O.V., Ivanisenko N.V. et al. ANDSystem: an Associative Network Discovery System for automated literature mining in the field of biology /7 BMC Systems Biology. 2015. V. 9, Suppl. 2. P. S2.

10. Ivanisenko V. A., Dcmcnkov P. S., Ivanisenko T.V., Mishehenko E.L., Saik O.V. A new version of the ANDSystem tool for automatic extraction of knowledge from scientific publications with expanded functionality for reconstruction of associative gene networks by considering tissue-specific gene expression /7 BMC Bioinformatics. 2019. V. 20. P. 5 15.

11. Hamilton W. L., Ying R., Leskovee J. Inductive representation learning on large graphs /7 Advances in Neural Information Processing Systems. 2017. V. 30.

12. Blount Z.D. The unexhausted potential of E. eoli /7 cLifc. 2015. V. 4. P. e05826.

13. Pontrclli S., Chiu T.Y., Lan E.I., Chen F.Y., Chang P., Liao J.C. Escherichia eoli as a host for metabolic engineering /7 Metabolic Engineering. 2018. V. 50. P. 16 46.

14. Choi K.R., Jang W. D., Yang D., Cho J.S., Park D., Lee S.Y. Systems metabolic engineering strategics: integrating systems and synthetic biology with metabolic engineering /7 Trends in Biotechnology. 2019. V. 37, № 8. P. 817 837.

15. Hermjakob H., Montccchi-Palazzi L., Lewington C., Mudali S., Kcrrien S., Orchard S., Vingron M., Rocchert В., Rocpstorff P., Valencia A., Margalit H., Armstrong J., Bairoch A., Cesarcni G., Sherman D., Apweilcr R. IntAct: an open source molecular interaction database /7 Nucleic Acids Research. 2004. V. 32, Suppl. 1. P. D452-D455.

16. Wren J.D., Garner H.R. Shared relationship analysis: ranking set cohesion and commonalities within a literature-derived relationship network /7 Bioinformatics. 2004. V. 20, № 2. P. 191 198.

17. Ivanisenko T.V., Saik O.V., Dcmcnkov P. S., Ivanisenko N.V., Savostianov A.N., Ivanisenko V. A. ANDDigest: a new web-based module of ANDSystem for the search of knowledge in the scientific literature /7 BMC Bioinformatics. 2020. V. 21. P. 1 21.

18. Loshehilov I., Hutter F. Decoupled Weight Decay Regularization /7 International Conference on Learning Representations (ICLR). 2019.

Иванисенко Тимофей Владимирович науч. сотрудник Института цитологии и генетики СО РАН. Окончил факультет Информационно-вы числительных технологий СибГУТИ но специальности обеспечение вычислительных систем» в 2008 году. В сфере его научных интересов: биоинформатика, компьютерная про-

теомика, автоматический анализ текстов, машинное обучение и искусственный интеллект, включая графовые нейронные сети и большие языковые модели. E-mail: itv@bionet .nsc.ru.

Timofey V. Ivanisenko Researcher at the Institute of Cytology and Genetics, SB RAS. Graduated from the Faculty of Information and Computational Technologies at Siberian State University of Telecommunications and Information Sciences (SibSUTIS) in 2008 with

a degree in "Software for Computer Systems". His research interests include bioinformatics, computational proteomics, automated text analysis, machine learning, and artificial intelligence, including graph neural networks and large language models. Email: [email protected]. ru.

Деменков Павел Сергеевич — канд. техн. наук, научный сотрудник Института цитологии и генетики СО РАН. Окончил НГУ в 2005 году по специальности «Прикладная математика и информатика». Защитил кандидатскую диссертацию в 2008 году. Области научных интересов: биоинформатика, генные сети, системная биология, большие геномные данные, ИИ в биологии, text-mining . E-mail: [email protected].

Pavel S. Demenkov — Candidate of Technical Sciences (PhD), Researcher at the Institute of Cytology and Genetics, SB RAS. Graduated from Novosibirsk State University (NSU) in 2005 with a degree in "Applied Mathematics and Informatics". Defended his PhD dissertation in 2008. His research interests include

bioinformatics, gene networks, systems biology, large genomic data, AI in biology, and text mining . Email: [email protected].

Иванисенко Владимир Александрович — канд. биол. наук, доцент, заведующий лабораторией компьютерной протеомики и лабораторией искусственного интеллекта и больших геномных данных ИЦиГ СО РАН. Области научных интересов: биоинформатика, генные сети, структурная биология, системная биология, большие геномные данные, ИИ в биологии, text-mining. E-mail: [email protected].

Vladimir Alexandrovich Ivanisenko — PhD in Biology, associate professor, the head of the Laboratory of Computational Proteomics and the Laboratory of Artificial Intelligence and Big Genomic Data at the Institute of Cytology and Genetics of the Siberian Branch of the Russian Academy of Sciences. Areas of scientific interest: bioinformatics, gene networks, structural biology, systems biology, big genomic data, AI in biology text mining. E-mail: [email protected].

Дата поступления — 02.11.2024

i Надоели баннеры? Вы всегда можете отключить рекламу.