Научная статья на тему 'БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ И ОБЗОР ТРЕНДОВЫХ ТЕМ ПО БИОИНФОРМАТИКЕ В КОЛЛЕКЦИИ PUBMED (научный обзор литературы)'

БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ И ОБЗОР ТРЕНДОВЫХ ТЕМ ПО БИОИНФОРМАТИКЕ В КОЛЛЕКЦИИ PUBMED (научный обзор литературы) Текст научной статьи по специальности «Фундаментальная медицина»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
библиометрический анализ / прогноз / трендовые темы / англоязычная научная литература / биоинформатика / bibliometric analysis / forecast / trending topics / English-language scientific literature / bioinformatics

Аннотация научной статьи по фундаментальной медицине, автор научной работы — М.М. Шарнин

Цели исследования: из имеющихся в литературе работ по биоинформатике выявить трендовые темы и перспективные направления, имеющие наиболее долговременные растущие тренды по количеству статей и цитирований; выявить характерные и трендовые ключевые слова; дать обзор биоинформатики в целом с точки зрения наиболее актуальных тем и перспективных направлений. Материалы и методы исследования. Проанализированы иностранные источники литературы из коллекции PubMed. Использован новый метод прогнозного библиометрического анализа на основе пакета машинного обучения CatBoost и визуальных семантических карт, отображающих цветом долговременность трендов ключевых слов. Результаты библиометрического анализа. В результате анализа выявлен значительный рост (в 570 раз) количества англоязычных работ по биоинформатическому анализу за 20 лет с 2002 по 2022 год. Также выявлены трендовые ключевые слова с прогнозируемым долгосрочным ростом трендов. Группы трендовых слов, часто встречающиеся вместе в заголовках статей, образуют трендовые темы/направления, образующие кластеры на визуальной семантической карте. Выявлены восемь трендовых тем в биоинформатике: (1) биоинформатический анализ на основе секвенирования одноклеточной РНК, (2) идентификация с помощью биоинформатического анализа и экспериментальной проверки, (3) расшифровка при миелодиспластических синдромах, (4) изучение молекулярных механизмов, (5) высокопроизводительная идентификация ключевых генов, (6) ключевые гены болезни Kawasaki и протеомика, (7) рабочий процесс для анализа патогенов, (8) машинное обучение. Обзор трендовых тем. Приведены трендовые ключевые слова из каждой трендовой темы и рассмотрены соответствующие научные работы. Заключение. Метод прогнозного библиометрического анализа успешно применим для поиска трендовых тем и направлений в биоинформатике. Приведенный краткий обзор статей, по каждой трендовой теме, более детально раскрывает темы и показывает взаимосвязь трендовых тем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по фундаментальной медицине , автор научной работы — М.М. Шарнин

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BIBLIOMETRIC ANALYSIS AND REVIEW OF TRENDING TOPICS IN BIOINFORMATICS IN THE PUBMED COLLECTION (scientific literature review)

Objectives of the study include the following: from the works available in the literature on bioinformatics, identify trending topics and promising directions that have the most long-term growing trends in the number of articles and citations; identify characteristic and trending keywords; give an overview of bioinformatics as a whole from the point of view of the most relevant topics and promising directions. Materials and methods of research. Foreign literature sources from the PubMed collection were analyzed. A new method of predictive bibliometric analysis was used based on the CatBoost machine learning package and visual semantic maps that display in color the long-term trends of keywords. Results of bibliometric analysis. The analysis revealed a significant increase (570 times) in the number of English-language works on bioinformatics analysis over 20 years from 2002 to 2022. Trending keywords with predicted long-term growth trends were also identified. Groups of trending words that often appear together in article titles form trending topics/trends that form clusters on the visual semantic map. Eight trending topics in bioinformatics have been identified: (1) bioinformatics analysis based on single-cell RNA sequencing, (2) identification using bioinformatics analysis and experimental validation, (3) deciphering in myelodysplastic syndromes, (4) studying molecular mechanisms, (5) high-throughput identification key genes, (6) Kawasaki disease key genes and proteomics, (7) pathogen analysis workflow, (8) machine learning. Review of trending topics. Trending keywords from each trending topic are listed and relevant research papers are reviewed. Conclusion. The method of predictive bibliometric analysis is successfully used to search for trending topics and directions in bioinformatics. The following brief overview of articles on each trending topic reveals the topics in more detail and shows the relationship of trending topics.

Текст научной работы на тему «БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ И ОБЗОР ТРЕНДОВЫХ ТЕМ ПО БИОИНФОРМАТИКЕ В КОЛЛЕКЦИИ PUBMED (научный обзор литературы)»

JOURNAL OF NEW MEDICAL TECHNOLOGIES - 2024 - Vol. 31, № 2 - P. 100-105

Раздел III ФИЗИКО-ХИМИЧЕСКАЯ БИОЛОГИЯ

Section III PHYSICAL AND CHEMICAL BIOLOGY

УДК: 575.112 DOI: 10.24412/1609-2163-2024-2-100-105 EDN OYLJVK

БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ И ОБЗОР ТРЕНДОВЫХ ТЕМ ПО БИОИНФОРМАТИКЕ

В КОЛЛЕКЦИИ PUBMED (научный обзор литературы)

М.М. ШАРНИН

Федеральный исследовательский центр «Информатика и управление» РАН, ул. Вавилова, д. 44, кор. 2, г. Москва, 119333, Россия

Аннотация. Цели исследования: из имеющихся в литературе работ по биоинформатике выявить трендовые темы и перспективные направления, имеющие наиболее долговременные растущие тренды по количеству статей и цитирований; выявить характерные и трендовые ключевые слова; дать обзор биоинформатики в целом с точки зрения наиболее актуальных тем и перспективных направлений. Материалы и методы исследования. Проанализированы иностранные источники литературы из коллекции PubMed. Использован новый метод прогнозного библиометрического анализа на основе пакета машинного обучения CatBoost и визуальных семантических карт, отображающих цветом долговременность трендов ключевых слов. Результаты библиометрического анализа. В результате анализа выявлен значительный рост (в 570 раз) количества англоязычных работ по биоинформатическому анализу за 20 лет с 2002 по 2022 год. Также выявлены трендовые ключевые слова с прогнозируемым долгосрочным ростом трендов. Группы трендовых слов, часто встречающиеся вместе в заголовках статей, образуют трендовые темы/направления, образующие кластеры на визуальной семантической карте. Выявлены восемь трендовых тем в биоинформатике: (1) биоинформатический анализ на основе секвенирования одноклеточной РНК, (2) идентификация с помощью биоинформатического анализа и экспериментальной проверки, (3) расшифровка при миелодиспластических синдромах, (4) изучение молекулярных механизмов, (5) высокопроизводительная идентификация ключевых генов, (6) ключевые гены болезни Kawasaki и протеомика, (7) рабочий процесс для анализа патогенов, (8) машинное обучение. Обзор трендовых тем. Приведены трендовые ключевые слова из каждой трендовой темы и рассмотрены соответствующие научные работы. Заключение. Метод прогнозного библиометрического анализа успешно применим для поиска трендовых тем и направлений в биоинформатике. Приведенный краткий обзор статей, по каждой трендовой теме, более детально раскрывает темы и показывает взаимосвязь трендовых тем.

Ключевые слова: библиометрический анализ, прогноз, трендовые темы, англоязычная научная литература, биоинформатика.

BIBLIOMETRIC ANALYSIS AND REVIEW OF TRENDING TOPICS IN BIOINFORMATICS

IN THE PUBMED COLLECTION (scientific literature review)

M.M. SHARNIN

Federal Research Center "Computer Science and Control" RAS, 44-2 Vavilova st. Moscow, 119333, Russia

Abstract. Objectives of the study include the following: from the works available in the literature on bioinformatics, identify trending topics and promising directions that have the most long-term growing trends in the number of articles and citations; identify characteristic and trending keywords; give an overview of bioinformatics as a whole from the point of view of the most relevant topics and promising directions. Materials and methods of research. Foreign literature sources from the PubMed collection were analyzed. A new method of predictive bibliometric analysis was used based on the CatBoost machine learning package and visual semantic maps that display in color the long-term trends of keywords. Results of bibliometric analysis. The analysis revealed a significant increase (570 times) in the number of English-language works on bioinformatics analysis over 20 years from 2002 to 2022. Trending keywords with predicted long-term growth trends were also identified. Groups of trending words that often appear together in article titles form trending topics/trends that form clusters on the visual semantic map. Eight trending topics in bioinformatics have been identified: (1) bioinformatics analysis based on single-cell RNA sequencing, (2) identification using bioinformatics analysis and experimental validation, (3) deciphering in myelodysplastic syndromes, (4) studying molecular mechanisms, (5) high-throughput identification key genes,

JOURNAL OF NEW MEDICAL TECHNOLOGIES - 2024 - Vol. 31, № 2 - P. 100-105

(6) Kawasaki disease key genes and proteomics, (7) pathogen analysis workflow, (8) machine learning. Review of trending topics. Trending keywords from each trending topic are listed and relevant research papers are reviewed. Conclusion. The method of predictive bibliometric analysis is successfully used to search for trending topics and directions in bioinformatics. The following brief overview of articles on each trending topic reveals the topics in more detail and shows the relationship of trending topics. Keywords: bibliometric analysis, forecast, trending topics, English-language scientific literature, bioinformatics.

Введение. Область биоинформатики стремительно развивается. За последние 20 лет количество статей по биоинформатике выросло в сотни раз и сейчас их количество в коллекции РыЪЫей более 11 тысяч. Такой большой объем информации может быть проанализирован с помощью методов искусственного интеллекта и машинного обучения, которые позволяют автоматически выявлять ключевые слова и делать долгосрочные прогнозы их трендов. Это приводит к трем основным целям исследования: (1) из имеющихся в литературе работ по биоинформатике выявить трендовые темы и перспективные направления, имеющие наиболее долговременные растущие тренды по количеству статей и цитирований; (2) выявить характерные и трендовые ключевые слова; (3) дать обзор биоинформатики в целом с точки зрения наиболее актуальных тем и перспективных направлений.

Материалы и методы исследования. В данной статье представлен библиометрический анализ и обзор трендовых тем в англоязычной научной ли-терауре по биоинформатике. Анализ выполнен на основе коллекции научных статей РыЪЫей на начало 2023 года, которые содержат миллионы статей и свободно представлены в Интернете. Библиометри-ческий анализ использует прогноз трендов ключевых слов, выполненный с помощью пакета машинного обучения СаЬБоовЬ [16] по методике, описанной в работах [2,3]. В результате библиометрического анализа выявлены трендовые ключевые слова, которые имеют долгосрочный прогноз роста их трендов. Результаты прогноза визуализированы с помощью алгоритма t-SNE на семантической карте. С помощью визуализации выявлены трендовые темы и направления, содержащие кластеры трендовых слов. Наиболее перспективные трендовые темы рассмотрены в приведенном ниже обзоре.

Результаты библиометрического анализа. В процессе библиографического анализа была полностью проанализирована коллекция PubMed для поиска трендовых ключевых слов. Коллекция PubMed по состоянию на начало 2023 года содержала более 34 миллионов статей. Для поиска и анализа характерных ключевых слов по биоинформатике из коллекции PubMed были выделены 11546 статьи, содержащие в заголовке слово "bioinformatics". Данные 11546 статей мы называем в дальнейшем Коллекци-ей-2. В процессе анализа Коллекции-2 были рассчитаны графики роста количества статей за последние годы (рис. 1*), а также характерные/релевантные

Рисунки данной статьи представлены на обложке 3

ключевые слова в Коллекции-2 и трендовые ключевые слова среди характерных.

Из рис. 1 видно, что наблюдается значительный рост количества ежегодно публикуемых научных статей со словами bioinformatics (биоинформатика) и bioinformatics analysis (биоинформатический анализ) в коллекции PubMed за последние годы. Так за последние 20 лет с 2002 по 2022 количество статей по биоинформатическому анализу выросло в 570 раз.

Характерными/релевантными мы считаем слова, которых относительно много в Коллекции-2 по сравнению с коллекцией PubMed. Список/рейтинг наиболее характерных ключевых слов в Коллекции-2: bioinformatics analysis (биоинформатический анализ), bioinformatics (биоинформатика), integrated bioinformatics (интегрированная биоинформатика), bioinformatics approach (биоинформатический подход), key genes (ключевые гены), genes (гены), bioinformatics tools (инструменты биоинформатики), hub genes (хаб-гены), bioinformatics analyses (биоинформатический анализ), carcinoma (карцинома), identification key (ключ идентификации), prognostic (прогностика), genes pathways (пути генов), structural bioinformatics (структурная биоинформатика), biomarkers (биомаркеры), bioinformatics methods (методы биоинформатики), cancer bioinformatics (биоинформатика рака), hepatocellular (гепатоцеллюлярная система), hepatocellular carcinoma (гепатоцеллюляр-ная карцинома), comprehensive bioinformatics (комплексная биоинформатика), adenocarcinoma (адено-карцинома), bioinformatics study (биоинформатиче-ское исследование), cell carcinoma (клеточная карцинома), integrative bioinformatics (интегративная биоинформатика), sequencing bioinformatics (биоинформатика секвенирования), genes associated (ассоциированные гены), bioinformatics-based (на основе биоинформатики), identification potential (потенциал идентификации), identification hub (центр идентификации), bioinformatics tool (инструмент биоинформатики), bioinformatics applications (приложения биоинформатики), biology bioinformatics (биоинформатика биологии), translational bioinformatics (трансляционная биоинформатика), proteomics bioinformatics (биоинформатика протеомики), bioinformatics pipeline (конвейер биоинформатики), carcinoma bioinformatics (биоинформатика карциномы), bioinformatics data (данные биоинформатики), bioinformatics research (исследования биоинформатики), differentially expressed (дифференциально выраженные), prognosis (прогноз) и т.д.

С помощью алгоритма машинного обучения CatBoost [16] по методике, описанной в работах [2,3],

были рассчитаны долгосрочности растущих трендов для характерных слов и построен следующий рейтинг перспективности ключевых слов в Коллекции-2: single-cell RNA (одноклеточная РНК), identified (идентификация), bioinformatics (биоинформатика), deciphering (расшифровка), high-throughput (высокая пропускная способность), Kawasaki (Кавасаки), pathogen (патоген), explore (исследование), molecular mechanisms (молекулярные механизмы),

myelodysplastic (миелодиспластический), analysis experimental (экспериментальный анализ), key genes (ключевые гены), atherosclerotic (атеросклеротиче-ский), immune infiltration (иммунная инфильтрация), long non-coding (длительное некодирование), lymph node (лимфатический узел), systemic lupus (системная волчанка), workflow (рабочий процесс), proteomics (протеомика), non-small cell (немелкоклеточный), nonalcoholic fatty (неалкогольный жир), associated poor (ассоциированный бедный), amino acid (аминокислота), potential therapeutic (потенциальная терапевтическая эффективность), integration (интеграция), idiopathic pulmonary (идиопатическая легочная болезнь), arabidopsis (арабидопсис), endometrial (эндометрий), immunohistochemical (иммуногистохимиче-ский), associated immune (ассоциированный иммунитет), antiviral (противовирусный препарат), cancer progression (прогрессирование рака), mouse model (модель на мышах), antimicrobial resistance (резистентность к противомикробным препаратам), b-cell (В-клетка), mesenchymal stem (мезенхимальный ствол), therapeutic targets (терапевтические мишени), allergen (аллерген), network pharmacology (сетевая фармакология), iga (iga), cell line (клеточная линия), hub genes (хаб-гены), core (ядро), exosomal (экзосо-мальный), immune-related (иммуносвязанный), spectrometry-based (на основе спектрометрии), human cancers (рак человека), introduction special (специальное внедрение), next generation (следующее поколение) и т.д. В приведенном рейтинге ближе к началу находятся ключевые слова, которые имеют более долговременный прогноз роста их трендов.

Далее рассчитали совместную встречаемость характерных ключевых слов/терминов в заголовках статей в Коллекции-2, а также их меру близости -чем чаще термины встречаются вместе, тем меньше семантическое расстояние. По этим данным была построена семантическая карта с помощью алгоритма t-SNE (рис. 2).

На рис. 2 красным и синим цветами представлены трендовые термины. Также видны кластеры этих терминов, например, (bioinformatics, bioinformatics analysis, single-cell RNA), (deciphering, myelodysplastic) и (high-throughput, key genes). Этим кластерам соответствуют трендовые направления, т.к. одинаковые прогнозы рядом встречающихся слов подтверждают друг-друга. Таким образом, на рисунке 1 видны восемь трендовых направлений в биоинформа-

тике. Этим трендовым направлениям можно дать следующие названия: (1) биоинформатический анализ на основе секвенирования одноклеточной РНК, (2) идентификация с помощью биоинформатическо-го анализа и экспериментальной проверки, (3) расшифровка при миелодиспластических синдромах, (4) изучение молекулярных механизмов, (5) высокопроизводительная идентификация ключевых генов,

(6) ключевые гены болезни Kawasaki и протеомика,

(7) рабочий процесс для анализа патогенов, (8) машинное обучение. В следующем разделе опишем более подробно эти направления.

Обзор трендовых тем. Рассмотрим восемь трендовых тем в биоинформатике, выявленных в процессе библиометрического анализа. Данные темы/направления упорядочены в соответствии с дол-говременностью роста трендов их ключеых слов. Наиболее перспективные направления находятся ближе к началу списка.

К первому направлению «биоинформатический анализ на основе секвенирования одноклеточной РНК» относятся статьи, касающиеся секвенирования одноклеточной РНК, что является источником больших данных (Big Data) и новым методом извлечения более подробной информации из генома. Этот метод включает в себя две части: дизайн эксперимента и анализ данных. Это направление имеет следующие ключевые слова, выделеные красным и синим цветом на рис. 1: биоинформатический анализ, секве-нирование одноклеточной РНК (bioinformatics analysis, single-cell RNA sequencing). Рассмотрим некоторые статьи из этого перспективного и актуального направления.

В статье [21] за 2021 год рассматриваются профили экспрессии генов склеральных фибробластов миопических мышей, полученные с помощью био-информатического анализа, основанного на секве-нировании одноклеточной РНК.

Работа [22] за 2021 год посвящена статистическому и биоинформатическому анализу данных экспериментов по массовому и секвенированию одноклеточной РНК.

В статье [12] за 2022 обсуждается роль NR4A1 в патофизиологии остеосаркомы, выявленная с помощью комплексного биоинформатического анализа набора данных секвенирования одноклеточной РНК.

Второе трендовое направление «идентификация с помощью биоинформатического анализа и экспериментальной проверки» содержит статьи, в которых рассматриваются вопросы, связанные с экспериментальной проверкой результатов биоинформа-тического анализа. Это направление имеет следующие ключевые слова: идентификация, анализ и экспериментальная проверка (identified, analysis and experimental). Рассмотрим некоторые статьи из этого перспективного направления, использующие био-

информатический анализ и экспериментальную проверку.

Работа [5] за 2022 год посвящена гепатоцеллю-лярной карциноме, которая является наиболее распространенной злокачественной опухолью печени с высокой смертностью и плохим прогнозом, а также экспрессии THRSP, которая идентифицирована как потенциальный маркер гепатоцеллюлярной карциномы посредством комплексного биоинформационного анализа и экспериментальной проверки.

В статье [11] за 2020 год рассмотрен комплексный компонент поддержания 6 минихромосом, идентифицированный с помощью биоинформатиче-ского анализа и экспериментальной проверки при плоскоклеточном раке пищевода.

В работе [13] за 2022 год обсуждается роль генов, связанных с ферроптозом, в коронарном атеросклерозе, а также идентификация ключевых генов с помощью интеграции биоинформатического анализа и экспериментальной проверки.

Третья трендовая тема «расшифровка при мие-лодиспластических синдромах» содержит статьи, в которых рассматривается расшифровка при миело-диспластических синдромах. Эта тема имеет следующие ключевые слова: расшифровка и миелодис-пластика (deciphering, myelodysplastic). Например, в статье [19] за 2022 обсуждается биоинформатиче-ский анализ, расшифровывающий транскриптомные сигнатуры, связанные с сигнальными путями, и прогноз при миелодиспластических синдромах.

Четвертое трендовое направление «изучение молекулярных механизмов» содержит статьи, в которых изучаются молекулярные механизмы, участвующие в различных болезнях. Это направление имеет следующие ключевые слова: изучить, молекулярные механизмы (explore, molecular mechanisms). Рассмотрим некоторые статьи из этого трендового направления.

Работа [20] за 2020 год посвящена объединению методов биоинформатики для изучения молекулярных механизмов, участвующих в метастазировании и прогнозе рака поджелудочной железы.

В статье [17] за 2022 год рассматривается интеграция биоинформатики и сетевой фармакологии для изучения терапевтической мишени и молекулярных механизмов схизандрина при гипертрофической кардиомиопатии.

Пятое трендовое направление «высокопроизводительная идентификация ключевых генов» содержит статьи, в которых рассматривается идентификация ключевых генов путем обработки большого объема информации, полученной с помощью высокопроизводительных методов. Это направление имеет следующие ключевые слова: высокопроизводительный, ключевые гены (high-throughput, key genes). Рассмотрим некоторые статьи из этого перспективного направления.

В работе [23] за 2017 год обсуждается идентификация ключевых генов и путей развития гепатоцел-люлярной карциномы путем биоинформатического анализа высокопроизводительных данных.

Статья [7] за 2019 год посвящена идентификации ключевых генов рака носоглотки путем биоин-форматического анализа высокопроизводительных данных.

В работе [25] за 2020 год рассматривается идентификация и проверка ключевых генов у крыс с ва-рикоцеле посредством высокопроизводительного секвенирования и биоинформационного анализа.

В статье [18] обсуждается высокопроизводительная биоинформатическая платформа для про-теомики на основе масс-спектрометрии.

Шестая трендовая тема «ключевые гены болезни Kawasaki и протеомика» содержит статьи, в которых рассматриваются ключевые гены, связанные с болезнью. Это тема имеет следующие ключевые слова: Кавасаки, ключевые гены, протеомный (Kawasaki, key genes, proteomics). Рассмотрим две статьи из этой темы.

В статье [6] за 2021 год рассматривается идентификация ключевых генов и механизмов, лежащих в основе острой болезни Кавасаки, на основе биоин-форматического анализа.

Работа [8] за 2020 год посвящена количественному протеомному и биоинформатическому анализу повреждения эндотелиальных клеток коронарной артерии человека, вызванного болезнью Кавасаки.

Седьмое трендовое направление «рабочий процесс для анализа патогенов» содержит статьи, в которых рассматриваются рабочие процессы, связанные с анализом патогенов. Это направление имеет следующие ключевые слова: патоген, рабочий процесс (pathogen, workflow). Рассмотрим две статьи из этого трендового направления.

В статье [1] за 2019 год обсуждается валидация биоинформатического рабочего процесса для рутинного анализа данных полногеномного секвени-рования и связанных с этим проблем типирования патогенов в европейском национальном справочном центре: как доказательство концепции.

Работа [15] посвящена базе данных по анализу патогенов вирусов (ViPR), которая является комплексной биоинформатической базой данных и ресурсом анализа для исследовательского сообщества, занимающегося коронавирусом.

Восьмое направление «машинное обучение» содержит статьи, в которых обсуждаются вопросы, связанные с информационными технологиями, включая искусственный интеллект, машинное обучение, нейросети, онтологии, большие данные. Это направление имеет следующие ключевые слова: машинное обучение, нейронные сети, онтологии, большие данные (machine learning, neural networks, ontologies, Big Data). Термин «машинное обучение» (106) в статьях по биоинформатике упоминается

JOURNAL OF NEW MEDICAL TECHNOLOGIES - 2024 - Vol. 31, № 2 - P. 100-105

совместно со следующими с терминами: биомаркеры (20), рак (12), идентификация (7), интегрированная биоинформатика (7), интеллектуальный анализ данных (7), ген (6), инфильтрация (6), иммунная клетка (4), клеточная инфильтрация (4), рак яичников (3). В скобках указано количество соответствующих статей в Коллекции-2. Рассмотрим некоторые статьи из этого перспективного направления.

В статье [24] за 2022 обсуждается идентификация узловых биомаркеров инфаркта миокарда методами секвенирования отдельных клеток, биоинформатики и машинного обучения.

Работа [10] за 2022 год описывает машинное обучение и биоинформатический анализ, которые помогли выявить классификацию и потенциальную стратегию лечения пациентов с НМРЛ 3-4 стадии.

Статья [14] за 2022 год посвящена настройке гиперпараметров алгоритмов машинного обучения и глубоких нейронных сетей с использованием ме-таэвристики для биоинформатического исследования биомедицинских и биологических случаев.

Статья [4] посвящена формальному представлению медицинских знаний, которое поддерживает алгоритмы глубокого обучения, конвейеры биоинформатики, анализ данных геномики и процессы больших данных.

В работе [9] обсуждаются вопросы соединения онтологий биоинформатики, описывающих генотипы, и онтологий медицинской информатики, описывающих фенотипы. Применение онтологий в биомедицине способствует установлению соответствий между признаками в генах (генотип) и видимыми внешними проявлениями (фенотип). Онтологии помогают формально и строго классифицировать признаки, что позволяет более точно выявлять взаимосвязи и взаимозависимости признаков при автоматическом анализе больших объемов медицинских данных в электронной форме.

Заключение. В последние десятилетия наблюдается значительный рост количества англоязычных работ по биоинформатике. Так за 20 лет с 2002 по 2022 количество работ по биоинформатическому анализу в коллекции PubMed выросло в 570 раз. Стремительно развиваются такие методы и направления биоинформатики, как секвенирование одноклеточной РНК, изучение молекулярных механизмов, выявление ключевых генов, использование машинного обучения. В результате прогнозного библиометрического анализа выявлены следующие восемь трендовых тем в англоязычной научной литературе по биоинформатике: (1) биоинформатиче-ский анализ на основе секвенирования одноклеточной РНК, (2) идентификация с помощью биоинфор-матического анализа и экспериментальной проверки, (3) расшифровка при миелодиспластических синдромах, (4) изучение молекулярных механизмов, (5) высокопроизводительная идентификация ключе-

вых генов, (6) ключевые гены болезни Kawasaki и протеомика, (7) рабочий процесс для анализа патогенов, (8) машинное обучение.

В настоящее время общее количество работ по биоинформатике превышает 11 тысяч. Такое количество работ трудно прочитать и вручную выявить преспективные направления и тренды. В данной работе показано как можно использовать новый метод прогнозного библиометрического анализа для долгосрочного прогнозирования трендов и для выявления перспективных направлений и трендов в биоинформатике.

Литература / References

1. Bogaerts B. Validation of a bioinformatics workflow for routine analysis of whole-genome sequencing data and related challenges for pathogen typing in a European National Reference Center: Neisseria meningitidis as a proof-of-concept // Frontiers in microbiology. 2019. Vol. 10. P. 362 / Bogaerts B. Validation of a bioinformatics workflow for routine analysis of whole-genome sequencing data and related challenges for pathogen typing in a European National Reference Center: Neisseria meningitidis as a proof-of-concept. Frontiers in microbiology. 2019;10:362.

2. Charnine M. Research trending topic prediction as cognitive enhancement. 2021 international conference on cyberworlds (CW). IEEE, 2021. С. 217-220 / Charnine M. Research trending topic prediction as cognitive enhancement. 2021 international conference on cyberworlds (CW). IEEE; 2021.

3. Charnine M., Tishchenko A., Kochiev L. Visualization of Research Trending Topic Prediction: Intelligent Method for Data Analysis // Proceedings of the 31th International Conference on Computer Graphics and Vision. 2021. Vol. 2. P. 1028-1037 / Charnine M, Tishchenko A, Kochiev L. Visualization of Research Trending Topic Prediction: Intelligent Method for Data Analysis. Proceedings of the 31th International Conference on Computer Graphics and Vision. 2021;2:1028-37.

4. Dhombres F. Formal medical knowledge representation supports deep learning algorithms, bioinformatics pipelines, genomics data analysis, and big data processes // Yearbook of medical informatics. 2019. Vol. 28, № 01. P. 152-155 / Dhombres F. Formal medical knowledge representation supports deep learning algorithms, bioinformatics pipelines, genomics data analysis, and big data processes. Yearbook of medical informatics. 2019;28(01):152-5.

5. Ding Y. THRSP identified as a potential hepatocellular carcinoma marker by integrated bioinformatics analysis and experimental validation // Aging (Albany NY). 2022. Vol. 14., №. 4. P. 1743 / Ding Y. THRSP identified as a potential hepatocellular carcinoma marker by integrated bioinformatics analysis and experimental validation. Aging (Albany NY). 2022 ;14(4):1743.

6. Gao S. Identification of key genes and underlying mechanisms in acute Kawasaki disease based on bioinformatics analysis // Medical Science Monitor: International Medical Journal of Experimental and Clinical Research. 2021. Vol. 27. P. e930547-1 / Gao S. Identification of key genes and underlying mechanisms in acute Kawasaki disease based on bioinformatics analysis. Medical Science Monitor: International Medical Journal of Experimental and Clinical Research. 2021;27:e930547-1.

7. Ge Y. The identification of key genes in nasopharyngeal carcinoma by bioinformatics analysis of high-throughput data // Molecular Biology Reports. 2019. Vol. 46. P. 2829-2840 / Ge Y. The identification of key genes in nasopharyngeal carcinoma by bioinformatics analysis of high-throughput data. Molecular Biology Reports. 2019;46:2829-40.

8. Guo X. Quantitative proteomics and bioinformatics analyses of human coronary artery endothelial cell injury induced by Kawasaki disease // Zhongguo Dang dai er ke za zhi Chinese Journal of Contemporary Pediatrics. 2020. Vol. 22, № 7. P. 796-803 / Guo X. Quantitative proteomics and bioinformatics analyses of human coronary artery endothelial cell injury induced by Kawasaki disease. Zhongguo

JOURNAL OF NEW MEDICAL TECHNOLOGIES - 2024 - Vol. 31, № 2 - P. 100-105

Dang dai er ke za zhi Chinese Journal of Contemporary Pediatrics. 2020;22(7):796-803.

9. Holloway E. From genotype to phenotype: linking bioinformatics and medical informatics ontologies: Manchester, UK, 2324 March 2002 // Comparative and functional genomics. 2002. Vol. 3, №5. P. 447-450 / Holloway E. From genotype to phenotype: linking bioinformatics and medical informatics ontologies: Manchester, UK, 2324 March 2002. Comparative and functional genomics. 2002 ;3(5):447-50.

10. Li C. Machine learning and bioinformatics analysis revealed classification and potential treatment strategy in stage 3-4 NSCLC patients // BMC Medical Genomics. 2022. Vol. 15, № 1. P. 33 / Li C. Machine learning and bioinformatics analysis revealed classification and potential treatment strategy in stage 3-4 NSCLC patients. BMC Medical Genomics. 2022;15(1):33.

11. Li X. Minichromosome maintenance 6 complex component identified by bioinformatics analysis and experimental validation in esophageal squamous cell carcinoma // Oncology Reports. 2020. Vol. 44, №3. P. 987-1002 / Li X. Minichromosome maintenance 6 complex component identified by bioinformatics analysis and experimental validation in esophageal squamous cell carcinoma. Oncology Reports. 2020;44(3):987-1002.

12. Liu W. The Role of NR4A1 in the Pathophysiology of Osteosarcoma: A Comprehensive Bioinformatics Analysis of the Single-Cell RNA Sequencing Dataset // Frontiers in Oncology. 2022. Vol. 12. P. 879288 / Liu W. The Role of NR4A1 in the Pathophysiology of Osteosarcoma: A Comprehensive Bioinformatics Analysis of the Single-Cell RNA Sequencing Dataset. Frontiers in Oncology. 2022;12:879288.

13. Meng О. Role of ferroptosis-related genes in coronary atherosclerosis and identification of key genes: integration of bioinformatics analysis and experimental validation // BMC Cardiovascular Disorders. 2022. Vol. 22, №1. P. 339 / Meng О. Role of ferroptosis-related genes in coronary atherosclerosis and identification of key genes: integration of bioinformatics analysis and experimental validation. BMC Cardiovascular Disorders. 2022;22(1):339.

14. Nematzadeh S. Tuning hyperparameters of machine learning algorithms and deep neural networks using metaheuristics: A bioinformatics study on biomedical and biological cases // Computational biology and chemistry. 2022. Vol. 97. P. 107619 / Nematzadeh S. Tuning hyperparameters of machine learning algorithms and deep neural networks using metaheuristics: A bioinformatics study on biomedical and biological cases. Computational biology and chemistry. 2022;97:107619.

15. Pickett B.E. Virus pathogen database and analysis resource (ViPR): a comprehensive bioinformatics database and analysis resource for the coronavirus research community // Viruses. 2012. Vol. 4, №11. P. 3209-3226 / Pickett BE. Virus pathogen database and analysis resource (ViPR): a comprehensive bioinformatics database and analysis resource for the coronavirus research community. Viruses. 2012;4(11):3209-26.

16. Prokhorenkova L. CatBoost: unbiased boosting with categorical features // Advances in neural information processing systems. 2018. Vol. 31. https://arxiv.org/abs/1706.09516v3 / Prokhorenkova L. CatBoost: unbiased boosting with categorical features. Advances in neural information processing systems. 2018;31. https://arxiv.org/abs/1706.09516v3

17. Shen C. Integrating Bioinformatics and Network Pharmacology to Explore the Therapeutic Target and Molecular Mechanisms of Schisandrin on Hypertrophic Cardiomyopathy // Current

Computer-Aided Drug Design. 2023. Vol. 19, №3. P. 192-201 / Shen C. Integrating Bioinformatics and Network Pharmacology to Explore the Therapeutic Target and Molecular Mechanisms of Schisandrin on Hypertrophic Cardiomyopathy. Current Computer-Aided Drug Design. 2023;19(3):192-201.

18. Topaloglou T. A high-throughput bioinformatics platform for mass spectrometry-based proteomics. International Conference on Data Integration in the Life Sciences. Berlin, Heidelberg: Springer Berlin Heidelberg, 2007. P. 71-88 / Topaloglou T. A high-throughput bioinformatics platform for mass spectrometry-based proteomics. International Conference on Data Integration in the Life Sciences. Berlin, Heidelberg: Springer Berlin Heidelberg; 2007.

19. Tuerxun N. Bioinformatics analysis deciphering the transcriptomic signatures associated with signalling pathways and prognosis in the myelodysplastic syndromes // Hematology. 2022. Vol. 27, №1. P. 214-231 / Tuerxun N. Bioinformatics analysis deciphering the transcriptomic signatures associated with signalling pathways and prognosis in the myelodysplastic syndromes. Hematology. 2022;27(1):214-31.

20. Xu J.S. Combining bioinformatics techniques to explore the molecular mechanisms involved in pancreatic cancer metastasis and prognosis // Journal of Cellular and Molecular Medicine. 2020. Vol. 24, №24. P. 14128-14138 / Xu JS. Combining bioinformatics techniques to explore the molecular mechanisms involved in pancreatic cancer metastasis and prognosis. Journal of Cellular and Molecular Medicine. 2020;24(24):14128-38.

21. Yu J., Mo Y. Gene expression profiles of myopic mouse scleral fibroblasts: a bioinformatics analysis based on single-cell RNA sequencing // Nan Fang yi ke da xue xue bao= Journal of Southern Medical University. 2021. Vol. 41, №7. P. 1087-1092 / Yu J, Mo Y. Gene expression profiles of myopic mouse scleral fibroblasts: a bioinformatics analysis based on single-cell RNA sequencing. Nan Fang yi ke da xue xue bao= Journal of Southern Medical University. 2021;41(7):1087-92.

22. Yu X. Statistical and bioinformatics analysis of data from bulk and single-cell RNA sequencing experiments. Translational Bioinformatics for Therapeutic Development, 2021. P. 143-175 / Yu X. Statistical and bioinformatics analysis of data from bulk and single-cell RNA sequencing experiments. Translational Bioinformatics for Therapeutic Development; 2021.

23. Zhang C. The identification of key genes and pathways in hepatocellular carcinoma by bioinformatics analysis of high-throughput data // Medical oncology. 2017. Vol. 34. P. 1-13 / Zhang C. The identification of key genes and pathways in hepatocellular carcinoma by bioinformatics analysis of high-throughput data. Medical oncology. 2017;34:1-13.

24. Zhang О. Identification of hub biomarkers of myocardial infarction by single-cell sequencing, bioinformatics, and machine learning // Frontiers in Cardiovascular Medicine. 2022. Vol. 9. P. 939972 / Zhang О. Identification of hub biomarkers of myocardial infarction by single-cell sequencing, bioinformatics, and machine learning. Frontiers in Cardiovascular Medicine. 2022;9:939972.

25. Zhu J. Identification and verification of key genes in varicocele rats through high-throughput sequencing and bioinformatics analysis // Andrologia. 2020. Vol. 52, №9. P. e13662 / Zhu J. Identification and verification of key genes in varicocele rats through high-throughput sequencing and bioinformatics analysis. Andrologia. 2020;52(9):e13662.

Библиографическая ссылка:

Шарнин М.М. Библиометрический анализ и обзор трендовых тем по биоинформатике в коллекции PubMed (научный обзор литературы) // Вестник новых медицинских технологий. 2024. №2. С. 100-105. DOI: 10.24412/1609-2163-2024-2-100-105. EDN OYLJVK.

Bibliographic reference:

Sharnin MM. Bibliometricheskiy analiz i obzor trendovykh tem po bioinformatike v kollektsii PubMed (nauchnyy obzor literatury) [Bibliometric analysis and review of trending topics in bioinformatics in the PubMed collection (scientific literature review)]. Journal of New Medical Technologies. 2024;2:100-105. DOI: 10.24412/1609-2163-2024-2-100-105. EDN OYLJVK. Russian.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.