Научная статья на тему 'АВТОМАТИЗИРОВАННАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ КЛИНИЧЕСКИ РЕЛЕВАНТНЫХ ТЕРМИНОВ UMLS ИЗ ТЕКСТОВ АНГЛОЯЗЫЧНЫХ СТАТЕЙ НА ПРИМЕРЕ АКСИАЛЬНОГО СПОНДИЛОАРТРИТА'

АВТОМАТИЗИРОВАННАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ КЛИНИЧЕСКИ РЕЛЕВАНТНЫХ ТЕРМИНОВ UMLS ИЗ ТЕКСТОВ АНГЛОЯЗЫЧНЫХ СТАТЕЙ НА ПРИМЕРЕ АКСИАЛЬНОГО СПОНДИЛОАРТРИТА Текст научной статьи по специальности «Клиническая медицина»

CC BY
5626
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
UMLS / NLP / ИЗВЛЕЧЕНИЕ ИМЕНОВАННЫХ СУЩНОСТЕЙ / РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ / МАШИННОЕ ОБУЧЕНИЕ / АКСИАЛЬНЫЙ СПОНДИЛОАРТРИТ

Аннотация научной статьи по клинической медицине, автор научной работы — Астанин Павел Андреевич, Раузина Светлана Евгеньевна, Зарубина Татьяна Васильевна

Актуальность. Выявление ранних признаков аксиального спондилоартрита (аксСпА) является сложной клинической задачей. Повышение качества диагностики данного заболевания на уровне первичного амбулаторного звена возможно при использовании систем информационной поддержки принятия решений, основанных на применении онтологического подхода. Ключевой этап разработки подобных инструментов заключается в формировании свода терминов, описывающих предметную область. Обязательным условием является соответствие используемых клинических формулировок существующим номенклатурам понятий. На сегодняшний день крупнейшим сводом биомедицинских справочников является Unified Medical Language System (UMLS), значительная часть терминов которого представлена только на английском языке. Создание инструментов извлечения клинически релевантных формулировок из текста научных статей позволит сформировать терминологический свод для аксСпА и выделить перечень справочников UMLS, нуждающихся в адаптации и экспертном переводе на русский язык. Целью исследования является разработка автоматизированной системы извлечения клинически релевантных терминов метатезауруса UMLS из текста аннотаций к англоязычным статьям. Материал и методы. В качестве материала исследования выступают англоязычные термины (11,2 млн) из 79 справочников актуальной версии UMLS (2022AB) и тексты аннотаций к англоязычным статьям из поисковой системы PubMed. Для работы применялись запросы к графовой информационной модели UMLS, алгоритмы семантического анализа неструктурированного текста и методы машинного обучения. Результаты. В ходе исследования создан набор регулярных выражений для очистки корпуса текстов от метаданных (F1-score=98%) и выделены паттерны поиска клинически релевантных терминов UMLS в извлеченном своде формулировок. С использованием алгоритма логистической регрессии обучен бинарный классификатор, принимающий на вход информацию о термине UMLS и возвращающий метку наличия или отсутствия признака клинической релевантности. Заключение. Разработанная модель классификации терминов подвергнута однократной валидации и двукратному тестированию на различных сводах терминов. Значения метрик точности, чувствительности и специфичности модели составили 91%, 90% и 91%, соответственно, для валидационной выборки (части терминов, полученных для аксСпА). При тестировании на сводах терминов, полученных для двух других заболеваний, значения точности составили 91% и 90%, соответственно. С использованием созданной модели машинного обучения было установлено, что UMLS содержит около 1,5 млн уникальных терминов, применимых для описания клинической картины заболеваний. Созданы перечни приоритетных справочников и групп клинически релевантных терминов UMLS, требующих экспертного перевода и адаптации на русский язык.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по клинической медицине , автор научной работы — Астанин Павел Андреевич, Раузина Светлана Евгеньевна, Зарубина Татьяна Васильевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATED SYSTEM FOR RECOGNIZING CLINICALLY RELEVANT UMLS TERMS IN TEXTS OF THE ENGLISH-LANGUAGE ARTICLES EXEMPLIFIED BY AXIAL SPONDYLOARTHRITIS

Significance. Early detection of axial spondyloarthritis (axSpA) is a complex clinical task. Quality improvement of axSpA diagnostics in primary care settings is possible with the help of decision-making information systems based on the ontological approach application. The key stage of the decision-making system development consists of the elaboration of a set of clinical terms. This set should fully describe clinical area or sub-area under study. One of the essential requirements is compliance of the clinical terms used with the existing clinical nomenclatures. Currently, the largest set of clinical terms is the Unified Medical Language System (UMLS) metathesaurus. The majority of UMLS terms is presented in English only. The development of tools for the analysis of unstructured texts and recognition of clinically relevant UMLS entities make it possible to elaborate a set of terms describing axSpA diagnostic aspects. This will also help to compile a list of UMLS terminology nomenclatures for their priority adaptation and expert translation into Russian. The purpose of this study is to develop an automated system for recognizing clinically relevant UMLS terms in texts of the English-language articles. Material and methods. The research material has included English terms (11.2 million) aggregated from 79 nomenclatures of the current UMLS (2022AB) version. In addition, the study has used texts of PubMed clinical abstracts in English. Queries to the UMLS graph model, semantic algorithms for unstructured texts and machine-learning methods have been applied for data collection and analysis. Results. The study has elaborated a set of high-accuracy regular expressions (F1-score=98%) for metadata elimination from the text corpus. Then the authors have identified patterns for searching clinically relevant terms in the aggregated set of UMLS concepts. Using a logistic regression algorithm, the authors have trained a binary classification model. Input data for the created classificatory are information about an UMLS term. Output data are a label indicating the presence or absence of clinical relevance. Conclusion. The binary classification model has been validated individually and double-tested on different data samples. Values of the accuracy, sensitivity and specificity of metrics equal to 91%, 90% and 91%, respectively, for the validation sample (a number of axSpA terms). In addition, this model has been tested on the sets of terms aggregated for any two diseases. Values of the accuracy metric equal to 91% and 90%, respectively. With the help of the developed machine-learning model, the study has estimated that UMLS contains 1.5 million unique terms applicable to describing a clinical picture. In addition, lists of priority UMLS data sources and thematic groups have been compiled. These clinically relevant UMLS terms should be adapted and translated into Russian as soon as possible.

Текст научной работы на тему «АВТОМАТИЗИРОВАННАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ КЛИНИЧЕСКИ РЕЛЕВАНТНЫХ ТЕРМИНОВ UMLS ИЗ ТЕКСТОВ АНГЛОЯЗЫЧНЫХ СТАТЕЙ НА ПРИМЕРЕ АКСИАЛЬНОГО СПОНДИЛОАРТРИТА»

ЭЛЕКТРОННЫЙ НАУЧНЫЙ ЖУРНАЛ 2023-69(3)

Социальные аспекты здоровья населения / Social aspects of Population Health '

27.07.2023 г.

DOI: 10.21045/2071-5021-2023-69-3-14

Астанин П.А., Раузина С.Е., Зарубина Т.В.

АВТОМАТИЗИРОВАННАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ КЛИНИЧЕСКИ РЕЛЕВАНТНЫХ ТЕРМИНОВ UMLS ИЗ ТЕКСТОВ АНГЛОЯЗЫЧНЫХ СТАТЕЙ НА ПРИМЕРЕ АКСИАЛЬНОГО СПОНДИЛОАРТРИТА

ФГАОУ ВО «Российский национальный исследовательский медицинский университет имени Н. И. Пирогова», Москва, Россия

Резюме

Актуальность. Выявление ранних признаков аксиального спондило-артрита (аксСпА) является сложной клинической задачей. Повышение качества диагностики данного заболевания на уровне первичного амбулаторного звена возможно при использовании систем информационной поддержки принятия решений, основанных на применении онтологического подхода. Ключевой этап разработки подобных инструментов заключается в формировании свода терминов, описывающих предметную область. Обязательным условием является соответствие используемых клинических формулировок существующим номенклатурам понятий. На сегодняшний день крупнейшим сводом биомедицинских справочников является Unified Medical Language System (UMLS), значительная часть терминов которого представлена только на английском языке. Создание инструментов извлечения клинически релевантных формулировок из текста научных статей позволит сформировать терминологический свод для аксСпА и выделить перечень справочников UMLS, нуждающихся в адаптации и экспертном переводе на русский язык.

Целью исследования является разработка автоматизированной системы извлечения клинически релевантных терминов метатезауруса UMLS из текста аннотаций к англоязычным статьям.

Материал и методы. В качестве материала исследования выступают англоязычные термины (11,2 млн) из 76 справочников актуальной версии UMLS (2022AB) и тексты аннотаций к англоязычным статьям из поисковой системы PubMed. Для работы применялись запросы к графовой информационной модели UMLS, алгоритмы семантического анализа неструктурированного текста и методы машинного обучения.

Результаты. В ходе исследования создан набор регулярных выражений для очистки корпуса текстов от метаданных ^1^тге=98%) и выделены паттерны поиска клинически релевантных терминов UMLS в извлеченном своде формулировок. С использованием алгоритма логистической регрессии обучен бинарный классификатор, принимающий на вход информацию о термине UMLS и возвращающий метку наличия или отсутствия признака клинической релевантности.

Заключение. Разработанная модель классификации терминов подвергнута однократной валидации и двукратному тестированию на различных сводах терминов. Значения метрик точности, чувствительности и специфичности модели составили 91%, 90% и 91%, соответственно, для валидационной выборки (части терминов, полученных для аксСпА). При тестировании на сводах терминов, полученных для двух других заболеваний, значения точности составили 91% и 90%, соответственно. С использованием созданной модели машинного обучения было установлено, что UMLS содержит около 1,5 млн уникальных терминов, применимых для описания клинической картины заболеваний. Созданы перечни приоритетных справочников и групп клинически релевантных терминов UMLS, требующих экспертного перевода и адаптации на русский язык.

Ключевые слова: UMLS; NLP; извлечение именованных сущностей; регулярные выражения; машинное обучение; аксиальный спондилоартрит.

Контактная информация: Астанин Павел Андреевич, email: med cyber@mail.ru

Финансирование. Исследование выполнено в рамках федеральной программы «Приоритет 2030».

Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов в связи с публикацией данной статьи. Соблюдение этических стандартов. Данный вид исследования не требует прохождения экспертизы локальным этическим комитетом. Для цитирования: Астанин П.А., Раузина С.Е., Зарубина Т.В. Автоматизированная система извлечения клинически релевантных терминов UMLS из текстов англоязычных статей на примере аксиального спондилоартрита. Социальные аспекты здоровья населения [сетевое издание] 2023; 69(3):14. Режим доступа: http://vestnik.mednet.ru/content/view/1491/30/lang.ru/. DOI: 10.21045/20715021-2023-69-3-14.

Astanin PA, Rauzina SE, Zarubina TV

AUTOMATED SYSTEM FOR RECOGNIZING CLINICALLY RELEVANT UMLS TERMS IN TEXTS OF THE ENGLISH-LANGUAGE ARTICLES EXEMPLIFIED BY AXIAL SPONDYLOARTHRITIS

Pirogov Russian National Research Medical University, Moscow, Russia Abstract

Significance. Early detection of axial spondylarthritis (axSpA) is a complex clinical task. Quality improvement of axSpA diagnostics in primary care settings is possible with the help of decision-making information systems based on the ontological approach application. The key stage of the decision-making system

development consists of the elaboration of a set of clinical terms. This set should fully describe clinical area or sub-area under study. One of the essential requirements is compliance of the clinical terms used with the existing clinical nomenclatures. Currently, the largest set of clinical terms is the Unified Medical Language System (UMLS) metathesaurus. The majority of UMLS terms is presented in English only. The development of tools for the analysis of unstructured texts and recognition of clinically relevant UMLS entities make it possible to elaborate a set of terms describing axSpA diagnostic aspects. This will also help to compile a list of UMLS terminology nomenclatures for their priority adaptation and expert translation into Russian.

The purpose of this study is to develop an automated system for recognizing clinically relevant UMLS terms in texts of the English-language articles.

Material and methods. The research material has included English terms (11.2 million) aggregated from 76 nome6nclatures of the current UMLS (2022AB) version. In addition, the study has used texts of PubMed clinical abstracts in English. Queries to the UMLS graph model, semantic algorithms for unstructured texts and machine-learning methods have been applied for data collection and analysis.

Results. The study has elaborated a set of high-accuracy regular expressions (F1-score=98%) for metadata elimination from the text corpus. Then the authors have identified patterns for searching clinically relevant terms in the aggregated set of UMLS concepts. Using a logistic regression algorithm, the authors have trained a binary classification model. Input data for the created classificatory are information about an UMLS term. Output data are a label indicating the presence or absence of clinical relevance.

Conclusion. The binary classification model has been validated individually and double-tested on different data samples. Values of the accuracy, sensitivity and specificity of metrics equal to 91%, 90% and 91%, respectively, for the validation sample (a number of axSpA terms). In addition, this model has been tested on the sets

of terms aggregated for any two diseases. Values of the accuracy metric equal to 91% and 90%, respectively. With the help of the developed machine-learning model, the study has estimated that UMLS contains 1.5 million unique terms applicable to describing a clinical picture. In addition, lists of priority UMLS data sources and thematic groups have been compiled. These clinically relevant UMLS terms should be adapted and translated into Russian as soon as possible.

Keywords: UMLS; NLP; named-entity recognition; regular expressions; machine learning; axial spondyloarthritis

Corresponding author: Pavel A. Astanin, email: med cyber@mail.ru Information about authors:

Astanin P.A., https://orcid.org/0000-0002-1854-8686 Rauzina S.E., https://orcid.org/0000-0002-9535-2847 Zarubina T.V., https://orcid.org/0000-0002-4403-8049

Acknowledgments. The study was carried out within the framework of the Federal program «Priority 2030».

Competing interests. The authors declare the absence of any conflicts of interest regarding the publication of this paper.

For citation: Astanin P.A., Rauzina S.E., Zarubina T.V. Automated system for recognizing clinically relevant UMLS terms in texts of the English-language articles exemplified by axial spondyloarthritis. Social'nye aspekty zdorov'a naselenia [serial online] 2023; 69(3):14. Available from:

http://vestnik.mednet.ru/content/view/1491/30/lang.ru/. DOI: 10.21045/2071-50212023-69-3-14 (In Rus).

Введение

Согласно определению экспертной группы по изучению спондилоартри-тов при Ассоциации ревматологов России, аксиальный спондилоартрит (аксС-пА) - это спондилоартрит с преимущественным поражением позвоночника и крестцово-подвздошных суставов [1]. В настоящее время принято выделять две

основные формы аксСпА: нерентгенологический аксСпА без радиографических признаков воспаления в крестцово-подвздошных сочленениях и анкилозирую-щий спондилит (АС), характеризующийся наличием радиографических признаков сакроилиита [2].

Частыми и наиболее выраженными клиническими проявлениями аксСпА являются утренняя скованность и боль в поясничной области, ослабевающая или исчезающая при физической нагрузке. Поскольку данные симптомы характерны для широкого спектра заболеваний нервной и костно-мышечной систем, наиболее распространенной ошибкой при ведении пациентов с неуточненным диагнозом является многолетнее безрезультатное наблюдение у специалистов неревматологического профиля: ортопедов, неврологов, амбулаторных хирургов [3-4].

АксСпА характеризуется поздней диагностикой: медиана длительности от возникновения первых клинических проявлений до постановки диагноза составляет 5-10 лет [5]. Многочисленные васкулиты, развивающиеся в ходе длительных аутоиммунных процессов, могут приводить к нарушению функции любых других органов и систем [6]. В связи с этим аксСпА нередко сопровождается возникновением внескелетных проявлений, среди которых принято выделять увеиты, воспалительные заболевания кишечника и поражения кожи [7]. В ряде случаев клиническая картина течения аксСпА может значительно отличаться от классической.

Раннему выявлению аксСпА препятствует системный характер заболевания, приводящий к широкой вариабельности клинических и лабораторно-инструментальных находок [8-10]. Увеличение числа случаев ранней диагностики аксСпА возможно при обеспечении информационной поддержки принятия решений на уровне первичного звена с применением систем, основанных на использовании онтологического подхода. Первым шагом в разработке подобных

систем является создание свода клинических терминов, покрывающих исследуемую область.

Крупнейшим источником биомедицинских терминов является Unified medical language system (UMLS) - метатезаурус, включающий 76 актуальных справочников и словарей [11-12]. Актуальная версия UMLS (2022AB) содержит три справочника терминов (304 тыс.), экспертно адаптированных и переведенных на русский язык. Их доля составляет менее 3% от суммарного числа русскоязычных и англоязычных терминов (11,5 млн), представленных в UMLS. По этой причине наиболее целесообразным способом построения свода клинических формулировок является извлечение именованных сущностей из англоязычных текстов с использованием оригинальных версий справочников UMLS и последующий экспертный перевод выделенных терминов на русский язык.

На сегодняшний день большинство актуальных англоязычных статей по различным клиническим направлениям представлено в поисковой системе PubMed [13]. Возможность извлечения текстов аннотаций к статьям, находящимся в открытом доступе, предоставляется любому пользователю [14]. При правильном формировании поискового запроса может быть выгружен массивный корпус текстов, широко покрывающий соответствующую клиническую область. Оценка смысловой значимости терминов, извлекаемых из текстов аннотаций к научным статьям, позволит определить паттерны автоматического поиска клинически релевантных концептов - терминов, содержащих информацию о клинических проявлениях и симптомах, лабораторно-инструментальных находках, сопутствующих и коморбидных заболеваниях. Подобные паттерны могут быть использованы для определения приоритетных справочников и групп терминов UMLS, нуждающихся в экспертном переводе и адаптации на русский язык.

Целью исследования является разработка автоматизированной системы извлечения клинически релевантных терминов метатезауруса UMLS из текста аннотаций к англоязычным статьям.

Материалы и методы

Исследование проведено в рамках стратегического проекта «Приоритет -2030» на базе Института цифровой трансформации медицины (ИЦТМ) ФГАОУ ВО «Российский национальный исследовательский медицинский университет имени Н. И. Пирогова» Минздрава России. В работе задействованы англоязычные термины (11,2 млн) из 76 справочников актуальной версии UMLS (2022AB).

Процесс подготовки корпуса текстов аннотаций к англоязычным статьям включал несколько этапов. На первом этапе с использованием системы управления базами данных Neo4j была создана графовая модель UMLS [15]. С применением декларативного языка запросов Cypher в реализованной модели определялся корневой концепт, соотнесенный с кодом заболевания из справочника международной классификации болезней 10 пересмотра (МКБ-10) [16]. В данной работе корневой нозологии соответствовал код «M45» - «Анкилозирующий спондилит» (поскольку самостоятельный код для аксСпА в справочнике МКБ-10 отсутствует).

Затем с использованием графовой информационной модели UMLS для данного концепта извлекались узлы, соединенные с корневым термином одним или несколькими из следующих типов связей: SY - synonymous relationships (строго синонимичные связи), RN - narrower relationships и CHD - child relationships (вертикальные связи родительских терминов с дочерними). Данные типы связей обеспечивают поиск синонимичных и дочерних терминов (пример графового поиска терминов представлен на рисунке 1).

«Ankylosing spondylitis, lumbar region» («Анкилозирующий спондилит, поясничный отдел»)

«Maric-Stracmpcll disease» («Болезнь Мари-Штрюмпеля»)

О

«Ankylosing spondylitis, site unspecified» («Анкилозирующий спондилит, неуточненный отдел»)

О

RN

О

SY

CHD

«М45 - Ankylosing spondylitis» («М45 - Анкилозирующий спондилит»)

Рис. 1. Пример поиска синонимичных и дочерних терминов в графовой

На втором этапе для корневого концепта, а также его синонимичных и дочерних терминов извлекались все варианты написания, представленные в справочниках и словарях UMLS. Полученные формулировки корневого заболевания использовались для составления запроса на выгрузку аннотаций к статьям из системы PubMed. Аннотация включалась в корпус, если хотя бы одна из формулировок корневого заболевания дословно встречалась в ее наименовании или основном тексте. Корпус аннотаций сохранялся на жесткий диск.

На третьем этапе осуществлялась подготовка текста к извлечению именованных сущностей с использованием средств языка программирования Python. Корпус текстов разбивался на абзацы, каждый из которых отделялся в исходном файле двумя знаками табуляции. При первичном изучении корпуса было выявлено ключевое преимущество использования системы PubMed, которое заключается в четком обособлении абзацев с метаданными от абзацев с полезной клинической информацией (текстом аннотаций). Экспертным способом сформулированы правила для проверки абзацев на предмет наличия в них метаданных. Если хотя бы одно из них выполнялось, соответствующий абзац исключался из корпуса текстов. Каждое правило было реализовано с использованием регуляр-

модели UMLS

ных выражений и проверено на 542 извлеченных из корпуса случайным способом абзацах текста (таблица 1) [17-18].

Таблица 1

Критерии исключения абзацев с метаданными из корпуса текстов аннотаций к англоязычным статьям поисковой системы PubMed

№ Синтаксис регулярного выражения Смысловое описание F1-Score

1 search('doi: ', i, regex.IGNORECASE) Наличие хотя бы одной подстроки «doi: » в тексте абзаца i (независимо от регистра). 53%

2 search('PMID: ', i) Наличие хотя бы одной подстроки «'PMID: » в тексте абзаца i. 48%

3 search('PMCID: ', i) Наличие хотя бы одной подстроки «'PMCID: » в тексте абзаца i. 47%

4 search('Author information: ', i) Наличие хотя бы одной подстроки «Author information: » в тексте абзаца i. 48%

5 search('©', i) Наличие хотя бы одного символа «©» в тексте абзаца i. 46%

6 search(r'\d{4}.{1,15}:\ d{1,8}-\d{1,8}', i) Наличие хотя бы одной подстроки «Author information: » в тексте абзаца i. 45%

7 search(r'[A-Z]{1,4}\(\ d{1,3}\)', i) Наличие хотя бы одной подстроки, состоящей из 1-4 букв и 1-3 цифр, заключенных в круглые скобки, и и, в тексте абзаца i. 48%

8 search(r'Conflict of interest statement: ', i) Наличие хотя бы одной подстроки «Conflict of interest statement:» в тексте абзаца i. 46%

9 search(r'Collaborators: ', i) Наличие хотя бы одной подстроки «Collaborators: » в тексте абзаца i. 43%

10 search(r'\[Internet\]', i) Наличие хотя бы одной подстроки «[Internet]» в тексте абзаца i. 43%

11 match(r'\s*\d{ 1,4}\.', i) Наличие не менее одного пробельного символа и следующей за ними подстроки из 1-4 цифр в начале абзаца i. 48%

12 match(r'\[.*\]', i) Наличие любой информации, заключенной в квадратные скобки, в начале абзаца i. 43%

13 match(r'Comment in', i) Наличие подстроки «Comment in» в начале абзаца i. 43%

14 Совокупность всех правил 98%

Из данных таблицы 1 следует, что комбинированное применение всех 13 семантических правил обеспечивает высокое качество оценки наличия метаданных в тексте. Итоговый Fl-scoгe суммарного свода правил составил 98%.

На четвертом шаге из оставшихся абзацев удалялись все данные, заключенные в квадратные скобки. Двойные пробелы заменялись на одинарные. Затем осуществлялся поиск точных совпадений терминов в тексте с англоязычными терминами из UMLS. Каждый уникальный термин вносился в таблицу с указанием абсолютной частоты встречаемости в корпусе.

После обработки корпуса текстов каждому извлеченному термину, в зависимости от его клинической релевантности, экспертным способом была присвоена бинарная метка принадлежности к соответствующему классу. Не считались клинически релевантными термины, относящиеся к высокоспецифичным лабо-раторно-инструментальным методам диагностики и специализированным терапевтическим процедурам. Экспертная работа с указанными терминами не входила в задачи настоящего исследования, однако должна быть проведена в дальнейшем с целью выявления соответствующих паттернов поиска.

В настоящей работе паттерны поиска выделялись только для клинически релевантных терминов UMLS. Для извлечения паттернов проведена статистическая обработка полученных данных. Для количественного описания групп терминов (в зависимости от их клинической релевантности) рассчитывались их абсолютные и относительные частоты. Оценка различий производилась с использованием непараметрического критерия Х2 или точного критерия Фишера (при наличии в ячейках таблиц сопряженности значений менее 5). Статистически значимыми считались результаты проверки гипотез при р<0,050.

Интегральная оценка выявленных паттернов поиска осуществлялась с использованием логистической регрессионной модели. Весь набор извлеченных терминов был разбит на обучающую и валидационную подвыборки в соотношении 80/20. Оценка качества определения клинической релевантности терминов производилась на валидационной подвыборке и двух тестовых выборках. Первая тестовая выборка включала термины, извлеченные из корпуса текстов аннотаций к статьям об остеопорозе позвоночника (М80.5, М81.5) - одном из заболеваний дифференциально-диагностического ряда для аксСпА. Вторая тестовая выборка включала термины, извлеченные из аннотаций к статьям по язве желудка и двенадцатиперстной кишки (К25, К26) - заболевании, не входящем в дифференциально-диагностический ряд для аксСпА. При сбалансированном соотношении классов определялись метрики точности, чувствительности и специ-

фичности. При выраженном дисбалансе классов рассчитывался Fl-score [19]. Интегральная оценка качества классификации производилась с использованием ROC-анализа и последующего определения площади под характеристической кривой (АиС) [20].

Результаты

При обработке корпуса аннотаций к англоязычным статьям по аксСпА извлечено 7818 уникальных терминов, каждый из которых принадлежал к одному или нескольким справочникам. При сопоставлении данных терминов со справочниками UMLS получено 43476 уникальных атомарных формулировок. Доля клинически релевантных терминов в извлеченном своде составила ~42%. После экспертной разметки были проанализированы частоты принадлежности релевантных и нерелевантных терминов к различным справочникам UMLS. Анализировались справочники, для которых доля релевантных атомарных формулировок UMLS оказалась не ниже 42%, а общее число терминов - не ниже 50. (результаты представлены в таблице 2).

Таблица 2

Структура распределения терминов, извлеченных из корпуса аннотаций к англоязычным статьям, по справочникам UMLS

Код справочника в UMLS Доля клинических терминов (п, %) P

Всего(n=43476 -100%), из них: нерелевантных (n=25185 - 58%) релевантных (n=18291 - 42%)

CCS 96 (<1%) 22 (~23%) 74 (~77%) <0,001

HPO 750 (~2%) 58 (~8%) 692 (~92%) <0,001

ICD9CM 399 (~1%) 104 (~26%) 295 (~74%) <0,001

ICD10 225 (~1%) 43 (~19%) 182 (~81%) <0,001

ICD10AM 279 (~1%) 88 (~32%) 191 (~68%) <0,001

ICD10CM 616 (~1%) 53 (~9%) 563 (~91%) <0,001

ICPC2P 801 (~2%) 183 (~23%) 618 (~77%) <0,001

ICPC2EENG 65 (<1%) 18 (~28%) 47 (~72%) <0,001

ICPC2ICD10ENG 301 (~1%) 62 (~21%) 239 (~79%) <0,001

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

MDR 2788 (~6%) 818 (~29%) 1970 (~71%) <0,001

MEDCIN 1803 (~4%) 763 (~42%) 1040 (~58%) <0,001

MEDLINEPLUS 460 (~1%) 142 (~31%) 318 (~69%) <0,001

MTHICD9 144 (<1%) 29 (~20%) 115 (~80%) <0,001

NANDA-I 162 (<1%) 51 (~31%) 111 (~69%) <0,001

NOC 507 (~1%) 245 (~48%) 262 (~52%) <0,001

OMIM 1177 (~3%) 381 (~32%) 796 (~68%) <0,001

ORPHANET 185 (<1%) 37 (~20%) 148 (~80%) <0,001

SNOMEDCT_US 6270 (~14%) 3121 (~50%) 3149 (~50%) <0,001

SNOMEDCT_VET 114 (<1%) 28 (~25%) 86 (~75%) <0,001

Другие справочники 26334 (~61%) 18939 (~72%) 7395 (~28%) <0,001

Примечание: CCS - Clinical Classifications Software (Клиническая терминология для информационных систем); HPO - Human Phenotype Ontology (Свод терминов о фенотипе человека); ICD9CM -International Classification of Diseases, Ninth Revision, Clinical Modification (Клиническая модификация международной классификации болезней 9 пересмотра); ICD10 - International Classification of Diseases and Related Health Problems, Tenth Revision (Международная классификация болезней и проблем, связанных со здоровьем 10 пересмотра); ICD10AM - ICD-10, Australian Modification (Австралийская модификация международной классификации болезней 10 пересмотра); ICD10CM -International Classification of Diseases, Tenth Revision, Clinical Modification (Клиническая модификация международной классификации болезней и проблем, связанных со здоровьем, 10 пересмотра); ICPC2P - International Classification of Primary Care, Extended version 2 (Терминология в области оказания первичной медицинской помощи), ICPC2EENG - International Classification of Primary Care, 2nd Edition, Electronic (Терминология в области оказания первичной медицинской помощи, повторный пересмотр); ICPC2ICD10ENG - ICPC2-ICD10 Thesaurus (Унифицированный свод терминов из международной классификации болезней и терминологии в области оказания первичной медицинской помощи); MDR - Medical Dictionary for Regulatory Activities (Нормативная клиническая терминология); MEDCIN (Иерархический словарь общеклинических терминов), MEDLINEPLUS -MedlinePlus Health Topics (Иерархия клинических заголовков), MTHICD9 - ICD-9-CM Entry Terms (Техническая и дополнительная терминология для клинической модификации международной классификации болезней 9 пересмотра), NANDA-I - International Nursing Diagnoses: Definitions and Classification (Международная терминология в области сестринского дела); NOC - Nursing Outcomes Classification (Классификация клинических исходов, связанных с сестринской деятельностью); OMIM - Online Mendelian Inheritance in Man (Справочник генных, хромосомных и геномных нарушений); ORPHANET - (Номенклатура редких заболеваний); SNOMEDCT_US - Systematized Nomenclature of Medicine-Clinical Terms, US Edition (Американская версия систематизированной терминологического свода в области клинической медицины); SNOMEDCT_VET - SNOMED CT, Veterinary Extension (Систематизированный терминологический свод в области клинической медицины, расширенная версия для ветеринаров)

Из данных таблицы 2 следует, что 10896 (~72%) клинически релевантных атомарных формулировок агрегировано из 19 справочников UMLS. В общей сложности в указанных справочниках содержится около 3,5 млн терминов, что составляет 30% от общего числа терминов из всех 76 справочников метатезау-руса. Наибольшее число терминов извлечено из крупнейших международных справочников со следующими кодовыми названиями: SNOMEDCT_US (~14%), MDR (~6%), MEDCIN (~4%), OMIM (~3%), ICPC2P (~2%). Доля релевантных терминов оказалась наиболее высокой в справочниках со следующими кодовы-

ми названиями: НРО (~92%), ICD10 (~81%), ICD10CM (~91%), MTHICD9 (~80%), ORPHANET (~80%).

Каждый термин из полученного свода соотносился с тематической группой соответствующего концепта UMLS. Выделены наиболее значимые группы клинически релевантных терминов. Результаты количественной оценки частоты встречаемости формулировок в различных тематических группах UMLS представлены в таблице 3. Отражены результаты только по тем группам, в которых доля релевантных терминов была не ниже 42%, а общее число терминов - не ниже 50.

Таблица 3

Структура распределения терминов, извлеченных из корпуса аннотаций к англоязычным статьям, по тематическим группам UMLS

Код группы терминов в UMLS Количество клинических терминов (n, %) P

Всего (n=43476 -100%), из них: нерелевантных (n=25185 - 58%) релевантных (n=18291 - 42%)

T019 196 (<1%) 21 (~11%) 175 (~89%) <0,001

T020 90 (<1%) 10 (~11%) 80 (~89%) <0,001

T033 3458 (~8%) 1974 (~57%) 1484 (~43%) 0,295

T037 805 (~2%) 215 (~27%) 590 (~73%) <0,001

T046 1632 (~4%) 272 (~17%) 1360 (~83%) <0,001

T047 10082 (~23%) 505 (~5%) 9577 (~95%) <0,001

T048 889 (~2%) 172 (~19%) 717 (~81%) <0,001

T049 63 (<1%) 28 (~44%) 35 (~56%) 0,030

T184 1890 (~4%) 193 (~10%) 1697 (~90%) <0,001

T190 251 (~1%) 36 (~14%) 215 (~86%) <0,001

T191 1147 (~3%) 144 (~13%) 1003 (~87%) <0,001

Другие группы 22973 (~53%) 21615 (~94%) 1358 (~6%) <0,001

Примечание: T019 - Congenital abnormality (Врожденная аномалия развития), T020 - Acquired abnormality (Приобретенный порок), T033 - Findings (Клиническая и/или лабораторно-инструмен-тальная находка), T037 - Injury or poisoning (Травма или отравление), T046 - Pathologic function (Патологический процесс), T047 - Disease or syndrome (Заболевание или синдром), T048 - Mental or behavioral dysfunction (Расстройство мышления и/или поведения), T049 - Cell or molecular dysfunction (Клеточная или молекулярная дисфункция), T184 - Sign or symptom (Признак и/или симптом), T190 - Anatomical abnormality (Анатомическое нарушение), T191 - Neoplastic process (Неопластический процесс)

Из данных таблицы 3 следует, что большинство (~86%) релевантных терминов принадлежит к следующим тематическим группам: Т019, Т020, Т033,

T037, T046, T047, T048, T049, T184, T190 и T191. Все указанные группы входят в класс Disorders (Расстройства) семантической сети UMLS. Не выявлено статистически значимых различий по соотношению релевантных и нерелевантных терминов в тематической группе T033. По всем остальным группам установлены статистически значимые различия, позволяющие сделать вывод об общей степени предпочтительности соответствующих терминов при описании клинической картины заболевания.

Наконец, дополнительно были проанализированы параметры, присвоенные экспертным способом каждой формулировке разработчиками справочников UMLS. К числу данных параметров отнесены текущий статус термина, приоритет термина в справочнике и способ записи термина.

Таблица 4

Структура распределения терминов, извлеченных из корпуса аннотаций к англоязычным статьям, по семантическим атрибутам

Значение параметра термина в UMLS Количество клинических терминов (n, %) P

Всего(n=43476 -100%), из них: нерелевантных (n=25185 - 58%) релевантных (n=18291 - 42%)

TS - Term status (Текущий статус термина)

S 15507 (~36%) 9771 (~63%) 5736 (~37%) <0,001

P 27969 (~64%) 15414 (~55%) 12555 (~45%)

ISPREF - Is preferred (Метка приоритета для термина)

Y 19257 (~44%) 12581 (~65%) 6676 (~35%) <0,001

N 24219 (~56%) 12604 (~52%) 11615 (~48%)

STT - String type (Тип строки)

PF 21383 (~49%) 13006 (~61%) 8377 (~39%) <0,001

VC 15023 (~35%) 8917 (~59%) 6106 (~41%) <0,001

VCW 1603 (~4%) 432 (~27%) 1171 (~73%) <0,001

VO 5017 (~12%) 2648 (~53%) 2369 (~47%) <0,001

VW 450 (~1%) 182 (~40%) 268 (~60%) <0,001

Примечание: S - Suppressed (Неиспользуемый), P - Preferred (Используемый), Y - Yes (Да), N - No (Нет), PF - Preferred form of term (Предпочтительная форма термина), VC - Case variant of the preferred form (Вариант предпочтительной формы с измененным подчинением слов), VCW - Case and word-order variant of the preffered form (Вариант предпочтительной формы с измененным подчинением слов и их перестановкой), VO - Variant of the preferred form (Вариант предпочтительной формы), VW - Word-order variant of the preferred form (Вариант предпочтительной формы с перестановкой слов)

Из данных таблицы 4 следует, что доля клинически релевантных терминов с актуальным статусом оказалась значимо выше. Наиболее предпочтительными при описании клинической картины аксСпА были варианты терминов с измененным подчинением слов и их перестановками. Однако установлено, что термины с меткой пониженного приоритета значимо чаще могут применяться для описания клинической картины.

Большое количество выявленных статистически значимых различий указывает на наличие закономерностей, которые могут применяться для определения релевантных терминов с целью их последующего включения в свод для описания отдельных биомедицинских областей. С использованием данных о тематической принадлежности, источнике происхождения и семантических атрибутах извлеченных формулировок был построен бинарный классификатор, определяющий факт наличия или отсутствия клинической релевантности терминов UMLS. Значения метрик точности, чувствительности и специфичности классификатора для валидационной выборки (п=8696) составили 91 [91; 92]%, 90 [90; 91]% и 91 [90; 92]%, соответственно (при пороговом значении логистической функции, равном 0,500). Значение AUC при ROC-анализе оказалось равным 0,949, что дополнительно подтверждает высокое качество автоматического определения клинической релевантности терминов (рисунок 2).

[-Специфичность

Рис. 2. Результаты ROC-анализа для модели бинарной классификации терминов UMLS по признаку их клинической релевантности

Необходимо отметить, что экстраполяция паттернов поиска клинически релевантных терминов метатезауруса UMLS в неструктурированном тексте требует предварительного тестирования созданной модели на сводах формулировок, полученных не только для аксСпА, но и для других заболеваний. Ранее упоминалось, что для проверки качества работы модели использованы своды терминов для двух заболеваний: остеопороза позвоночника, принадлежащего к дифференциально-диагностическому ряду по аксСпА, и язвы желудка и двенадцатиперстной кишки - заболевания, не входящего в этот ряд [21]. Разметка формулировок, извлеченных из аннотаций к статьям по остеопорозу позвоночника, выполнялась экспертом, определявшим метки для основного свода терминов (по аксСпА). Термины, извлеченные из аннотаций к статьям по язве желудка и двенадцатиперстной кишки, размечались независимо другим экспертом.

При тестировании классификатора получены значения точности в 91% для терминов, извлеченных из текстов по остеопорозу позвоночника, и 90% для терминов по язве желудка и двенадцатиперстной кишки (таблица 5).

Таблица 5

Результаты тестирования модели оценки клинической релевантности

терминов UMLS

№ Заболевание Число терминов (п) Точность (%)

1 Остеопороз позвоночника 5977 91[89; 92]

2 Язва желудка и двенадцатиперстной кишки 1633 90 [86; 93]

Обсуждение

Результаты оценки качества работы модели позволяют сделать заключение о ее применимости при нахождении клинически релевантных терминов в тексте аннотаций к англоязычным статьям. С высокой долей вероятности можно сделать предположение, что выявленные паттерны поиска терминов, и созданная модель классификации применимы при работе со сводами формулировок, описывающих клиническую картину ревматических заболеваний. С мень-

шей степенью уверенности можно говорить о возможности применения результатов настоящего исследования при выделении терминов для других нозологических групп.

В настоящее время система извлечения клинически релевантных терминов UMLS из текста англоязычных статей реализована в виде двух самостоятельных программных модулей и внедрена в работу Института цифровой трансформации медицины РНИМУ им. Н. И. Пирогова. В ходе работы первого модуля производится извлечение синонимичных терминов и дочерних формулировок для перечня кодов МКБ-10, заданных пользователем. Выходными данными является формализованный текст запроса к поисковой системе PubMed. После отправки запроса пользователь должен указать глубину поиска клинических материалов, установить фильтр на типы используемых научных изданий и сохранить сформированный корпус аннотаций на жесткий диск. Второй модуль принимает на вход указанный корпус текстов, производит очистку от метаданных, а также осуществляет извлечение и сохранение перечня именованных сущностей UMLS. Предусмотрена возможность сохранения только тех терминов, которые были размечены как клинически релевантные с использованием весовых коэффициентов, полученных при обучении логистической регрессионной модели.

Заключение

По предварительным оценкам, полученным с использованием разработанного классификатора, UMLS содержит около 1,5 млн уникальных англоязычных терминов, которые могут быть использованы для описания клинической картины заболеваний. Большинство терминов принадлежит к международным медицинским справочникам (SNOMED CT, MedDRA, ICD10) и тематическим группам UMLS, относящимся к классу Disorders (Расстройства) семантической сети и имеющим следующие коды: T019, T020, T033, T037, T046, T047, T048, T049, T184, T190 и T191. В настоящее время создан ранжированный перечень терминов UMLS, нуждающихся в экспертном переводе и адаптации на русский язык.

Использование системы приоритетов обеспечит скорейшее создание полноценного свода терминов, описывающих клинические признаки и симптомы заболеваний. Предполагается, что данный свод сможет применяться в работе информационно-поисковых алгоритмов и систем интеллектуальной поддержки принятия клинических решений, основанных на анализе неструктурированного русскоязычного текста. В свою очередь выделенные клинически релевантные термины для аксСпА будут использованы при проектировании структуры модели знаний и создании системы поддержки принятия решений для дифференциальной диагностики данного заболевания.

К перспективам дальнейших исследований необходимо отнести формирование паттернов поиска диагностически и терапевтически релевантных концептов UMLS, а также создание алгоритма извлечения клинических аббревиатур и семантических связей, основанных на синтаксическом разборе предложений из текста на русском языке.

Библиография

1. Эрдес Ш. Ф., Ребров А. П., Дубинина Т. В., Бадокин В. В., Бочкова А. Г., Бугрова О. В. Спондилоартриты: современная терминология и определения. Терапевтический архив 2019; 91 (5): 84-88. Режим доступа: https://journals.eco-vector.com/files/journals/80/articles/33624/public/33624-58517-1-PB.pdf. DOI: 10.26442/00403660.2019.05.000208. (Дата обращения: 10.05.2023).

2. Дубинина Т. В., Демина А. Б. Методы лучевой диагностики как инструмент мониторинга аксиального спондилоартрита в реальной клинической практике. Современная ревматология 2022; 16 (1): 91-96. Режим доступа: https://elibrary.ru/download/elibrary 47989650 27110879.pdf. DOI: 10.14412/1996-7012-2022-1-91-96. (Дата обращения: 10.05.2023).

3. Шостак Н. А., Правдюк Н. Г., Новикова А. В. Поражение осевого скелета в практике ревматолога. Нервные болезни 2021; 3: 38-43. Режим

доступа: https://elibrary.ru/download/elibrary 47184063 10820901.pdf. DOI: 10.24412/2226-0757-2021-12353. (Дата обращения: 10.05.2023).

4. Чичасова Н. В. Дифференциальная диагностика при поражении суставов и позвоночника. Современная ревматология 2020; 14 (2): 14-19. Режим доступа:

https://elibrary.ru/download/elibrary 43934398 24843575.pdf. DOI: 10.14412/1996-7012-2020-2-14-19. (Дата обращения: 10.05.2023).

5. Головач И. Ю., Егудина Е. Д., Тер-Вартаньян С. Х. Роль визуализа-ционных методов исследования в диагностике и менеджменте аксиального спондилоартрита. Травма 2020; 21 (1): 102-115. Режим доступа: https://elibrary.ru/download/elibrary 42595996 76759469.pdf. DOI: 10.22141/1608-1706.1.21.2020.197805. (Дата обращения: 10.05.2023).

6. Сафарова К. Н., Махина В. И., Ребров А. П. Анемия и ремоделиро-вание миокарда левого желудочка у пациентов с аксиальными спондило-артритами - существует ли взаимосвязь? Русский медицинский журнал 2021; 29 (7): 18-23. Режим доступа:

https://www.rmj .ru/articles/kardiologiya/Anemiya iremodelirovanie miokarda levogo gheludochka upacientov saksialynymi spondiloartritami suschestv uet livzaimosvyazy/. (Дата обращения: 10.05.2023).

7. Дибров Д. А., Коротаева Т. В., Красненко С. О., Урумова М. М., Круглова Л. С., Лила А. М. Анкилозирующий спондилит в сочетании с комбинированным аутовоспалительным поражением кожи (клиническое наблюдение и обзор литературы). Современная ревматология 2021; 15 (4): 81-86. Режим доступа:

https://elibrary.ru/download/elibrary 46424028 30722634.pdf. DOI: 10.14412/1996-7012-2021-4-81-86. (Дата обращения: 10.05.2023).

8. Эрдес Ш. Ф., Коротаева Т. В. Прогрессирование аксиального спондилоартрита. Современная ревматология 2021; 15 (3): 7-14. Режим досту-

па: https://elibrary.ru/download/elibrary 46180513 16476113.pdf. DOI: 10.14412/1996-7012-2021-3-7-14. (Дата обращения: 10.05.2023).

9. Гайдук А. С., Железняк И. С., Тыренко В. В., Анохин Д. Ю., Малаховский В. Н., Емельянцев А. А. и др. Цифровой томосинтез и другие методы визуализации в ранней диагностике аксиальных спондилоартритов: обзор литературы. Лучевая диагностика и терапия 2022; 13 (2): 25-35. Режим доступа:

https://elibrary.ru/download/elibrary 49339944 38220803.pdf. DOI 10.22328/2079-5343-2022-13-2-25-35. (Дата обращения: 10.05.2023).

10.Моисеев С. В., Новиков П. И., Гуляев С. В., Кузнецова Е. И., Шевцова Т. П., Шафиева И. А. и др. Анкилозирующий спондилит: подходы к диагностике и клиническая эффективность упадацитиниба. Клиническая фармакология и терапия 2021; 30 (4): 62-70. Режим доступа: https://elibrary.ru/download/elibrary 47966615 73628365.pdf. DOI: 10.32756/0869-5490-2021-4-62-70. (Дата обращения: 10.05.2023).

11.Bobojonova ShYQ, Akhmedov OS. Semantic analysis of medical lexicon in United medical Language system. Herald of Science and Education 2020; 15-2 (93): p. 39-41. Available from:

https://elibrary.ru/download/elibrary 43771264 23900124.pdf. (Дата обращения: 10.05.2023).

12.Bodenreider O. The Unified Medical Language System (UMLS): integrating biomedical terminology. Nucleic Acids Res 2004; 32: p. 267-270. Available from: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC308795/. DOI: 10.1093/nar/gkh061. (Дата обращения: 10.05.2023).

13.Торшин И.Ю., Громова О.А., Стаховская Л.В., Ванчакова Н.П., Га-лустян А.Н., Кобалава Ж.Д. и др. Анализ 19,9 млн публикаций базы данных PubMed/MEDLINE методами искусственного интеллекта: подходы к обобщению накопленных данных и феномен «fake news». Фармакоэконо-мика. Современная фармакоэкономика и фармакоэпидемиология 2020; 13

(2): 146-163. Режим доступа:

https://elibrary.ru/download/elibrary 43776170 84342782.pdf. DOI: 10.17749/2070-4909/farmakoekonomika.2020.021. (Дата обращения: 10.05.2023).

14.Землянский С.А., Аксенов С.В., Лызин И.А., Берестнева О.Г. Тематическое моделирование в контексте медицинских текстов. Доклады Томского государственного университета систем управления и радиоэлектроники 2021; 24 (4): 58-64. Режим доступа: https://elibrary.ru/download/elibrary 48125034 12420785.pdf. DOI: 10.21293/1818-0442-2021-24-4-58-64. (Дата обращения: 10.05.2023).

15.Пальмов С.В., Мячина А.С. Обзор возможностей СУБД Neo4j. Евразийское Научное Объединение 2020: 5-2 (63): 159-163. Режим доступа: https://elibrary.ru/download/elibrary 43043682 15908944.pdf. DOI: 10.5281/zenodo.3888099. (Дата обращения: 10.05.2023).

16.Баев А.В., Самонов А.В., Сафонов В. М. Методика проектирования автоматизированных систем управления специальными организационно-техническими системами. Моделирование, оптимизация и информационные технологии 2021; 9 (4 (35)): 1-14. Режим доступа: https://elibrary.ru/download/elibrary 48054840 90278146.pdf. DOI: 10.26102/2310-6018/2021.35.4.019. (Дата обращения: 10.05.2023).

17.Козлов С.В., Светлаков А.В. Применение регулярных выражений для обработки текстовых данных. International Journal of Open Information Technologies 2022; 10 (9): 82-89. Режим доступа:

https://elibrary.ru/download/elibrary 49378832 32391183.pdf. (Дата обращения: 10.05.2023).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

18.Пруцков А.В., Сусанина И.В. Практическое применение функционального программирования и регулярных выражений в библиометриче-ском анализе. International Journal of Open Information Technologies 2022; 10 (5): 63-68. Режим доступа:

https://elibrary.ru/download/elibrary 48495986 14922921.pdf. (Дата обращения: 10.05.2023).

19.Старовойтов В.В., Голуб Ю.И. Об оценке результатов классификации несбалансированных данных по матрице ошибок. Информатика 2021; 18 (1): 61-71. Режим доступа:

https://elibrary.ru/download/elibrary 44888534 68247811.pdf. DOI: 10.37661/10.37661/1816-0301-2021-18-1-61-71. (Дата обращения: 10.05.2023).

20.Горячкин Б.С., Чечнев А.А. Анализ чувствительности метрик бинарной классификации к дисбалансу данных. E-Scio 2021; 4 (55): 23-34. Режим доступа:

https://elibrary.ru/download/elibrary 45804780 51460702.pdf. (Дата обращения: 10.05.2023).

21.Пизова Н.В., Пизов А.В. Боль в спине и остеопороз позвоночника в клинической практике. Медицинский совет 2019; 18: 119-126. Режим доступа: https://elibrary.ru/download/elibrary 41389397 84433419.pdf. DOI: 10.21518/2079-701X-2019-18-119-126. (Дата обращения: 10.05.2023).

References

1. Erdes ShF, Rebrov AP, Dubinina TV, Badokin VV, Bochkova AG, Bugrova OV. Spondiloartrity: sovremennaya terminologiya i opredeleniya [Spondylarthritis: modern terminology and definitions]. Terapevticheskij arhiv 2019; 91 (5): 84-88. Available from:

https://journals.eco-vector.com/files/journals/80/articles/33624/public/33624-58517-1-PB.pdf. DOI: 10.26442/00403660.2019.05.000208. (Data accesses: May 10, 2023). (In Rus.).

2. Dubinina TV, Demina AB. Metody luchevoj diagnostiki kak instrument monitoringa aksial'nogo spondiloartrita v real'noj klinicheskoj praktike [Radiologic methods as a tool for monitoring axial spondylarthritis in real

clinical practice]. Sovremennaja revmatologija 2022; 16 (1): 91-96. Available from: https://elibrary.ru/download/elibrary 47989650 27110879.pdf. DOI: 10.14412/1996-7012-2022-1-91-96. (Data accesses: May 10, 2023). (In Rus.).

3. Shostak NA, Pravdyuk NG, Novikova AV. Porazhenie osevogo skeleta v praktike revmatologa [Axial skeleton injury in rheumatology practice]. Nervnye bolezni 2021; 3: 38-43. Available from: https://elibrary.ru/download/elibrary 47184063 10820901.pdf. DOI: 10.24412/2226-0757-2021-12353. (Data accesses: May 10, 2023). (In Rus.).

4. Chichasova NV. Differencial'naya diagnostika pri porazhenii sustavov i pozvonochnika [Differential diagnosis in joint and spine damages]. Sovremennaja revmatologija 2020; 14 (2): 14-19. Available from: https://elibrary.ru/download/elibrary 43934398 24843575.pdf. DOI: 10.14412/1996-7012-2020-2-14-19. (Data accesses: May 10, 2023). (In Rus.).

5. Golovach IYu, Yehudina YeD, Ter-Vartanian SKh. Rol' vizualizacionnyh metodov issledovaniya v diagnostike i menedzhmente aksial'nogo spondiloartrita [The role of imaging methods in the diagnosis and management of axial spondylarthritis]. Trauma 2020; 21 (1): p. 102-115. Available from: https://elibrary.ru/download/elibrary 42595996 76759469.pdf. DOI: 10.22141/1608-1706.1.21.2020.197805. (Data accesses: May 10, 2023). (In Rus.).

6. Safarova KN, Makhina VI, Reprov AP. Anemiya i remodelirovanie miokarda levogo zheludochka u pacientov s aksial'nymi spondiloartritami -sushchestvuet li vzaimosvyaz'? [Anemia and left ventricular remodeling in patients with axial spondyloarthritis — is there any association?]. Russkij medicinskij zhurnal 2021; 29 (7): 18-23. Available from: https://www.rmj .ru/articles/kardiologiya/Anemiya iremodelirovanie miokarda

levogo gheludochka upacientov saksialynymi spondiloartritami suschestv uet livzaimosvyazy/. (Data accesses: May 10, 2023). (In Rus.).

7. Dibrov DA, Korotaeva TV, Krasnenko SO, Urumova MM, Kruglova LS, Lila AM. Ankiloziruyushchij spondilit v sochetanii s kombinirovannym autovospalitel'nym porazheniem kozhi (klinicheskoe nablyudenie i obzor literatury) [Combination of ankylosing spondylitis with combined autoinflammatory skin lesions (clinical observation and literature review)]. Sovremennaja revmatologija 2021; 15 (4): 81-86. Available from: https://elibrary.ru/download/elibrary 46424028 30722634.pdf. DOI: 10.14412/1996-7012-2021-4-81-86. (Data accesses: May 10, 2023). (In Rus.).

8. Erdes ShF, Korotaeva TV. Progressirovanie aksial'nogo spondiloartrita [Progression of axial spondylarthritis]. Sovremennaja revmatologija 2021; 15 (3): 7-14. Available from:

https://elibrary.ru/download/elibrary 46180513 16476113.pdf. DOI: 10.14412/1996-7012-2021-3-7-14. (Data accesses: May 10, 2023). (In Rus.).

9. Gaiduk AS, Zheleznyak IS, Tyrenko VV, Anokhin DYu, Malakhovsky VN, Emelyantsev AA, et al. Cifrovoj tomosintez i drugie metody vizualizacii v rannej diagnostike aksial'nyh spondiloartritov: obzor literatury [Digital tomosynthesis and other visualization methods in the early detection of axial spondyloarthritis: a review]. Luchevaja diagnostika i terapija 2022; 13 (2): 2535. Available from:

https://elibrary.ru/download/elibrary 49339944 38220803.pdf. DOI: 10.22328/2079-5343-2022-13-2-25-35. (Data accesses: May 10, 2023). (In Rus.).

10.Moiseev SV, Novikov PI, Gulyaev SV, Kuznetsova EI, Shevtsova TP, Shafieva IA, et al. Ankilozirujushhij spondilit: podhody k diagnostike i klinicheskaja jeffektivnost' upadacitiniba [Ankylosing spondylitis: diagnostic challenges and efficacy of upadacitinib]. Klinicheskaja farmakologija i terapija 2021; 30 (4): 62-70. Available from: https://elibrary.ru/download/elibrary 47966615 73628365.pdf. DOI: 10.32756/0869-5490-2021-4-62-70. (Data accesses: May 10, 2023). (In Rus.).

11.Bobojonova ShYQ, Akhmedov OS. Semantic analysis of medical lexicon in United medical Language system. Herald of Science and Education 2020; 15-2 (93): p. 39-41. Available from:

https://elibrary.ru/download/elibrary 43771264 23900124.pdf. (Data accesses: May 10, 2023).

12.Bodenreider O. The Unified Medical Language System (UMLS): integrating biomedical terminology. Nucleic Acids Res 2004; 32: p. 267-270. Available from: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC308795/. DOI: 10.1093/nar/gkh061. (Data accesses: May 10, 2023).

13.Torshin IYu, Gromova OA, Stakhovskaya LV, Vanchakova NP, Galustyan AN, Kobalava ZhD, et al. Analiz 19,9 mln publikacij bazy dannyh PubMed/MEDLINE metodami iskusstvennogo intellekta: podhody k obobshheniju nakoplennyh dannyh i fenomen «fake news» [Analysis of 19.9 million publications from the PubMed/Medline database using artificial intelligence methods: approaches to the generalizations of accumulated data and the phenomenon of «fake news»]. Farmakojekonomika. Sovremennaja farmakojekonomika i farmakojepidemiologija 2020; 13 (2): 146-163. Available from: https://elibrary.ru/download/elibrary 43776170 84342782.pdf. DOI: 10.17749/2070-4909/farmakoekonomika.2020.021. (Data accesses: May 10, 2023). (In Rus.).

14.Zemlyansky SA, Axyonov SV, Lyzin IA, Berestneva OG. Tematicheskoe modelirovanie v kontekste medicinskih tekstov [Topic modeling in the context of medical texts]. Doklady Tomskogo gosudarstvennogo universiteta sistem upravleniya i radioelektroniki 2021; 24 (4): 58-64. Available from:

https://elibrary.ru/download/elibrary 48125034 12420785.pdf. DOI: 10.21293/1818-0442-2021-24-4-58-64. (Data accesses: May 10, 2023). (In Rus.).

15.Palmov SV, Myachina AS. Obzor vozmozhnostej SUBD Neo4j [DBMS Neo4j review]. Evrazijskoe Nauchnoe Ob"edinenie 2020: 5-2 (63): 159-163. Available from: https://elibrary.ru/download/elibrary 43043682 15908944.pdf. DOI: 10.5281/zenodo.3888099. (Data accesses: May 10, 2023). (In Rus.).

16.Baev AV, Samonov AV, Safonov VM. Metodika proektirovanija avtomatizirovannyh sistem upravlenija special'nymi organizacionno-tehnicheskimi sistemami [Methodology of designing automated control systems for dedicated organizational and technical systems]. Modelirovanie, optimizaciya i informacionnye tekhnologii 2021; 9 (4 (35)): 1-14. Available from: https://elibrary.ru/download/elibrary 48054840 90278146.pdf. DOI: 10.26102/2310-6018/2021.35.4.019. (Data accesses: May 10, 2023). (In Rus.).

17.Kozlov SV, Svetlakov AV. Primenenie reguljarnyh vyrazhenij dlja obrabotki tekstovyh dannyh [Using regular expressions to process text data]. International Journal of Open Information Technologies 2022; 10 (9): 82-89. Available from: https://elibrary.ru/download/elibrary 49378832 32391183.pdf. (Data accesses: May 10, 2023). (In Rus.).

18.Prutzkow AV, Susanina IV. Prakticheskoe primenenie funkcional'nogo programmirovanija i reguljarnyh vyrazhenij v bibliometricheskom analize [Practical application of functional programming and regular expressions in bibliometric analysis]. International Journal of Open Information Technologies 2022; 10 (5): 63-68. Available from:

https://elibrary.ru/download/elibrary 48495986 14922921.pdf. (Data accesses: May 10, 2023). (In Rus.).

19.Starovoitov VV, Golub YuI. Ob ocenke rezul'tatov klassifikacii nesbalansirovannyh dannyh po matrice oshibok [About the confusion-matrix-based assessment of the results of imbalanced data classification]. Informatika 2021; 18 (1): 61-71. Available from:

https://elibrary.ru/download/elibrary 44888534 68247811.pdf. DOI:

10.37661/10.37661/1816-0301-2021-18-1-61-71. (Data accesses: May 10, 2023). (In Rus.).

20.Goryachkin BS, Chechnev AA. Analiz chuvstvitel'nosti metrik binarnoj klassifikacii k disbalansu dannyh [Binary classification metrics sensibility estimation in data imbalance]. E-Scio 2021; 4 (55): 23-34. Available from: https://elibrary.ru/download/elibrary 45804780 51460702.pdf. (Data accesses: May 10, 2023). (In Rus.).

21.Pizova NV, Pizov AV. Bol' v spine i osteoporoz pozvonochnika v klinicheskoj praktike [Back pain and spinal osteoporosis in clinical practice]. Medicinskij sovet 2019; 18: 119-126. Available from: https://elibrary.ru/download/elibrary 41389397 84433419.pdf. DOI: 10.21518/2079-701X-2019-18-119-126. (Data accesses: May 10, 2023). (In Rus.).

i Надоели баннеры? Вы всегда можете отключить рекламу.