Научная статья на тему 'Основные тенденции и особенности развития медицинских онтологий'

Основные тенденции и особенности развития медицинских онтологий Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
622
97
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИОИНФОРМАТИКА / МОДЕЛИРОВАНИЕ / ПРЕДМЕТНАЯ ОБЛАСТЬ / МЕДИЦИНСКИЕ ОНТОЛОГИИ / ONTOLOGY WEB LANGUAGE / GALEN ONTOLOGY / МЕТА-ОНТОЛОГИИ / SNOMED ONTOLOGY / GENE ONTOLOGY (GO) / DRUG ONTOLOGY (DRON) / RXNORM ONTOLOGY / BIOINFORMATICS / MODELING / KNOWLEDGE DOMAIN / MEDICAL ONTOLOGIES / META-ONTOLOGIES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нефедов Ю.В., Цыпленкова В.А.

Статья посвящена современным компьютерным онтологиям в медицине и биоинформатике. Онтологии рассматриваются с точки зрения описания предметной области, раскрывается специфика, плюсы и минусы такого подхода к формализации. В статье дается обзор современных медицинских онтологий, более подробно описываются наиболее широко используемые из них, такие как SNOMED, Gene Ontology, RxNorm и др. На сегодняшний день компьютерные онтологии используются в медицине для формализации и компьютеризации накопленного опыта, создания открытых баз знаний. Однако в перспективе онтологии в сочетании с технологиями искусственного интеллекта и машинного обучения могут быть востребованы как метод описания предметной области при создании систем поддержки принятия решений, например, диагностических рекомендательных систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Medical ontologies: current development, main trends and features

The topic of the article is computer ontologies in medicine and bioinformatics. In the article, ontologies are considered as the description method. The specifics, pros and cons of this approach to formalization are discussed. The article provides an overview of popular medical ontologies. Those more used by scientists and doctors, such as SNOMED, Gene Ontology, RxNorm, etc are covered more detailed. Nowadays computer ontologies are widely known in medicine. They are being used for the formalization of accumulated human experience and computerization, for open knowledge bases creation. However, in the future, combined with artificial intelligence and machine learning technologies medical ontologies can be in demand as a subject area describing method when creating decision support systems such as diagnostic recommendation systems.

Текст научной работы на тему «Основные тенденции и особенности развития медицинских онтологий»

и информационные

технологии

Ю.В. НЕФЕДОВ,

к.э.н., доцент кафедры управления информационными системами и программирования, Российский государственный экономический университет им. Г.В. Плеханова, Москва, Россия, e-mail: Nefedov.YV@rea.ru В.А. ЦЫПЛЕНКОВА,

аналитик, Отдел аналитических приложений RedSys, Москва, Россия, e-mail: valtsyplenkova@gmail.com

ОСНОВНЫЕ ТЕНДЕНЦИИ И ОСОБЕННОСТИ РАЗВИТИЯ МЕДИЦИНСКИХ ОНТОЛОГИЙ

УДК 004.9

Нефедов Ю.В, Цыпленкова В.А. Основные тенденции и особенности развития медицинских онтологии

(Российский государственный экономический университет им. Г.В. Плеханова, Москва, Россия) Аннотация. Статья посвящена современным компьютерным онтологиям в медицине и биоинформатике. Онтологии рассматриваются с точки зрения описания предметной области, раскрывается специфика, плюсы и минусы такого подхода к формализации. В статье дается обзор современных медицинских онтологий, более подробно описываются наиболее широко используемые из них, такие как SNOMED, Gene Ontology, RxNorm и др. На сегодняшний день компьютерные онтологии используются в медицине для формализации и компьютеризации накопленного опыта, создания открытых баз знаний. Однако в перспективе онтологии в сочетании с технологиями искусственного интеллекта и машинного обучения могут быть востребованы как метод описания предметной области при создании систем поддержки принятия решений, например, диагностических рекомендательных систем. Ключевые слова: биоинформатика, моделирование, предметная область, медицинские онтологии, Ontology Web Language, GALEN Ontology, мета-онтологии, SNOMED Ontology, Gene Ontology (GO), Drug Ontology (DrOn), RxNorm Ontology.

UDC 004.9

Nefedov Y.V., Tsyplenkova V.A. Medical ontologies: current development, main trends and features (Plekhanov Russian University of Economics, Moscow, Russia)

Abstract. The topic of the article is computer ontologies in medicine and bioinformatics. In the article, ontologies are considered as the description method. The specifics, pros and cons of this approach to formalization are discussed. The article provides an overview of popular medical ontologies. Those more used by scientists and doctors, such as SNOMED, Gene Ontology, RxNorm, etc are covered more detailed. Nowadays computer ontologies are widely known in medicine. They are being used for the formalization of accumulated human experience and computerization, for open knowledge bases creation. However, in the future, combined with artificial intelligence and machine learning technologies medical ontologies can be in demand as a subject area describing method when creating decision support systems such as diagnostic recommendation systems.

Keywords: bioinformatics, modeling, knowledge domain, medical ontologies, Ontology Web Language, meta-ontolo-gies, GALEN Ontology, SNOMED Ontology, Gene Ontology (GO), Drug Ontology (DrOn), RxNorm Ontology.

T

В повседневной врачебной практике все больше и больше применяются компьютерные технологии: на хирургическом робокомплексе Da Vinci по всему миру ежегодно проводится более 650 тыс. операций1, МРТ позволяет диагно-

1 Бескаравайная Т. Назначена первая операция российского хирургического робота на живом объекте, Медвестник, 2018. [Электронный ресурс] URL: https://medvestmk.ru/content/news/Naznachena-pervaya-operadya-rossiiskogo-hirurgicheskogo-robota-na-jivom-obekte.html [Дата обращения: 07.2018]

© Ю.В. Нефедов, В.А. Цыпленкова, 2018 г.

стировать опухоли без гистологического вмешательства2, ядерная медицина способна проводить направленную терапию радиоактивными веществами без повреждения здоровых тканей3.

Однако ИТ в медицине применяются не только на аппаратном, но и на программном уровне. Широкое практическое применение в медицине находят компьютерные онтологии. В повседневной врачебной практике онтологии применяются в целях автоматизации хранения информации и исследования предметной области, при создании систем ведения истории болезни и баз знаний. Информационная система на основе онтологии CPR (Computer-Based Patient Record) используется для ведения медицинской истории и административных записей в клинике лечения сердечно-сосудистых болезней в Кливленде, США. Подробней об этом можно прочитать в [18].

По определению американского ученого, одного из основоположников исследований в области искусственного интеллекта, Т. Грубера4, онтология - это концептуальная схема, описание, спецификация предметной области. Ключевыми терминами в этой концептуальной схеме являются термины «класс», «экземпляр», «отношение», «атрибут». Разработка онтоло-гий представляет собой процесс определения классов (терминов, концептов) домена (предметной области), атрибутов (свойств) классов и отношений между этими классами.

Понятие «онтология» имеет глубокие исторические корни, однако широко применяться в компьютерных науках онтологии начали

2018, № 4

только с 1990-х гг. В 1990-х гг. онтологии начали развиваться полноценно как модель прикладной лингвистики для обработки данных на естественном языке. Это связано с бурным развитием Всемирной Паутины (World Wild Web, WWW), стремительным увеличением количества ресурсов и материалов, требовавших классификации и структуризации.

В 1994 г. был создан Консорциум Всемирной паутины (World Wild Web Consortium, W3C), призванный упорядочить и связать интернет-ресурсы, разработать и в дальнейшем поддерживать стандарты и протоколы документов в Интернете. Эта задача была решена в рамках блока технологий Semantic Web. Онтологии используются в Semantic Web в целях представления общей и формальной спецификации значений ресурсов. К 1996 г. в мире существовало уже 12,8 млн. хостов и 500 тыс. сайтов. Начало описания семантики Всемирной паутины на языке онтологий положила спецификация RDF5, опубликованная W3C в 1997 г.

Специфика онтологических моделей заключается в том, что они изначально ориентированы на компьютерные вычисления и приспособлены для машинной обработки, автоматизации процесса анализа информации. В 1970-х гг. термин «онтология» из философии позаимствовали американские ученые-исследователи искусственного интеллекта для формализованного описания предметной области в системах знаний6.

В целом, алгоритм построения онтологии выглядит следующим образом7:

2 Мультипараметрическая МРТ позволяет избежать биопсии почки. Russian Electronic Journal of Radiology [Электронный ресурс] URL: http://www.rejr.ru/novosti-luchevoy-diagnostiki/15-01-multiparametricheskaya-mrt. html [Дата обращения: 07.2018].

3 Таскаев С.Ю. Бор-нейтронoзахватная терапия рака: на финишной прямой. Наука из первых рук. Т. 71/72, № 5/6. [Электронный ресурс]. URL https://scfh.ru/ papers/bor-neytronozakhvatnaya-terapiya-raka/ [Дата обращения: 07.2018].

4 См. подробней [22].

5 Модель представления знания RDF (Resource Description Framework), демонстрирует схему описания ресурсов и основывается на ранних стандартах, лежавших в основе Web: Unicode (для представления символов), Unified Resource Identifier (URI, как способ уникального именования ресурсов) и eXtensible Markup Language (XML, для обмена информацией в формате RDF).

6 Подробней см. Tom Gruber [Электронный документ]. Уровень доступа: http://tomgruber.org [Дата обращения: 07.2018].

7 Подробней см. [20].

>

и информационные

технологии

1. Определение домена. Домен выделяется в соответствии с целями создания онтологии и потенциальными пользователями.

2. Выделение понятий, которые будут формализованы. В одной и той же предметной области можно выделить разные понятия в зависимости от того, какие термины необходимы.

3. Представление понятий как классов и организация классов в иерархию отношением включения.

4. Определение отношений между классами и свойств (атрибутов) классов, фиксирование ограничений.

5. Выявление экземпляров классов и значений свойств для них. Придание значений свойствам и выявление экземпляров классов называется наполнением фактами.

В зависимости от того, с какой целью строится онтология, задается ограничение модели-

руемой предметной области, глубина выделения концептов, специфика выделяемых понятий. Одна и та же предметная область может быть описана по-разному в зависимости от назначения. Например, онтология, которая описывает человеческое тело с медицинской точки зрения, может представлять собой набор анатомических наименований («первый грудной позвонок», «второй шейный позвонок», «крестец»), связанных отношением «являться частью» (рис. 1), а онтология, которая описывает человеческое тело с химической точки зрения может быть совокупностью концептов, описывающих химические соединения или реакции. Таким образом, онтология не должна и не может содержать все знания о домене, она должна описывать его ясно и полно для выполнения своей задачи.

Имеется, тем не менее, ряд требований, которые предъявляются в общем

Рис. 1. Иерархическое дерево онтологии Gene Ontology (GO)

Источник: Samuel Croset

2018, № 4

к онтологическим моделям. Это такие требования как непротиворечивость (атрибуты и отношения не противоречат друг другу с логической точки зрения), полнота (онтология с достаточной полнотой для поставленных целей описывает предметную область). Кроме того, онтология должна предполагать возможность расширения путем добавления новых фрагментов описания предметной области и экземпляров уже существующих классов, а также атрибутов и отношений для них. В случае, если модель предполагает интеграцию с какими-либо другими, она должна удовлетворять требованиям модели, выбранной за основу.

На рис. 2 приведен фрагмент онтологии, в которой выделены два класса химических соединений - органические и ациклические. Ациклические соединения являются подклассом органических, то есть классы «органические соединения» и «ациклические соединения» связаны самым распространенным отношением - «являться частью», или отношением включения. Экземпляром ациклического соединения является метан - СН48.

Особенность компьютерных онтологий заключается в автоматизации получения нового знания. Из множеств связей между классами, свойств классов, прямо и косвенно заданных ограничений на значения свойств, компьютер строит вывод, содержащий новую информацию.

8 Если в этом фрагменте онтологии задать свойство

«быть алканом», то на это свойство с необходимостью накладывается содержательное ограничение - это свойство могут иметь только элементы класса «ациклические соединения». Для дальнейших рассуждений надо обладать знанием о том, что среди ациклических соединений различают предельные и непредельные, а также о том, что что класс непредельных соединений составляют алкены, алкины и алкадиены. Тогда о любом экземпляре множества непредельных ациклических соединений можно сказать, что он обладает свойством «быть алке-ном или алкином, или алкодиеном». Если далее об этом элементе знать, что он обладает свойством «содержать одну двойную связь между атомами углерода», можно сделать вывод, что этот элемент - алкен.

Рис. 2. Органические соединения

Современные онтологии какой-либо предметной области насчитывают в среднем от 200 до 2000 концептов9, связанных отношениями и обладающих определенными свойствами. Вручную обработка такого массива данных выглядит нецелесообразно, в то время как автоматизированный анализ занимает несколько секунд.

Онтологии как средство формализованного представления знаний сочетают в себе возможность построения гибкого логического вывода и объектно-ориентированный подход к описанию предметной области. Структуры данных в онтологиях описываются на специализированных формальных языках, отдельные из которых будут упомянуты далее. К таким языкам относятся OWL, UML, XML, RDF и др. Наиболее распространенными языками для описания онтологий являются OWL и RDF.

В 1999 г. RDF получил статус рекомендации W3C. Ресурсы в RDF идентифицируются при помощи ссылок и описываются тройками вида <субъект, атрибут, объект>, причем свойства также идентифицируются ссылками и потому являются ресурсами. Впоследствии для RDF

Классификацию онтологий см. [15].

>

9

и информационные

технологии

была сформирована семантика RDFS (RDF-Scheme), однако она оказалась недостаточно выразительной. В начале 2000-х продолжилась активная работа по созданию Semantic Web10, что способствовало дальнейшей эволюции RDF и разработке его более расширенной версии - OWL, общепринятым на сегодняшний момент языком написания онтологий.

Язык Ontology Web Language (OWL) получил статус официальной рекомендации W3C в 2004 г. По сравнению с RDF, OWL - более сильный язык, основанный на ранних языках OIL и DAML+OIL11. Многие компоненты RDF включаются в OWL, при этом OWL-данные могут быть использованы вместе с данными модели RDF довольно свободно. По выразительной мощности OWL реализован в трех вариантах12 (рис. 3).

1. OWL Lite (задание иерархии классов и простых ограничений).

2. OWL DL (максимальная выразительность при гарантии вычислимости).

3. OWL Full (расширение синтаксиса и семантики OWL+RDF без гарантии вычислимости).

OWL основывается на дескриптивных ло-

13

гиках13 и определяет сложные концепты через простые. Логическая модель в OWL позволяет строить логический вывод, то есть из связей и концептов на входе получать новые (неочевидные) связи между концептами на выходе.

10 Semantic Web - это попытка сделать веб-ресурсы более доступными для автоматизированных процессов путем добавления информации о ресурсах, которая описывает или обеспечивает веб-контент. Более подробно см. [15].

11 Более подробно см. [15].

12 Логический вывод в OWL Lite выполняется за полиномиальное время, а OWL DL представляет собой максимальное обладающее разрешимостью подмножество дескрипционных логик.

13 Базовыми терминами класса дескриптивных логик являются концепты и роли. Концепт определяется как выражение, соединяющее в себе другие концепты (вплоть до атомарных), которые обладают определенными свойствами. Свойства концептов описываются ролями. Дескриптивные логики часто используются как основа для построения экспертных систем.

Рис. 3. Реализация OWL

Существует несколько синтаксических форм языка OWL:

• Основная - основанный на RDF синтаксис.

• XML-синтаксис - не согласованный с RDF.

• Графическое UML-представление.

В целом, по своему характеру OWL (как и онтологии в целом) представляет собой описание предметной области в рамках объектно-ориентированного подхода. Онтологии OWL описывают предметную область в терминах сущностей (классов) и экземпляров (объектов класса). Классы определяются в OWL при помощи тэгов owl: Class. Следующим образом можно задать ациклические соединения как подкласс органических веществ.

Листинг 1. Пример (ациклические соединения)

<owl: Class rdf: ID="acyclic_compounds">

<rdfs: subClassOf rdf: resource="#organic_compound"/>

</owl: Class>

Так можно показать, что класс алкенов и алкинов не имеют общих элементов.

Листинг 2. Пример (ациклические соединения)

<owl: Class rdf: about="#alkene"> <owl: disjointWith rdf: resource="#alkyne"/> </owl: Class>

Синтаксис OWL с содержательной точки зрения описывает предметную область через аннотации, аксиомы и факты. Аннотация содержит сведения об описываемом объекте, предназначенные для пользователя. Классы, экземпляры классов и свойства описываются через аксиомы (для классов и свойств) и факты (для экземпляров).

С 2004 г. идеи Semantic Web получили широкое развитие. В том же году OWL стал поддерживать разработанный в Стэнфорде редактор онтологий Protégé. На данный момент Protégé является самым популярным свободным редактором онтологий. В 2005 г. W3 опубликовали описание RDF/A - синтаксиса, который позволяет встраивать метаданные RDF в документы XHTML. В 2006 г. завершилась разработка языка запросов к RDF документам с SQL-подобным синтаксисом, получившая название SPARQL. В настоящее время официальным языком онтологии Semantic Web является OWL214, принятый в 2012 г. В основу OWL2 также положен XML/Web стандарт.

Удобство онтологий для описания не только ресурсов Всемирной паутины и создания Semantic Web было замечено наукой и бизнесом. C 2000-х годов область применения онтологий расширяется, интерес к этой области компьютерной лингвистики растет. Сильные стороны компьютерных онтологий, которые делают этот подход привлекательным для построения модели предметной области, это:

• Четкий синтаксис OWL.

• Формальная семантика RDF.

• Богатые возможности для автоматизированного анализа.

Четкий синтаксис дает возможность описывать специфические термины, а формальная семантика - строго моделировать предметную область, что также имеет значение для унификации доступной информации. Разработка

14 Подробней см. https://www.w3.org/TR/owl2-syntax/ [Дата обращения: 05.2018].

SOIS, № 4

онтологий сохраняет плюсы описания предметной области в рамках объектно-ориентированного подхода (возможность экспорта в другие объектно-ориентированные языки), богатый логический (дескриптивные логики, первопо-рядковая логика предикатов, логический вывод) и математический аппарат (теория множеств, графы). Кроме того, за последние годы набирают популярность web-технологии, все более важным становится вопрос разметки информации для облегчения поиска и работы с данными (анализ данных, машинное обучение, облачные хранилища). Технологии развиваются в направлении глобализации и унификации. В этом ключе потенциал использования онто-логиями уже существующих баз знаний, описание моделей в перспективе встраиваемых и интегрируемых с другими системами приобретает все большее значение. Эти аспекты делают онтологию привлекательной не только с исследовательской (научной), но и с коммерческой (предметной) точки зрения.

В медицине интерес к онтологиям возникает с 1990-х гг. и продолжается по сегодняшний день. Наибольшая работа была проведена американскими учеными: разработаны крупные онтологии как NCBITAXON (1991), LOINC (1994), GO (1998), SNOMED-CT (1999), GALEN (2000), FMA (2003), PR Ontology (2008), DRON (2013). Из приведенных по объему самой большой является NCBITAXON - онтология Национального центра биотехнологической информации США, состоящая более чем из 1 млн. концептов. Эта онтология представляет собой классификатор живых организмов. Работа по стандартизации и компьютеризации терминологической базы в биомедицинской области стартовала в Соединенных Штатах еще раньше - в 1986 г. Национальной библиотекой медицины США была создана маппинговая система UMLS, объединяющая существовавшие на тот момент медицинские словари.

До недавнего времени использование он-тологий в медицине концентрировалось на

>

и информационные

технологии

задачах упорядочивания и перевода медицинских терминов. Однако в последние годы развитие технологий машинного обучения и искусственного интеллекта (ИИ) открывает новые возможности онтологий в области обработки естественного языка.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Использование онтологий в медицине позволяет облегчить ведение медицинской истории путем интегрирования в корпоративные системы больниц и институтов баз болезней и лекарственных препаратов15. Создание унифицированных онтологий на основе общепринятых стандартов (например, в рамках проекта OBO Foundry или UMLS) способствует обмену опытом. Благодаря открытым ресурсам врачи со всего мира могут использовать существующие базы и использовать знания врачей со всего мира (здесь особенно остро встает вопрос синонимичности терминов, таких как названий заболеваний или процедур). Возможность поделиться знаниями становятся актуальней по мере роста интенсивности международного взаимодействия и кооперации в сфере медицины и биомедицинских исследований.

На наш взгляд, онтологии в медицинской области можно поделить на две группы:

• Композиционно схожие онтологии, построенные по общим структурным принципам с использованием одних концептов и связей (например, онтологии, поддерживающие стандарт OBI Foundry).

• Независимые системы со своими уникальными грамматиками и концептуальными системами.

Медицинские онтологии, как и большинство других современных онтологий, имеют модульный характер. Самые большие онтологические корпуса объединяют в себе различные онтологии, которые описывают разные предметные области. Модульность одновременно является сильной и слабой чертой онтологических моделей - потенциальная способность

Подробнее см. [18].

объединения множеств концептов накладывает требования на синтаксис и содержательную методологию. Отсюда имеется два пути объединения онтологий:

1. Унификация синтаксиса.

2. Нормализация концептов и связей.

Первый вариант заключается в создании

онтологий в рамках определенной системы, руководствуясь существующей синтаксической структурой и методологическими, содержательными установками. Наиболее успешным примером такого подхода являются онтологии, созданные в рамках американской системы UMLS, которая будет рассмотрена ниже более подробно. Второй способ предполагает объединение онтологий с нормализацией всех или нескольких из них для приведения к общему виду. Это трудоемкий и долгий процесс, поскольку специфика онтологий во многом определяется подходом к исследованию предметной области в той или иной научной среде.

NATIONAL LIBRARY OF MEDICINE

В области определения терминов, их унификации и систематизации колоссальный объем работы был осуществлен американскими исследователями. В 1986-1996 гг. сотрудниками Национальной медицинской библиотеки США (U.S. National Library of Medicine, NLM) была разработана Unified Medical Language System (UMLS). UMLS была создана для того, чтобы облегчить доступ к биомедицинской информации и ускорить процесс ее компьютеризации. UMLS поддерживается командой Национальной медицинской библиотеки и используется для расширения компьютерной базы биомедицинской информации.

Библиотека содержит 1 миллион медицинских концептов, собранных из 100 интегрированных словарей и систем. К числу инкорпорированных в библиотеку систем относятся рассмотренные ниже онтологии SNOMED CT и Gene Ontology.

15

Структурно библиотека делится на два уровня:

1. Метатезаурус. Это самый большой компонент библиотеки. Метатезаурус представляет собой множество интегрированных концептов, причем каждое имя концепта имеет связанный концепт с оригинальной смысловой нагрузкой в системе-источнике. Таким образом, множество концептов метатезауруса представляет сумму множеств исходных словарей.

2. Семантическая сеть. Семантическая сеть UMLS - это совокупность семантических типов и отношений, призванных описать элементы меттатезауруса.

Каждый из концептов метатезауруса характеризуется не менее, чем одним семантическим типом на втором уровне (семантическая сеть). Семантическая сеть включает такие семантические типы, призванные структурировать и описать элементы метатезауру-са, как «организм», «биологическая структура», «биологическая функция» и др. Каждый семантический тип связан с другими семантическими отношениями. Основным семантическим отношением является отношение «ISA», связывающая типы в иерархию. Другие, неиерархическим отношения, это такие отношения как «физически связан с», «временно

Current Procedural Terminology (CPT)

RxNORM

Medical Dictionary for Regulatory Activities

SNOMED

National Drug Data File (NDDF) Foundational Model of Anatomy (FMA)

National Cancer Institute Thesuarus (NCIT) | 2,0

2018, № 4

связан с», «функционально связан с» и т.д.

Поэтому уровень семантической сети UMLS по сути является классификацией типов концептов и смысловых связей между ними. В системе насчитывается 54 отношения и 135 семантических типов.

Unified Medical Language System широко применяется, в том числе благодаря разработанному для нее пользовательскому инструментарию (tool) - MetamorphoSys. Он позволяет пользователям настраивать требуемые для работы словари UMLS, а также интегрировать в систему другие, в том числе самостоятельно составленные словари.

NATIONAL CENTER FOR BIOMEDICAL ONTOLOGY

Самая широкая база биомедицинских онтологий открыта для доступа на портале BioPortal, который поддерживается Национальным центром биомедицинских онтологий (National Center for Biomedical Ontology, NCBO), основанным в рамках проекта по созданию центров биомедицинской информатики. Центр биомедицинских онтологий был создан для поддержки исследователей, чьи работы посвящены структуризации и автоматизации медицинской и биологической информации.

9,8

6,8 ,7

,3

87,9

Рис. 4. Частота посещений онтологий на BioPortal

Источник: BioPortaH6

Дата обращения: 08.2018.

>

и информационные

технологии

Ресурс BioPortal является одним из самых востребованных среди специалистов по биомедицинской информатике. Он поддерживает 690 онтологий, состоящих на август 2018 года из 9,5 млн. классов. В течение первого полугодия 2018 года самая популярная онтология -Current Procedural Terminology (CPT), к июлю была просмотрена 90,000 чел. (рис. 4). Помимо BioPortal Национальный центр биомедицинских онтологий поддерживает библиотеку Open Biomedical Ontologies (OBO), которая является попыткой интегрировать между собой максимальное количество медицинских онтологий, основываясь на общем синтаксисе, семантике и архитектуре построения.

Наиболее широко используемыми биомедицинскими системами являются Drug Ontology (DRON), Gene Ontology (GO), Galen, ICD10CM (Innternational Classification of Diseases 10th Edition Clinical Modification), NCIT (National Cancer Institute Thesaurus) Ontology, SNOMED, RxNorm. Все эти системы были разработаны американскими учеными, и отдельные из них будут более подробно рассмотрены ниже.

Gene Ontology, пожалуй, самая известная биомедицинская онтология. GO аккумулирует в компьютерной форме знания человечества

об эволюции генов, о генетическом кодировании биологических функций на молекулярном, клеточном и тканевом уровнях. Система содержит 40 тыс. концептов и регулярно обновляется.

Gene Ontology состоит из двух уровней -уровня концептов (термов) и уровня аннотаций (рис:. 5). Уровень концептов имеет классическую онтологическую структуру, в то время как на уровне аннотаций содержатся экспериментально подтвержденные знания о специфическом генетическом продукте. GO в описании концептов допускает ссылки на внешние концепты.

Листинг 3. Описание GO-терма

id: G0:0016049 name: cell growth namespace: biological_process

def: "The process in which a cell irreversibly increases in

size over time by accretion and biosynthetic production

of matter similar to that already present." [GOC: ai]

subset: goslim_generic

subset: goslim_plant

subset: gosubset_prok

synonym: "cell expansion" RELATED []

synonym: "cellular growth" EXACT []

synonym: "growth of cell" EXACT []

is_a: G0:0009987! cellular process

is_a: G0:0040007! growth

relationship: part_of G0:0008361! regulation of cell size

Источник: hffp://www.geneonfology.org/

Рис. 5. Структура Gene Ontology

Источник: hffp://www.geneonfology.org/

2018, № 4

Рис. 6. Логическая модель SNOMED

Источник: https://www.snomed.org/

Онтология была составлена на основе 140 тыс. научных публикаций. Наиболее часто GO используется для интерпретации биомолекулярных «omics»17 экспериментов. Такие эксперименты проводятся для изменения генетического продукта (РНК и белков), вариаций последовательностей генов ДНК. Все это относится к функциям генов и позволяет на основании связей между концептами вывести новое знание о функциональной роли соединений, а также классифицировать одни соединения относительно других. Типичный omics-эксперимент проводится на уровне тысяч молекул, что затрудняет интерпретацию основных молекулярных отличий (например, разницы между раковой и здоровой клеткой). Инструмент Gene Ontology идентифицирует соответствующие функциональные группы генов и таким образом сужает необходимость анализа тысячи молекулярных изменений до гораздо меньшего числа биологических функций.

Другой активно развивающейся масштабной онтологией является классификатор медицинских терминов SNOMED. SNOMED - модульная онтология, является,

17 Экспериментами «omics» в англоязычной биологии называют эксперименты в областях, название которых заканчивается на «-omics» (genomics, proteomics, metabolomics etc).

по мнению ее составителей 1 8, лидирующим мировым многоязычным биомедицинским компьютерным словарем в мире. Логическая модель онтологии представлена на рис. 6. SNOMED содержит также клинические данные и сведения о медицинских экспериментах. SNOMED разрабатывается с 1965 года; в 1993 году был выпущен релиз SNOMED International 3.0, соответствующий различным стандартам, таким как ICD-10, ICPC2, ICD0, LOINC и др. Командой SNOMED также был разработан SNOMED CT URI стандарт.

Наиболее активно система используется для документирования клинической истории. SNOMED представляет клинические данные согласно принятым стандартам, что позволяет использовать систему как основу для исследований и коммуникации на международном уровне. Для облегчения коммуникации и взаимодействия врачей со всего мира в SNOMED предусмотрен инструмент «мап-пинга» терминов системы в соответствующие локальные термины. На концептуальном уровне конструкты относятся к следующим группам: процедура, наблюдаемая сущность (явление), организм, субстанция, физическая

18 https://www.snomed.org/ [Дата обращения: 07.2018].

и информационные

технологии

т

сила и др. - всего 20 групп. Для определения каждой группы существуют свои атрибуты. Например, процедуры описываются следующими атрибутами: образец (описывает тип образца, на котором проводится процедура) компонент (относится к тому, что наблюдается или измеряется процедурой), временной аспект (временные связи процедуры измерения), метод изменения, тип шкалы, свойство (указывает на тип измеряемого свойства).

RxNorm - онтология, описывающая все актуальные лекарства на американском рынке. Фрагмент логической структуры онтологии RxNorm приведен ниже на рис. 7. Онтология и созданная на ее основе компьютерная система используются для ведения медицинской истории на национальном уровне, для определения правильной дозировки. По данным ВюРо^а!, это третья по посещениям онтология, основанная на стандарте UMLS. RxNorm имеет разработанный веб-интерфейс и поддерживается коллективом NML. Онтология содержит 115 тыс. классов и делится на два

уровня: уровень наименовании всех препаратов, которые имеются на рынке в США (около 60% наименовании при внедрении в онтологию нормализуются), а также семантический уровень, описывающий связи между фармакологическими терминами. Уровень препаратов рассматривается в двух аспектах - как совокупность отдельных медикаментов, а также как группы препаратов, объединенные по функциональному признаку в зависимости от болезней.

Концепты RxNorm используются в другой, более широкой, фармакологической онтологии - Drug Ontology (DRON). DRON была создана для того, чтобы исследователи могли сравнивать эффективность медикаментов и соединений, запрашивая данные по составу препарата, по его молекулярному строению (например, блокада бета-адренергиче-ской рецепторной молекулы), клиническому применению (например, антигипертензивные препараты) и физиологическим эффектам (например, мочегонные препараты). Онтология

Рис. 7. Структура RxNorm (пример)

Источник: https://www.nlm.nih.gov/

состоит из 430 тыс. классов и содержит, в основном, национальные фармацевтические коды (national drug codes), составляющие препаратов и клинические препараты.

Отдельно можно выделить класс биомедицинских онтологий, созданных в исследовательских целях, то есть мета-онтологии. Мета-онтологии предназначены для облегчения практических и теоретических исследований, а также для создания предметных онтологий и включают в себя справочники и кодификаторы методов, средств, инструментов, служебных терминов и др. Наиболее используемые онтологии для мета-медицинских исследований - Clinical Trials Ontology (CTO), Statistics Ontology (STATO).

К мета-онтологиям относятся также такие как:

• Logical Observation Identifier Names and Codes (LOINC) - онтология, содержащая стандарты для идентификации биомедицинских исследований. LOINC поддерживается UMLS и состоит из 200 тыс. классов, максимальная глубина вложенности - 15.

• Relations Ontology - онтология, содержащая стандартизированные отношения, которые могут быть использованы для построения онтологий по принципу OBO.

• Contributor Role Ontology - онтология, классифицирующая различные роли, которые исследователи играют в процессе работы, результаты которой будут опубликованы.

• Measurement Method Ontology - онтология, суммирующая доступные методы количественных и качественных медицинских исследований.

Отдельного внимания заслуживает созданный и поддерживающийся в рамках OBO Foundry ресурс Ontology for Biomedical Investigations (OBI). Это открытый ресурс, который объединяет мета-онтологии для

SOIS, № 4

клинических и биологических исследований. OBI аккумулирует основные мета-онтологии, основываясь на принципах OBO, а также содержит информацию о форматах исследования, протокола, форматах данных и т.д.

При разработке рассмотренных онтологий решались следующие задачи аккумулирования знания (посредством создания общей терминологической базы, унификации имеющихся терминов, создания маппингов для определения синонимичных, определение отношений между терминами) и стимулирование исследований и разработок.

Сегодня на первый план выходят задачи автоматизации анализа информации, получения нового знания, обработка информации на естественном языке и построение выводов на ее основе. Эти задачи частично решаются уже сейчас в рамках существующих систем. Ярким примером является Gene Ontology, которая позволяет выполнять функции приоретизации генов, белков и биомаркеров 1 9. Развитие технологий искусственного интеллекта открывает потенциал онтологий для систем поддержки принятия решения и рекомендательных систем. При помощи СППР на базе медицинских онтологий планируется строить рекомендации о методах лечения или анализировать результаты клинических анализов

20

В течение последних 20 лет онтологии активно разрабатывались и совершенствовались медиками и лингвистами, что обеспечило к настоящему моменту международному сообществу масштабный пласт материала в области биологии и медицины. В сфере биомедицинских онтологий явным лидером является США. Основанием для этого утверждения является тот факт, что в отличие от других стран в США есть не отдельные центры, а поддерживаемая правительством система Национальных центров

19 Подробней о Gene Ontology и других биомедицинских онтологиях см. [18].

20 Подробней см. [22].

>

и информационные

технологии

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

биомедицинских вычислений21. К ним, помимо Национального центра биомедицинских онтологий, ведущего активную работу с 2005 года, относится еще 7 исследовательских центров. В ближайшие годы стоит ожидать разработку национальных корпусов и словарей другими странами, в том числе странами Европы и Россией, а также разработку маппинговых систем для приведения этих национальных корпусов к международному (американскому) стандарту, что позволит пользоваться базой, уже наработанной американскими медиками и лингвистами. Эта тенденция объясняется тем, что английский язык является международным языком научных исследований и разработок, а также тем, что уже созданные американскими учеными системы используются по всему миру в соответствии с американскими стандартами (например, SNOMED СТ, поддерживающая ^-10, 1СРС2, ^0, LOINC). Разработка собственных национальных систем и стандартов лишила бы ученых возможности пользоваться широкой разработанной базой на английском языке, а также осложнила бы международную кооперацию. Маппинговые системы при использовании американских стандартов необходимы, так как некоторые концепты в национальных словарях имеют различное обозначение. Особенно это верно в отношении болезней. Например, существует группа болезней заболеваний крови «талассемия», преобладающая среди азиатских народностей и случающаяся преимущественно в Азербайджане. Тогда как различные вирусы гриппа являются повсеместным заболеванием, встречающимся среди представителей разных национальностей. В первом случае термины будут перенесены из национального справочника, как он есть, поскольку, скорее всего, эта болезнь не учитывается в западных стандартах,

а во втором - необходимо будет использование уже принятых названий и кодов.

В последние годы наблюдается рост интереса бизнеса к компьютерным онтологи-ям. Как было сказано выше, это объясняется активным развитием технологий искусственного интеллекта. Онтологии являются удобным инструментом для описания предметной области, в том числе для создания систем и приложений с веб-интерфейсом, чему способствует строгий и богатый синтаксис. Важным пунктом является тот факт, что онтологии - официальное средство описания интернет-ресурсов, инструмент парадигмы Semantic Web. Кроме того, с 2000 гг. была наработана широкая теоретическая база, создано множество открытых онтологий и маппингов для переводов и связи терминов. В сочетании с технологиями машинного обучения это создает выгодные условия для создания систем поддержки принятия решений в тех областях, которые поддаются описанию в терминах объектно-ориентированного подхода.

Новые онтологии, на наш взгляд, будут носить рекомендательный характер, например, помогать врачам вырабатывать схему лечения пациента (такие онтологии разрабатываются уже сейчас) 22, диагностировать болезни по клинической картине, помогать компаниям выявить перспективную для инвестиций область медицинских исследований. Это является логическим этапом, поскольку в свете тенденций интеграции технологий в человеческую практику онтологии как сугубо описательные системы уже не так востребованы. Кроме того, онтологии будут продолжать применяться для поиска информации и обработки информации на естественном языке в поисковых системах сети Интернет.

http://www.ncbcs.org [Дата обращения: 08.2018].

Подробней см. [21].

21

22

Терминология и стандартизация www.idmz.ru ,_

2018, № 4 *

ЛИТЕРАТУРА

1. U.S. National Library of Medicine [Электронный ресурс] URL: https://www.nlm.nih.gov/ [Дата обращения: 03.2018].

2. National Center for Biomedical Ontologies [Электронный ресурс] URL: https://www.bioontology.org/ [Дата обращения: 03.2018].

3. Gene Ontology Consortium [электронный ресурс] URL: http://www.geneontology.org/ [Дата обращения: 03.2018].

4. University of Michigan Library [Электронный ресурс] URL: https://www.lib.umich.edu/ [Дата обращения: 03.2018].

5. Ontology for Biomedical Investigations [Электронный ресурс] URL: http://obi-ontology.org/ [Дата обращения: 03.2018].

6. Open Biological and Biomedical Ontology (OBO) Foundry [Электронный ресурс] URL: http://obofoundry. org/ [Дата обращения: 03.2018].

7. Basic Formal Ontology (BFO) [Электронный ресурс] URL: http://basic-formal-ontology.org/ [Дата обращения: 03.2018].

8. SNOMED International Portal [Электронный ресурс] URL: https://www.snomed.org/ [Дата обращения: 03.2018].

9. Logical Observation Identifiers Names and Codes [Электронный ресурс] URL: https://loinc.org/ [Дата обращения: 07.2018].

10. NCI Thesaurus https://ncit.nci.nih.gov/ncitbrowser.

11. Horridge M. A Practical Guide To Building OWL Ontologies Using Protege 4 and CO-ODE Tools. The University Of Manchester, 2004 [Дата обращения: 07.2018].

12. OWL 2 Web Ontology Language Document Overview (Second Edition), W3C Statdard [Электронный ресурс] URL: https://www.w3.org/TR/2012/REC-owl2-overview-20121211/ [Дата обращения: 07.2018]

13. DrOn Project [Электронный ресурс] URL: https://ontology.atlassian.net/wiki/spaces/DRON/overview [Дата обращения: 03.2018].

14. Соловьев В.Д. и др. Онтологии и тезаурусы. Учебное пособие. Казань, Москва. 2016 [Уровень доступа: электронный документ] URL: https://nsu.ru/xmlui/bitstream/handle/nsu/8978/ot_2006_posobie. pdf?sequence=1 [Дата обращения: 03.2018].

15. Митрофанова О.А. Онтологии как системы хранения знаний. Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению «Информационно-телекоммуникационные системы», 2008. - 54 с. [Дата обращения: 03.2018].

16. World Wild Web Consortium [Электронный ресурс] URL: https://www.w3.org/2001/sw/ [Дата обращения: 07.2018].

17. Saripalle R.K. Current status of ontologies in Biomedical and Clinical Informatics. University of Connecticut [Электронный ресурс] URL: http://www.engr.uconn.edu/~steve/Cse300/saripalle.pdf [Дата обращения: 05.2018].

18. Подколодный Н.Л., Подколодная О.А. Онтологии в биоинформатике и системной биологии. Вави-ловский журнал генетики и селекции. 2015. - № 19(6). - С. 652-660 [Дата обращения: 05.2018].

19. Chimezie Ogbuji. A Framework Ontology for Computer-Based Patient Record Systems. Case Western University (School of Medicine), Cleveland, OH, USA. [Уровень доступа: электронный документ] URL: https://pdfs.semanticscholar.org/7d37/3778e655af33f47c69fbb943725011e5c113.pdf [Дата обращения: 07.2018].

20. Gruber T. Toward Principles for the Design of Ontologies Used for Knowledge Sharing. In: International Journal Human-Computer Studies. Vol. 43. - P. 907-928. [Дата обращения: 07.2018].

21. Natalya F. Noy, Deborah L. McGuinness. Ontology Development 101: A Guide to Creating Your First Ontology. Stanford University [Уровень доступа: электронный документ] URL: https://protege.stanford. edu/publications/ontology_development/ontology101.pdf [Дата обращения: 07.2018].

22. Bau C-T, Chen R-C.C, Huang C-Y. Construction of a Clinical Decision Support System for Undergoing Surgery Based on Domain Ontology and Rules Reasoning. TELEMEDICINE and e-HEALTH. 2014. [Дата обращения: 07.2018].

19 S

i Надоели баннеры? Вы всегда можете отключить рекламу.