Научная статья на тему 'Актуальные вопросы создания автоматизированной системы лексического контроля медицинских документов'

Актуальные вопросы создания автоматизированной системы лексического контроля медицинских документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
203
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ / КОМПЛЕКСНЫЕ АВТОМАТИЗИРОВАННЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ ЛЕЧЕБНО-ПРОФИЛАКТИЧЕСКИХ УЧРЕЖДЕНИЙ / СИСТЕМЫ ЛЕКСИЧЕСКОГО КОНТРОЛЯ / СЕМАНТИЧЕСКИЙ АНАЛИЗ / INFORMATION TECHNOLOGIES / THE COMPLEX AUTOMATED HOSPITAL INFORMATION SYSTEMS / LEXICAL CONTROL SYSTEMS / SEMANTIC ANALYSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Берсенева Е. А., Седов А. А., Голухов Г. Н.

В статье рассматриваются вопросы необходимости создания и внедрения систем лексического контроля медицинских документов. Также рассматриваются основные особенности создания системы лексического контроля «Элекс», перспективы ее дальнейшего развития

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Берсенева Е. А., Седов А. А., Голухов Г. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Topical issues of the medical documents lexical control automated system Creation

In article questions of necessity of creation and implementation of medical documents lexical control automated systems are considered. Also the main features of lexical control system «Eleks» creation, also as prospects of its further development are considered

Текст научной работы на тему «Актуальные вопросы создания автоматизированной системы лексического контроля медицинских документов»

Медицинские информационные системы

www.idmz.ru

гол 4, № Л

■■■■

гш

Е.А. БЕРСЕНЕВА,

д.м.н., профессор кафедры общественного здоровья и здравоохранения, экономики здравоохранения ФУВ РНИМУ им. Н.И. Пирогова, г. Москва, Россия, [email protected]

А.А. СЕДОВ,

генеральный директор ООО «Себер», г. Москва, Россия, [email protected]

Г.Н. ГОЛУХОВ,

д.м.н., чл.-корр. РАМН, профессор кафедры общественного здоровья и здравоохранения, экономики здравоохранения ФУВ РНИМУ им. Н.И. Пирогова, г. Москва, Россия, [email protected]

АКТУАЛЬНЫЕ ВОПРОСЫ СОЗДАНИЯ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ ЛЕКСИЧЕСКОГО КОНТРОЛЯ МЕДИЦИНСКИХ ДОКУМЕНТОВ

УДК: [614.2:002]:681.3

Берсенева ЕЛ., Седов А.А., Голухов Г.Н. Актуальные вопросы создания автоматизированной системы лексического контроля медицинских документов (ФУВ РНИМУ им. Н.И. Пирогова, г. Москва, Россия; ООО «Себер», г. Москва, Россия)

Аннотация. В статье рассматриваются вопросы необходимости создания и внедрения систем лексического контроля медицинских документов. Также рассматриваются основные особенности создания системы лексического контроля «Элекс», перспективы ее дальнейшего развития.

Ключевые слова: информационные технологии, комплексные автоматизированные информационные системы лечебно-профилактических учреждений, системы лексического контроля, семантический анализ.

UDC: [614.2:002]:681.3

Berseneva E.A., Sedov A.A., Golubov G.N. Topical issues of the medical documents lexical control automated system creation (RNRMU, Moscow, Russia; Ltd. «Seber», Moscow, Russia)

Abstract. In article questions of necessity of creation and implementation of medical documents lexical control automated systems are considered. Also the main features of lexical control system «Eleks» creation, also as prospects of its further development are considered.

Keywords: Information technologies, the complex automated hospital information systems, lexical control systems, the semantic analysis.

I

На сегодняшний день компьютеры прочно вошли в повседневную жизнь любого медицинского учреждения (http://www.medlinks.ru/article.php?sid=39541, 2010) независимо от профиля оказываемых услуг, подчиненности и формы собственности, и невозможно представить формирование любого содержательного медицинского документа без использования ЭВМ.

Возможны два основных способа использования ЭВМ в повседневной практике врача: с применением медицинской информационной системы и без применения медицинской информационной системы.

В случае, если в ЛПУ не используется никакая медицинская информационная система, формирование медицинских документов происходит с использованием возможностей, предоставляемых базовым набором программ, установленных на компьютере. При таком порядке текст документа формируется в текстовом редакторе и сохраняется в виде файла.

В случае, если в ЛПУ используется медицинская информационная система, формирование документа происходит непосредственно в ней, избавляя врача от необходимости сохранять файлы протоколов на диск, а также давая ряд дополнительных возможно-

© Е.А. Берсенева, А.А. Седов, Г.Н. Голухов, 2014 г.

■ ■ ■ ■ ■ ■■ ■ ■ ■ ■■■ ■ ■ ■ ■■ ■ ■ ■■■ ■ ■ ■ ■ 11 ■

“■ и информационные

технологии

Медицинские информационные системы

стей работы с текстом, в том числе в некоторых системах возможно использование таких достижений, как автоматизированный иерархический справочник фраз (ИСФ) (Берсенева Е.А., Стародубов В.И., 2005), и других медицинских словарных систем.

Однако в обоих описанных случаях врачи пользуются таким базовым свойством любой информационной системы, как способность размножать произвольное количество раз однажды полученную информацию без существенных временных затрат со стороны пользователя.

В случае использования текстового редактора врачи накапливают базу фрагментов или даже целых медицинских документов, содержащих типовые элементы медицинского документа, или описывающих наиболее распространенные виды течения часто встречающихся в клинической практике заболеваний. Накопленная информация хранится на диске в виде текстовых файлов различных форматов, в каталогах произвольной структуры, формируемой по усмотрению пользователя.

В случае использования медицинской информационной системы накапливаются так называемые шаблоны — неструктурированные документы с возможностью еще более простой формализованной модификации и размножения с использованием дополнительных возможностей, предоставляемых медицинской информационной системой. Сами шаблоны при этом сохраняются в медицинскую информационную систему. Система хранения шаблонов при этом предоставляет некоторые дополнительные возможности по сравнению с хранением в файле, такие как совместный доступ, регламентированная структура каталога.

Однако следующий из описанных выше наблюдений бесспорный факт, состоящий в том, что теперь врач теперь имеет возможность взять готовый документ и просто «вставить» туда фамилию пациента или «собрать» такой документ из фрагментов, подготовлен-

ных ранее, без связи с конкретным событием в клинической практике, которое врач должен описывать, остался фактически незамеченным со стороны организаторов здравоохранения и ведущих клиницистов.

Между тем на данный момент погоня за экономией времени в клинической практике подталкивает врача использовать наиболее простой путь для формирования содержательной части медицинского документа. При этом в практике информатизации здравоохранения не имеют сколько-нибудь серьезного распространения методы оценки качества медицинского документа, формируемого с использованием любой, как специализированной, так и неспециализированной информационной системы, позволяющие произвести формализованную количественную оценку содержания медицинского документа. Рассматривая возможность создания методов такого анализа, следует уделять особое внимание невмешательству в процесс формирования документа, поскольку только такой подход позволяет сделать метод независимым от функциональности прикладной системы, используемой для формирования текста, а также обеспечить невмешательство в процесс реализации клинического мышления практикующего врача. Кроме того, а, возможно, даже в первую очередь, невмешательство в процесс формирования документа обеспечит клиницисту должную свободу действий при формировании документа, не навязывая ему каких-либо регламентов (заполнения опросников, использование заключений экспертной системы для выполнения определенных диагностических мероприятий, и т.д.).

В ходе проведенных нами работ была создана система «Элекс», реализующая метод анализа текста первичного медицинского документа независимо от источника его происхождения, что позволяет как существенно расширить область применения данной системы за счет возможности анализировать медицинский документ, созданный в любой МИС, так и сни-

12

Медицинские информационные системы

www.idmz.ru

РЧВВ

гол 4, № Л

Ш

Таблица 1

Сравнительные характеристики ручного и автоматизированного способов

проверки

Скорость проверки поступившего документа

Выявление повторяющихся фрагментов на основании сверки

с имеющимися в базе

Проверка по словарю

Формирование базы для СППР

Оценка количественного состава документа

Оценка структуры документа (в случае, если структура

определена нормативно)

Количественная оценка эпизода (дни госпитализации, соответствие МЭС диагнозу, и т.д.)

Оценка форматирования документа

Оценка лечебного процесса, описанного в документа

АИС «Элекс» Ручной режим I

Высокая Низкая

Да Нет

Да Нет

Да Нет

Да Нет

Да Нет

Да Нет

Нет Да

Нет Да

зить издержки, связанные с вводом такой системы в эксплуатацию за счет отсутствия какого-либо влияния с ее стороны на сам процесс формирования документа. Созданный нами подход существенным образом отличается от подходов, предложенных ранее (Загоруй-ко, 1999; Jain A. et al., 1999; Thomas Hofmann, 1999; Yang et al. 2002; Dobrynin, 2004).

Приведенная таблица 1 содержит сравнительные характеристики ручного и автоматизированного способов проверки.

Архитектура системы построена с использованием современных принципов создания информационных систем, что дает возможность применить ее в гетерогенных средах информационного обмена для создания больших высоконагруженных хранилищ данных. Система включает в себя следующие компоненты:

• Сервис получения документов из файлового хранилища. Является внешним. Данный сервис используется в случае, если информационная система, являющаяся источником документа, не поддерживает обмен данными по SOA-модели. В этом случае возможна загрузка документов из файлового хранилища. Сервис осуществляет сбор документов по протоколу FTP.

• Сервис получения документов по SOA-модели взаимодействия. Является внешним. Предназначен для загрузки документов из систем, поддерживающих работу c SOAP или REST-сервисами. Взаимодействие с данным сервисом является предпочтительным, поскольку именно такой способ приема документов обеспечивает наибольшую безопасность и масштабируемость системы. Также именно с применением этого сервиса может быть реализовано подписание документа ЭП. Сервис работает в синхронном режиме.

• Сервис создания индекса документов в базе данных. Является внутренним, не предоставляет каких-либо сведений во внешние источники. Используется для обеспечения транзакционной поддержки при загрузке документов в хранилище. Не обрабатывает внутреннее содержание документа, только регистрирует факт получения документа с учетом источника и стадии его обработки. В дальнейшем именно данные в индексе используются остальными сервисами системы в случае, если необходим доступ к документу.

• База данных содержимого документа, словаря и типовых элементов. Все сервисы, преобразующие полученный документ, ведут запись в

■ ■ ■ ■ ■ ■■ ■ ■ ■ ■ ■■ ■ ■ ■ ■■ ■ ■ ■■■ ■ ■ ■ ■ 13 ■

“■ и информационные

технологии

Медицинские информационные системы

Рис. 1. Диалоговая форма настройки параметров сервиса предварительной оценки до начала работы сервиса первичного разбора полученного документа и сервиса структурного и лексического анализа (указание этих параметров до начала загрузки документов позволяет в значительной степени автоматизировать процесс оценки)

Рис. 2. Сервис формирования реестра типовых элементов документа. Слева расположен реестр типовых элементов документа с указанием количества повторов в базе документов. Справа — перечень указателей на документы, содержащие данный типовой элемент. На переднем плане — протокол, открытый по нажатию на указатель

14

Медицинские информационные системы

www.idmz.ru

гол 4, № Л

■■■■

гш

Рис. 3. Пример использования сервисов (Отображены результаты работы сервиса формирования словаря (слева) и сервиса поиска (справа), В результатах работы сервиса словаря выбрано слово, содержащее опечатку. При этом сервис поиска отобразил указатель на документ, содержащий данное слово)

эту базу с привязкой к индексу документов. Построена на основе реляционной СУБД.

• Сервис файлового хранения полученных документов в привязке к индексу. Хранит первичные данные подученного документа в неизмененном виде.

• Сервис первичного разбора полученного документа. Производит разбор документа на отдельные элементы с созданием соответствующих данных о документе в базе (рис. 1). Сервис выделяет фрагменты документа длинной в одно слово для сверки со словарем, длиной пять и десять слов — для сверки в сервисе структурного анализа (см. ниже).

• Сервис структурного и лексического анализа. Осуществляет сопоставление элементов, полученных в ходе работы предыдущего сервиса, с данными словаря и данными сервиса типовых элементов по «чешуйчатому» алгоритму. Практика показала наибольшую эффективность использования чешуек длиной пять и десять слов.

• Сервис формирования реестра типовых элементов документа (рис. 2). Осуществляет формирование реестра типовых элементов документа и сверку данных вновь поступающего документа с реестром с целью выявления так называемых «элементов шаблонов» — часто повторяющихся фрагментов документов, которые целесообразно отнести к структуре документа, а не к его содержательной части. Результаты работы этого сервиса используются с целью отделить элементы шаблона от значимого текста при оценке степени уникальности документа, поскольку сам размер шаблонных последовательностей значительно больше, чем уникальное содержимое, и в случае, если шаблонное содержание не выделено, оно окажет существенное влияние при оценке уникальности документа.

• Сервис оценки документа. Выполняет количественную оценку документа по ряду формальных критериев, таких как наполненность медицинской лексикой, объем использованных «элементов шаблонов», содержатель-

■ ■ ■ ■ ■ ■■ ■ ■ ■ ■■■ ■ ■ ■ ■■ ■ ■ ■■■ ■ ■ ■ ■ 15 ■

“■ и информационные

технологии

Медицинские информационные системы

Рис. 4. Сервис поиска в хранилище. На заднем плане — форма с параметрами поиска и указателями на найденные документы. На переднем плане — один из найденных документов

ная целостность документа, основываясь на результатах работы сервисов, описанных выше.

• Сервис формирования словаря. Используется для формирования словаря медицинской и немедицинской лексики (рис. 3). Словарь наполняется автоматически по результатам анализа поступающих документов, вручную производится только классификация элементов, что позволяет существенно снизить трудозатраты на его ведение.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• Сервис формирования признаков содержательной целостности. Позволяет установить минимальный набор элементов, присутствие которых необходимо в документе, в привязке к типу документа. Используется в случае, если известен тип полученного документа(осмотр, эпикриз, протокол операции, и.т.д.)

• Сервис поиска в хранилище. Позволяет производить высокопроизводительный поиск по всей базе документов, основываясь на индексах, построенных описанными выше сервисами.

Несмотря на достигнутые результаты, необходима доработка системы. На данном этапе выделяются следующие основные направления доработки:

• Анализ «неформальных» способов разметки, примененных при формировании первичного документа, таких как курсив, подчеркивание, выделение цветом и жирным шрифтом.

• Работа с электронными подписями при получении документов

• Поддержка зарубежных форматов информационного обмена, таких как профили

16

Медицинские информационные системы

www.idmz.ru

гол 4, № Л

■■■■

гш

IHE, OpenEHR, Snomed, и др., которые могут быть применены при разметке документа.

• Работа с различными типами медицинских документов в части формирования признаков содержательной целостности.

• Работа с изображениями. Все чаще получаемые из МИС документы содержат изображения как часть описания клинической картины, соответственно возникает необходимость работы с такими изображениями.

По нашей оценке критическое осмысление отрицательной роли информационных систем в клинической практике невозможно без создания базовых унифицированных механизмов всестороннего анализа содержательной части медицинского документа, независимо от источника его происхождения и примененной при его формировании конкретной информационной системы.

Хочется отметить, что задача создания такого фундаментального метода не является тривиальной и не может быть решена в рамках других прикладных задач информатизации здравоохранения, поскольку требует приме-

нения практических и методических подходов, которые не используются ни в клинической практике, ни при решении задач информатизации в других отраслях или системной интеграции.

Именно создание такого фундаментального метода, который позволит эффективно анализировать любой медицинский документ по формальным критериям качества содержания (таким, как объем и характер используемой медицинской лексики, количество заимствований фрагментов текста их других документов и объем уникальных словарных конструкций), создаст предпосылки для дальнейшего эффективного применения информационных технологий на этапе формирования первичного медицинского документа.

Кроме того, следует учесть, что без решения базовой задачи лексического анализа текста здравоохранение в целом остается совершенно закрытым для применения методов семантического анализа, хотя именно здесь применение этих технологий открывает самые широкие практические перспективы.

ЛИТЕРАТУРА

1. Берсенева ЕЛ., Стародубов В.И. Информационное обеспечение автоматизированной информационной системы лечебно-профилактического учреждения//Проб-лемы управления здравоохранением. — 2005. — № 6. — С. 11-18.

2. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. — Новосибирск: Издательство Института математики, 1999. — 270 с.

3. Dobrynin V., Patterson D, Rooney N. Contextual document clustering//In Proceedings of the 26th European Conference on Information Retrieval Research, LNCS 2997. — 2004. — P. 167-180.

4. Thomas Hofmann Probabilistic Latent Semantic//Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999.

5. Jain A, Murty M, Flynn P. Data Clustering: A Review//ACM Computing Surveys. — 1999. — Vol.31. — №3.

6. Yang Y, GuanH, You. J CLOPE: A fast and Effective lustering Algorithm for Transactional Data//In Proc. of SIGKDD'02, July 23-26, 2002, Edmonton, Alberta, Canada.

7. http://www.medlinks.ru/article.php?sid=39541.

■ ■ ■ ■ ■ ■■ ■ ■ ■ ■■■ ■ ■ ■ ■■ ■ ■ ■■■ ■ ■ ■ ■ 17 ■

i Надоели баннеры? Вы всегда можете отключить рекламу.