Научная статья на тему 'ПРИМЕНЕНИЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ДОКУМЕНТОВ'

ПРИМЕНЕНИЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ДОКУМЕНТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
291
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / МАШИННОЕ ОБУЧЕНИЕ / СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ / РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ / ОБРАБОТКА МЕДИЦИНСКИХ ДАННЫХ / БОЛЬШИЕ ДАННЫЕ / МЕДИЦИНА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Заварукин Андрей Сергеевич

Разработана нейронная сеть для автоматизированного распознавания и анализа медицинских рукописных данных, позволяющая оцифровать и классифицировать военно-медицинскую информацию, содержащуюся в медицинской документации клинического и управленческого профиля. Разработанная нейронная сеть представляет собой комбинацию из свёрточных и рекуррентных слоёв с применением функции потерь connectionist temporal classification (CTCLoss). После последовательного применения к исходным данным двух операций свёртки формировалась последовательность векторов, отражающих характерные свойства текстовых символов. Полученная последовательность подавалась на вход управляемому рекуррентному блоку, который для каждого свойства в последовательности определял вероятности принадлежности к определённому классу (символу). Для вычисления результирующей строки, являющейся текстовым представлением исходного графического изображения, применялась функция потерь «Connectionist Temporal Classification». Для написания нейросети применялся язык программирования Python и объектноориентированный фреймворк Pytorch. Обучение нейронной сети на достаточном количестве данных позволило добиться построчного распознавания рукописного текста в исходном документе и его терминологической классификации в автоматизированном режиме.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Заварукин Андрей Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE USE OF ARTIFICIAL INTELLIGENCE FOR THE ANALYSIS OF MEDICAL DOCUMENTS

One of the directions of improving the information and statistical activities of the Medical Service of the Armed Forces of the Russian Federation, the possibilities of analyzing large data arrays (Big data) in the context of the implementation of the national strategy of artificial intelligence in the field of healthcare is the use of artificial neural networks, modern computer vision technologies and optical character recognition. In the course of the research, a neural network was developed for automated recognition and analysis of medical handwritten data, which allows digitizing and classifying military medical information contained in clinical and managerial medical documentation. The developed neural network is a combination of convolutional and recurrent layers using the connectionist temporal classification (ctcloss) loss function. After sequentially applying two convolution operations to the source data, a sequence of vectors reflecting the characteristic properties of text symbols was formed. The resulting sequence was fed to a controlled recurrent block, which determined the probabilities of belonging to a certain class (symbol) for each property in the sequence. To calculate the resulting string, which is a textual representation of the original graphic image, the loss function "Connectionist Temporal Classification" was used. To write a neural network, the Python programming language and the object-oriented Pytorch framework were used. Training a neural network on a sufficient amount of data made it possible to achieve line-by-line recognition of handwritten text in the source document and its terminological classification in an automated mode.

Текст научной работы на тему «ПРИМЕНЕНИЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ДОКУМЕНТОВ»

Предложенный подход позволяет существенно снизить трудозатраты на интеграцию медицинских данных внутри единого цифрового контура военно-медицинской службы. В то же время при интеграции данных на уровне медицинской информационной системы региона каждой военно-медицинской организации необходимо учитывать требования производителей данных медицинских информационных систем и писать модули интеграции в соответствии с принятым стандартом данного региона.

Выводы. Интеграцию медицинских данных на уровне военно-медицинской организации можно разделить на несколько уровней: интеграцию данных об отдельно взятом пациенте, интеграцию данных медицинских приборов и аппаратов; интеграцию данных о всём лечебно-диагностическом процессе военно-медицинской организации с представлением интегрированных данных в региональную медицинскую информационную систему и единую государственную информационную систему в сфере здравоохранения.

Список использованной литературы:

1. Бахвалов Л.А. Компьютерное моделирование: долгий путь к сияющим вершинам. Л.А. Бахвалов. Компьютерра. - 1997. - № 40. - С. 26-36.

2. Боев В.Д. Моделирование систем. Инструментальные средства GPSS World: учебное пособие. В.Д. Боев. - Санкт-Петербург: БХВ-Петербург, 2016. - 368 с.

3. Боев В.Д. Имитационное моделирование систем: учеб. пособие для прикладного бакалавриата. В. Д. Боев. -М.: Издательство Юрайт, 2017. -253 с.

4. Болгарев Д.В. Возможности применения моделирования процессов в организации лечебно-эвакуационного обеспечения// Известия Российской Военно-медицинской академии. - 2019. - Т. 1. № S1. - С. 56-58.

5. Власов С.А. Универсальная моделирующая среда для разработки имитационных приложений. Власов С.А., Девятков В.В., Девятков Т.В. Информационные технологии и вычислительные системы. -№2. - 2019. - С. 5-12. Работа выполнена при поддержке РФФИ - Проект №08-07-00205.

6. Девятков В. В., Власов С. А., Девятков Т. В. Универсальная моделирующая среда для разработки имитационных приложений. Информационные технологии и вычислительные системы. 2009. № 2. С. 5-12.

7. Кушнирчук И.И., Болгарев Д.В., Норейка Д.В. Современные информационные технологии как инструмент моделирования организации массового оказания медицинской помощи // кооперация науки и общества: проблемы и перспективы. сборник статей по итогам международной научно-практической конференции. - 2020. - С.11-13.

© Заварукин А.С., 2022

УДК 796

Заварукин Андрей Сергеевич

Военно-медицинская академия им. С.М. Кирова Научный руководитель: Кушнирчук Игорь Иосипович

Военно-медицинская академия им. С.М. Кирова

г. Санкт-Петербург, РФ

ПРИМЕНЕНИЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ДОКУМЕНТОВ

Аннотация

Разработана нейронная сеть для автоматизированного распознавания и анализа медицинских

НАУЧНЫЙ ЖУРНАЛ «CETERIS PARIBUS» ISSN (p) 2411-717X / ISSN (e) 2712-9470 №5 / 2022

рукописных данных, позволяющая оцифровать и классифицировать военно-медицинскую информацию, содержащуюся в медицинской документации клинического и управленческого профиля. Разработанная нейронная сеть представляет собой комбинацию из свёрточных и рекуррентных слоёв с применением функции потерь connectionist temporal classification (CTCLoss). После последовательного применения к исходным данным двух операций свёртки формировалась последовательность векторов, отражающих характерные свойства текстовых символов. Полученная последовательность подавалась на вход управляемому рекуррентному блоку, который для каждого свойства в последовательности определял вероятности принадлежности к определённому классу (символу). Для вычисления результирующей строки, являющейся текстовым представлением исходного графического изображения, применялась функция потерь «Connectionist Temporal Classification». Для написания нейросети применялся язык программирования Python и объектно-ориентированный фреймворк Pytorch. Обучение нейронной сети на достаточном количестве данных позволило добиться построчного распознавания рукописного текста в исходном документе и его терминологической классификации в автоматизированном режиме.

Ключевые слова

искусственный интеллект, машинное обучение, сверточные нейронные сети, рекуррентные нейронные сети, обработка медицинских данных, большие данные, медицина.

Zavarukin Andrey Sergeevich

S.M. Kirov Military Medical Academy Scientific supervisor: Igor Iosipovich Kushnirchuk

S.M. Kirov Military Medical Academy Saint Petersburg, Russia

THE USE OF ARTIFICIAL INTELLIGENCE FOR THE ANALYSIS OF MEDICAL DOCUMENTS

Resume

One of the directions of improving the information and statistical activities of the Medical Service of the Armed Forces of the Russian Federation, the possibilities of analyzing large data arrays (Big data) in the context of the implementation of the national strategy of artificial intelligence in the field of healthcare is the use of artificial neural networks, modern computer vision technologies and optical character recognition. In the course of the research, a neural network was developed for automated recognition and analysis of medical handwritten data, which allows digitizing and classifying military medical information contained in clinical and managerial medical documentation. The developed neural network is a combination of convolutional and recurrent layers using the connectionist temporal classification (ctcloss) loss function. After sequentially applying two convolution operations to the source data, a sequence of vectors reflecting the characteristic properties of text symbols was formed. The resulting sequence was fed to a controlled recurrent block, which determined the probabilities of belonging to a certain class (symbol) for each property in the sequence. To calculate the resulting string, which is a textual representation of the original graphic image, the loss function "Connectionist Temporal Classification" was used. To write a neural network, the Python programming language and the object-oriented Pytorch framework were used. Training a neural network on a sufficient amount of data made it possible to achieve line-by-line recognition of handwritten text in the source document and its terminological classification in an automated mode.

Keywords

artificial intelligence, machine learning, convolutional neural networks, recurrent neural networks, medical

data processing, large data, medicine.

Введение. В настоящее время наблюдается активный рост заинтересованности научного сообщества, органов исполнительной власти и командования Вооружённых Сил к современным информационным технологиям и развитию искусственного интеллекта (ИИ).

В указе Президента РФ № 490 от 10.10.2019 г. «О развитии искусственного интеллекта в Российской Федерации», приоритетными направлениями развития и использования искусственного интеллекта признаны такие направления, которые (п. 21 б) автоматизируют рутинные (повторяющиеся) производственные операции, а также улучшают уровень жизни населения за счёт повышения качества услуг в сфере здравоохранения (п. 22 а) [1].

В Вооружённых Силах Российской Федерации происходит активное внедрение искусственного интеллекта во всех сферах деятельности [2], что определяет актуальность поиска новых сфер использования ИИ в клинико-диагностической работе и управлении медицинской службой ВС РФ. Одной из возможных сфер применения нейронных сетей на основе ИИ является совершенствование мероприятий информационно-статистической деятельности, анализом уже имеющихся массивов рукописных данных (медицинской документации, отчётов, донесений и др.) в контексте реализации национальной стратегии искусственного интеллекта в сфере здравоохранения, а также высокого уровня развития современных технологий компьютерного зрения и оптического распознавания символов. На текущий момент уже существуют модели искусственных нейронных сетей, позволяющие распознавать рукописный текст. ИИ применяется в анализе исторических рукописных документов, определении принадлежности почерка конкретному человеку и верификации подписей, однако информация об использовании нейронных сетей для автоматизации анализа рукописных медицинских документов в доступной литературе крайне мало [3].

Информатизация военной медицины [4-6] активно развивается во всех сферах деятельности, в том числе связанной с накоплением больших объемов медицинской информации [7-8].

Одним из направлений совершенствования мероприятий информационно-статистической деятельности медицинской службы ВС РФ, возможностей анализа больших массивов данных (Big Data) в контексте реализации национальной стратегии искусственного интеллекта в сфере здравоохранения является применение искусственных нейронных сетей, современных технологий компьютерного зрения и оптического распознавания символов.

Таким образом, определение возможностей применения систем автоматизированного анализа рукописного текста, основанных на современных технологиях машинного обучения, является перспективным направлением применения ИИ в военной медицине, позволяющим получить опыт создания и обучения нейронных сетей военно-медицинского назначения.

Цель исследования. Разработать технологию анализа рукописной медицинской документации на основе современных технологий машинного обучения, позволяющую автоматизировать процесс распознавания и классификации терминов в рукописной медицинской документации.

Результаты и обсуждение. Оптическое распознавание символов представляет собой совокупность методов, позволяющих переводить их графическое представление в текстовый формат данных. Существующие подходы к распознаванию рукописного текста делятся на так называемые online и offline методы. Первая категория представляет собой группу алгоритмов распознавания рукописного текста по мере его написания, вторая, в свою очередь, включает в себя технологии распознавания уже написанного текста. В задачах обработки рукописных медицинских документов применение online методов не представляется возможным, поскольку зачастую мы имеем дело лишь с графическим представлением рукописной информации. В настоящее время наиболее перспективным и развивающимся направлением в данной области является распознавание рукописной информации на основе машинного обучения. Одним из современных подходов в

научный журнал «ceteris paribus»

ISSN (p) 2411-717X / ISSN (e) 2712-9470

№5 / 2022

решении данной задачи является использование комбинации свёрточных и рекуррентных слоёв искусственных нейронных сетей. Применение операции свёртки над исходным изображением текста позволило модели выделять характерные для определённых символов наборы параметров независимо от их расположения в исходном изображении, что делает возможным учёт топологии данных. Рекуррентные слои, в свою очередь, использовались для работы с последовательностями элементов, упорядоченными во времени. В вопросе распознавания рукописного текста они реализуют анализ целых строк и предложений, а не только отдельных символов.

Для распознавания и анализа разработана нейронная сеть, состоящая из двух частей -свёрточной и рекуррентной (схематическое представление архитектуры сети представлено на рисунке 1).

Рисунок 1 - Принципиальная схема нейронной сети

Нейронная сеть создана на языке программирования «Python» и объектно-ориентированном фреймворке Pytorch. Первая часть сети представляет собой два свёрточных слоя, которые производят первоначальную обработку исходных данных. Поступающее изображение строки символов переводится в тензорное представление (многомерный массив, в котором каждый элемент является числовым значением интенсивности того или иного цвета для каждого пикселя). Над полученным тензором в первом свёрточном слое производится операция свёртки - к каждому элементу применяется особый фильтр размером 3x3 (матрица весов). В качестве функции активации обоих свёрточных слоёв была выбрана ReLU, являющаяся наиболее часто используемой в решении данных задач. К преобразованному тензору далее применялась операция предвыборки (maxpooling), которая путём нахождения максимального значения из соседних приводит к формированию нового тензора меньших размеров. В следующем свёрточном слое производится аналогичная операция свёртки тензора, а далее выходные данные нормализовались при помощи алгоритма «Instance Normalization».

После последовательного применения к исходным текстовым данным двух операций свёртки они преобразовывались в последовательность векторов, отражающих характерные свойства исходных символов. Полученная последовательность подавалась на вход управляемому рекуррентному блоку, который для каждого свойства в последовательности определял вероятности принадлежности к определённому классу (символу). Для вычисления результирующей строки, являющейся текстовым представлением исходного графического изображения, применялась функция потерь «Connectionist Temporal Classification». Данное решение позволило производить расчёт функции потерь для

текстовых последовательностей, необходимых для обработки текста не посимвольно, а как совокупности знаков.

Обучение нейронной сети на достаточном количестве данных позволило добиться построчного распознавания рукописного текста в исходном документе и его терминологической классификации в автоматизированном режиме. Заключение

Возможности искусственного интеллекта с применением методов машинного обучения на основе нейронных сетей является перспективными цифровыми технологиями совершенствования деятельности медицинской службы ВС РФ. Интерполяция задач, решаемых с помощью ИИ, на функциональные потребности военной медицины является актуальным направлением науки и практики.

Разработанная в ходе исследования модель нейронной сети позволила достигнуть решения задачи распознавания рукописного текста и последующей классификации его медицинской терминологии.

Повышение показателей специфичности и чувствительности метода достигается обучением нейронной сети с использованием обучающих сетов данных и военно-медицинских специалистов.

Список использованной литературы:

1. Указ Президента РФ № 490 от 10.10.2019 г. «О развитии искусственного интеллекта в Российской Федерации»;

2. Искусственный интеллект применяется во многих сферах деятельности Вооруженных Сил Российской Федерации: официальный сайт Министерства обороны Российской Федерации. [Электронный ресурс]. URL: https://function.mil.ru/news_page/country/more.htm?id=12166910 (дата обращения: 15.09.2020);

3. Remaida A. et al. Handwriting recognition with artificial neural networks a decade literature review //Proceedings of the 3rd International Conference on Networking, Information Systems & Security. - 2020. - С. 1-5.;

4. Крайнюков П.Е. и др. Военная медицина и цифровые технологии: теория, практика, проблемы и перспективы // Военно-медицинский журнал. 2019. Т. 340. № 6. С. 9-Крайнюков П.Е., Самохвалов И.М., Рева В.А. Тактическая медицина - новая концепция для войн "нового типа" // Военно-медицинский журнал. 2021. Т. 342. № 5.С. 4-17.

5. Столяр В.П., и др. Цифровая медицина: вопросы теории, состояние, перспективы внедрения и практического применения //Медицина и высокие технологии. 2018. № 4. С. 5-16.

6. Крайнюков П.Е., Папков А.Ю., Калачев О.В., Овечкин В.Б. Паспорт здоровья гражданина РФ в единой государственной медицинской информационной системе здравоохранения // Информационные и телекоммуникационные технологии. 2017. № . С. 10-15.

7. Тришкин Д.В. и др. Особенности деятельности медицинской службы Вооруженных Сил Российской Федерации в условиях «гибридных» войн // Военная мысль. 2021. № 7. С. 67-77.

8. Куандыков М.Г. и др. Единая военно-медицинская информационная система медицинской службы Вооруженных сил: возможности создания и стратегия развития // Военно-медицинский журнал. 2020. Т. 341. № 12. С. 4-19.

© Заварукин А.С., 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.