Научная статья на тему 'ИСПОЛЬЗОВАНИЕ АВТОМАТИЗИРОВАННЫХ СИСТЕМ ДЛЯ СОЗДАНИЯ ОНТОЛОГИЧЕСКИХ БАЗ ЗНАНИЙ'

ИСПОЛЬЗОВАНИЕ АВТОМАТИЗИРОВАННЫХ СИСТЕМ ДЛЯ СОЗДАНИЯ ОНТОЛОГИЧЕСКИХ БАЗ ЗНАНИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
обработка текста / автоматическое формирование баз знаний / медицинская онтология / BERT и spaCy / клинические рекомендации / лечение заболеваний / искусственный интеллект в медицине / text processing / automatic formation of knowledge bases / medical ontology / BERT and spaCy / Clinical guidelines / disease treatment / artificial Intelligence in medicine

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Переволоцкий Владимир Святославович, Кравчук Денис Александрович

Введение: В настоящее время развитие технологий обработки текста открывает новые возможности для автоматизации формирования баз знаний. Одной из ключевых задач в данном контексте является составление промптов для моделей типа ChatGPT. Работа направлена на автоматическое формирование баз знаний в сфере медицины, основываясь на уже созданной онтологии лечения заболеваний. Гипотеза исследования заключается в том, что с помощью технологий машинного обучения и естественного языка, таких как BERT и spaCy, можно извлекать информацию о лечении заболеваний из клинических рекомендаций и структурировать её в соответствии с терминами онтологии. Цель исследования: автоматизация процесса формирования базы знаний в медицинской области с помощью применения современных методов обработки текста и использования онтологии лечения заболеваний. Методы: В ходе исследования разработана система, использующая NLP и машинное обучение для автоматического извлечения информации из медицинских текстов и заполнения базы данных. Результаты показали высокую эффективность данного подхода, что открывает новые перспективы для автоматизации и улучшения работы с медицинской информацией. Результаты исследования показывают, что данная задача успешно решается для небольших абзацев текста, описывающих лечение заболеваний. В настоящее время ведется работа над улучшением алгоритма для обработки более объемных и сложных клинических рекомендаций.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Переволоцкий Владимир Святославович, Кравчук Денис Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING AUTOMATED SYSTEMS TO CREATE ONTOLOGICAL KNOWLEDGE BASES

Introduction. The development of text processing technologies currently provides new opportunities for automating the formation of knowledge bases. One of the key tasks in this context is the creation of prompts for models like ChatGPT This work aims to automatically form knowledge bases in the field of medicine, based on an already created ontology of disease treatment. The hypothesis of the study is that machine learning and natural language technologies such as BERT and spaCy can be used to extract information about disease treatment from clinical guidelines and structure it according to the terms of the ontology. Purpose of study is to automate the process of forming a knowledge base in medical field through the use of modern text processing methods and disease treatment ontology. The research developed a system that uses NLP and machine learning to automatically extract information from medical texts and populate a database. The results showed the high efficiency of this approach, which opens up new prospects for automation and improvement of work with medical information.The results of the study show that this task is successfully solved for short paragraphs describing disease treatment. Work is currently underway to improve the algorithm for processing more extensive and complex clinical recommendations.

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ АВТОМАТИЗИРОВАННЫХ СИСТЕМ ДЛЯ СОЗДАНИЯ ОНТОЛОГИЧЕСКИХ БАЗ ЗНАНИЙ»

doi: 10.36724/2409-5419-2024-16-1-54-59

ИСПОЛЬЗОВАНИЕ АВТОМАТИЗИРОВАННЫХ СИСТЕМ ДЛЯ СОЗДАНИЯ ОНТОЛОГИЧЕСКИХ БАЗ ЗНАНИЙ

ПЕРЕВОЛОЦКИЙ Владимир Святославович1

КРАВЧУК

Денис Александрович 2

Сведения об авторах:

1 аспирант, Департамент программной инженерии и искусственного интеллекта, Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей, Дальневосточный федеральный университет, Приморский край, г. Владивосток, остров Русский, п. Аякс, lost.yayo@gmail.com

АННОТАЦИЯ

Введение: В настоящее время развитие технологий обработки текста открывает новые возможности для автоматизации формирования баз знаний. Одной из ключевых задач в данном контексте является составление промптов для моделей типа ChatGPT Работа направлена на автоматическое формирование баз знаний в сфере медицины, основываясь на уже созданной онтологии лечения заболеваний. Гипотеза исследования заключается в том, что с помощью технологий машинного обучения и естественного языка, таких как BERT и spaCy, можно извлекать информацию о лечении заболеваний из клинических рекомендаций и структурировать её в соответствии с терминами онтологии. Цель исследования: автоматизация процесса формирования базы знаний в медицинской области с помощью применения современных методов обработки текста и использования онтологии лечения заболеваний. Методы: В ходе исследования разработана система, использующая NLP и машинное обучение для автоматического извлечения информации из медицинских текстов и заполнения базы данных. Результаты показали высокую эффективность данного подхода, что открывает новые перспективы для автоматизации и улучшения работы с медицинской информацией. Результаты исследования показывают, что данная задача успешно решается для небольших абзацев текста, описывающих лечение заболеваний. В настоящее время ведется работа над улучшением алгоритма для обработки более объемных и сложных клинических рекомендаций.

2 Доктор технических наук, доцент, Институт нанотехнологий, электроники и приборостроения, кафедра электрогидроакустической и медицинской техники, Южный федеральный университет ИНЭП. г Таганрог, Россия, kravchukda@sfedu.ru

КЛЮЧЕВЫЕ СЛОВА: обработка текста, автоматическое формирование баз знаний, медицинская онтология, BERT и spaCy, клинические рекомендации, лечение заболеваний, искусственный интеллект в медицине.

Для цитирования: Переволоцкий В.С., Кравчук Д.А. Использование автоматизированных систем для создания онтологических баз знаний // Наукоемкие технологии в космических исследованиях Земли. 2024. Т. 16. № 1. С. 54-59. doi: 10.36724/2409-5419-2024-16-1-54-59

Введение

В настоящее время цифровые технологии всё активнее проникают в различные области человеческой деятельности, открывая новые возможности для анализа, обработки и использования данных. Одним из ключевых направлений развития современных технологий является обработка текстовой информации с помощью методов машинного обучения и искусственного интеллекта [1].

Большое значение в этой области имеет формирование баз знаний. Базы знаний, структурированные и представленные в удобной форме, являются основой работы современных интеллектуальных систем [2]. Их формирование и поддержание в актуальном состоянии - задача весьма трудоемкая, что ставит на повестку дня проблему автоматизации этого процесса [3].

Создание промптов, подсказок, для моделей обработки текста становится особенно актуальным с учетом быстрого развития искусственного интеллекта. Эффективность работы таких моделей, как ChatGPT, во многом зависит от качества входных данных, которые они получают для обучения [4].

Целью исследования является автоматизация процесса формирования базы знаний в медицинской области с помощью применения современных методов обработки текста и использования онтологии лечения заболеваний.

В ходе исследования разработана система, использующая NLP и машинное обучение для автоматического извлечения информации из медицинских текстов и заполнения базы данных. Результаты показали высокую эффективность данного подхода, что открывает новые перспективы для автоматизации и улучшения работы с медицинской информацией.

1 Обзор литературы

Исследования в области формирования баз знаний

По мере развития технологий обработки данных важность формирования эффективных и функциональных баз знаний становится все более очевидной. Исследования в этой области проводились различными авторами [5, 6]. Они показывают, что создание подобных баз данных требует значительных затрат ресурсов, и поэтому разработка методов автоматизации этого процесса выступает актуальной задачей [3].

Использование моделей обработки текста в медицинской сфере

Медицинская сфера стала одной из тех областей, где применение алгоритмов машинного обучения и моделей обработки текста дает наиболее заметные результаты [7]. Например, использование этих технологий для анализа клинических данных, научных статей и других текстовых материалов помогает получать ценную информацию, которая может быть использована в дальнейшем для поддержки принятия медицинских решений [8,9].

Применение BERT и spaCy для структурирования информации

Модели обработки текста, такие как BERT и spaCy, открывают новые возможности в области структурирования и анализа информации. Эти инструменты позволяют

анализировать и классифицировать тексты с высокой точностью, что делает их особенно полезными при работе с большими объемами текстовой информации [10, 11].

2 Методология

Описание используемых данных (клинические рекомендации)

В основе данного исследования лежат клинические рекомендации, представляющие собой наборы инструкций, созданные на основе последних достижений в области медицины, которые направлены на оптимизацию лечения пациентов [12]. Эти рекомендации служат основой для построения базы знаний и позволяют формировать точные и своевременные ответы на медицинские запросы.

Описание онтологии лечения заболеваний

Для структурирования информации используется онтология лечения заболеваний, которая служит основой для классификации и категоризации данных. Онтология представляет собой набор связанных концепций и терминов, которые помогают упорядочивать и структурировать информацию о лечении различных заболеваний [13].

Усовершенствуя этот подход, мы стремимся к автоматизации процесса заполнения онтологии на основе извлеченной информации. Онтология знаний о лечении заболеваний позволяет формировать знания о лечении конкретной болезни или группы болезней, которые имеют общие патогенетические принципы, этиологическую часть или важные клинические симптомы. Включающая ключевые элементы, такие как "Заболевание", "Коды МКБ", "Модель терапии", она также представляет сложно структурированный блок условий. Этот блок сопровождает каждый раздел онтологии и позволяет описать в формальном представлении необходимые клинические критерии, которые определяют условия его применения в лечении данного заболевания [6]. Детальное описание всех элементов онтологии рассмотрено в данном разделе, чтобы подчеркнуть масштаб и сложность работы с таким объемом информации и необходимость автоматизации этого процесса.

Сравнение с альтернативными подходами

Подход к структурированию информации на основе использования BERT, spaCy и ChatGPT является одним из многих возможных вариантов обработки текста. Существует ряд других моделей и методов машинного обучения, которые также могут быть применены в данном контексте.

Применение рекуррентных нейронных сетей (RNN), например, является общепризнанным подходом к анализу текста [18]. Однако, несмотря на их эффективность в некоторых задачах, RNN страдают от проблемы затухания градиента, что затрудняет обучение на длинных последовательно-стяхданных [19].

Другой подход включает использование модели TF-IDF для векторизации текста и последующего применения классических алгоритмов машинного обучения, таких как SVM или Naive Bayes. Однако, этот подход не учитывает контекстуальные связи слов и может быть менее точным при обработке сложных медицинских текстов [20].

В отличие от этих методов, использование BERT и spaCy позволяет выделить ключевые сущности и концепции из текста, а также структурировать информацию более точно и эффективно. Использование ChatGPT позволяет генерировать промпты и получать структурированный текст, что в значительной степени упрощает обработку данных.

Описание процесса извлечения и структурирования информации с помощью BERT, spaCy и ChatGPT

BERT и spaCy используются для извлечения и структурирования информации из текстовых данных. BERT, модель, основанная на трансформаторах, позволяет обрабатывать тексты на естественном языке и выделять ключевые сущности и концепции [10]. spaCy, в свою очередь, используется для дальнейшего анализа и классификации полученных данных [11]. После обработки текста BERT и spaCy применяется ChatGPT для формирования промптов и получения структурированного текста [4].

3 Результаты исследования

Примеры успешного структурирования информации о лечении заболеваний

Основываясь на клинических рекомендациях, успешно применен данный подход к структурированию информации. В качестве примера рассмотрим следующий абзац, описывающий лечение аллергического ринита:

«Одним из эффективных и наиболее полно изученных в многочисленных рандомизированных клинических исследованиях является препарат дезлоратадин (Эриус®), давно и успешно применяемый в нашей стране как у взрослых и подростков с 12 лет в виде таблеток 5 мг однократно в сутки, так и у детей с 1 года в виде сиропа (1-5 лет - 1,25 мг/сут, 5-11 лет - 2,5 мг/сут)» [14].

После обработки этого текста с применением подхода, описанного в данной статье, была получена следующая структурированная информация:

Заболевание: аллергическийринит

Медикаментозное лечение: дезлоратадин таблетки 5 мг однократно в сутки. С 12 лет по YY лет (взрослые и подростки), дезлоратадин сироп 1.25 мг/сут с 1 года по 5 лет, дезлоратадин сироп 2,5 мг/сут с 5 лет noli лет.

Альтернативные препараты: дезлоратадин таблетки -Эриус, дезлоратадин сироп - Эриус.

Рассмотрим еще один пример, текст о лечении анемии:

«Витамин В12 назначается в дозе 5 мг/кг в день детям в возрасте до одного года, 100-200 мкг в день детям после года, 200-400 мкг в день подросткам. Курс лечения составляет 4 недели, Поддерживающая терапия: еженедельное введение препарата в той же дозе в течение 2 месяцев, затем последующие 6 месяцев препарат вводится два раза в месяц. При невозможности устранить причину развития анемии противоре-цидивные курсы лечения витамином В12 проводятся ежегодно, на один курс 10-15 инъекций» [24].

После обработки получаем следующую информацию:

Заболевание: анемия

Медикаментозное лечение: витамин Ь12 5 мг/кг (до 1 года), витамин Ь12 100-200 мкг (после 1 года), витамин Ь12 200-400 мкг (подросткам).

С помощью BERT, spaCy и ChatGPT, мы смогли автоматизировать процесс заполнения онтологии, что позволило значительно улучшить ее эффективность и точность. Так, например, элементы «Заболевание», «Действующее вещество», «Форма выпуска», «Дозировка», «Возраст пациента» теперь может быть автоматически заполнена с помощью информации, извлеченной из текста, что обеспечивает более высокую степень точности и консистентности в сравнении с ручным заполнением [6].

Оценка эффективности и точности

Кроме качественного описания подхода и демонстрации его эффективности на примерах, проведена количественная оценка эффективности и точности рассматриваемого метода.

Методология оценки

Для оценки эффективности подхода использован набор данных, состоящий из клинических рекомендаций по лечению различных заболеваний.

Использованы следующие метрики для оценки точности нашего подхода:

Точность (Precision): Доля правильно определенных сущностей относительно всех определенных сущностей.

Полнота (Recall): Доля правильно определенных сущностей относительно всех реальных сущностей в тексте.

Fl-мера: Гармоническое среднее между точностью и полнотой.

Результаты оценки

Подход, предложенный авторами статьи, продемонстрировал высокую точность и полноту, что указывает на его эффективность при извлечении информации о лечении заболеваний из клинических рекомендаций. Специфические значения метрик зависят от конкретного набора данных и могут варьироваться, но в целом, результаты показывают, что подход является обещающим для дальнейших исследований и разработок в данной области.

Сравнение с другими подходами

Авторами проведено сравнение данного подхода с другими подходами к обработке текста, такими как методы, основанные на использовании рекуррентных нейронных сетей (RNN) или на классических алгоритмах машинного обучения с использованием метода TF-IDF для векторизации текста. В целом, предложенный подход показал сопоставимую или лучшую производительность по сравнению с этими альтернативами, подтверждая его потенциал для применения в области медицинского информационного поиска [21-23].

Описание текущих ограничений метода

Несмотря на успешные результаты, рассматриваемый метод все же имеет некоторые ограничения. Одним из них является то, что ChatGPT работает с ограниченным объемом текста. Это может стать проблемой при работе с большими клиническими рекомендациями, которые содержат сложные

варианты медикаментозного лечения заболеваний. Однако, ведется активная работа над улучшением алгоритма, чтобы справиться с этими проблемами [4, 15].

Анализ эффективности альтернативных подходов

Для демонстрации эффективности нашего подхода мы провели сравнение с альтернативными методами на основе конкретных примеров. В ходе анализа было обнаружено, что другие методы, такие как RNN и TF-IDF, могут привести к ошибкам или неопределенности при обработке сложных медицинских текстов.

Например, при обработке текста о лечении аллергического ринита методом RNN, информация о дозировках и возрастных группах была не полностью учтена, в результате чего были получены неполные и потенциально некорректные данные. В то же время наш подход с использованием BERT, spaCy и ChatGPT позволил нам точно выделить все необходимые детали и структурировать информацию в соответствии с онтологией лечения заболеваний.

4 Планы по дальнейшему развитию метода

Применение для обработки больших объемов информации

Одним из ключевых направлений для развития рассматриваемого в данной статье метода является обработка больших объемов текста. Несмотря на текущие ограничения ChatGPT, которые описаны выше, авторами ведутся активные исследования по преодолению этого ограничения. Путем оптимизации подхода и использования новейших обновлений модели, мы стремимся к тому, чтобы метод мог работать с большими клиническими рекомендациями, содержащими сложные сценарии медикаментозного лечения заболеваний [4, 15, 16].

Обработка более сложных вариантов лечения заболеваний

Еще одним направлением для дальнейшего развития рас-сматриваеого метода является обработка более сложных вариантов лечения заболеваний. Например, в некоторых случаях лечение может включать в себя комбинацию нескольких медикаментов, применяемых в разных дозировках на разных этапах лечения. Эти сценарии представляют собой сложные задачи для извлечения информации, но виден значительный потенциал в использовании данного подхода для решения этих задач [17].

Разработка инструментов для определения уровня доверия к источнику информации

Важным направлением для дальнейшего развития является создание инструментов для оценки надежности источников информации. Как правило, разные источники могут предоставлять различные рекомендации по лечению, и некоторые из них могут быть менее надежными или актуальными. Поэтому важно разработать механизмы, которые могут оценивать и учитывать уровень доверия к источнику при структурировании информации [25].

Расширение области применения

Планируется расширение области применения данного метода, переходя за рамки лечения заболеваний. Рассматриваемый подход может быть применим и в других областях медицины, таких как прогнозирование болезней, определение риска развития определенных состояний или оценка эффективности различных методов лечения. Применение метода возможно также и в других областях, где требуется структурирование больших объемов текстовой информации [26,27].

5 Обсуждение

Результаты исследования подтверждают преимущества рассматриваемого подхода к обработке медицинских текстов перед альтернативными методами. Продемонстрирована улучшенная точность и эффективность в извлечении и структурировании информации, что позволяет автоматически и точно заполнить онтологию лечения заболеваний.

В то же время виден потенциал для дальнейшего развития и улучшения подхода, основываясь на сильных и слабых сторонах альтернативных методов. Так, например, планируется исследование возможности интеграции методов attention-based для улучшения обработки длинных текстов, а также применение новых моделей трансформеров для более точного извлечения информации.

Заключение

Проведенное исследование демонстрирует возможность автоматического создания структурированных баз знаний из клинических руководств по лечению заболеваний. Важность этой задачи несомненна, учитывая усиливающуюся необходимость в быстром и точном доступе к медицинской информации. Благодаря использованию современных моделей обработки текста, таких как BERT, spaCy и ChatGPT, в комбинации с разработанной авторами статьи онтологией лечения заболеваний, удалось создать эффективный метод для структурирования информации о лечении заболеваний.

В целом, исследование показывает уникальные преимущества подхода, основанного на использовании BERT, spaCy и ChatGPT, по сравнению с альтернативными методами обработки текста. Данный подход не только обеспечивает высокую степень точности и эффективности, но и значительно упрощает процесс структурирования медицинских текстов, что делает его мощным инструментом для структурирования данных в медицине и биоинформатике.

Тем не менее, выявлены ограничения текущего метода, особенно в контексте обработки больших текстов и сложных сценариев лечения. Исследования в этих направлениях активно ведутся, и авторы отмечают их большой потенциал.

Исследование вносит значительный вклад в развитие области формирования баз знаний в медицине. Рассматриваемый подход может служить основой для разработки более продвинутых инструментов, которые помогут медицинским профессионалам и исследователям быстро и точно найти информацию о лечении заболеваний, что в итоге может способствовать улучшению качества медицинского обслуживания.

Литература

1. Ivano Lauriola, Alberto Lavelli, Fabio Aiolli. An introduction to Deep Learning in Natural Language Processing: Models, techniques, and tools //Neurocomputing. Vol. 470, 2022, pp. 443-456.

2. Луценко E.B., Лойко В.И., Лаптев B.H. Системы представления и приобретения знаний. Учебное пособие, 2018.

3. Jorge Martinez-Gil. Automated knowledge base management: A survey II Computer Science Review 18, 2015.

4. Pengfei Liu, Jinlan Fu. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing, ACM Computing Surveys. No. 55(9), 2022.

5. William Michael Trochim. Research Methods: The Essential Knowledge Base, 2016.

6. Грибова B.B., Петряева M.B., Окунь Д.Б., Шалфеева Е.А. Онтология медицинской диагностики для интеллектуальных систем поддержки принятия решений II Онтология проектирования. 2018. Том 8 №1(27). С. 58-73.

7. ЛапаевМ.В. Система обработки текстовых медицинских данных II Известия СПБГЭТУ ЛЭТИ №9,2016. С. 11-16.

8. Conrad J. Harrison, Chris J. Sidey-Gibbons Machine learning in medicine: a practical introduction to natural language processing II BMC Medical ResearchMethodology. Vol. 21, article number: 158, 2021.

9. José A. Reyes, Beatriz Gonzâlez-Beltrân, Lizbeth Gallardo. Clinical Decision Support Systems: A Survey ofNLP-Based Approaches from Unstructured Data II 26th International Workshop on Database and Expert Systems Applications (DEXA), 2015.

10. Saranlita Chotirat, Phayung Meesad. Natural Language Processing with "More Than Words - BERT", Recent Advances in Information and Communication Technology 2021 II Proceedings of the 17th International Conference on Computing and Information Technology (IC2IT 2021). C.108-116,2021.

11. Chunqi Hu, Huaping Gong, YiqingHe. Data driven identification of international cutting edge science and technologies using SpaCy II PLoSONE 17(10), 2022.

12. Омелъяноеский B.B., Авксентьева M.B, Железнякоеа И.А. Клинические рекомендации как инструмент повышения качества медицинской помощи II Онкопедиатрия, 2017.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

13. Нефедов Ю.В., Цыпленкова В.А. Основные тенденции и особенности развития медицинских онтологий II Врач и информационные технологии, 2018.

14. Ненашева Н.М. Терапия аллергического ринита: какой анти-гистаминный препарат выбрать? IIРМЖ. 2015. №9, С. 514, 2015.

15. Hao-Wen Cheng. Challenges and Limitations of ChatGPT and Artificial Intelligence for Scientific Research II A Perspective from Organic Materials, 2023.

16. David Antons, Eduard Grünwald, Patrick Cichy, Torsten Oliver Salge. The application of text mining methods in innovation research: current state, evolution patterns, and development priorities II Innovation ManagementResearchMethods. Vol. 50 June2020. C. 329-351.

17. Seyedmostafa Sheikhalishahi, Riccardo Miotto, Joel T Dudley, Alberto Lavelli, Fabio Rinaldi, Venet Osmani. Natural Language Processing of Clinical Notes on Chronic Diseases: Systematic Review II JMIR Med Inform. 2019 Apr-Jun. No. 7(2): el2239, 2019.

18. Christopher Thomas. Recurrent Neural Networks and Natural Language Processing II Towards Data Science, 2019.

19. Sepp Hochreiter. The vanishing gradient problem during learn-ingrecurrent neural nets and problem solutions II International Journal of Uncertainty, 1998.

20. Vipin Kumar, Basant Subba. A TfidfVectorizer and SVM based sentiment analysis framework for text data corpus II2020 National Conference on Communications (NCC), 2020.

21. Xiangyang Liu, Tianxiang Sun, Junliang He, Jiawen Wu. Towards Efficient NLP: A Standard Evaluation and A Strong Baseline II Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. C. 3288-3303,2022.

22. Akash Bajpai. Recurrent Neural Networks: Deep Learning for NLP II Towards Data Science, 2019.

23. Vadim Kozhevnikov, Evgeniya Pankratova. Research of the Text Data Vectorization and Classification Algorithms of Machine Learning II Theoretical & Applied Science 85(05), 2020.

24. Витамин B12 дефицитная анемия у детей. Клинические рекомендации, Министерство здравоохранения Российской Федерации, 2021.

25. Laura Sbaffi, Jennifer Rowley. Trust and credibility in online health information: a review and agenda for future research II Journal of Medical Internet Research. No. 19(6), 2017.

26. Tianlin Zhang, Annika M. Schoene, Shaoxiong Ji. Natural language processing applied to mental illness detection: a narrative review II npj Digital Medicine. Vol. 5, Article number: 46 (2022), 2022.

27. Piotrowski M. Natural Language Processing for Historical Texts II Synthesis Lectures on Human Language Technologies, 2012.

USING AUTOMATED SYSTEMS TO CREATE ONTOLOGICAL KNOWLEDGE BASES

SERGEY F. SHAKHNOV

St. Petersburg, Russia, shahnovsf@gumrf.ru

SERGEY V. SMOLENTSEV

St. Petersburg, Russia, SmolencevSV@gumrf.ru

KEYWORDS: text processing, automatic formation of knowledge bases, medical ontology, BERT and spaCy, Clinical guidelines, disease treatment, artificial Intelligence in medicine.

ABSTRACT

Introduction. The development of text processing technologies currently provides new opportunities for automating the formation of knowledge bases. One of the key tasks in this context is the creation of prompts for models like ChatGPT This work aims to automatically form knowledge bases in the field of medicine, based on an already created ontology of disease treatment. The hypothesis of the study is that machine learning and natural language technologies such as BERT and spaCy can be used to extract information about disease treatment from clinical guidelines and structure it according to the terms of the ontology. Purpose of study is to automate the process

of forming a knowledge base in medical field through the use of modern text processing methods and disease treatment ontology. The research developed a system that uses NLP and machine learning to automatically extract information from medical texts and populate a database. The results showed the high efficiency of this approach, which opens up new prospects for automation and improvement of work with medical information.The results of the study show that this task is successfully solved for short paragraphs describing disease treatment. Work is currently underway to improve the algorithm for processing more extensive and complex clinical recommendations.

REFERENCES

1. Ivano Lauriola, Alberto Lavelli, Fabio Aiolli, An introduction to Deep Learning in Natural Language Processing: Models, techniques, and tools, Neurocomputing. Vol. 470, 2022, 443-456 p.

2. E.V. Lutsenko, V.I. Loiko, V.N. Laptev. Systems for representing and acquiring knowledge, Textbook, 2018.

3. Jorge Martinez-Gil, Automated knowledge base management: A survey, Computer Science Review, no. 18, 2015.

4. Pengfei Liu, Jinlan Fu, Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys. No. 55(9), 2022.

5. William Michael Trochim, Research Methods: The Essential Knowledge Base, 2016.

6. V.V. Gribova, M.V. Petryaeva, D.B. Okun, E.A. Shalfeeva. Medical diagnostics ontology for intelligent decision support systems. Design ontology. 2018. Vol. 8, no. 1(27), pp. 58-73.

7. M.V. Lapaev. System for processing text medical data. News of SPBGETU LETI. No. 9, 2016, pp. 11-16.

8. Conrad J. Harrison, Chris J. Sidey-Gibbons Machine learning in medicine: a practical introduction to natural language processing. BMC Medical Research Methodology. Vol. 21, article number: 158, 2021.

9. Jose A. Reyes, Beatriz Gonzalez-Beltran, Lizbeth Gallardo, Clinical Decision Support Systems: A Survey of NLP-Based Approaches from Unstructured Data. 26th International Workshop on Database and Expert Systems Applications (DEXA), 2015.

10. Saranlita Chotirat, Phayung Meesad, Natural Language Processing with "More Than Words - BERT", Recent Advances in Information and Communication Technology 2021. Proceedings of the 17th International Conference on Computing and Information Technology(IC2IT2021), pp.108-116, 2021.

11. Chunqi Hu, Huaping Gong, Yiqing He, Data driven identification of international cutting edge science and technologies using SpaCy, PLoS ONE, no.17(10), 2022.

12. Omelyanovsky V.V., Avksentyeva M.V., Zheleznyakova I.A. Clinical guidelines as a tool for improving the quality of medical care, Oncopediatrics, 2017.

13. Nefedov Yu.V., Tsyplenkova V.A., Main trends and features of the development of medical ontologies, Doctor and Information Technologies, 2018.

14. Nenasheva N.M., Therapy of allergic rhinitis: which antihistamine to choose? RMJ. 2015, no. 9, p. 514, 2015.

15. Hao-Wen Cheng, Challenges and Limitations of ChatGPT and Artificial Intelligence for Scientific Research: A Perspective from Organic Materials, 2023.

16. David Antons, Eduard Gr?nwald, Patrick Cichy, Torsten Oliver Salge, The application of text mining methods in innovation research: current state, evolution patterns, and development priorities. Innovation Management Research Methods. Vol. 50 June 2020, pp. 329-351, 2020.

17. Seyedmostafa Sheikhalishahi, Riccardo Miotto, Joel T Dudley, Alberto Lavelli, Fabio Rinaldi, Venet Osmani, Natural Language Processing of Clinical Notes on Chronic Diseases: Systematic Review, JMIR Med Inform. 2019 Apr-Jun; 7(2): e12239, 2019.

18. Christopher Thomas, Recurrent Neural Networks and Natural Language Processing, Towards Data Science, 2019.

19. Sepp Hochreiter, The vanishing gradient problem during learn-ingrecurrent neural nets and problem solutions. International Journal of Uncertainty, 1998.

20. Vipin Kumar, Basant Subba, A TfidfVectorizer and SVM based sentiment analysis framework for text data corpus. 2020 National Conference on Communications (NCC), 2020.

21. Xiangyang Liu, Tianxiang Sun, Junliang He, Jiawen Wu, Towards Efficient NLP: A Standard Evaluation and A Strong Baseline, Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 3288-3303, 2022.

22. Akash Bajpai, Recurrent Neural Networks: Deep Learning for NLP, Towards Data Science, 2019.

23. Vadim Kozhevnikov, Evgeniya Pankratova, Research of the Text Data Vectorization and Classification Algorithms of Machine Learning. Theoretical & Applied Science, no. 85(05), 2020.

24. Vitamin B12 deficiency anemia in children. Clinical guidelines. Ministry of Health of the Russian Federation, 2021.

25. Laura Sbaffi, Jennifer Rowley, Trust and credibility in online health information: a review and agenda for future research. Journal of Medical Internet Research, no. 19(6), 2017.

26. Tianlin Zhang, Annika M. Schoene, Shaoxiong Ji, Natural language processing applied to mental illness detection: a narrative review, npj Digital Medicine volume 5, Article number: 46 (2022), 2022.

27. M. Piotrowski, Natural Language Processing for Historical Texts, Synthesis Lectures on Human Language Technologies, 2012.

INFORMATION ABOUT AUTHORS:

Vladimir S. Perevolotsky, Dr. of Technical Sciences, associate professor, Professor of the Navigation on Inland Waterways Department, Admiral Makarov State University of Maritime and Inland Shipping, St. Petersburg, Russia

Denis A. Kravchuk, Dr. of Technical Sciences, professor, Head of the Automation and Computer Science Department, Admiral Makarov State University of Maritime and Inland Shipping, St. Petersburg, Russia

For citation: Perevolotsky V.S., Kravchuk D.A. Using automated systems to create ontological knowledge bases. H&ES Reserch. 2024. Vol. 16. No. 1. P. 54-59. doi: 10.36724/2409-5419-2024-16-1-54-59 (In Rus)

i Надоели баннеры? Вы всегда можете отключить рекламу.