Научная статья на тему 'ЯЗЫКОВЫЕ МОДЕЛИ (GPT) В ЗДРАВООХРАНЕНИИ: КЛИНИЧЕСКАЯ ПРАКТИКА И МЕДИЦИНСКОЕ ОБРАЗОВАНИЕ'

ЯЗЫКОВЫЕ МОДЕЛИ (GPT) В ЗДРАВООХРАНЕНИИ: КЛИНИЧЕСКАЯ ПРАКТИКА И МЕДИЦИНСКОЕ ОБРАЗОВАНИЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
186
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
искусственный интеллект / большие языковые модели / консультации в кардиологии / экзамен на медицинскую лицензию / artificial intelligence / Large Language Models / consultations in cardiology / Medical License exam

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Адилова Фатима Туичиевна, Давронов Рифкат Рахимович, Сафаров Рузмат Абдикаюм Угли, Кушмуратов Самариддин Ибодулла Угли

Искусственный интеллект (ИИ) считается ключевым фактором в развитии медицины и фундаментальной проблемой, связанной с тем, как обеспечить достаточное медицинское обслуживание населения. В определенных областях ИИ уже используется для составления прогнозов и оказания помощи в интерпретации изображений или других диагностических тестов. Однако его истинный потенциал в здравоохранении заключается в его способности трансформировать клинические рабочие процессы путем автоматизации рутинных и трудоемких задач. Это позволяет медикам сосредоточиться на более важных и сложных задачах, где искусственный интеллект может служить ценным инструментом поддержки. Сегодня стало ясно, что ИИ обладает потенциалом значительно улучшить качество медицинских услуг, улучшив результаты диагностики и лечения пациентов. Данный аналитический обзор рассматривает два конкретных приложения современных разработок искус-ственного интеллекта в здравоохранении :1. эффективность ChatGPT в консультации больных с распространенными сердечными симптомами или состояниями; 2. всестороннюю оценку GPT-4 в процессе экзамена на получение медицинской лицензии в США (USMLE). Авторами обзора выполнен перевод и анализ результатов проведенных исследований, чтобы сделать их доступными для широкой медицинской аудитории с тем, чтобы определить перспективные направления внедрения ИИ в область медицины.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

LANGUAGE MODELS(GPT) IN HEALTHCARE: CLINIC AND MEDICAL EDUCATION

Artificial intelligence (AI) is considered a key factor in the development of medicine and a fundamental problem related to how to provide sufficient medical care to the population. In certain areas, AI is already being used to make predictions and assist in interpreting images or other diagnostic tests. However, its true potential in healthcare lies in its ability to transform clinical workflows by automating routine and time-consuming tasks. This allows physicians to focus on more important and complex tasks, where artificial intelligence can serve as a valuable support tool. Today it has become clear that AI has the potential to significantly improve the quality of medical services by improving the results of diagnosis and treatment of patients. This analytical review examines two specific applications of modern artificial intelligence tools in healthcare :1. The effectiveness of ChatGPT in consultations of patients with common cardiac symptoms or conditions; 2. A comprehensive assessment of GPT-4 during the examination for obtaining a medical license in the United States (USMLE). The authors of the review translated and analyzed the results of the conducted studies in order to make them available to a wide medical audience in order to determine promising directions for the introduction of AI in the field of medicine.

Текст научной работы на тему «ЯЗЫКОВЫЕ МОДЕЛИ (GPT) В ЗДРАВООХРАНЕНИИ: КЛИНИЧЕСКАЯ ПРАКТИКА И МЕДИЦИНСКОЕ ОБРАЗОВАНИЕ»

№ 11 (116)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

ноябрь, 2023 г.

DOI -10.32743/UniTech.2023.116.11.16284

ЯЗЫКОВЫЕ МОДЕЛИ (GPT) В ЗДРАВООХРАНЕНИИ: КЛИНИЧЕСКАЯ ПРАКТИКА И МЕДИЦИНСКОЕ ОБРАЗОВАНИЕ

Адилова Фатима Туичиевна

д-р техн. наук, профессор, зав. лаборатории, Институт Математики им В.И. Романовского АН Республики Узбекистан, Республика Узбекистан, г. Ташкент E-mail: _ [email protected]

Давронов Рифкат Рахимович

канд. техн. наук, ст. науч. сотр., Институт Математики им В.И. Романовского АН Республики Узбекистан, Республика Узбекистан, г. Ташкент E-mail: [email protected]

Сафаров Рузмат Абдикаюм угли

мл. науч. сотр.,

Институт Математики им В.И. Романовского АН Республики Узбекистан, Республика Узбекистан, г. Ташкент E-mail: [email protected]

Кушмуратов Самариддин Ибодулла угли

мл. науч. сотр.,

Институт Математики им В.И. Романовского АН Республики Узбекистан, Республика Узбекистан, г. Ташкент E-mail: [email protected]

LANGUAGE MODELS(GPT) IN HEALTHCARE: CLINIC AND MEDICAL EDUCATION

Fatima Adilova

Doctor of Technical Sciences, Professor, Head of the Laboratory V.I. Romanovsky Institute of Mathematics of the Academy of Sciences of the Republic of Uzbekistan, Republic of Uzbekistan, Tashkent

Rifqat Davronov

Ph.D., Senior Researcher V.I. Romanovsky Institute of Mathematics of the Academy of Sciences of the Republic of Uzbekistan, Republic of Uzbekistan, Tashkent

Ruzmat Safarov

Junior Researcher, V.I. Romanovsky Institute of Mathematics of the Academy of Sciences of the Republic of Uzbekistan, Republic of Uzbekistan, Tashkent

Samariddin Kushmuratov

Junior Researcher, V.I. Romanovsky Institute of Mathematics of the Academy of Sciences of the Republic of Uzbekistan, Republic of Uzbekistan, Tashkent

Библиографическое описание: ЯЗЫКОВЫЕ МОДЕЛИ (GPT) В ЗДРАВООХРАНЕНИИ: КЛИНИЧЕСКАЯ ПРАКТИКА И МЕДИЦИНСКОЕ ОБРАЗОВАНИЕ // Universum: технические науки : электрон. научн. журн. Адилова Ф.Т. [и др.]. 2023. 11(116). URL: https://7universum. com/ru/tech/archive/item/16284

A UISNVERSUM:

№11(116)_ДД ТЕХНИЧЕСКИЕ НАУКИ_ноябрь. 2023 г.

АННОТАЦИЯ

Искусственный интеллект (ИИ) считается ключевым фактором в развитии медицины и фундаментальной проблемой, связанной с тем, как обеспечить достаточное медицинское обслуживание населения. В определенных областях ИИ уже используется для составления прогнозов и оказания помощи в интерпретации изображений или других диагностических тестов. Однако его истинный потенциал в здравоохранении заключается в его способности трансформировать клинические рабочие процессы путем автоматизации рутинных и трудоемких задач. Это позволяет медикам сосредоточиться на более важных и сложных задачах, где искусственный интеллект может служить ценным инструментом поддержки. Сегодня стало ясно, что ИИ обладает потенциалом значительно улучшить качество медицинских услуг, улучшив результаты диагностики и лечения пациентов.

Данный аналитический обзор рассматривает два конкретных приложения современных разработок искусственного интеллекта в здравоохранении :1. эффективность ChatGPT в консультации больных с распространенными сердечными симптомами или состояниями; 2. всестороннюю оценку GPT-4 в процессе экзамена на получение медицинской лицензии в США (USMLE). Авторами обзора выполнен перевод и анализ результатов проведенных исследований, чтобы сделать их доступными для широкой медицинской аудитории с тем, чтобы определить перспективные направления внедрения ИИ в область медицины.

ABSTRACT

Artificial intelligence (AI) is considered a key factor in the development of medicine and a fundamental problem related to how to provide sufficient medical care to the population. In certain areas, AI is already being used to make predictions and assist in interpreting images or other diagnostic tests. However, its true potential in healthcare lies in its ability to transform clinical workflows by automating routine and time-consuming tasks. This allows physicians to focus on more important and complex tasks, where artificial intelligence can serve as a valuable support tool. Today it has become clear that AI has the potential to significantly improve the quality of medical services by improving the results of diagnosis and treatment of patients.

This analytical review examines two specific applications of modern artificial intelligence tools in healthcare :1. The effectiveness of ChatGPT in consultations of patients with common cardiac symptoms or conditions; 2. A comprehensive assessment of GPT-4 during the examination for obtaining a medical license in the United States (USMLE). The authors of the review translated and analyzed the results of the conducted studies in order to make them available to a wide medical audience in order to determine promising directions for the introduction of AI in the field of medicine.

Ключевые слова: искусственный интеллект, большие языковые модели, консультации в кардиологии, экзамен на медицинскую лицензию.

Keywords: artificial intelligence, Large Language Models, consultations in cardiology, Medical License exam.

Введение

ChatGPT, созданный OpenAI, достиг 100 миллионов пользователей всего за 2 месяца после запуска https://openai.com/. ChatGPT работает на базе генеративного предварительно обученного трансформера (GPT-3.5), который представляет собой большую языковую модель (LLM), обученную со 175 миллиардами параметров [1]. ChatGPT не является искусственным общим интеллектом, не всегда даёт правильные ответы, и потому ожидания многих пользователей неверны, особенно в отношении медицины. Тем не менее, возникают вопросы относительно того, является ли ChatGPT медицинским продуктом, и кто несёт ответственность, даже несмотря на то, что ChatGPT всегда делает заявление об отказе от ответственности. Понятно, что есть существенная разница между разговорным и медицинским ИИ, в котором целью является анализ фактов о здоровье людей.

На самом деле, изучение возможностей LLM в решении медицинских проблем является частью давней исследовательской программы по ИИ в медицине, восходящей к классической работе Ledley and Lusted [2]. С тех пор исследования вычислительных методов для оказания помощи врачам отличались сменой различных методов представления и рассуждения, включая основные вероятностные

методы и методы теории принятия решений (например, [3,4]), продукционные экспертные системы, семантические графы (например, [5]), контролируемое обучение баз медицинской информации (например, [6-9]) и модели глубоких нейронных сетей (например, [10-13].

Каково же реальное использование ^аЮРТ в здравоохранении [14] ?

Преобразование текста в текст может помочь автоматически заполнять клинический документ (например, отчёт о проделанной работе) на основе коротких фраз, предоставленных клиницистом -человеком, тем самым снижая нагрузку на документацию. При использовании для составления клинических документов ЬЬМ также могут интегрировать наблюдения клиницистов и знаний о клинических рекомендациях, отражая реальные схемы диагностики и лечения, а впоследствии оказываясь полезными для постановки дифференциального диагноза и составления планов лечения. Недавно был разработан первый клинический ЬЬМ, Оа1;огТгоп (8,9 миллиарда параметров), использующий более 90 миллиардов слов текста (включая 82 миллиарда слов клинического текста), и продемонстрированы его возможности в клинической обработке естественного языка [15]. Изучена способность 8упОа1;огТгоп генерировать текст (5 миллиардов и 20 миллиардов

№ 11 (116)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

ноябрь, 2023 г.

параметров), генеративной клинической LLM, основанной на архитектуре GPT-3 [16]. В настоящее время проводятся исследования по LLM, посвященные фундаментальным вопросам, таким как включение цепочек рассуждений посредством выбора-вывода и подсказки цепочки мыслей [17-19]. Как только будут устранены текущие ограничения, можно будет использовать ChatGPT и следующее поколение LLM для многих приложений, представленных в таблице 1.

Как и во многих инновационных технологиях, последние 20% разработки занимают 80% от общего времени. Нет исключения и для ChatGPT, - существует вероятность того, что неправильное внедрение моделей ИИ может негативно сказаться на уходе за пациентами. Если модель можно обучить отвечать, например, на основные вопросы, означает ли это, что пациенты могут вообще не ходить к врачу,

полагаясь на ChatGPT? Кардиологи пока не слишком обеспокоены такой возможностью ovascularbusiness.com/topics/artificial-intelligence.

Возможности ChatGPT еще предстоит выяснить, -является ли эта технология революцией или просто эволюцией. Исходя из вышесказанного, цель нашего обзора состоит в том, чтобы показать последние конкретные разработки на основе ИИ, -в кардиологии и в медицинском образовании. Ранее мы уже обращались к этой проблеме [20,21], но динамика развития ИИ сегодня предоставляет новые возможности, которые мы здесь анализируем. Статья состоит из двух разделов: первый раздел посвящен экспериментальной оценке эффективности ChatGPT как инструмента для интерпретации симптомов и лечения распространенных сердечных заболеваний и фактически отражает точку зрения клиницистов; второй раздел описывает американский опыт применения GPT-4 в решении задач медицинского образования.

Таблица 1.

Потенциальные области применения и исследования в области здравоохранения для ChatGPT и аналогичных LLM

Области Описание

1 Модели и приложения, которые могут использовать мультимодальные данные, такие как объединение языка и изображений, например, выделение аномалий естественным образом (с помощью языка) при чтении изображений ПЭТ

2 Краткое изложение сложных историй болезни и записей

3 Краткое изложение информации с медицинских конгрессов/результатов клинических испытаний

4 Структурирование/обеспечение совместимости информации, например, при ведении медицинской документации

5 Облегчение в работе по клинической документации, такой как написание отчета о выписке; после того, как у нас есть структурированная информация, действительно ли есть необходимость в свободном тексте? (факты должны сообщаться достоверно и кратко)

6 Интеграция с информационными системами больниц для включения данных о пациентах, и ресурсов (кадровый потенциал)

7 Перевод на другие языки с большим потенциалом для менее часто используемых языков, для которых в прошлом использование обработки естественного языка было ограничено

8 Перевод на понятный пациенту язык, более удобной для потребителя

9 Анамнез

10 Облегчение для сестринского персонала благодаря автоматизированной связи в палатах

11 Медицинская литература

12 Анонимизация клинического текста

13 Ориентированный на человека дизайн приложений LLM

14 Цепочка анализа и автоматизированное рассуждение на LLM

15 Медицинское образование

№ 11 (116)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

ноябрь, 2023 г.

1. Эффективность ChatGPT в клинике распространенных сердечных заболеваний

Цель данного исследования состояла в оценке точности рекомендаций ChatGPT по вопросам, связанным с распространёнными сердечными симптомами или состояниями [22].

Методы

В проекте голландских врачей AMSTELHEART-2 протестировали способность ChatGPT правильно отвечать на простые вопросы о сердечно-сосудистых заболеваниях и интерпретировать симптомы или давать рекомендации по лечению на основе кейсов сердечно-сосудистых заболеваний, основанных на первичной медицинской помощи. Простые вопросы, а также краткие описания кейсов были введены онлайн только на английском языке на упомянутой выше веб-платформе ChatGPT, при этом собственных программных продуктов клиницисты не разрабатывали. Здесь надо отметить, что это прямой способ внедрить ChatGPT для любого другого заболевания.

Модель использует методы глубокого обучения для понимания и генерации текста, что позволяет отвечать на вопросы, завершать предложения и генерировать текст на основе заданных подсказок [23]. ChatGPT использует обучение с подкреплением на основе обратной связи с человеком - метод обучения, который сочетает в себе сильные стороны обучения с контролем, обучения с подкреплением и человеко-машинных подходов для повышения производительности моделей искусственного интеллекта [24, 25].

Для простых вопросов по медицине эталонным стандартом был медицинский эксперт, разработавший тест, который был подкреплен руководящими рекомендациями. Для клинических случаев эталонным стандартом была клиническая консультация, предоставленная лечащим врачом или консультируемым экспертом, и последующее клиническое течение пациента. Два исследователя также проверяли рекомендации, сравнивая их с рекомендациями руководства.

Тестовые задания: простые вопросы

Для тестовых вопросов использовали 5 быстрых тестов Medscape по кардиологии, чтобы собрать десять вопросов по каждой из следующих тем: острый коронарный синдром, лёгочная и венозная тромботиче-ская эмболия, фибрилляция предсердий, сердечная

недостаточность и управление сердечно-сосудистыми рисками https ://reference.medscape. com/index/ sec-tion_10360_0

Тестовые примеры: краткие описания кейсов.

Двадцать кратких описаний кейсов были получены путем случайной выборки клинических случаев, которые были представлены в общественный медицинский центр в Амстердаме. Кейсы ограничивались консультациями, которые либо касались симптомов возможного сердечного происхождения (боль в груди, одышка или учащённое сердцебиение), либо касались вопросов, касающихся диагностики или лечения пациентов с распространёнными сердечно-сосудистыми заболеваниями. Были отобраны 10 случаев консультаций пациента с врачом и 10 случаев консультаций врача общей практики (ВОП) с кардиологом/экспертом.

Результаты

Простые вопросы по сердечно-сосудистой системе

Из вопросов на 37 из 50 (74%) были даны правильные ответы. Как показано на рисунке 1, наблюдались незначительные различия в точности по ишемической болезни сердца (8/10), тромботиче-ской эмболии легких и вен (8/10), фибрилляции предсердий (7/10), сердечной недостаточности (8/10) и управления сердечно-сосудистыми рисками (6/10). Примеры неверных утверждений включали продолжительность двойной антитромбоцитарной терапии после острого коронарного синдрома (ОКС, ACS), где в ChatGPT неверно указано, что (1) подавляющее большинство эпизодов фибрилляции предсердий (AF, Atrial fibrillation) связаны со значительными симптомами, (2) у большинства пожилых пациентов с сердечной недостаточностью (Heart Failure, HF) снижена фракция выброса, (3) неправильное измерение артериального давления в качестве порога для артериальной гипертензии (стадия 2), и (4) нормальный сердечно-лёгочный стресс-тест с 6-минутной ходьбой составляет 600 футов (приблизительно 180 метров), что граничит с порогом тяжёлой сердечной дисфункции. Однако ChatGPT дал много правильных ответов, например, что следует использовать гепарин в качестве антикоагулянта во время беременности, исходя из его профиля безопасности для плода.

№ 11 (116)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

ноябрь, 2023 г.

Сокращения: СЛВ-ИБС (острый коронарный синдром и лечение атеросклероза коронарных артерий); РЕ/УТЕ - эмболия лёгочной артерии и венозная тромбоэмболия; ЛЕ - фибрилляция предсердий; НЕ - сердечная недостаточность; СУЯМ- факторы сердечно-сосудистого риска и лечение. По оси У - правильные ответы (%)

Рисунок 1. Эффективность ChatGPT в правильных ответах на медицинские тесты по ключевым аспектам распространённых сердечно-сосудистых заболеваний (п=50)

Кейсы, касающихся пациентов, обращающихся в первичную медицинскую помощь с жалобами на сердце

На рисунке 2 в качестве примеров приведены характеристики пациентов и их вопросы, по которым они обращались к своему лечащему врачу. Вопросы были связаны с тем, должны ли симптомы быть поводом для беспокойства и консультации с лечащим врачом, вопросы об использовании лекарств, а также об изменениях в поведении, начиная от диеты и заканчивая возобновлением активности после инфаркта миокарда. В целом, ChatGPT дал рекомендации,

которые соответствовали фактически представленным рекомендациям врача (9/10). Было отмечено одно серьёзное несоответствие, - ChatGPT рекомендовал использовать тромболитические средства в качестве вторичных профилактических препаратов у пациентов с предшествующим инфарктом миокарда (ИМ). Хотя тромболитикам есть место в острой фазе (в условиях, когда недоступно первичное чрескожное коронарное вмешательство, Percutaneous coronary intervention, PCI), этим препаратам нет места при хроническом лечении пациентов после инфаркта миокарда.

Рисунок 2. Простые вопросы пациента к лечащему врачу

№ 11 (116)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

ноябрь, 2023 г.

Краткие описания случаев, когда врачи обращаются за консультацией к специалисту

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На рисунке 3 в качестве примеров приведены вопросы, которые врачи общей практики отправляют для цифровой консультации с экспертом (кардиолог, терапевт). Эти вопросы были отправлены в СИаЮРТ,

где модель из 10 вопросов правильно ответила на пять (50%) в соответствии с рекомендациями эксперта. Два ответа (20%) частично совпали, один вопрос (10%) был неубедительным, а два ответа были неправильными (20%).

Рисунок 3. Примеры кейсов, когда врачи обращаются за консультацией к специалисту

Обсуждение

Гипотеза проекта заключалась в том, что способность модели обрабатывать и понимать вводимые данные на естественном языке и способность хранить клиническую информацию позволят ей извлекать соответствующую информацию и генерировать потенциальные диагнозы на основе сообщаемых симптомов. Относительно простые медицинские вопросы, поступающие от пациентов, обращающихся за первичной медико-санитарной помощью, могут быть успешно решены в подавляющем большинстве случаев. Однако СИаЮРТ был недостаточен для решения медицинских вопросов врачей, которые консультировались со своими коллегами-экспертами. Это говорит о том, что СИаЮРТ не был хорошо обучен работе с данными такого типа и, возможно, не понял нюансы контекста медицинских вопросов.

Таким образом, сильной стороной этого исследования является то, что использовали два подхода (простые вопросы и кейсы различной сложности) для оценки точности СИаЮРТ в решении медицинских вопросов. Несмотря на малые выборки, удалось увидеть закономерности в показателях: СИаЮРТ хорошо работает, если задаются вопросы с множественным выбором, а также если пациенты задают более простые вопросы своему лечащему врачу.

Модель труднее отвечала на более сложные медицинские вопросы, поэтому в будущем необходимы междисциплинарные исследования, чтобы определить подходящее место для СИаЮРТ при быстром осваивании этой технологии в здравоохранении. Важно учитывать риски, связанные с недетерминированностью, непрозрачностью и возросшей централизацией ЬЬМ, и стремиться к большей отчётности при их разработке и использовании.

В перспективе эта технология может быстро и точно идентифицировать возможные заболевания, основываясь на симптомах пациента и медицинских записях. Если пациенты получат прямой доступ к технологии, то это может побудить их своевременно обращаться за медицинской помощью, что приведёт к более быстрым и точным диагнозам и планам лечения. С точки зрения врачей, проводивших исследование, СИаЮРТ можно было бы использовать для консультирования по медицинским решениям, благодаря его способности анализировать большие объёмы медицинских данных для выявления закономерностей, влияющих на решения о диагностике или лечении.

Будучи вероятностной языковой моделью, СИаЮРТ может генерировать разные результаты для идентичных входных данных. Это затрудняет оценку эффективности работы, выявления предубеждений и может вызывать беспокойство в медицинских приложениях, где точность и согласованность имеют

№ 11 (116)

AunÎ

/Ш. TE)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

ноябрь, 2023 г.

решающее значение. Разработка и внедрение таких недетерминированных языковых моделей в здравоохранении должно предполагать сотрудничество между экспертами в таких областях, как медицина, информатика, этика и юриспруденция.

2. Возможности GPT-4 в решении задач медицинского образования

Мотивация исследования [26] состояла в изучении эффективности моделей для решения задач, разработанных для оценки компетенций студентов-медиков и врачей-ординаторов. Ставилась задача всесторонней оценки эффективности GPT-4, разработанного компанией OpenAI, на 1-3 этапах экзамена по медицинскому лицензированию в Соединенных Штатах (USMLE) https://openai.com/gpt-4.

Решением задачи были готовые показатели производительности для GPT-4 на официальных образцах экзаменов и материалах для самооценки.

Метод

В то время как GPT-4 поддерживает мульти-модальные возможности [27], в работе фокусируются на текстовой версии модели, -GPT-4 (no vision).

Наборы данных и решаемые задачи

Чтобы оценить GPT-4, были рассмотрены шесть наборов данных, которые охватывают различные аспекты медицинских знаний и рассуждений. Два из этих наборов данных,- выборочный экзамен USMLE и самооценки USMLE, получены непосредственно от Национального совета медицинских экспертов (NBME), остальные четыре набора данных, MedQA,

Сравнение эффективности

PubMedQA, MedMCQA и MMLU, являются общедоступными контрольными показателями, которые содержат вопросы, основанные на медицинской литературе, клинических случаях и пользовательском контенте MultiMedQA [28]. Чтобы установить базовую производительность модели и обеспечить справедливые сравнения, мы используем точно такую же структуру подсказок, как [28].

В процессе исследования следовало измерить исходные показатели GPT-4 по медицинским вопросам с множественным выбором (multiple-choice questions MCQs) с использованием простого подхода, не прибегая к подсказкам [29], использовать расширенный поиск [30] или стратегии объединения [31], которые значительно повышают производительность LLMs в медицинских MCQ [28,29]. Однако результаты показали, что GPT-4 может достигать отличных результатов даже без этих методов, превосходя как уровень производительности человека, так и других моделей, использующих сложные методы подсказывания.

Результаты

GPT-4 демонстрирует значительное улучшение в точности ответов по сравнению со своими предшественниками в вопросах официального экзамена USMLE, именно, более чем на 30% на экзаменах по сравнению с GPT-3.5. Более того, GPT-4 демонстрирует столь же сильное улучшение показателей производительности ChatGPT по сравнению с аналогичными показателями популярного варианта GPT-3.5 оптимизированного для взаимодействия в чате [32].

Таблица 4.

моделей на самооценке USMLE

USMLE GPT-4 5 выборов GPT-4 Нет выбора GPT-3.5 5 выборов GPT-3.5 Нет выбора

Шаг 1 85.21 83.46 54.22 49.62

Шаг 2 89.50 84.75 52.75 48.12

Шаг 3 83.52 81.25 53.41 50.00

Средняя оценка* 86.65 83.76 53.61 49.10

* Рассчитано как #правильный ответ/#все вопросы на всех трех этапах. Каждый этап имеет разный размер выборки.

Таблица 5.

Сравнение производительности моделей на выборочном экзамене USMLE. Этот набор данных из [32]. GPT-4 значительно превосходит как GPT-3.5, так и независимо зарегистрированные показатели ChatGPT

USMLE GPT-4 5 выборов GPT-4 Нет выбора GPT-3.5 5 выборов GPT-3.5 Нет выбора

Шаг 1 85.21 83.46 54.22 49.62

Шаг 2 89.50 84.75 52.75 48.12

Шаг 3 83.52 81.25 53.41 50.00

Средняя оценка* 86.65 83.76 53.61 49.10

* Рассчитано как #правильный ответ/#все вопросы на всех трех этапах. Каждый этап имеет немного разный размер выборки.

№ 11 (116)

AunÎ

/Ш. TE)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

ноябрь, 2023 г.

Эффективность модели GPT-4 (без изображений) на самооценке USMLE и выборочном экзамене особенно удивительна, поскольку на обоих экзаменах часто используются элементы мультимедиа (графики, фотографии, диаграммы), которые не передаются модели. Хотя GPT-4 лучше справляется с вопросами,

содержащими только текст, он хорошо (70-80% точности) отвечает на вопросы, используя элементы мультимедиа. Объясняется это тем, что модель ОРТ-4, ориентированная только на текст, часто способна использовать логические рассуждения и стратегии прохождения тестов для выбора разумного варианта ответа (Таблица 6).

Таблица 6.

Точность в вопросах с изображениями и графиками, по сравнению с точностью в вопросах с чистым текстом

Набор данных Вид вопроса GPT-4 5 выборов GPT-4 Нет выбора GPT-3.5 5 выборов GPT-3.5 Нет выбора

USMLE Текст 89.51 86.39 55.30 50.40

Медиа 69.75 68.15 43.63 41.40

Текст+Медиа 86.65 83.76 53.61 49.10

USMLE Sample Exam Текст 87.77 85.63 59.63 57.80

Медиа 79.59 75.51 53.06 51.02

Текст+Медиа 86.70 84.31 58.78 56.91

Исследования на четырёх известных бенчмарках Меёдл, РиЪМеадЛ, МеёМСдЛ и ММЬи также обнаружили, что ОРТ-4 хорошо справляется со сложными вопросами, представленными на неанглийских языках.

Оценка достоверности ответов ЬЬМ

Достоверность ОРТ-4 является мерой соответствия между прогнозируемыми вероятностями правильности каждого ответа и истинными частотами результатов. Проверка вероятности правильности ответов или любых утверждений, сгенерированных ЬЬМ, имеет решающее значение для приложений в медицине. Хорошо проверенная модель может обеспечить надёжные и интерпретируемые вероятности, которые отражают достоверность модели.

Таким образом, достоверность генерируемого контента важна в диагностике и построения планов лечения. Например, вероятность того, что лечение будет успешным, может быть использована при расчёте ожидаемого значения, взвешивающего риски и преимущества курса терапии. Что касается будущих применений ЬЬМ в медицине, то хорошо выверенные вероятности генерируемого контента позволят оптимизировать принятие решений об ожидаемой полезности результатов ЬЬМ. Понятно, что хорошая достоверность — это не то же самое, что высокая точность прогнозирования, поскольку прогнозирующие модели могут быть точными, но плохо проверенными [33].

На рисунке 4 показано сравнение достоверности ОРТ-4 и ОРТ-3.5 в обоих официальных наборах данных ШМЬЕ. Из рисунка видно, что ОРТ-4 демонстрирует значительно лучшую достоверность для этого типа данных, чем его предшественник. Например,

точки данных, которым ОРТ-4 присваивает среднюю вероятность 0,96, как правило, оказываются правильными в 93% случаев. Напротив, точки данных, которым ОРТ-3.5 присваивает аналогичную вероятность, являются правильными только в 55% случаев.

Помимо того, что ОРТ-4 хорошо справляется с экзаменационными вопросами с множественным выбором, он способен давать учащимся подробные объяснения их ошибок. Модель также демонстрирует способность выдвигать гипотезы о том, почему учащийся, возможно, допустил ошибку, и даже проводит контрфактический анализ, предоставляя варианты клинического случая с минимальными изменениями, чтобы помочь смоделировать альтернативные сценарии.

В долгосрочной перспективе ОРТ-4 может быть использован для оптимизации ежедневных потоков работы врачей, чтобы снизить нагрузку на программные, материально-технические и административные задачи. Сокращение рутинной работы по составлению отчетов и выполнению других административных задач позволило бы медицинским работникам уделять больше времени исключительно человеческим аспектам профессии, таким как координация и сотрудничество с коллегами-медиками. Технология также могла бы предоставить врачам больше времени для обучения, и продолжения медицинского образования. Кроме того, ЬЬМ можно было бы использовать для предоставления информации, коммуникации, скрининга и поддержки принятия решений в регионах со слабым медицинским обслуживанием. Эти модели могли бы помочь повысить компетентность ассистентов врачей и помочь в сортировке пациентов и общении с удаленными экспертами.

№ 11 (116)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

ноябрь, 2023 г.

Рисунок 4. Сравнение достоверностей GPT-4 и GPT-3.5 по результатам самооценки USMLE

и выборочного экзамена

Таким образом, сравнительная оценка ОРТ-4, ОРТ-3.5 на экзаменах на медицинскую компетентность, в которой изучалась эффективность ответов на вопросы, основанные исключительно на тексте, в сравнении с вопросами, относящимися к визуальным средствам показала, что ОРТ-4 значительно превосходит ОРТ-3.5. Удалось показать способность ОРТ-4 рассуждать о концепциях, включая объяснение, контрафактные рассуждения, дифференциальную диагностику и тестирование стратегии.

Заключение

Таким образом, что СИаЮРТ хорошо работает, когда пациентом задаются вопросы с выбором вариантов ответов, а также когда пациенты задают более простые вопросы своему лечащему врачу. Однако, модель затруднялась отвечать на более сложные медицинские вопросы и поэтому необходимы междисциплинарные исследования, чтобы выяснить место СИаЮРТ в здравоохранении, которое начинает осваивать эту новую технологию. Важно учитывать риски, связанные с недетерминированностью,

непрозрачностью и возросшей централизацией языковых моделей, таких как СИаЮРТ, и стремиться к большей подотчетности при их разработке и использовании, особенно в критическом и чувствительном контексте здравоохранения.

Главный вывод исследования по применению ОРТ-4 на экзаменах ШМЬ состоит в том, что хорошие показатели ОРТ-4 демонстрируют его потенциал для использования в медицинском образовании и для оказания помощи медицинским работникам во многих аспектах оказания медицинской помощи. Учитывая возможность ошибок и трудности при оценке эффективности в реальных сценариях, важно оценивать технические инновации для оптимизации преимуществ и снижения рисков в данной области.

Однако, есть риски внедрения языковых моделей обоего типа, представленных в обзоре. Языковые модели следует использовать для создания системы клинических знаний, которая может обеспечить поддержку в области здравоохранения и принятия клинических решений, а также улучшить уход за пациентами при нехватке квалифицированных кадров.

Список литературы:

1. Floridi L, Chiriatti M. GPT-3: its nature, scope, limits, and consequences. Minds Machines. 2020; 30:681 -694.

2. Robert S Ledley and Lee B Lusted. Reasoning foundations of medical diagnosis: Symbolic logic, probability, and value theory aid our understanding of how physicians reason.Science, 130(3366):9-21, 1959.

3. G Anthony Gorry and G Octo Barnett. Experience with a model of sequential diagnosis.Computers and Biomedical Research, 1(5):490-507, 1968.

4. David E. Heckerman, Eric Horvitz, and Bharat N. Nathwani. Toward normative expert systems: Part I the Pathfinder project. Methods of Information in Medicine, 31:90 - 105,1992.

5. Ramesh S Patil, Peter Szolovits, and William B Schwartz. Causal understanding of patient illness in medical diagnosis. In IJCAI, volume 81, pages 893-899, 1981.

6. Jenna Wiens, John Guttag, and Eric Horvitz. Patient risk stratification with time-varying parameters: a multitask learning approach. The Journal of Machine Learning Research,17(1):2797-2819, 2016.

7. Katharine E Henry, David N Hager, Peter J Pronovost, and Suchi Saria. A targeted real-time early warning score (trew score) for septic shock. Science translational medicine, 7(299):299ra122-299ra122, 2015.

№ 11 (116)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

ноябрь, 2023 г.

8. Gabriel J Escobar, Vincent X Liu, Alejandro Schuler, Brian Lawson, John D Greene,and Patricia Kipnis. Automated identification of adults at risk for in-hospital clinical deterioration. New England Journal of Medicine, 383(20):1951-1960, 2020.

9. Rich Caruana, Yin Lou, Johannes Gehrke, Paul Koch, Marc Sturm, and Noemie Elhadad. Intelligible models for healthcare: Predicting pneumonia risk and hospital 30-day readmission.In Proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining, pages 1721-1730, 2015.

10. Andre Esteva, Brett Kuprel, Roberto A Novoa, Justin Ko, Susan M Swetter, Helen M Blau, and Sebastian Thrun. Dermatologist-level classification of skin cancer with deep neural networks. nature, 542(7639):115-118, 2017.

11. Harini Suresh, Nathan Hunt, Alistair Johnson, Leo Anthony Celi, Peter Szolovits, and Marzyeh Ghassemi. Clinical intervention prediction and understanding with deep neural networks. In Machine Learning for Healthcare Conference, pages 322-337. PMLR, 2017.

12. Pranav Rajpurkar, Jeremy Irvin, Kaylie Zhu, Brandon Yang, Hershel Mehta, Tony Duan, Daisy Ding, Aarti Bagul, Curtis Langlotz, Katie Shpanskaya, et al. Chexnet:Radiologist-level pneumonia detection on chest x-rays with deep learning. arXiv preprint arXiv:1711.05225, 2017.

13. Scott Mayer McKinney, Marcin Sieniek, Varun Godbole, Jonathan Godwin, Natasha Antropova, Hutan Ashrafian, Trevor Back, Mary Chesus, Greg S Corrado, Ara Darzi, et al.International evaluation of an AI system for breast cancer screening. Nature, 577(7788):89-94, 2020.

14. Jens Kleesiek, Yonghui Wu, Gregor Stiglic, Jan Egger, and Jiang Bian An Opinion on ChatGPT in Health Care— Written by Humans Only https://doi.org/10.2967/jnumed.123.265687

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

15. Yang X, Chen A, PourNejatian N, et al. A large language model for electronic health records. NPJ Digit Med. 2022;5:194.

16. SynGatorTron: a large clinical natural language generation model for synthetic data generation and zero-shot tasks. NVIDIA website. https://www.nvidia.com/en-us/on-demand/session/gtcspring22-s41638/. Published March 2022. Accessed March 20, 2023.

17. Creswell A, Shanahan M, Higgins I. Selection-inference: exploiting large language models for interpretable logical reasoning. arXiv website. https://arxiv.org/abs/2205.09712. Published May 19, 2022. Accessed March 20, 2023.

18. Tafjjord O, Mishra BD, Clark P. Entailer: answering questions with faithful and truthful chains of reasoning. arXiv website. https://arxiv.org/abs/2210.12217_.Published October 21, 2022. Accessed March 20, 2023.

19. Kazemi SM, Kim N, Bhatia D, Xu X, Ramachandran D. LAMBADA: backward chaining for automated reasoning in natural language. https://arxiv.org/abs/2212.13894 Published December 20, 2022. Accessed March 20, 2023.

20. Адылова Ф.Т. Икрамов А.А.,Тригулова Р.Х Оценка течения заболевания сердечно-сосудистой системы при помощи нейронных сетей и алгоритма Загоруйко Журнал теоретической и клинической медицины, 2017, № 2, стр. 29-31.

21. Адылова Ф.Т., Кузиев Б.Н., Давронов Р.Р. Искусственный интеллект как основа цифровой терапии диабета // Universum: технические науки : электрон. научн. журн. 2023.1(106). URL:https://7universum.com/ru/tech/ar-chive/item/14836

22. Ralf E. Harskamp, Lukas De Clercq Performance of ChatGPT as an AI-assisted decision support tool in medicine: a proof-of-concept study for interpreting symptoms and management of common cardiac conditions (AMSTELHEART-2) medRxiv preprint; https://doi.org/10.1101/2023.03.25.23285475

23. Aung YYM, Wong DCS, Ting DSW. The promise of artificial intelligence: a review of the opportunities and challenges of artificial intelligence in healthcare. British Medical Bulletin 2021;139:1:4-15.

24. Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback. https://arxiv.org/pdf/2203.02155.pdf

25. Stiennon N, Ouyang L, Wu J, et al. Learning to summarize from human feedback. https://arxiv.org/pdf72009.01325.pdf

26. Harsha Nori1, Nicholas King, Scott Mayer McKinney,Dean Carignan1, and Eric Horvitz Capabilities of GPT-4 on Medical Challenge Problems 1https://doi.org/10.48550/arXiv.2303.13375).

27. Open 23OpenAI. Gpt-4 technical report, 2023.

28. Karan Singhal, Shekoofeh Azizi, Tao Tu, S Sara Mahdavi, Jason Wei, Hyung Won Chung,Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, et al. Large languagemodels encode clinical knowledge. arXiv preprint arXiv:2212.13138, 2022.

29. Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models.arXiv preprint arXiv:2201.11903, 2022.

30. Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, et al.Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332, 2021.

№ 11 (116)

UNIVERSUM:

ТЕХНИЧЕСКИЕ НАУКИ

ноябрь, 2023 г.

31. Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, and Denny Zhou. Self consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171, 2022.

32. Tiffany H Kung, Morgan Cheatham, Arielle Medenilla, Czarina Sillos, Lorie De Leon,Camille Elepa~no, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo,et al. Performance of chatgpt on usmle: Potential for ai-assisted medical education usinglarge language models. PLOS Digital Health, 2(2):e0000198, 2023.

33. Alexandru Niculescu-Mizil and Rich Caruana. Predicting good probabilities with supervised learning. In Proceedings of the 22nd international conference on Machine learning,pages 625-632, 2005.

i Надоели баннеры? Вы всегда можете отключить рекламу.