ОБЪЯСНИТЕЛЬНЫЙ ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В БОЛЬШИХ РЕЧЕВЫХ МОДЕЛЯХ

Аверкин А.Н.

Объяснительный искусственный интеллект в больших речевых моделях1

Аверкин А. Н., кандидат физико-математических наук, доцент, ведущий научный сотрудник Российского экономического университета им. Г. В. Плеханова, Москва, averkin2003@inbox.ru

Проводится краткий обзор и анализ существующих методов объяснимого искусственного интеллекта (ОИИ) в больших языковых моделях (БЯМ). ОИИ является основной частью искусственного интеллекта (ИИ) третьего поколения. Объяснимость является важным аспектом БЯМ, которые позволяют нам понять логику, лежащую в основе их решений. Для достижения объяснимости в БЯМ было разработано большое количество методов, дающих ценную информацию об их внутренней работе. Статья является продолжением работы [1], в которой были рассмотрены методы ОИИ для систем ИИ для обработки цифровых изображений.

объяснительный искусственный интеллект • большие языковые модели • тран-сформер • экспертные системы • искусственные нейронные сети

ВВЕДЕНИЕ

В сентябре 2019 года при принятии Стратегии ИИ президент РФ отметил, что страны с развитием искусственного интеллекта получат «преимущества, не сравнимые с ядерным оружием». И подчеркнул, что Россия имеет все шансы в этом преуспеть. Один из основных принципов развития и использования технологий искусственного интеллекта (ИИ), приведенных в Национальной стратегии развития искусственного интеллекта на период до 2030 г., является прозрачность: объяснимость работы искусственного интеллекта и процесса достижения им результатов, недискриминационный доступ пользователей к продуктам, созданным с использованием технологий искусственного интеллекта, к информации о применяемых в этих продуктах алгоритмах работы искусственного интеллекта. Объяснительный искусственный интеллект (ОИИ) играет ключевую роль в развитии и применении систем искусственного интеллекта в экономике данных, способствуя их прозрачности, пониманию и доверию со стороны пользователей и заинтересованных сторон. ОИИ имеет решающее значение, особенно в приложениях, где решения, принимаемые с помощью ИИ, влияют на людей или предприятия. Растущая потребность в подотчетности и этичности ИИ, особенно в таких отраслях, как финансы, здравоохранение и юриспруденция, повышает спрос на объяснимый ИИ.

Исследование выполнено за счет Российского научного фонда (грант № 22-71-10112). https:// rscf.ru/project/22-71-10112

mKWr

4

Каждое десятилетие в технологиях происходят революционные сдвиги, которые становятся новыми платформами, на которых строятся прикладные технологии. Так, искусственный интеллект перешел от экспертного обучения первого поколения и баз знаний, созданных вручную, к глубокому обучению второго поколения, использующего нейросети и большие обучающие выборки.

Теперь мы вступаем в третье поколение ИИ, где система искусственного интеллекта может интерпретировать и объяснить алгоритм принятия решений, даже если он имеет природу черного ящика. Объяснимый искусственный интеллект являются основной частью третьего поколения ИИ. В 2030-х годах мы увидим ИИ четвертого поколения с машинами, которые сами будут обучаться и динамически накапливать новые знания и навыки. К 2040-м годам ИИ пятого поколения увидит системы искусственного интеллекта с воображением, которые больше не будут полагаться на людей в обучении.

Растущая сложность моделей ИИ и их приложений повышает спрос на объ-яснимость, обеспечивающую понятность и обоснованность решений. Ожидается, что постоянные инновации в области разработки новых решений в области объяснимого искусственного интеллекта поставщиками рынка создадут возможности для его роста.

Объем мирового рынка объяснимого ИИ в 2022 г. составил 6,83 млрд долларов США, и ожидается, что к 2032 г. он достигнет около 36,42 млрд долларов США, увеличиваясь в среднем на 18,22 % в течение прогнозируемого периода с 2023 по 2032 г. Объем рынка по регионам: Северная Америка — 41 %, Европа — 30 %, Азия и Тихоокеанский регион — 24 %, Латинская Америка — 3 %, Средний Восток и Африка — 2 %.

ОБЪЯСНЕНИЕ В БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЯХ

С момента появления в открытом доступе первой БЯМ, как совершенно нового класса архитектур искусственных нейронных сетей (ИНС), СЬт^ GPT в ноябре 2022 г., произошёл экспоненциальный рост использования БЯМ в различных цифровых решениях, отразившихся на всех сферах жизни современного человека. К концу 2023 г. БЯМ стали мейнстримом в области технологий ИИ. С ростом количества моделей БЯМ, появлением версий, способных работать с мультимодальными данными, всё более предпочтительным выглядит построение гибридных интеллектуальных систем с их использованием.

БЯМ продемонстрировали впечатляющие возможности в обработке естественного языка. Однако их внутренние механизмы до сих пор плохо интерпретируются и недостаточно прозрачны, что создает нежелательные риски для последующих приложений. Поэтому понимание и объяснение этих моделей имеет решающее значение для выяснения их поведения, ограничений и социальных последствий. В этой статье мы вводим таксономию методов объяснимости и предоставляем структурированный обзор методов объяснения языковых моделей

на основе трансформеров. Мы рассмотрим основные методы, основанные на парадигмах обучения БЯМ: традиционную парадигму, основанную на тонкой настройке, и парадигму, основанную на промтах. Для каждой парадигмы мы суммируем цели и основные подходы к генерации локальных объяснений отдельных прогнозов и глобальных объяснений на основе общих знаний о модели. Мы также обсудим метрики для оценки сгенерированных объяснений и то, как их можно использовать для отладки моделей и повышения производительности. Наконец, мы рассматриваем ключевые проблемы и новые возможности для методов объяснения в эпоху БЯМ в сравнении с традиционными моделями машинного обучения.

С годами языковые модели претерпели значительные изменения. Начиная с традиционных n-граммных моделей и заканчивая современными трансформерами, мы стали свидетелями экспоненциального роста их возможностей. Внедрение архитектуры трансформеров, особенно таких моделей, как BERT (Bidirectional Encoder Representations from Transformers), GPT (Generative Pre-trained Transformer) и других, раздвинуло границы обработки естественного языка до новых высот.

Потребность объяснимости в БЯМ обусловлена растущей сложностью и внедрением систем на основе ИИ. По мере того как БЯМ становятся все более изощренными, они часто действуют как «черные ящики», скрывая свои внутренние процессы принятия решений от человеческого понимания. Отсутствие прозрачности создает серьезные проблемы, особенно в таких критически важных секторах, как здравоохранение, финансы и юридические отрасли, где объяснимость имеет решающее значение для доверия и подотчетности.

Давайте подробнее остановимся на необходимости объяснимости в БЯМ с помощью таблицы 1, использующей таксономию [2].

Понимая проблемы, связанные с «черным ящиком» и влиянием предвзятости в системах ИИ, разработчики и специалисты по обработке и анализу данных могут работать над созданием более прозрачных и справедливых БЯМ. Объ-яснимость — это не просто техническая характеристика; она имеет основополагающее значение для создания ответственных и доверительных приложений ИИ, которые соответствуют человеческим ценностям и потребностям общества. В таблице 1 подчеркивается важность этих аспектов в критически важных секторах, таких как здравоохранение, финансы и юриспруденция, где последствия решений ИИ могут существенно повлиять на отдельных людей и сообщества. Внедряя принципы объяснимости, мы можем раскрыть весь потенциал БЯМ, сохраняя при этом справедливость, подотчетность и доверие к системам ИИ.

По мере того как БЯМ становятся все более сложными, они часто функционируют как «черные ящики», что затрудняет понимание их внутренней работы. Отсутствие прозрачности вызывает озабоченность, особенно в критически важных приложениях, таких как здравоохранение, финансы и юридический сектор, где объяс-нимость имеет первостепенное значение. Доверие и подотчетность имеют важнейшее значение при развертывании систем ИИ, и именно здесь большую роль играет объяснимость.

Таблица 1

Важность объяснимости в БЯМ

Задачи

Дилемма черного ящика

Борьба с предвзятостью

Описание

БЯМ работают как «черные ящики», что затрудняет понимание их внутренних процессов

Отсутствие объяснимости может привести к недоверию, препятствуя внедрению систем ИИ в критически важных секторах

Системы ОИИ укрепляют доверие пользователей, способствуя широкому внедрению ИИ

Модели ИИ, в том числе БЯМ могут непреднамеренно увековечить предвзятость, присутствующую в обучающих данных

Системы ИИ могут приводить к дискриминационным результатам, ставя в невыгодное положение определенные группы и отдельных лиц

Обеспечение справедливости в области ИИ является общественным императивом, требующим особого внимания к объяснимости и подотчетности

Важность объяснимости в прикладных задачах

Объяснимость дает представление о процессе принятия БЯМ

В здравоохранении, финансах и юрисррюденции, где подотчетность имеет решающее значение, объяснимость имеет наиболее важной

Понимание того, что БЯМ принимают решения, способствует принятию и внедрению решений на основе ИИ

ОИИ помогает выявлять предвзятые решения, обеспечивая справедливость и равенство результатов

Выявляя предубеждения, разработчики могут принимать корректирующие меры, приводя приложения ИИ в соответствие с этическими нормами

ОИИ способствует обеспечению равных возможностей и гарантирует, что ИИ принесет пользу всем слоям общества

Еще одним важным аспектом является предвзятость в системах ИИ. БЯМ могут непреднамеренно унаследовать предвзятость от обучающих данных, что приводит к нежелательным и дискриминационным результатам. При помощи объяснимости систем ИИ, разработчики и специалисты по обработке и анализу данных могут эффективно выявлять и устранять предвзятость, обеспечивая справедливость и доверие в приложениях ИИ.

Объяснимость является важным аспектом БЯМ, который позволяет нам понять логику, лежащую в основе их решений. Для достижения объяснимости в БЯМ было разработано несколько методов, дающих необходимую информацию об их внутренней работе. Некоторые из этих методов рассмотрены в таблице 2.

6

Таблица 2

Методы объяснимости в БЯМ

Техника Описание Преимущества

Механизмы внимания Позволяет сосредоточиться на определенных словах или частях предложения во время обработки. Визуализация весовых коэффициентов внимания повышает прозрачность модели Определяет важные части входных данных, помогает понять, как модель принимает решения

Задачи зондирования Проверяет понимание лингвистических свойств моделью, демонстрируя представление о ее знаниях Помогает интерпретировать процесс принятия решений моделью на основе понимания языка

Послойный анализ Анализирует выходные данные каждого слоя для понимания иерархической обработки Показывает пошаговое преобразование входных данных, помогая интерпретировать решения на каждом уровне

Объяснения, основанные на правилах Создает интерпретируемые правила, объясняющие поведение модели Предоставляет удобочитаемые объяснения для прогнозов модели, способствуя пониманию и доверию

Методы, основанные на возмущениях Немного изменяет входные данные, чтобы наблюдать за изменениями в прогнозах модели Выявляет важные признаки, понимая, насколько модель зависит от конкретных входных данных

Контрфактические объяснения Предоставляет альтернативные входные данные для наблюдения за изменениями в прогнозах Дает представление о границах принятия решений модели и чувствительности к изменениям входных данных

Эти методы объяснимости БЯМ предоставляют современный инструментарий для понимания и объяснения решений, принимаемых языковыми моделями ИИ. Каждый метод обладает уникальными преимуществами и дополняет другие, позволяя разработчикам и исследователям получить более глубокое представление о БЯМ и способствовать прозрачности и доверию к системам, управляемым искусственным интеллектом. Рассмотрим их немного подробнее.

Механизмы внимания в БЯМ позволяют им фокусироваться на определенных словах или частях предложения во время обработки. Визуализируя весовые коэффициенты внимания, мы можем понять, какие части входных данных модель считает наиболее релевантными для прогнозирования. Этот метод повышает прозрачность модели и помогает определить причины, лежащие в основе ее выходных данных.

Задачи зондирования включают в себя проверку понимания моделью различных лингвистических свойств, таких как синтаксис, семантика и тональность. Оценивая производительность модели в этих задачах, мы получаем представление о ее представлении знаний и узнаем о лингвистических особенностях, которые она

фиксирует. Это позволяет нам интерпретировать процесс принятия решений моделью на основе ее понимания языка.

При послойном анализе учитывается, что БЯМ состоят из нескольких слоев трансформера, каждый из которых обрабатывает входные данные по-разному. Анализ выходных данных каждого слоя может пролить свет на то, как модель обрабатывает информацию иерархически. Этот метод позволяет нам понять пошаговую трансформацию входных данных, помогая нам интерпретировать решения, принятые на каждом уровне.

Объяснения, основанные на правилах, включают в себя создание интерпретируемых правил, объясняющих поведение модели. Эти правила можно извлечь, проанализировав закономерности в данных и поняв, как модель присваивает важность различным объектам. Объяснения, основанные на правилах, предоставляют наиболее удобочитаемые объяснения прогнозов модели, способствуя лучшему пониманию и доверию.

Методы, основанные на возмущениях, включают в себя небольшое изменение входных данных и наблюдение за тем, как изменяются прогнозы модели. Возмущая входные данные и измеряя влияние на выход, мы можем определить признаки, которые существенно влияют на решения модели. Этот метод помогает понять, на какие части входных данных модель больше всего полагается при составлении прогнозов.

Контрфактические объяснения включают в себя предоставление альтернативных входных данных для модели и наблюдение за тем, как меняются прогнозы. Изучив, какие изменения во входных данных приведут к различным выходам, мы можем понять конкретные условия, при которых прогнозы модели могут измениться. Контрфактические объяснения дают ценную информацию о границах принятия решений в модели и ее чувствительности к изменениям входных данных. Используя эти методы, разработчики могут не только улучшить объяснимость БЯМ, но и решить этические и практические проблемы, связанные с внедрением моделей ИИ в реальные приложения. По мере того как ИИ продолжает внедряться в различные области, важность объяснимости становится все более значимой для укрепления доверия и обеспечения ответственного применения технологий ИИ.

Обучение БЯМ можно разделить на две парадигмы: традиционную тонкую настройку и подсказку, в зависимости от того, как они используются для адаптации к последующим задачам. Из-за существенных различий между двумя парадигмами в таксономии [3] были предложены различные типы объяснений (табл. 3).

ОБЪЯСНЕНИЯ ДЛЯ ДВУХ ПАРАДИГМ ОБУЧЕНИЯ БЯМ

8

Таблица 3

Общая структура механизмов объяснения в БЯМ

Объяснение атрибуции объекта

Локальное Объяснение, основанное на внимании

объяснение Объяснение на основе примеров

Тради- Объяснение на естественном языке

ционная Объяснение,основанное на исследовании

парадигма тонкой на- Глобальное Объяснение активации нейронов

стройки объяснение Объяснение, основанное на понятиях

Механистическая интерпретируемость

Объясни-мость Использование Отладочные модели

объяснений Совершенствование моделей

БЯМ Объяснение обучения в контексте

Базовая модель Объяснения в цепочке мыслей

Инженерия представлений

Парадигма Вспомогатель- Объяснение роли точной настройки

промтов ная модель Галлюцинации и неуверенность

Модель, Повышение точности БЯМ

использующая объяснение Приложения нижнего уровня

Оценка Парадигма тонкой настройки

объяснений Парадигма промтов

ТРАДИЦИОННАЯ ПАРАДИГМА ТОНКОЙ НАСТРОИКИ

Рассмотрим традиционную парадигму тонкой настройки. В этой парадигме языковая модель сначала предварительно обучается на большом корпусе неразмеченных текстовых данных, а затем настраивается на наборе размеченных данных из определенной нижестоящей области, такой как SST-2, MNLI и QQP в бенчмарке GLUE [4]. Во время тонкой настройки легко добавить полносвязные слои поверх конечного слоя кодировщика языковой модели, что позволяет ей адаптироваться к различным последующим задачам. Эта парадигма показала успех для языковых моделей среднего размера, обычно содержащих до миллиарда параметров, таких как BERT, RoBERTa, ELECTRA, DeBERTa и др. Модели объяснения этой парадигмы сосредоточены на двух ключевых областях:

1) понимание того, как самоконтролируемое предварительное обучение позволяет моделям приобрести базовое понимание языка (например, синтаксиса, семантики и контекстуальных отношений);

2) анализ того, как процесс тонкой настройки дает этим предварительно обученным моделям возможность эффективно решать последующие задачи.

Традиционная парадигма тонкой настройки делится на локальное объяснение и глобальное объяснение.

Первая категория объяснений — локальное объяснение — относится к объяснению прогнозов, генерируемых БЯМ. Рассмотрим сценарий, в котором у нас есть языковая модель, и мы вводим в нее определенный текст. Затем модель создает выходные данные классификации, например классификацию тональности или прогноз для следующего маркера. В этом сценарии роль объяснения состоит в том, чтобы прояснить процесс, с помощью которого модель сгенерировала конкретную классификацию или прогноз маркера. Поскольку цель состоит в том, чтобы объяснить, как БЯМ делает прогноз для конкретных входных данных, мы называем это локальным объяснением. Эта категория включает в себя четыре основных потока подходов к созданию объяснений, включая объяснение на основе атрибуции признаков, объяснение на основе внимания, объяснение на основе примеров и объяснение на естественном языке.

В отличие от локальных объяснений, которые направлены на объяснение индивидуальных предсказаний модели, глобальные объяснения дают представление о внутренней работе языковых моделей. Глобальные объяснения направлены на то, чтобы понять, что закодировали отдельные компоненты (нейроны, скрытые слои и более крупные модули), и объяснить знания, усвоенные отдельными компонентами. Метод рассматривает три основных подхода для девяти глобальных объяснений: методы зондирования, которые анализируют представления и параметры модели, анализ активации нейронов для определения отзывчивости модели на входные данные, и методы, основанные на концепциях.

По мере увеличения масштаба языковых моделей они демонстрируют новые способности, такие как малое обучение, то есть способность усваивать концепции всего на нескольких примерах. Они также демонстрируют способность промтов на основе цепочки мыслей, которая позволяет скармливать модели последовательности промтов, чтобы направить ее генерацию в определенном направлении и заставить объяснить свои рассуждения. Учитывая эти новые свойства, исследование объяснимости преследует три основные цели: 1) понимание того, как эти большие языковые модели могут так быстро справляться с новыми задачами на ограниченных примерах, что помогает конечным пользователям интерпретировать рассуждения модели, 2) объяснение цепочек мыслей и 3) инженерия представлений.

Парадигма промтов включает в себя использование промтов, таких как предложения на естественном языке с пробелами, которые модель должна заполнить, чтобы обеспечить обучение с нулевым или небольшим количеством выстрелов без необходимости дополнительных обучающих данных. В парадигме промтов БЯМ продемонстрировали впечатляющие способности к рассуждению, включая обучение за несколько

ПАРАДИГМА ПРОМТОВ

10

этапов, способность к построению цепочки мыслей и такие явления, как галлюцинации, которые отсутствуют в обычной парадигме тонкой настройки. Объяснение в парадигме промтов можно разделить на две группы в соответствии с этапами разработки модели: объяснение базовой модели и объяснение модели помощника.

В базовой модели, по мере того как БЯМ увеличиваются в размерах и обучающих данных, они демонстрируют впечатляющие новые возможности, не требуя дополнительных обучающих данных. Одной из таких возможностей является обучение с помощью промтов. Этот тип парадигмы обычно работает на языковых моделях огромного размера (с миллиардами параметров), таких как GPT-3, LLaMA-1 [5], LLaMA-2 [6], Falcon [7]. Эти модели называются базовыми моделями или базовыми моделями, которые могут общаться с пользователями без дальнейшего согласования с предпочтениями человека. У базовых моделей есть два основных ограничения:

1) они не могут следовать инструкциям пользователя, поскольку данные перед обучением содержат мало примеров инструкций и ответов,

2) они склонны генерировать предвзятый и токсичный контент.

Чтобы устранить эти ограничения, базовые модели дополнительно дорабатываются с помощью контролируемой тонкой настройки для достижения способностей человеческого уровня, таких как открытый диалог. Ключевая идея состоит в том, чтобы согласовать ответы модели с обратной связью и предпочтениями человека. Наиболее типичным способом для этого процесса является настройка инструкций с помощью демонстрационных пар (подсказки, ответы) и обучение с подкреплением на основе обратной связи с человеком. Модели обучаются с обратной связью на естественном языке для ведения сложных, многоходовых разговоров. К этому семейству относятся модели GPT-3.5 и GPT4 [8] от OpenAI [9]. Эти модели, собственно, и называются вспомогательными моделями-помощниками, чат-помощниками или диалоговыми моделями. Объяснения для моделей-помощников сосредоточены на понимании того, как модели обучаются открытому интерактивному поведению из разговоров.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Благодаря широкомасштабному предварительному обучению без учителя и тонкой настройке с учителем, БЯМ, принадлежащие к этой парадигме, обладают сильными способностями к рассуждению. Тем не менее их масштаб также делает их восприимчивыми к генерации проблемных выходов, таких как галлюцинации. Исследование объяснимости здесь направлено на то, чтобы: 1) выяснить роль тонкой настройки выравнивания, 2) проанализировать причины галлюцинаций и 3) количественно оценить неопределенность.

Использование пояснений относится к использованию объяснительных возможностей БЯМ на основе подсказок для повышения прогностической производительности языковых моделей и обеспечения полезных приложений. Совершенствование БЯМ направлено на изучение того, могут ли БЯМ извлечь пользу из объяснений при изучении новых задач на ограниченных примерах. В частности, исследуется, может ли предоставление объяснений для ответов на несколько заданий повысить производительность модели в этих задачах [10]. Предусмотрены две формы объяснений: пояснения до ответа и пояснения после ответа. В [11] предлагается метод, называемый промтом цепочки мыслей, который обеспечивает промежуточные шаги рассуждения в виде объяснений в промтах перед ответами.

ОЦЕНКИ ОБЪЯСНЕНИЙ

Оценки объяснений даются с точки двух аспектов: правдоподобности и верности. Оба аспекта посвящены универсальным свойствам и метрикам, которые могут быть применены для сравнения различных подходов к объяснению. Обычно используются количественные оценочные свойства и метрики, которые, как правило, более надежны, чем качественные оценки.

Распространенные методы включают визуализацию голов внимания для одного входного сигнала с использованием двудольных графов или тепловых карт. Эти два метода представляют собой просто разные представления внимания, один в виде графика, а другой в виде матрицы. Системы визуализации различаются своей способностью отображать взаимосвязи в нескольких масштабах, представляя внимание в различных формах для разных моделей. На уровне входных данных оценки внимания для каждой пары слово/лексема/предложение между предложением-посылкой и предложением-предположением позволяют оценить достоверность предсказания модели [12]. На уровне нейронов отдельные головы внимания могут быть проанализированы для понимания поведения модели [13].

Объяснимость — это важнейший аспект БЯМ, который позволяет нам понять логику, лежащую в основе их решений и прогнозов. Обеспечение объяснимости в БЯМ имеет важное значение для укрепления доверия, повышения прозрачности и обеспечения ответственности систем ИИ. Делая БЯМ объяснимыми, разработчики и специалисты по обработке и анализу данных могут представить пользователям и заинтересованным сторонам значимую информацию о том, как модели достигают конкретных результатов.

Объяснимость в БЯМ предлагают несколько существенных преимуществ, которые способствуют ответственному и эффективному использованию технологии ИИ. Объяснимость способствуют доверию между пользователями и заинтересованными сторонами. Когда результаты, генерируемые искусственным интеллектом, понятны и объяснимы, пользователи чувствуют себя более комфортно, полагаясь на технологию для принятия критически важных решений. Способность понимать, как модель приходит к своим прогнозам, обеспечивает прозрачность и подотчетность, укрепляя доверие к системам ИИ. В результате пользователи с большей вероятностью примут и внедрят технологии ИИ в различных областях, что приведет к более широкому принятию и интеграции ИИ в общество.

Список использованных источников

1. Аверкин А. Н. Объяснимый искусственный интеллект как часть искусственного интеллекта третьего поколения // Речевые технологии. - 2023. - № 1. - С. 4-10.

ЗАКЛЮЧЕНИЕ

Индекс: 62203 ISSN 2305-8129

2. Sonali, Pawar (2023) Analyzing LLMs: Interpretability and ExpLainabiLity. https://astconsulting. in/artificial-intelligence/nlp-natural-language-processing/llm/analyzing-llms-interpretability-and-explainability/

3. Zhao, Haiyan & Chen, Hanjie & Yang, Fan & Liu, et al. (2023). Explainability for Large Language Models: A Survey. (https://www.researchgate.net/publication/373686370_Explainability_for_ Large_Language_Models_A_Survey)

4. Wang A., Singh A., Michael J., et al. Glue: A multitask benchmark and analysis platform for natural language understanding. International Conference on Learning Representations (ICLR), 2019.

5. Touvron H., Lavril T., Izacard G., et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023a.

6. Touvron H., Martin L., Stone K., et al. Llama-2: Open foundation and finetuned chat models. 2023b. URL https://ai.meta.com/research/publications/ llama-2-open-foundation-and-fine-tuned-chat-models/

7. Almazrouei E., Alobeidli H., Alshamsi A. et al. Falcon-40b: an open large language model with state-of-theart performance. 2023.

8. Bubeck S., Chandrasekaran V., Eldan R. et al. Sparks of artificial general intelligence: Early experiments with -4. arXiv preprint arXiv:2303.12712, 2023.

9. Anthropic. Decomposing language models into understandable components? https://www. anthropic.com/index/decomposing-language-models-into-understandable-components, 2023.

10. Lampinen A., Dasgupta I., Chan S. et al. Can language models learn from explanations in context? In Findings of the Association for Computational Linguistics: EMNLP 2022, pp. 537-563, 2022.

11. Wei J., Wang X., Schuurmans D. et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35:24824-24837, 2022.

12. Jesse Vig. BertViz: A Tool for Visualizing Multi-Head Self-Attention in the BERT Model. 2019.

13. Jaunet T., Kervadec C., Vuillemot R. et al. VisQA: X-raying Vision and Language Reasoning in Transformers, July 2021. URL http://arxiv.org/ abs/2104.00926. arXiv:2104.00926 [cs].

EXPLAINABLE ARTIFICIAL INTELLIGENCE IN LARGE LANGUAGE MODELS

Averkin A. N., Ph.D., Associate Professor, Leading researcher of Plekhanov Russian University of Economics, Moscow, averkin2003@inbox.ru

A brief review and analysis of existing methods of explicable artificial intelligence (XAI) in large language models (LLM) is carried out. XAI is a core part of the third generation artificial intelligence (AI). Explainability is an important aspect of LLM that allows us to understand the logic behind their decisions. To achieve explainability, LLM have developed a large number of methods that provide valuable information about their internal work. The article is a continuation of the work [1], in which XAI methods for AI systems for digital image processing were considered.

explanatory artificial intelligence • large language models • transformer • expert systems • artificial neural networks

ОБЪЯСНИТЕЛЬНЫЙ ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В БОЛЬШИХ РЕЧЕВЫХ МОДЕЛЯХ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Аверкин А. Н.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Аверкин А. Н.

EXPLAINABLE ARTIFICIAL INTELLIGENCE IN LARGE LANGUAGE MODELS

Текст научной работы на тему «ОБЪЯСНИТЕЛЬНЫЙ ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В БОЛЬШИХ РЕЧЕВЫХ МОДЕЛЯХ»