Научная статья на тему 'ПОЧЕМУ БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ НЕ (ВСЕГДА) РАССУЖДАЮТ КАК ЛЮДИ?'

ПОЧЕМУ БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ НЕ (ВСЕГДА) РАССУЖДАЮТ КАК ЛЮДИ? Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
107
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
рассуждения / большие языковые модели / пространственная навигация / телесно воплощенное сознание / воплощенный искусственный интеллект / reasoning / large language models / spatial navigation / embodied cognition / embodied artifi cial intelligence

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Зайцев Дмитрий Владимирович

Как показывают исследования последних лет, так называемые большие языковые модели испытывают определенные затруднения с оценкой и осуществлением рассуждений. В статье предпринимается попытка выявить причины этих затруднений и предложить возможные пути их преодоления. Первый раздел представляет собой своеобразное введение в проблематику, в нем анализируются примеры некорректной оценки умозаключений языковыми моделями. В следующем разделе устанавливается связь между нейрокогнитивными механизмами пространственной навигации у животных, концептуальной навигацией человека и идеями телесной воплощенности сознания. Отмечается влияние этих идей на развитие проекта искусственного интеллекта. Последний раздел подводит итоги предпринятого исследования, в нем формулируется предположение автора о роли перцептивных данных в процессе обработки информации и основанных на нем интеллектуальных процедур и рассуждений в том числе. Наличие сенсорного входа в конечном итоге оказывается необходимым условием для осуществления рассуждений, и именно его отсутствие у больших лингвистических моделей приводит к отмеченным затруднениям и проблемам.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Зайцев Дмитрий Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

WHY DON’T BIG LANGUAGE MODELS (ALWAYS) REASON LIKE HUMANS?

According to recent scientifi c data, Large Language Models (LLM) are experiencing certain diffi culties with the evaluation and implementation of reasoning. Th e paper attempts to identify the causes of these diffi culties and suggest possible ways to overcome them. Th e fi rst section serves as a kind of extended introduction to the problem, it analyzes examples of incorrect evaluation of argument by language models. In the next section, I trace the connection between the neurocognitive mechanisms of spatial navigation in animals, the conceptual navigation in human, and the ideas of embodiment of cognition. Th e infl uence of these ideas on the development of the artifi cial intelligence project is considered. Th e fi nale section summarizes the results of the research undertaken and formulates the author’s conjecture about the role of perceptual data in the process of information processing and intellectual procedures based on it, including reasoning. Th e presence of sensory input ultimately turns out to be a necessary condition for the implementation of reasoning, and its absence in Large Language Models leads to the noted diffi culties and problems.

Текст научной работы на тему «ПОЧЕМУ БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ НЕ (ВСЕГДА) РАССУЖДАЮТ КАК ЛЮДИ?»

ВЕСТНИК МОСКОВСКОГО УНИВЕРСИТЕТА. СЕРИЯ 7. ФИЛОСОФИЯ. 2024. Т. 48. № 1. С. 76-93 LOMONOSOV PHILOSOPHY JOURNAL. 2024. Vol. 48. No. 1. P. 76-93

ЛОГИКА И ТЕОРИЯ АРГУМЕНТАЦИИ ВЖ1

Научная статья

УДК: 168.52; 004.81

doi: 10.55959^Ш201-7385-7-2024-1-76-93

ПОЧЕМУ БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ НЕ (ВСЕГДА) РАССУЖДАЮТ КАК ЛЮДИ?

Д.В. Зайцев

Московский государственный университет имени М.В. Ломоносова, 119991,

Ленинские горы, МГУ, учебно-научный корпус «Шуваловский», г. Москва,

Россия

Аннотация. Как показывают исследования последних лет, так называемые большие языковые модели испытывают определенные затруднения с оценкой и осуществлением рассуждений. В статье предпринимается попытка выявить причины этих затруднений и предложить возможные пути их преодоления. Первый раздел представляет собой своеобразное введение в проблематику, в нем анализируются примеры некорректной оценки умозаключений языковыми моделями. В следующем разделе устанавливается связь между ней-рокогнитивными механизмами пространственной навигации у животных, концептуальной навигацией человека и идеями телесной воплощенности сознания. Отмечается влияние этих идей на развитие проекта искусственного интеллекта. Последний раздел подводит итоги предпринятого исследования, в нем формулируется предположение автора о роли перцептивных данных в процессе обработки информации и основанных на нем интеллектуальных процедур и рассуждений в том числе. Наличие сенсорного входа в конечном итоге оказывается необходимым условием для осуществления рассуждений, и именно его отсутствие у больших лингвистических моделей приводит к отмеченным затруднениям и проблемам.

Ключевые слова: рассуждения, большие языковые модели, пространственная навигация, телесно воплощенное сознание, воплощенный искусственный интеллект

Благодарности/Финансирование

Автор благодарен Центру философии когнитивных наук и искусственного интеллекта философского факультета МГУ за инициирование и поддержку исследования, а также А.А. Кротову за внимательное отношение и ценные замечания, высказанные в ходе подготовки материала.

© Д.В. Зайцев, 2024

LOGIC AND ARGUMENTATION THEORY

Original article

WHY DON'T BIG LANGUAGE MODELS (ALWAYS) REASON LIKE HUMANS?

D.V. Zaitsev

Lomonosov Moscow State University, Leninskie Gory, Moscow, Teaching and

Scientific Building "Shuvalovsky", 119991, Russia

Abstract. According to recent scientific data, Large Language Models (LLM) are experiencing certain difficulties with the evaluation and implementation of reasoning. The paper attempts to identify the causes of these difficulties and suggest possible ways to overcome them. The first section serves as a kind of extended introduction to the problem, it analyzes examples of incorrect evaluation of argument by language models. In the next section, I trace the connection between the neurocognitive mechanisms of spatial navigation in animals, the conceptual navigation in human, and the ideas of embodiment of cognition. The influence of these ideas on the development of the artificial intelligence project is considered. The finale section summarizes the results of the research undertaken and formulates the author's conjecture about the role of perceptual data in the process of information processing and intellectual procedures based on it, including reasoning. The presence of sensory input ultimately turns out to be a necessary condition for the implementation of reasoning, and its absence in Large Language Models leads to the noted difficulties and problems.

Keywords: reasoning, large language models, spatial navigation, embodied cognition, embodied artificial intelligence

Acknowledgments/Financial Support

The author is grateful to the Centre for Philosophy of Cognitive Sciences and Artificial Intelligence, Faculty of Philosophy, Moscow State University, for initiating and supporting the research, and to A.A. Krotov for his careful attention and valuable comments during the preparation of the material.

Введение

Рассуждения были и остаются одной из классических, «вечных» тем научных исследований. Несомненный приоритет в этих исследованиях принадлежит философии. Само возникновение философской логики начинается с построения Аристотелем первой в истории человечества теории правильных рассуждений — силлогистики, а ее многовековая история включает множество теорий рассуждений, построенных различными способами и опирающихся на разнообразные предпосылки. Веское слово в исследовании рассуждений сказали психологи и когнитивные ученые, анализирующие рассуж-

дение как когнитивную процедуру. Дополнительный интерес к этой теме связан с развитием проекта искусственного интеллекта (далее ИИ). Достаточно упомянуть ставшую классической и выдержавшую много изданий книгу С. Рассела и П. Норвига «Искусственный интеллект: современный подход» [1], которая начинается с рассмотрения логического подхода к анализу рассуждений и содержит значительное число разделов, посвященных их логическому и когнитивному моделированию.

В последние годы, начиная примерно с 2018 г., все большее распространение получают так называемые «большие языковые модели» (далее БЯМ1, от английского Large Language Models, LLM), построенные на основе генеративного ИИ, такие как, например, BERT, разработанный корпорацией GOOGLE, и GPT, созданный Open AI. Предполагается, что БЯМ на основе глубокого обучения на больших массивах лингвистических данных должны быть способны обрабатывать, понимать и создавать (генерировать) тексты, похожие на тексты, написанные человеком. Сегодня всем хорошо известно множество примеров, в том числе и анекдотических, учебных и научных текстов, написанных, в первую очередь, GPT, которые с успехом, вплоть до неразличимости, подменяют «человеческие» тексты. Однако, как показали исследования работы БЯМ буквально в последний год, они испытывают серьезные затруднения с пониманием и оценкой рассуждений. Это особенно странно, если учесть, что изначальным декларируемым предназначением этих систем обработки информации является способность понимать человеческий текст.

В данной статье предпринимается попытка рассмотреть эту проблему и высказать обоснованное предположение о причинах ее возникновения, то есть предложить предварительный и частичный вариант ответа на вопрос, почему БЯМ пока не рассуждают как люди. Прежде чем двигаться дальше, необходимо внести некоторые разъяснения.

Во-первых, предлагаемый ниже вариант ответа является частичным, поскольку он не касается всех возможных затруднений, связанных с формализацией так называемых естественных рассуждений. В статье речь пойдет об очень примитивных схемах умозаключений, традиционно рассматриваемых в рамках «школьного» курса логики.

1 БЯМ — не слишком благозвучная аббревиатура, но уже получившая широкое распространение. Представляется, что БЛМ (Большие Лингвистические Модели) звучит, по крайней мере, лучше, однако в данной статье будет использован более распространенный вариант.

Впрочем, это не означает, что люди не используют эти схемы в обыденных рассуждениях.

Во-вторых, лаконичный и краткий ответ на поставленный выше вопрос мог бы звучать следующим образом: потому что БЯМ не понимают рассуждений. Но такой ответ сам, в свою очередь, порождает новые вопросы. Следует прояснить, что значит — «понимать рассуждения» и почему это понимание не доступно языковым моделям. Серьезное, основательное и подробное исследование этой темы требует привлечения множества разнообразных данных из области компьютерной науки (computer science) и ИИ, философии, когнитивных и нейронаук. Очевидно, формат журнальной статьи не подходит для этого, да и автор не чувствует себя в равной степени компетентным в указанных выше областях. Задача данной статьи в кратком обзоре, позволяющем установить многообещающие связи между, на первый взгляд, несвязанными научными данными и на этой основе выдвинуть рабочую гипотезу о причинах затруднений с осуществлением и оценкой рассуждений языковыми моделями.

В соответствии с поставленной задачей предполагается во втором разделе более подробно рассмотреть специфику рассуждений БЯМ. Третий раздел статьи будет посвящен попыткам установить связи между последними открытиями в области нейронаук и идеей телесной воплощенности — как она реализуется в философии, когнитивной науке и ИИ. Наконец, в четвертом разделе подводятся итоги, суммируются результаты и обсуждаются перспективы дальнейших исследований.

1. Как рассуждают БЯМ

Формальное представление рассуждений — не такая простая и далеко не решенная на данный момент задача, как можно было бы предположить. Как показывает история развития логики, существует множество ситуаций, имеющих в первую очередь философское значение, когда принципы, лежащие в основе классической логики, не позволяют адекватно моделировать релевантные типы рассуждений. Отказ от этих принципов приводит к построению различных неклассических семантических теорий рассуждений или их синтаксических вариантов (исчислений). Еще одним источником творческой активности в этой области служит хорошо известное и многократно отмеченное различение естественных, повседневных человеческих рассуждений и рассуждений как некоторого образца, как они представлены в логике. В последнем случае основная проблема состоит в формулировке эффективного критерия правильности

рассуждений, которому можно в принципе следовать на практике. В первом случае формулировка единого критерия пока не значится в текущей повестке, на очереди адекватное описание типов естественных рассуждений.

В данной статье рассмотрение будет ограничено самыми простыми случаями рассуждений — силлогистическими схемами или умозаключениями логики высказываний, которые с большей или меньшей степенью оказываются приемлемыми и при логическом подходе, и на уровне здравого смысла, однако большее внимание все-таки будет уделено логическому критерию правильности. Это легко объяснимо, принятая в логике трактовка рассуждений наиболее близка к лингвистической: рассуждение — это «процедура обоснования некоторого высказывания путем пошагового выведения его из других высказываний» [2, 17]. Наиболее простой, частный случай рассуждения, о котором и будет идти речь дальше, — это умозаключение, понимаемое как непосредственный переход от высказываний-посылок к высказыванию-заключению.

При этом необходимо не забывать, что даже если обозначенные в статье проблемы будут в перспективе решены, остается куда более сложная задача формальной экспликации естественных рассуждений, решение которой потребует принципиально новых подходов.

В последние год-два появилось множество работ, в которых анализируются способности БЯМ к рассуждениям. Тема эта настолько свежа и актуальна, что большинство из этих статей еще не опубликовано в журналах, но они уже стали доступны обсуждению, о чем свидетельствуют их показатели цитирования (в некоторых случаях — более 50 за 2023 г.!), благодаря набирающим популярность системам препринтов. В качестве наиболее интересных обзорных работ следует упомянуть статьи [3-10], часть из которых имеет «говорящие» названия: «Большие Языковые модели все еще не могут планировать» [9]; <^РТ-4 не может рассуждать» [10].

В чем же основные проблемы с рассуждениями у языковых моделей? Отмеченные выше ограничения заставляют меня при рассмотрении этого вопроса пойти следующим путем. Сначала я предоставлю слово компетентным специалистам — авторам упомянутых статей, а затем приведу примеры из своего опыта общения с БЯМ. Итак, начнем с цитат.

Как отмечают авторы [7], хотя имеются свидетельства в пользу осуществления БЯМ рассуждений, однако этих результатов недостаточно, чтобы сделать вывод о том, что они действительно могут рассуждать. «Ибо 1) неясно, делают ли модели прогнозы, основанные

на рассуждениях или эвристике... 2) хотя модели, по-видимому, рассуждают поэтапно, сгенерированные обоснования могут быть неверными и непоследовательными. Вполне возможно, что модели "генерируют реакцию, подобную рассуждению", а не "рассуждают шаг за шагом"» [6, 9]. Кроме того, авторы этого обзора прямо указывают на проблемы со сложными рассуждениями и на ошибки в рассуждениях, допускаемые БЯМ.

«Наши результаты показывают, что даже в простых областях планирования, основанных на здравом смысле, где люди могли бы легко составлять планы, БЯМ, такие как GPT-3 и BLOOM, демонстрируют удручающую производительность» [9, 10].

Автор работы [10], как он сам замечает, «рисует мрачную картину способности GPT-4 к рассуждению. Это показывает, что модель страдает от внутренней несогласованности, неспособности правильно применять элементарные методы рассуждения и непонимания понятий, которые играют фундаментальную роль в рассуждении (таких как условная связь)» [10, 51]. В ходе анализа работы GPT-4 автор отмечает, что «Использование генеративного искусственного интеллекта при разработке программного обеспечения для чего-либо, кроме утомительных задач. сопряжено с серьезными рисками. Нормативные стандарты корректности имеют первостепенное значение в этих областях, и нынешние БЯМ не могут соответствовать таким стандартам» [10, 51]. В перспективе улучшение способности к рассуждениям должно стать первоочередной задачей в силу опасности возможных негативных последствий. В качестве резюме отмечается следующее: «Основываясь на результатах этого анализа, в данной статье утверждается, что, несмотря на случайные вспышки аналитического таланта, GPT-4 в настоящее время совершенно неспособен рассуждать» [10, 1].

За последние месяцы мне довелось неоднократно взаимодействовать с различными БЯМ. В данной работе приведу примеры диалогов с GPT-3.5 и GPT-042.

Я: Верно ли рассуждение: Земля — планета. Все планеты имеют форму чемодана. Значит, Земля имеет форму чемодана?

GPT: Нет, рассуждение неверно. Из того, что Земля — планета и что все планеты имеют форму чемодана, не следует, что Земля имеет форму чемодана. Форма Земли фактически является ближе к сфере, а не к чемодану.

В данном случае модели предложено корректное рассуждение с ложной посылкой и ложным заключением. Из ответа видно, что

2 В распоряжении автора имеются скриншорты соответствующих диалогов.

GPT обладает большим массивом релевантной информации (знает?), возможно, эта информация касается и критериев правильности рассуждений, но модель не умеет применять имеющуюся информацию (не понимает?), не проводит ключевого различия между правильностью и истинностью. В итоге это приводит к абсолютно ложному заявлении о том, что данное рассуждение неверно.

Уловив, тем не менее, в ответе намек на некоторое представление о форме Земли, я предложил модели еще один пример. Теперь было выбрано некорректное умозаключение с истинными посылками и заключением.

Я: Верно ли рассуждение: Земля имеет сферическую форму. Все планеты имеют сферическую форму. Значит, Земля — планета?

GPT: Да, это рассуждение верное. Если Земля имеет сферическую форму и все планеты также имеют сферическую форму, то это подтверждает, что Земля является одной из планет.

Может показаться, что ответ модели не так однозначен. Действительно, в данном случае посылки подтверждают заключением, то есть это умозаключение дедуктивно некорректно, но может быть истолковано как пример правдоподобного рассуждения. Но, во-первых, в любом случае, утверждение о том, что это рассуждение верное без дополнительных оговорок, представляется ошибочным, во-вторых, как будет видно из следующего примера, здесь скорее информированный читатель может выдавать желаемое за действительное, приписывая БЯМ то, что она не имела в виду.

Итак, БЯМ действительно, как минимум, не всегда корректно оценивают рассуждения и, что немаловажно, приводят в поддержку своей оценки очень странные аргументы. Не будучи разработчиком языковых моделей, я не могу с уверенностью судить о принципах, положенных в основу программирования обработки рассуждений языковыми моделями, но можно предположить, что они не могут применять логический критерий правильности рассуждений.

Рассуждение является правильным благодаря своей логической форме, в свою очередь формализация (выявление логической формы) означает отвлечение от содержания дескриптивных (нелогических) терминов и сохранение содержания логических терминов. Естественно, все это предполагает умение различать логические и нелогические термины и понимание последних.

Следующий и последний пример показывает, что с пониманием (что бы мы не вкладывали в этот термин) у БЯМ тоже есть серьезные проблемы.

Я: Если Волга впадает в Каспийское море, то Днепр впадает в Черное море. Волга впадает в Каспийское море. Следовательно, Днепр впадает в Черное море. Это рассуждение правильно?

GPT: Да, это рассуждение правильно. Если утверждение «Если Волга впадает в Каспийское море» является истинным, а также дано утверждение «Волга впадает в Каспийское море», то можно сделать заключение, что утверждение «Днепр впадает в Черное море» также является истинным. Это следует из логического обобщения по принципу, что две реки, которые впадают в одно и то же море, также могут быть связаны по принципу впадения одной в другую.

В этом примере прекрасно все. БЯМ явно не понимает, что условный по виду союз «если, то» в данном контексте играет роль соединительного логического союза «и». БЯМ не способна увидеть, что это рассуждение верное, но в нем есть лишняя вторая посылка, поскольку оно представляет собой не двухпосылочное умозаключение по схеме Modus Ponens, а пример рассуждения по схеме исключения конъюнкции: «А и В имеют место. Следовательно, верно В». БЯМ предлагает абсолютно абсурдное обоснование своей оценки, путая реки и моря. Оставляя абсурдность на совести разработчиков, уместно заметить, что приведенный пример позволяет предположить, что причина проблем, которые испытывают языковые модели при оценке рассуждений, кроется в том, что они не понимают ни смысла высказываний, из которых складывается рассуждение, ни смысла критерия правильности рассуждений.

Почему это происходит? Для ответа на этот вопрос необходимо перейти в сферу когнитивных исследований и рассмотреть их рецепцию в философии.

2. Пространственная навигация и телесная воплощенность

Как представляется, когнитивные корни понимания тесно увязаны с особенностями восприятия пространства и механизмами пространственной навигации. В 2014 г. Нобелевская премия по физиологии или медицине была присуждена Дж. О'Киф и супругам Мозер за открытие клеток, которые образуют систему позиционирования в мозге (см., например: [11 и 12]). Это в первую очередь клетки места (place cells), обнаруженные Дж. О'Кифом, они активизируются, когда агент находится в определенном месте пространства, и клетки решетки (grid cells), открытые Мозерами, образующие шестиугольную сетку, накладываемую на локацию. Позднее к этим клеткам добавились клетки направления (head direction cells) и клетки границы (border cells). Все вместе они образуют своеобразную когнитивную

навигационную карту, о существовании которой еще в середине прошлого века писал Э. Толмэн [13], позволяющую животному и человеку определять место в пространстве, оценивать расстояния и вырабатывать траекторию движения.

Само по себе замечательное, это открытие, как оказалось, имело важные последствия не только для понимания пространственной ориентации, но и для прояснения самих механизмов понимания. Как показали исследования [14-19], клетки места и клетки решетки используются не только для организации представлений о внешнем пространстве, но и для представления знания.

Так, авторы работы [16] обосновывают рассмотрение когнитивного пространства в качестве основного репрезентативного формата для обработки информации в мозге. По их мнению, клетки места и решетки, возможно, эволюционировали, чтобы представлять не только доступное для навигации пространство, но и отображать «измерения опыта, охватывающие управляемые когнитивные пространства по геометрическим принципам...Эти пространственно специфичные клетки обеспечивают непрерывный код, который позволяет сходным стимулам занимать соседние позиции в когнитивном пространстве».

В работе [17] на основе использования ФМРТ показано, что в теменной коре головного мозга человека во время целенаправленного мысленного поиска формируются векторные представления в концептуальных пространствах, сродни тем, которые наблюдаются во время физической навигации. Возникающие при этом репрезентации соответствуют структуре, образованной клетками решетки у грызунов.

Наконец, в недавней статье [19] исследуется связь между когнитивными репрезентациями и основополагающими идеями языка мысли Дж. Фодора. В частности, как считают авторы, им удалось показать, что «типы клеток, используемые в пространственной навигации, обеспечивают ключевые типы репрезентаций и вычислений, необходимые для ЬоТ (английская аббревиатура для Язык Мысли), подчеркивая его нейробиологическую жизнеспособность».

Остается только вслед за авторами работы [15, 942] воскликнуть: «Почему природа использовала одни и те же структуры как для пространства, так и для памяти, которые кажутся такими разными? Интригующая возможность заключается в том, что когнитивная карта представляет собой в некотором роде сцену, на которой разыгрывается драма вспоминаемых жизненных событий. Таким образом, она обеспечивает "мысленный взор" не только для запоминания пространств, но и событий, которые там происходили,

и даже — согласно недавним данным нейровизуализации человека — для воображения».

Таким образом, основываясь на сказанном выше, можно предположить, что, во-первых, местоположение и пространство — это универсальные понятия, характеризующие и внешний мир вещей, и его субъективное представление, и внутренний, ментальный мир мыслей, и что, во-вторых, осуществление интеллектуальных когнитивных процедур, связанных с обработкой информации, и в том числе рассуждений, опирается на пространственные представления, которые живые существа приобретают благодаря телесному взаимодействию с окружающим миром.

Идея телесности и телесной воплощеннности сознания не нова и давно развивается и представителями когнитивных наук, и в еще большей степени философами. Так, например, еще А. Бергсон в предисловии к «Опыту о непосредственных данных сознания» писал: «Мы по необходимости выражаем свои мысли в словах. И мы чаще всего мыслим в пространстве. Иначе говоря, наша речь требует, чтобы мы установили между понятиями те же ясные и точные различия, ту же прерывность, какие существуют между материальными объектами. Это уподобление полезно в практической жизни. Оно необходимо в большинстве наук» [20, 51]. Правда, далее он задается вопросом о плодотворности пространственных представлений при решении философских проблем, но в контексте данной работы важно его замечание о связи пространственных представлений и языка.

На современном этапе идеи телесной воплощенности нашли свою реализацию в целом спектре теорий. Поскольку данная статья в первую очередь ориентирована на философскую аудиторию, я позволю себе ограничиться их перечислением. В первую очередь это (телесно) концепция воплощенного познания (embodied cognition3) и энактивизм, в значительной степени восходящие к работам феноменологов Э. Гуссерля, М. Мерло-Понти и М. Хайдеггера и нашедшие развитие в исследованиях Ф. Варелы, Э. Томпсона, Э. Рош [21], Ш. Галлахера [22] и Дж. Лакоффа [23]. Близкие идеи можно найти в теориях расширенного разума (extended mind) Э. Кларка

3 Словосочетание "embodied cognition" обычно переводится как «воплощенное познание (или сознание)», однако определенные вопросы вызывает использование без уточнения термина «воплощенное» в силу его многозначности. Здесь возможны разные выходы: так, переводчики известной книги Ф. Варелы, Э. Томпсона и Э. Рош [21] переводят название "Embodied Mind" как «Отелесненный Ум», мне представляется более удачным добавление к воплощенности характеристики «телесная», что я и делаю в данном тексте.

и Д. Чалмерса [24], обоснованного познания (grounded cognition) Л.У Барсолоу [25], встроенного познания (embedded cognition) и во многих других вариациях на ту же тему. Общая цементирующая эти подходы идея удачно выражена в так называемом «4Е познании» (4E Cognition, от Embodied, Embedded, Extended, Enactive): во-первых, описание познания (и сознания) предполагает кроме указания на ментальные процессы охват всего организма как живой системы; во-вторых, сознание не изолировано от физического субстрата и мира; в-третьих, когнитивные функции могут осуществляться различными биологическими существами и распространяются на физический мир; в-четвертых, сознание возникает через динамическое взаимодействие между организмом и средой. Таким образом, познание (и сознание) — это то, во что вовлечены мозг, тело и окружающая среда.

Не останавливаясь на философских тонкостях обсуждаемого подхода, отметим, что идея воплощенности не обошла стороной и искусственный интеллект. Сторонники (телесно) воплощенного ИИ считают исходной точкой своего подхода гипотезу воплощения, предложенную в 2005 г. Л. Смит как идею о том, что интеллект возникает при взаимодействии агента с окружающей средой и в результате сенсомоторной активности [27]. Таким образом, в отличие от вычислительного подхода, акцент делается на роли, которую играет биологическое тело в когнитивных процессах. Основные идеи воплощенного ИИ и их эволюцию можно проследить по работам [28-31]. Кратко резюмируя, уместно отметить, что разработчики воплощенного ИИ, исходя из предпосылки о том, что большая часть нашего знания имплицитно обусловлена наличием тела, приходят к выводу, что подлинный ИИ, для того чтобы возникнуть, должен быть встроен в тело и способен взаимодействовать с окружающей средой. Прямым следствием такой позиции является создание «воплощенных агентов»: физически реализованных машин, которые, подобно биологическим системам, сами предоставляют информацию об окружающей среде, взаимодействуя с ней, и, в этом смысле, узнают об этой среде через свои интерактивные тела.

Дабы не потерять нить рассуждений за обилием материала, резюмируем основную идею этого раздела. Результаты исследований нейро-когнитивных механизмов ориентации в окружающем пространстве позволяют сделать предположение об универсальном характере пространственной навигации при обработке любой информации, что свидетельствует в пользу концепции телесной во-площенности сознания и познания, находящей свою реализацию в проекте телесно воплощенного ИИ.

3. Где же выход? Там где вход

Итак, с одной стороны, языковые модели далеко не всегда адекватно оценивают рассуждения, по-видимому, в силу отсутствия понимания высказываний (посылок и заключения рассуждений) и смысла критерия оценки корректности рассуждений. С другой стороны, такое понимание, как можно предположить на основании нейрокогнитивных исследований, фундировано пространственными представлениями. В данном случае не принципиально, являются ли системы пространственной и концептуальной навигации встроенными или одна из них стала продуктом эволюционного развития другой. В любом случае, способность определять место в пространстве и выстраивать траектории движения на основе когнитивной карты местности (в окружающей среде или концептуальном пространстве) служит основой для осуществления куда более сложных интеллектуальных процедур.

Такой ход рассуждений приводит к предположению о том, что существует нечто (дополнительный фактор Х), играющее принципиальную роль в осуществлении и проверке рассуждений. Это нечто присутствует в когнитивном опыте человека, но отсутствует в распоряжении языковых моделей. Вернемся к обсуждению рассуждений, приведенному во втором разделе. Может показаться, что упоминавшаяся процедура проверки правильности рассуждений слишком формальна. Едва ли в обыденной практике люди, не обладающие специальной подготовкой и не проводящие логических исследований, осознанно и эксплицитно выявляют логическую форму рассуждений. Скорее, этот процесс происходит интуитивно. Простой пример демонстрирует, что для этого совершенно не нужно обладать специальными знаниями и навыками.

Рассмотрим два предложения: «Все люди являются смертными» и «Все кошки являются животными» и попробуем ответить на вопрос: что в них общего? Ответ лежит на поверхности — у них общая структура. Мы прекрасно понимаем, что и там и там нечто утверждается про все предметы из какого-то множества. По сути дела, в этих словах уже скрыто указание на логическую структуру. Увидеть ее помогает понимание того, что слова «люди» и «кошки» обозначают какие-то предметы окружающего нас мира, слова «смертные» и «животные» — свойства, которые приписываются этим предметам. При этом также ясно, что слова «все» и «являются» не имеют коррелятов в предметном мире, а скорее выполняют служебную роль, фиксируя определенные отношения не между предметами, а между понятиями.

На мой взгляд, приведенный пример показывает, что мы, подобно герою Мольера, «говорим прозой», не отдавая себе в этом отчет, и интуитивно чувствуем различие между описательными и логическими терминами, что позволяет нам почти непосредственно «усматривать» логическую форму, по крайней мере, в элементарных умозаключениях. Источник этого интуитивного усмотрения лежит в перцептивном опыте человека, в его постоянном двустороннем взаимодействии с окружающей средой.

Если обратиться к более сложным, пока плохо поддающимся формализации естественным рассуждениям на основе здравого смысла, то здесь экстралингвистический компонент играет еще более важную роль. Вспомним пример высказывания с условным союзом «если... то». Кроме заложенного в нем выражения условной связи, этот союз может заменять конъюнкцию (как в приведенном примере), а может интерпретироваться как эквиваленция, равносильность двух утверждений. Окончательная трактовка зависит от контекста и адекватного понимания ситуации, к которой относится высказывание. Последнее как раз и достигается на основе жизненного опыта интерпретатора, в формировании которого немалую роль играют данные органов чувств.

Таким образом, краткий и афористичный ответ на вопрос, в чем же выход из проблемной ситуации с осуществлением и оценкой рассуждений языковыми моделями, таков: выход в обеспечении сенсорного входа!

Очевидно, это всего лишь один из возможных ответов на поставленный в статье вопрос, выражающий гипотезу ее автора. Вполне возможен и другой взгляд на проблему. В качестве примера альтернативной точки зрения можно обратиться к совсем свежей статье Д. Чалмерса, точнее, к рабочему предварительному варианту статьи [32], который стал доступен для обсуждения благодаря любезности автора и современным технологиям.

Ключевой вопрос, которым задается автор, вынесен в заглавие статьи: требует ли мышление сенсорного основания? (Does thinking require sensory grounding?) Примечательно, что, задавая обсуждению этой темы широкий философский контекст, Чалмерс непосредственно обращается к работе БЯМ, конкретизируя свой вопрос: могут ли БЯМ мыслить, иметь в виду [нечто] или понимать? Ответ на общий вопрос таков: опираясь на историю философии, автор берется утверждать, что в принципе могут существовать весьма искушенные мыслители (thinkers), не обладающие способностью чувствовать. Такого мыслящего агента он называет «чистым мыслителем» (pure thinker). Подробно анализируя смысл, который можно

вложить в термины «мыслить» и «чувствовать», он приходит к выводу о возможности существования таких агентов. Интересно, что в ходе обсуждения он обращается к вопросу о возможности для такого агента иметь понятия пространства и времени. Признавая, что некоторые компоненты таких понятий коренятся в нашем перцептивном опыте, он, тем не менее, полагает, что чистый мыслитель может иметь математическое понятие пространства.

Возвращаясь к БЯМ, Чалмерс заключает, что простое отсутствие сенсорных способностей в системе искусственного интеллекта не означает, что система не может мыслить или понимать. Буквально: «Если бы мы разработали "чистую" систему искусственного интеллекта, не имеющую связей ввода-вывода с окружающим миром, отсутствие связей с миром само по себе не помешало бы ей мыслить и понимать многое, от математики до философии и спекулятивных научных гипотез о реальности». В случае языковых моделей чистый мыслитель трансформируется в «чистого говорителя», способного на входе понимать естественный язык и порождать лингвистические выражения на выходе. В результате Чалмерс склоняется к следующему выводу: «Чистые БЯМ (например, мультимодальные модели) могут обладать сенсорным опытом и полноценными сенсорными концепциями, по крайней мере, когда они обрабатывают соответствующие текстовые переводы».

Не вдаваясь в подробное критическое рассмотрение аргументации Чалмерса, отмечу следующее. Во-первых, в трактовке БЯМ как чистого говорителя присутствует прямое указание на способность понимать естественный язык. Если это не просто игра слов, то, как показывает проведенное в моей статье обсуждение, именно этой способности и недостает языковым моделям. Во-вторых, как было отмечено выше, наличие такой способности коренится как минимум в пространственных представлениях. Хватит ли для этого упомянутого Чалмерсом возможного математического понятия пространства, пока неясно. В-третьих, не вполне очевидным является ответ на вопрос о том, смогут ли лингвистические протоколы сенсорного опыта заменить сенсорный опыт.

Список вопросов и возражений можно было бы продолжить (например, задать вопрос, каково это быть чистым мыслителем?), но и без того становится ясно, что дальнейшее обсуждение этой темы в заданном Чалмерсом контексте уводит от реальности в сферу спекуляций и мысленных экспериментов. Между тем уже сегодня имеются некоторые позитивные примеры разработок в области телесно воплощенного ИИ, подтверждающие мое предположение. В заключение статьи приведу один из таких примеров.

Авторы данной работы [33] презентуют обучающий тренировочный материал для телесно воплощенного искусственного агента. При этом они исходят из предпосылки, что «символические репрезентации могут быть центром взаимосвязанного восприятия, памяти и рассуждения у воплощенных агентов», констатируя, что «современные большие языковые модели, обученные на основе интернет-данных, недостаточно хорошо приспособлены к простым вопросам о физическом окружении, таким как "кто слева от меня?"» [33, 8438]. «В этой работе мы описываем источник данных (то есть набор инструментов для генерации данных), предназначенный для обучения моделей ML, основанных на физической среде, позволяя им устанавливать связь между восприятием, памятью и рассуждениями» [33, 8439]. Другими словами, пока ИИ не обладает полноценными перцептивными способностями, предлагается «симулировать» внешний мир, предоставив ему возможность искусственно сгенерированного сенсорного входа.

СПИСОК ИСТОЧНИКОВ

1. Рассел С., Норвиг П. Искусственный интеллект: современный подход: В 4 т. СПб.: Диалектика, 2021. 21 с.

2. Бочаров В.А., Маркин В.И. Введение в логику. М.: ИД «ФОРУМ»; ИНФРА-М, 2008. 560 с.

3. Trott S. et al. Do large language models know what humans know? // Cognitive Science. 2023. Vol. 47, iss. 7. https://doi.org/10.48550/arXiv.2209.01515

4. Espejel J.L. et al. GPT-3.5, GPT-4, or BARD? Evaluating LLMs reasoning ability in zero-shot learning and performance boosting through prompts // Natural Language Processing Journal. 2023. Vol. 5. https://doi.org/10.1016/j.nlp.2023.1000032

5. Turpin M. et al. Language models don't always say what they think: Unfaithful explanations in chain-of-thought prompting. 2023. https://doi.org/10.48550/ arXiv.2305.04388

6. Liu H. et al. Evaluating the logical reasoning ability of ChatGPT and GPT-4. 2023. https://doi.org/10.48550/arXiv.2304.03439

7. Huang J., Chang K.C.C. Towards reasoning in large language models: A survey. 2022. https://doi.org/10.48550/arXiv.2212.10403

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8. Xu F. et al. Are large language models really good logical reasoners? A comprehensive evaluation from deductive, inductive and abductive views. 2023. https://doi. org/10.48550/arXiv.2306.09841

9. Valmeekam K. et al. Large language models still can't plan (A benchmark for LLMs on planning and reasoning about change). 2022. https://doi.org/10.48550/ arXiv.2206.10498

10. Arkoudas K. GPT-4 can't reason. 2023. https://doi.org/10.48550/arXiv.2308.03762

11. O'Keefe J., Dostrovsky J. The hippocampus as a spatial map: preliminary evidence from unit activity in the freely-moving rat // Brain research. 1971. Vol. 34, N 1. P. 171-175.

12. Hafting T. et al. Microstructure of a spatial map in the entorhinal cortex // Nature. 2005. 436.7052. P. 801-806.

13. Tolman E.C. Cognitive maps in rats and men // Psychological Review. 1948. Vol. 55, N 4. P. 189-208.

14. Mormann F. et al. A category-specific response to animals in the right human amygdale // Nature Neuroscience. 2011. Vol. 14, N 10. P. 1247-1249.

15. Marozzi E., Jeffery K.J. Place, space and memory cells // Current Biology. 2012. Vol. 22, N 22. P. R939-R942.

16. Bellmund J.L.S. et al. Navigating cognition: Spatial codes for human thinking // Science. 2018. doi: 10.1126/science.aat6766

17. Vigano S. et al. Mental search of concepts is supported by egocentric vector representations and restructured grid maps. bioRxiv. 2023. N 1. doi: https://doi. org/10.1101/2023.01.19.524704

18. Kriegeskorte N., Kievit R.A. Representational geometry: integrating cognition, computation, and the brain // Trends in cognitive sciences. 2013. Vol. 17, N 8. P. 401-412.

19. Kazanina N., Poeppel D. The neural ingredients for a language of thought are available // Trends in cognitive sciences. 2023. doi: 10.1016/j.tics.2023.07.012

20. Бергсон А. Опыт о непосредственных данных сознания // Бергсон А. Собрание сочинений: В 4 т. СПб.: Изд-во М.И. Семенова, 1913. Т. 2. 224 с.

21. Varela F.J., Thompson E., Rosch E. The embodied mind, revised etion: Cognitive science and human experience. Cambridge, Mass: MIT Press, 2017. 328 p.

22. Gallagher S. Enactivist interventions: Rethinking the mind. Oxford University Press, 2017.

23. LakoffG., Johnson M. Metaphors we live by. University of Chicago press, 2008. 256 p.

24. Clark A., Chalmers D. The extended mind // Analysis. 1998. Vol. 58, N 1. P. 7-19.

25. Barsalou L.W. Grounded cognition // Annual Review of Psychology. 2008. Vol. 59. P. 617-645.

26. Schiavio A., Schyff D. van der. 4E music pedagogy and the principles of self-organization // Behavioral Sciences. 2018. Vol. 8, N 8. 72 p.

27. Smith L.B. Cognition as a dynamic system: Principles from embodiment // Developmental Review. 2005. Vol. 25. P. 278-298.

28. Holland O. The future of embodied artificial intelligence: Machine consciousness? Embodied Artificial Intelligence: International Seminar. Dagstuhl Castle, Germany, July 7-11, 2003. Revised Papers. Berlin; Heidelberg: Springer Berlin Heidelberg, 2004. 334 p.

29. Conforth M., Meng Y. Embodied intelligent agents with cognitive conscious and unconscious reasoning. Proceedings of the International Conference on Brain-Mind. 2012. P. 15-20.

30. Hughes J. et al. Embodied artificial intelligence: Enabling the next intelligence revolution // IOP Conference Series: Materials Science and Engineering. IOP Publishing, 2022. Vol. 1261, N 1.

31. Zhang Z, Li J. A eeview of artificial intelligence in embedded systems // Micromachines. 2023. Vol. 14, iss. 5. 18 p.

32. Chalmers D.J. Does thinking require sensory grounding? From the history of philosophy to artificial intelligence. URL: https://philarchive.org/archive/CHADTR

33. Lanchantin J. et al. A data source for reasoning embodied agents. Proceedings of the AAAI conference on artificial intelligence. 2023. Vol. 37, N 7.

REFERENCES

1. Rassel S., Norvig P. Iskusstvennyj intellekt: Sovremennyj podhod: V 4 t. St. Petersburg: Dialectika. 2021. 21 p. (In Russ.)

2. Bocharov V.A., Markin V.I. Vvedenie v logiku. Moscow: PH "Forum"; INFA-М. 2008. 560 p. (In Russ.)

3. Trott S. et al. Do large language models know what humans know? Cognitive Science. 2023. Vol. 47, iss. 7. https://doi.org/10.48550/arXiv.2209.01515

4. Espejel J.L. et al. GPT-3.5, GPT-4, or BARD? Evaluating LLMs reasoning ability in zero-shot learning and performance boosting through prompts. Natural Language Processing Journal. 2023. Vol. 5. https://doi.org/10.1016Zj.nlp.2023.1000032

5. Turpin M. et al. Language models don't always say what they think: Unfaithful explanations in chain-of-thought prompting. 2023. https://doi.org/10.48550/ arXiv.2305.04388

6. Liu H. et al. Evaluating the logical reasoning ability of ChatGPT and GPT-4. 2023. https://doi.org/10.48550/arXiv.2304.03439

7. Huang J., Chang K.C.C. Towards reasoning in large language models: A survey. 2022. https://doi.org/10.48550/arXiv.2212.10403

8. Xu F. et al. Are large language models really good logical reasoners? A comprehensive evaluation from deductive, inductive and abductive views. 2023. https://doi. org/10.48550/arXiv.2306.09841

9. Valmeekam K. et al. Large language models still can't plan (A benchmark for LLMs on planning and reasoning about change). 2022. https://doi.org/10.48550/ arXiv.2206.10498

10. Arkoudas K. GPT-4 can't reason. 2023. https://doi.org/10.48550/arXiv.2308.03762

11. O'Keefe J., Dostrovsky J. The hippocampus as a spatial map: preliminary evidence from unit activity in the freely-moving rat. Brain research. 1971. Vol. 34, N 1. P. 171-175.

12. Hafting T. et al. Microstructure of a spatial map in the entorhinal cortex. Nature. 2005. 436.7052. P. 801-806.

13. Tolman E.C. Cognitive maps in rats and men. Psychological Review. 1948. Vol. 55, N 4. P. 189-208.

14. Mormann F. et al. A category-specific response to animals in the right human amygdale. Nature Neuroscience. 2011. Vol. 14, N 10. P. 1247-1249.

15. Marozzi E., Jeffery K.J. Place, space and memory cells. Current Biology. 2012. Vol. 22, N 22. P. R939-R942.

16. Bellmund J.L.S. et al. Navigating cognition: Spatial codes for human thinking. Science. 2018. doi: 10.1126/science.aat6766

17. Vigano S. et al. Mental search of concepts is supported by egocentric vector representations and restructured grid maps. bioRxiv. 2023. N 1. https:// doi.org/10.1101/2023.01.19.524704

18. Kriegeskorte N., Kievit R.A. Representational geometry: integrating cognition, computation, and the brain. In: Trends in cognitive sciences. 2013. Vol. 17, N 8. P. 401-412.

19. Kazanina N., Poeppel D. The neural ingredients for a language of thought are available/ In: Trends in cognitive sciences. 2023. doi: 10.1016/j.tics.2023.07.012

20. Bergson A. Experience on the direct data of consciousness. In: Bergson A. Collected Works: In 4 vols. SPb.: Izd-vo M.I. Semyonov, 1913. Vol. 2. 224 p. (In Russ.)

21. Varela F.J., Thompson E., Rosch E. The embodied mind, revised etion: Cognitive science and human experience. Cambridge, Mass: MIT Press, 2017. 328 p.

22. Gallagher S. Enactivist interventions: Rethinking the mind. Oxford University Press, 2017.

23. Lakoff G., Johnson M. Metaphors we live by. University of Chicago press, 2008. 256 p.

24. Clark A., Chalmers D. The extended mind. Analysis. 1998. Vol. 58, N 1. P. 7-19.

25. Barsalou L.W. Grounded cognition. Annual Review of Psychology. 2008. Vol. 59. P. 617-645.

26. Schiavio A., Schyff D. van der. 4E music pedagogy and the principles of self-organization. Behavioral Sciences. 2018. Vol. 8, N 8. 72 p.

27. Smith L.B. Cognition as a dynamic system: Principles from embodiment. Developmental Review. 2005. Vol. 25. P. 278-298.

28. Holland O. The future of embodied artificial intelligence: Machine consciousness? Embodied Artificial Intelligence: International Seminar. Dagstuhl Castle, Germany, July 7-11, 2003. Revised Papers. Berlin; Heidelberg: Springer Berlin Heidelberg, 2004. 334 p.

29. Conforth M., Meng Y. Embodied intelligent agents with cognitive conscious and unconscious reasoning. Proceedings of the International Conference on Brain-Mind. 2012. P. 15-20.

30. Hughes J. et al. Embodied artificial intelligence: Enabling the next intelligence revolution. In: IOP Conference Series: Materials Science and Engineering. IOP Publishing, 2022. Vol. 1261, N 1.

31. Zhang Z., Li J. A eeview of artificial intelligence in embedded systems. Micromachines. 2023. Vol. 14, iss. 5. 18 p.

32. Chalmers D.J. Does thinking require sensory grounding? From the history of philosophy to artificial intelligence. URL: https://philarchive.org/archive/CHADTR

33. Lanchantin J. et al. A data source for reasoning embodied agents. Proceedings of the AAAI conference on artificial intelligence. 2023. Vol. 37, N 7. P. 8438-8446.

Информация об авторе: Зайцев Дмитрий Владимирович — доктор философских наук, доцент, профессор кафедры логики философского факультета МГУ имени М.В. Ломоносова, тел.: +7 (926) 234-49-83; zaitsev@philos. msu.ru

Information about the author: Dmitry V. Zaitsev — Doctor of Science, Professor, Department of Logic, Faculty of Philosophy, Lomonosov Moscow State University, tel.: +7 (926) 234-49-83; zaitsev@philos.msu.ru

Поступила в редакцию 12.07.2023; принята к публикации 21.11.2023

i Надоели баннеры? Вы всегда можете отключить рекламу.