Семантический искусственный интеллект
Харламов А.А., доктор технических наук, старший научный сотрудник Института высшей нервной деятельности и нейрофизиологии РАН, Москва, профессор Департамента программной инженерии НИУ ВШЭ, Москва, профессор кафедры прикладной и экспериментальной лингвистики МГЛУ, Москва, и.о. зав. кафедрой интеллектуальных информационных систем и технологий МФТИ, Москва, kharlamov@analyst.ru
Основное отличие человека от животных известно — это наличие второй сигнальной системы. Введение в систему искусственного интеллекта второй сигнальной системы, включающей языковую модель мира, работающую совместно с экстралингвистической моделью мира, позволяет разделить представление и обработку специфической информации на представления нижнего и представления верхнего уровня. Таким образом, наряду с детальным описанием, модель мира содержит и обобщенное представление, что позволяет легко взаимодействовать с системой пользователю с использованием естественного языка.
• семантический ИИ • вторая сигнальная система • модель мира • языковая модель мира.
Введение
Системы искусственного интеллекта (ИИ) с самого начала называют (в академических кругах) также системами, основанными на знаниях [Поспелов, 1998]. Поэтому с точки зрения В.И. Городецкого [Городецкий 2021] «основные исследования и разработки в ИИ концентрируются вокруг трёх проблем технологии работы со знаниями, а именно: 1) получение знаний; 2) представление и преобразование знаний; 3) использование знаний».
Основное отличие человека от животных известно — это наличие второй сигнальной системы [Поршнев, 1974]. Именно поэтому основные две интеллектуальные функции человека — это: 1) генерация осмысленных связных текстов естественного языка; и 2) понимание текстов. Вторая сигнальная система базируется на первой сигнальной системе. То есть для понимания того, как моделировать естественный интеллект, необходимо понимать, как устроены и первая и вторая сигнальные системы.
Рассмотрим так называемый семантический искусственный интеллект — это понятие предложил В.В. Борисов в частной беседе — соотнесем его с моделью естественного интеллекта.
109
1. Семантический искусственный интеллект
Семантический искусственный интеллект — это информационная модель интеллекта естественного, базирующегося на модели мира. Это моделирование того, как естественный интеллект обрабатывает специфическую информацию и манипулирует ею, в том числе в процессе целенаправленного поведения.
Рассмотрим, как же реализуется информационная модель естественного интеллекта: как реализуется обработка информации в сознании человека.
1.1. Структура семантического искусственного интеллекта
В самых общих чертах структура СИИ включает в свой состав сенсорику и моторику, которые позволяют СИИ взаимодействовать со средой обитания. В нее включена модель мира, которую можно использовать при планировании поведения.
Модель мира включает в свой состав помимо экстралингвистической части (на которой базируется работа первой сигнальной системы) также и языковую часть. Несмотря на различия их наполнения, обе эти части в мозге человека представлены одинаковыми механизмами обработки информации, благодаря чему они эффективно взаимодействуют и составляют единое целое. Различия их наполнения определяются особенностями организации обработки специфической информации разных модальностей, различной в разных сенсорах.
1.2. Функциональность семантического искусственного интеллекта
В отличие от структуры СИИ, его функциональность (хоть и структурируется в соответствии с упомянутой цепочкой процессов «получение знаний — представление и преобразование знаний — использование знаний») оказывается весьма сложной. Получение знаний является многоуровневой процедурой построения модели мира, которая неразрывно связана с представлением знаний как разных уровней, так и разных модальностей (и многомодальных — также). А использование знаний включает процессы планирования и контроля выполнения целенаправленного поведения.
Описанная архитектура СИИ как модели интеллекта естественного предполагает функциональность, которая может быть (или должна быть) реализована, чтобы упомянутый СИИ мог проявлять свою интеллектуальность. Основной функцией, позволяющей ему это делать, является целенаправленное поведение [Kharlamov, 2019]. Это самый сложный комплексный тип поведения СИИ, который включает в себя другие, не столь сложные типы поведения. Целенаправленное поведение позволяет манипулировать моделью мира в процессе достижения цели.
Более простые типы поведения сводятся к формированию модели мира на разных ее уровнях. Обучение, необходимое для формирования модели
110
мира, включает в себя формирование в сенсорной коре словарей образов событий разной сложности разных модальностей, с одной стороны. А с другой — формирование на основе этих словарей в гиппокампе шаблонов ситуаций как комбинаций слов словарей в пространстве и во времени. Сформированные шаблоны используются для: сегментации мира при его восприятии; выявления степени новизны входных ситуаций; манипулирования представлениями ситуаций (в виде их имен в той или другой модальности) в передней коре при планировании и контроле выполнения целенаправленного поведения.
Планирование и контроль выполнения целенаправленного поведения становятся возможными также в процессе обучения (теперь уже передней коры), в иерархии колонок которых формируются представления цепочек имен ситуаций разной сложности, собственно, и представляющие поведенческие планы.
Сенсорная часть модели мира формируется на основе сенсорной информации, получаемой в процессе сигнальной обработки информации разных модальностей. А потому сильно зависит от модальности получаемой информации: одномерная речевая волна на сигнальном уровне обрабатывается иначе, чем двумерный образ трехмерного мира.
2. Реализация семантического искусственного интеллекта
2.1. Отдельные самостоятельные части
Отдельные самостоятельные части архитектуры, реализующие в комплексе те или иные функции, можно перечислить в следующем перечне: 1) речевой анализатор; 2) генератор осмысленных текстов; 3) зрительный анализатор; 4) двумодальный (многомодальный) анализатор; 5) синтезатор речи по тексту; 6) управляющие моторикой структуры. Эти отдельные части по отдельности и в комбинациях могут быть использованы для реализации различных интеллектуальных функций. В своей совокупности, с добавлением недостающих элементов архитектуры, они могут составить ядро системы СИИ.
2.1.1. Речевой анализатор. Две основные интеллектуальные функции, присущие человеку, — понимание речи и генерация осмысленных текстов — по большому счету исчерпывают функциональность и СИИ, и ИИ вообще. Все остальные интеллектуальные функции базируются на этих двух. Распознавание речи из этих двух в настоящий момент продвинулось дальше, поэтому речь о слуховом вербальном анализаторе пойдет в первую очередь.
Сигнальная периферия. Периферия слухового вербального анализатора сравнительно проста (по сравнению, например, со зрительным анализатором). Фактически можно использовать спектральную обработку, которая в большинстве систем автоматического распознавания речи дает хорошие результаты. Это 13 мел-кепстральных коэффициентов, их первые и вторые производные.
Символьная обработка в сенсорной коре и выше. Структурная обработка входной кодовой последовательности приводит к формированию в колонках сенсорной коры иерархии словарей уровнеобразующих элементов разной сложности (от словаря акустико-фонетических элементов до словаря попарной сочетаемости корневых основ) [Харламов, 2017].
111
—
WffWr /г
В гиппокампе [Харламов, 2017] формируются шаблоны ситуаций, которые в доминантном гиппокампе включают описания ситуаций в терминах фраз языка (устно, письменно, анализ и синтез), в данном случае — фраза, как она воспринимается на слух, с выделением имени — названия ситуации для последующего использования.
2.1.2. Генератор осмысленных текстов. Генерация осмысленных текстов — это верх возможностей СИИ, так как в этом случае реализуется целенаправленное поведение [Лурия, 2002].
Символьная обработка в передней коре и ниже. В этом случае механизм внимания выделяет фрагмент экстралингвистической модели мира, который в процессе генерации должен быть эксплицирован в виде текста. Он проецируется на языковую модель мира, включающую иерархию представлений, аналогичную иерархии в слуховом вербальном анализаторе [Kharlamov, 2020], но работающую с представлениями управляющих артикуляцией команд. Формируется параллельно с участием всех уровней иерархии речевое сообщение как последовательность фраз, описывающих разные части фрагмента экстралингвистической модели мира. Последовательность определяется предысторией обучения целенаправленному (в данном случае — речевому) поведению — сначала общее, потом — второстепенное, или сначала второстепенное, потом — общее, или в комбинации.
Сигнальная периферия. После формирования управляющей последовательности каналы управления артикуляцией формируют соответствующие управляющей последовательности состояния артикуляторов и запускают соответствующие источники генерации звука.
2.1.3. Зрительный анализатор. Зрительный анализатор значительно сложнее слухового, так как двумерное изображение трехмерного поля зрения по крайней мере на одну размерность отличается от одномерной речевой волны.
Сигнальная периферия. Первичная обработка изображения особенно сложна. Развертка изображения по точкам наибольшей информативности [Зава-лишин, Мучник, 1974], которую осуществляет глазодвигательная система, позволяет не только экономить ресурсы при обработке, но и произвольно усиливать обработку в сложных для понимания местах. Сценарий развертки зависит от постановки задачи и предварительного обучения.
Символьная обработка в зрительной коре и выше. В зрительной коре, так же как и в слуховой, формируется иерархия словарей образов событий разной сложности, которые потом используются для формирования представления шаблонов ситуаций в гиппокампе.
2.1.4. Двумодальный (многомодальный) анализатор. Объединение анализаторов дает улучшение качества обработки информации (например, в процессе распознавания). Разномодальные модели мира воспринимают мир по-разному, поэтому неопределенность в одной модальности может проясняться информацией другой модальности. Особенно это
112
хорошо работает, когда в одной из модальностей некоторый фрагмент предметной области представлен лучше, чем в другой.
2.1.5. Управление моторикой. Различная моторика в настоящий момент достаточно хорошо проработана в роботах-андроидах (например, лаборатории Boston Dinamics). А верхние уровни реализуются механизмами целенаправленного поведения.
2.2. Комплексная работа механизмов
Эти механизмы взаимодействуют друг с другом в процессе решения текущих задач. В числе таких задач можно перечислить, например, ведение диалога, поиск ответа на вопрос, решение проблемы и другие подобные задачи.
Опишем их взаимодействие в рамках решения некоторых типовых задач.
2.2.1. Поиск решения проблемы (планирование целенаправленного поведения). Поиск решения проблемы является наиболее распространенным (едва ли не единственным: все остальные сводятся к нему) элементарным актом целенаправленного поведения. Его схема выглядит примерно следующим образом.
Имеется дефицит каких-то ресурсов, все равно каких — реальных или ментальных. Выявляется цель поиска. Если она вносится явно, это означает, что она поставлена, если неявно, цель выявляется в процессе взаимодействия с пользователем.
Целенаправленное поведение заключается в планировании достижения цели и в контроле выполнения плана. Планирование целенаправленного поведения — это выстраивание цепочки ситуаций от текущей к целевой. При этом семантическая сеть ситуаций в передней коре, представленная перечнем доступных пар ситуаций, предполагает поиск на ней ассоциативным перебором с выявлением цепочек ситуаций достижения целевой при условии наличия текущей.
Можно начать с простого случая, когда целевая ситуация оказывается на один шаг отстоящей от текущей. Выбора нет: надо просто перейти в нее. Сложный случай — когда цепочку ситуаций выстроить не удается. В этом случае цепочка строится так далеко, насколько это возможно, а от целевой ситуации строится встречная цепочка. И ищется встречный текст, который позволит замкнуть две цепочки (то самое яблоко у Ньютона).
2.2.2. Решение проблемы (контроль выполнения плана). Контроль выполнения плана осуществляется на каждом шаге попадания в следующую в цепочке ситуацию. Если реалии среды при использовании планового щаблона ситуцации совпадают с таковыми, представленными в шаблоне, на текущем шаге принимается решение о выполнении плана. Если не совпадают — строится новый, скорректированный план.
2.2.3. Поиск ответа на вопрос. Примером, поясняющим процедуру планирования и выполнения плана, является решение задачи поиска ответа на вопрос, а также собственно ответа на вопрос в процессе диалогового поведения. Поиск ответа на вопрос и ответ на вопрос являются одним шагом в рамках диалогового поведения (его пассивной части).
Заданный вопрос содержит цель пользователя. Отвечая на вопрос, СИИ планирует целенаправленное поведение, которое описано выше. Ответ на вопрос должен
—
содержать информацию, которая находится в базе знаний СИИ. Если ее там нет, возможно дополнительное развернутое целенаправленное поведение по поиску недостающей информации во внешних источниках, например в Интернет.
До того как начнется поиск ответа на вопрос, осуществляются некоторые действия, позволяющие понять форму вопроса (задействуется синтаксический уровень модели языка), вопрос проецируется на экстралингвистическую модель мира СИИ, что позволяет понять содержание вопроса [Weston, 2015].
2.2.4. Ответ на вопрос. Для ответа на вопрос требуется получение необходимой пользователю информации. Эта информация может быть получена в форме языкового ответа. Если прямого ответа не нашлось, находится шаблон, в котором этот ответ есть. Но в этом случае дополнительно формулируются естественноязыковые описания ситуаций, представленные в цепочке ситуаций, приведшей к полученному ответу.
2.2.5. Диалоговое поведение. Сформированный таким образом текст может породить последующие вопросы пользователя, что приводит к диалогу, где цель СИИ — объяснить свою точку зрения.
Таким образом, пассивное участие в диалоге подобно просто ответам на вопросы. Если же рассматривать ведение диалога как целенаправленное поведение, необходима цель, которая со стороны СИИ может быть только в единственном случае, представленном выше (объяснение механизма получения ответа).
3. Возможные приложения
Концепции грош цена, если ее не подтвердить экспериментально. Другими словами, ее надо воплотить. Воплощение в полном масштабе в настоящий момент, увы, не получается, поэтому надо попытаться реализовать ее существенный фрагмент (желательно, чтобы он оказался существенно востребованным), который далее можно развивать до более или менее полной реализации.
Таким фрагментом может быть, например, модель поведения агента, синхронная поведению реальной личности, которая включена в контекст нормативного поведения. Например, это может быть модель поведения человека (сотрудника некоего производства) с точки зрения участия в процессе производства, отягощенного необходимостью соблюдать определенные правила (следовать инструкциям).
Такое моделирование актуально, так как бизнес страдает от непредсказуемости поведения сотрудников, контроль которого осуществляется также людьми, то есть тоже непредсказуемо. Устранение этой неопределенности резко улучшает ситуацию на производстве.
Поведение агента моделируется проецированием на две части модели мира: языковую и экстралингвистическую. Проекция на
114
экстралингвистическую модель мира позволяет учесть физические условия поведения агента, в то время как проекция на языковую модель — учет текстового контекста.
Одновременно такая двумодальность позволяет рассматривать модель как ядро СИИ-системы с возможностью ее последующего развития с точки зрения расширения сенсорики, включения моторики, семантических представлений разных уровней, диалога. Все это можно структурировать с точки зрения принятой концепции.
Достаточно длительное наблюдение за поведением реального агента позволяет сформировать модель его мира в виде семантической сети: поведение агента в реальном мире проецируется в поведение на экстралингвистической модели мира, которое описывается последовательностью предложений — текстом естественного языка. На основе текста может быть построена семантическая сеть этого текста [Харламов, 2017]. Для анализа динамики ситуации достаточно просто иметь множество текстов, описывающих ситуацию в разные моменты времени. Эти тексты легко почерпнуть, например, из текущих публикаций СМИ [Kharlamov, Pilgun, 2020].
И еще: далее возможна аппаратная симуляция системы при условии разработки нейро-чипа и архитектуры на основе нейрочипа, которая позволит реализовать подробности концепции в рамках архитектуры модельного ядра.
Заключение
Введение в систему искусственного интеллекта второй сигнальной системы, включающей языковую модель мира, работающую совместно с экстралингвистической моделью мира, позволяет разделить представление и обработку специфической информации на представления нижнего и представления верхнего уровня. Представления нижнего уровня, реализованные преимущественно в экстралингвистической части модели мира, детализируют описание ситуаций, в то время как представления верхнего уровня, реализованные преимущественно в языковой части модели мира, обобщают описание. Таким образом, наряду с детальным описанием модель мира содержит и обобщенное представление, что позволяет пользователю легко взаимодействовать с системой с использованием естественного языка.
Литература
1. Городецкий В.И. Искусственный интеллект: научное содержание, тенденции, мнения и заблу-
ждения. https://www.youtube.com/watch?v=U-Gt4GXEKDw.
2. Завалишин Н.В., Мучник И.Б. Модель зрительного восприятия и алгоритмы анализа изображе-
ний. М.: Наука, 1974.
3. Лурия А.Р. Язык и сознание, — С.-Пб.: Питер, 2019.
4. Поршнев Б.Ф. О начале человеческой истории (Проблемы палеопсихологии). — М.: Наука, 1974.
5. Поспелов Д.А. Становление информатики в России. // «Очерки истории информатики в Рос-
сии» // Составители — Д.А. Поспелов, Я.И. Фет. — Новосибирск, Научно-издательский центр ОИГГМ, 1998. — С. 7-44.
6. Харламов А.А. Ассоциативная память — среда для формирования пространства знаний. От био-
логии к приложениям. — Дюссельдорф: Palmarium Academic Publishing, 2017.
7. Kharlamov A.A. The Attention Mechanism Usage to Form Frame-Structure on A Semantic Net. //
Neurocomputers and Attention. — Pushchino: 1989.
115
ifciulm...... f liliwr л Харламов А.А. Семантический искусственный интеллект
8. KharlamovA.A. The Language Model of the World and Purposeful Human Behavior. // Journal of Brain, Behaviour and Cognitive Sciences Vol.1 No.2:11, 2018. Pp. 1-5. 9. Kharlamov A.A. and Pilgun M. Analysis of the situation connotation on the example of assessing the reaction of society: social media data. // International journal of future generation communication and networking (IJFGCN), NADIA, 2020, Vol. 13, No. 3, pp. 37-44. 10. Weston, J., Bordes, A., Chopra, S., Rush, A.M., van Merrienboer, B., Joulin A., & Mikolov T. Towards AI-complete Question Ansvering: a Set of Prerequisite Toy Tasks. arXiv:1502.05698v10 [cs.AI] 31 Dec 2015..
SEMANTIC ARTIFICIAL INTELLIGENCE
Kharlamov A.A., Doctor of Technical Sciences, Chief of Intelligence Information Systems and Technology Department, MIPT, Moscow, Senior Researcher, Institute of Higher Nervous Activity RAS, Moscow, Professor, Department of Applied and Experimental Linguistics, MSLU, Moscow, Professor, School of Software Engineering HSE, Moscow, kharlamov@analyst.ru
As it is known, the main difference between humans and animals is the presence of the second signaling system. The introduction of the second signaling system into the artificial intelligence system including the linguistic model of the world that works in conjunction with the extralinguistic model of the world, makes it possible to separate the presentation and processing of specific information into lower-level and upper-level representations. Thus, along with the detailed description, the model of the world also contains a generalized representation, which makes it easy for the user to interact with the system using natural language.
• semantic AI • second signaling system • model of the world • language model of the world.
116