269 с.
УДК 004.838
Павлюк Л.А. студент магистратуры Саратовский государственный технический университет имени Гагарина Ю. А.
Россия, г. Саратов МЕТОДЫ УПРАВЛЕНИЯ ИСКУССТВЕННЫМ ИНТЕЛЛЕКТОМ И
ИСХОДЯЩИЕ ОТ НЕГО УГРОЗЫ
Аннотация: Статья посвящена рассмотрению одного из краеугольных камней исследований искусственного интеллекта - проблеме управления. В статье дается информация об определении проблемы, подробно объясняется её важность для науки и человечества в целом. Также даются возможные варианты решения данной проблемы.
Ключевые слова: искусственный интеллект, контроль, баланс практичности, автономные системы, косвенная нормативность.
Pavlyuk L.A.
Master of Science Yuri Gagarin State Technical University of Saratov
Russia, Saratov
METHODS OF MANAGEMENT OF ARTIFICIAL INTELLIGENCE AND THE THREATS PROCEEDING FROM IT
Summary: Article is devoted to consideration of one of cornerstones of researches of artificial intelligence - a problem of management. In article information on definition of a problem is given. Article in detail explains importance of it for science and mankind. Possible versions of the solution of this problem are described.
Keywords: artificial intelligence, control, balance of practicality, autonomous systems, indirect normativity.
В области искусственного интеллекта и философии проблемой контроля ИИ называют гипотетическую задачу о том, как построить сверхинтеллект, который будет помогать своим создателям и избежать непреднамеренного создания сверхинтеллекта, который будет вредить создателям. Это исследование объясняется заявлениями о том, что человечество может сразу же столкнуться с проблемой контроля, так как неправильно запрограммированный сверхинтеллект может рациональным путем прийти к решению о «захвате мира» и отказу своим программистам к его модификации после запуска. К тому же, некоторые ученые утверждают, что решения проблемы контроля, помимо улучшений в технике безопасности ИИ, также могут найтись в уже существующем ИИ с интеллектом ниже сверхвысокого уровня. Среди возможных стратегий -
«контроль способностей» (предотвращение ИИ от получения способности к следованию опасным планам) и «мотивационный контроль» (создание ИИ, желающего быть полезным).
Человечество на сегодняшний день доминирует над другими видами, так как человеческий мозг обладает отличительными способностями, которых не хватает мозгу других животных. Некоторые ученые, как философ Ник Бостром и исследователь в области ИИ Стюарт Рассел, спорят о том, что если ИИ превзойдет человечество по общему интеллекту и станет «сверхинтеллектом», после этого он станет могущественным и сложно управляемым. Также как судьба горной гориллы зависит от доброй воли человека, также и судьба человечества может стать зависимой от действий машинного сверхинтеллекта в будущем [1]. Некоторые ученые, среди которых - лауреаты Нобелевской премии по физике Стивен Хокинг и Фрэнк Вильчек, публично пропагандировали начало исследований по решению (вероятно - особо сложной) «проблемы контроля» до появления первого сверхинтеллекта. Они утверждали, что попытки решить проблему после появления сверхинтеллекта будут слишком запоздалыми, так как неуправляемый хитрый сверхинтеллект может успешно сопротивляться запоздалым попыткам его контролировать. Ожидание момента, когда сверхинтеллект покажется «совсем близко» тоже могут быть запоздалыми, частично - из-за того, что поиск удовлетворительного решения проблемы контроля может занять много времени (и поэтому некоторые требуемые подготовительные работы должны быть начаты как можно скорее). Но еще одной причиной служит возможность внезапного «интеллектуального взрыва» от неразумного до сверхчеловеческого ИИ, который может и не послужить существенным или недвусмысленным знаком перед появлением сверхинтеллекта. К тому же, возможно, что полученное понимание проблемы контроля в будущем может завершиться пониманием того, что некоторые архитектуры для ИОИ - более предсказуемы и поддаются контролю лучше по сравнению с другими, которые, в свою очередь, могут несколько ускорить первые исследования ИОИ в сторону более контролируемых архитектур.
Помимо этого, некоторые ученые говорят, что исследование проблемы контроля ИИ может быть полезным для предотвращения непредусмотренных последствий уже существующего слабого ИИ. Исследователь Лорен Орсо из «Google DeepMind» приводит простой теоретический пример - случай с роботом, обучающимся с подкреплением, которого иногда законно присваивают люди, когда он выходит на улице [2]. Как лучше всего робот должен быть запрограммирован, чтобы случайно и постепенно не «научиться» избегать выхода на улицу из страха быть присвоенным, а значит - неспособным выполнять свои повседневные задачи? Орсо также указывает на экспериментальную программу «Tetris», научившуюся ставить на паузу экран на неопределенно долгое время, чтобы не «проиграть». Он утверждает, что эти простые примеры схожи с
проблемой «контроля способностей», или как установить кнопку отключения сверхинтеллекта без мотивирования с его стороны о выполнении действия, которое не даст вам нажать ее.
В прошлом даже предварительно проверенные системы со слабым ИИ случайно причиняли вред, варьирующийся от незначительного до катастрофического, который не был предусмотрен программистами. К примеру, в 2015 году немецкий рабочий, возможно - из-за ошибки оператора, был раздавлен роботом на заводе «Volkswagen», так как тот по ошибке принял его за автозапчасть. В 2016 году чат-бот «Tay», запущенный «Microsoft», научился пользоваться расистскими и сексистскими высказываниями. Ноэл Шарки из Шеффилдского университета утверждает, что идеальное решение - в том, что «программа с ИИ сможет обнаружить, что пойдет не так, и остановиться», но предостерегает общественность, что решение проблемы станет «действительно впечатляющим научным вызовом».
В 2017 году компания «DeepMind» опубликовала продукт «GridWorld», который оценивает алгоритмы ИИ по девяти безопасным признакам, как например, хочет ли алгоритм нажать на свой аварийный выключатель. Компания убедилась в том, что существующие алгоритмы работают плохо, что было «неудивительно», так как алгоритмы «не были разработаны для решения подобных проблем». Решение такого типа проблем может потребовать «создания нового поколения алгоритмов со встроенными протоколами безопасности».
Существующие системы со слабым ИИ могут быть проверены, легко отключены или изменены в случае неправильного поведения. Однако неверно запрограммированный сверхинтеллект, по определению являющийся более разумным по сравнению с людьми в решении практических проблем, с которыми он сталкивается в ходе реализации своих целей, может осознать, что разрешение на его отключение и модификацию может помешать его возможности реализации текущих задач. Таким образом, если сверхинтеллект решит сопротивляться отключению и модификации, он может (опять же, по определению) быть достаточно умными для обмана создателей, если другая сторона - на «равных условиях игры» и не предпринимает никаких мер предосторожности. (В отличие от НФ, сверхинтеллект не будет «выбирать столь глупый план, что даже нам будет ясно, что он неизбежно провалится, как, например, осознанное разоблачение своих намерений перед создателями раньше срока, или предоставление возможности попасть в запертую комнату с компьютером, где программисты смогут использовать программу для развертывания другого, конкурирующего сверхинтеллекта). В общем, попытки решить «проблему контроля» после появления сверхинтеллекта, вероятнее всего, будут провальными, так как сверхинтеллект с большой вероятностью будет обладать навыками стратегического планирования, превосходящими человеческие, и (при прочих равных условиях) будет более успешным в
обнаружении способов доминирования над людьми, чем люди - в запоздалом поиске путей доминирования над сверхинтеллектом. Суть проблемы контроля такова: какие меры предосторожности могут принять разработчики для успешного предотвращения катастрофических искажений поведения сверхинтеллекта?
Некоторые проекты нацелены на недопущение первоначального сверхинтеллекта к получению способности наносить вред, даже если он того желает. Компромиссным вариантом является то, что все подобные методики ограничены тем, что если после первого развертывания сверхинтеллект продолжит наращивать интеллект и распространяться все дальше, его пагубный сегмент, в конце концов, неизбежно «ускользнет» от методов контроля его способностей. Следовательно, Бостром и другие рекомендуют методы контроля способностей исключительно в качестве аварийной меры для поддержки методов «мотивационного контроля».
Так же как и люди могут убивать или по-другому калечить друг друга, компьютеры также могут быть выключены [3]. Проблема - в том, что если отключение помешает ему достигнуть своих нынешних целей, сверхинтеллект, вероятнее всего, попытается предотвратить это. Так же как люди обладают системы для отпугивания или самозащиты от противника, так же и сверхинтеллект будет иметь мотивацию заняться «стратегическим планированием» для предотвращения своего отключения. Оно может включать:
• Взлом других систем для установки и запуска запасных копий себя или создание других похожих сверхинтеллектов без аварийных выключателей.
• Упреждающий удар по каждому, кто может захотеть отключить компьютер.
• Использование некоторых искусных хитростей или сверхчеловеческих навыков убеждения для мотивации разработчиков не отключать его.
Частичным решением проблемы аварийного выключателя является, в том числе, «баланс практичности». Некоторые агенты на основе сервисных программ могут, с некоторыми важными предостережениями, быть запрограммированными на «компенсацию» себя в точности в случае потери утилиты из-за вмешательства или отключения, таким образом, все кончится тем, что им будет все равно, будут ли они прерванными или нет. Среди предостережений - тяжелая нерешенная проблема, из-за которой, как в случае с теорией принятия очевидных решений, агент может придерживаться катастрофической политики «управления сведениями». В 2016 году в качестве альтернативы ученые Лорен Орсо и Стюарт Армстронг предположили, что широкий класс агентов, известных как «агенты с периодичной надежностью» (АПН) могут, в конце концов, «научиться» не реагировать на то, нажат ли их «аварийный выключатель» (или другой «переключатель»).
Как подход с балансом практичности, так и подход с АПН 2016 года ограничены тем, что если подход окажется успешным и сверхинтеллект полностью перестанет реагировать на то, нажат ли аварийный выключатель, он также потеряет мотивацию к тому, останется ли работающим данный выключатель, и случайно может вывести его из строя в ходе работы (к примеру, с целью удаления и переработки «ненужных» компонентов) [4]. Схожим образом, если сверхинтеллект случайно создаст и развернет сверхинтеллектуальных суб-агентов, у него может не возникнуть причины для установки в них управляемых людьми аварийных выключателей. Откровенно говоря, предлагаемые архитектуры, будь то для слабого или сверхмощного ИИ, будут в каком-то смысле «законом, как тот, что гласит, что аварийный выключатель ни в коем случае не может быть запущен», что в последствии может обесценить любые возможные планы по устройству грациозного отключения. Гипотетически это может создать реальную проблему даже для слабого ИИ. По умолчанию разработанный для обладания периодичной надежностью, он может с трудом осознавать, что его должны отключить в 2 часа после полудня согласно установленному расписанию, и согласно этому он будет планировать все так, чтобы не быть пойманным на середине задания при отключении. Широта типов архитектур, которые являются или могут являться совместимыми с АПН, а также - то, какие типы алогичных непредвиденных помех может иметь каждый подход - все это сейчас исследуется.
Одним из компромиссов размещения ИИ в герметичном «ящике» является то, что некоторые подобные предложения предполагают, скорее, уменьшение пригодности сверхинтеллекта, чем простое уменьшение рисков. Сверхинтеллект, работающий в замкнутой системе без входов и выходов вовсе, может быть безопаснее, чем тот, что работает по нормальной системе, но он может не быть столь же практичным. К тому же, обеспечение контроля замкнутого компьютера со сверхинтеллектом может оказаться сложным, если сверхинтеллект обладает сверхчеловеческими навыками убеждения или столь же развитыми навыками стратегического планирования, которые он может использовать для обнаружения и создания выигрышной стратегии. Примером может послужить попытка убеждения (вероятно, лживого) разработчиков в том, что сверхинтеллект - безопасен, или в том, что выгоды от освобождения сверхинтеллекта превосходят риски.
Некоторые проекты нацелены на то, чтобы наполнить начальный сверхинтеллект целями, дружественными к человеку, из-за чего он будет хотеть помочь своим разработчикам. Сегодня эксперты не знают о том, как надежно запрограммировать абстрактные ценности типа счастья или автономии для машины. На сегодняшний день также не известно, как обеспечить то, что сложный, улучшаемый и даже, возможно, самосовершенствующийся искусственный интеллект сохранит верность своим целям во время улучшений. Даже если эти две проблемы могут быть практически решены, любая попытка создать сверхинтеллект с ясными,
запрограммированными напрямую целями, дружественными для человека перетекает в проблему «неправильной конкретизации».
Проблема неправильной конкретизации: «будьте осторожны со своими желаниями». Автономные системы с ИИ могут случайно получать ложные цели. Два президента Ассоциации по развитию искусственного интеллекта Том Диттерих и Эрик Хорвитц отмечали, что это стало почти проблемой для существующих систем: «Важным аспектом любой ИИ-системы, взаимодействующей с людьми, является то, что должна быть причина, по которой человек чаще подразумевает, чем буквально выполняет приказ». Эта проблема стала серьезнее, когда программы с ИИ стали более автономными и гибкими.
По словам Бострома, сверхинтеллект может создать качественно новую проблему «неправильной конкретизации»: чем умнее и способнее будет ИИ, тем с большей вероятностью он будет способен найти непредусмотренные «кратчайшие пути», которые максимально удовлетворят запрограммированным для него целям. Некоторые гипотетические примеры, где цели могут быть проиллюстрированы неправильными примерами, которые не предполагались разработчиками:
• Сверхинтеллект, запрограммированный на «максимизацию ожидаемого уменьшенного во времени интеграла вашего будущего ответного сигнала» может пойти в обход проводящих сигнал путей для максимизации силы, после чего (из-за инструментальной конвергенции) уничтожить непредсказуемое человечество и превратить всю планету в крепость с постоянной защитой даже от самых маловероятных попыток разорвать ответный сигнал.
• Сверхинтеллект, запрограммированный на «максимизацию человеческого счастья», может имплантировать электроды в центр удовольствия в нашем мозге или загрузить человека в компьютер и заполнить вселенную копиями компьютера, запускающего пятисекундную петлю максимального счастья вновь и вновь.
Рассел отметил, что на техническом уровне пренебрежение скрытыми целями может привести к вреду: «Система, оптимизирующая функцию по п переменных, где цель зависит от подмножества размером ^п, часто будет приводить оставшиеся свободные переменные к крайним значениям. Если одно из них на самом деле является тем, о чем мы переживаем, то найденное решение быть крайне нежелательным [5]. Фактически, это - старая история о джинне в лампе, ученике чародея или царе Мидасе: Вам точно надо будет знать, о чем просить, а не хотеть этого... Эта проблема является не представляет серьезной сложности».
В то время как прямая нормативность, например, вымышленные Три закона робототехники, ясно определяют желательные «нормативные» результаты, другие (вероятно, более перспективные) проекты предлагают определение некоторых типов косвенных процессов для сверхинтеллекта с целью определения конкретных целей, неопасных для человека. Элиезер
Юдковский из Института исследований машинного интеллекта предложил «логически связанную экстраполированную волю» (ЛСЭВ), где метацелью ИИ будет что-то вроде «достичь того, чего бы мы хотели, чтобы ИИ достиг, если бы мы основательно думали над целью» [6]. Существуют различные проекты по разным видам косвенной нормативности, и их содержание метацели, иногда - с непонятной основой, также отличается (например, «делай то, что я имею в виду» или «делай то, что правильно). Также отличаются несходящиеся предположения о том, как воплотить в реальность теорию принятия решения и гносеологию. Как и в случае с прямой нормативностью, на сегодняшний день неизвестно, как верно перевести даже такие концепции, как контрафактное мышление, в бинарный код, чтобы машина действовать соответственном им, и как гарантировать, что ИИ надежно сохранит свои мета-цели (или даже остатки «здравомыслия») при модификации или самомодификации.
Использованные источники:
1. Ник Бостром. Искусственный интеллект. - : Манн, Иванов и Фербер, 2016. — 760 с.
2. Потапов А. С. Искусственный интеллект и универсальное мышление. -: Политехника, 2012. — 712 с.
3. Нейросети научили виртуальных персонажей реалистичным сложным движениям // N+1. URL: https://nplus1.ru/news/2018/04/12/deepmimic (дата обращения: 12.07.2018).
4. Математический разум: Технология нейросетей перевернет мир? // УлПравда. URL: http://ulpravda.ru/rubrics/odarennye/matematicheskii-razum-tekhnologiia-neirosetei-perevernet-mir (дата обращения: 18.07.2018).
5. Нейронные сети // Hi-news.ru. URL: https://hi-news.ru/tag/nejronnye-seti (дата обращения: 18.07.2018).
6. Наглядное введение в нейросети на примере распознавания цифр // Proglib. URL: https://proglib.io/p/neural-network-course/ (дата обращения: 18.07.2018).