XII Международная научно-практическая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте», ИММВ-2024
(14-17 мая 2024 г., г. Коломна)
В старинном русском городе Коломне с 14 по 17 мая 2024 г. прошла XII Международная научно-практическая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (ИММВ-2024),
посвященная памяти Виктора Владимировича Емельянова — крупного ученого в области информатики, управления и искусственного интеллекта, ведущего специалиста по интеллектуальному имитационному моделированию и управлению производством, интегрированным интеллектуальным технологиям, многоагентным системам и эволюционному моделированию.
Организаторами конференции ИММВ-2024 явились: Российская ассоциация искусственного интеллекта, Российская ассоциация нечетких систем и мягких вычислений, Федеральный исследовательский центр «Информатика и управление» РАН, администрация Коломенского городского округа, Коломенский институт (филиал) Московского политехнического университета, Институт компьютерных технологий и информационной безопасности Южного федерального университета.
Тематика конференции охватывала следующие актуальные научные и практические направления в области искусственного интеллекта:
• нечеткие модели, мягкие вычисления, измерения и оценки;
• машинное обучение, нейросетевые технологии и вероятностные модели в искусственном интеллекте;
• биоинспирированные подходы, эволюционные модели, генетические алгоритмы;
• когнитивные модели в искусственном интеллекте;
• интеллектуальный анализ данных, инженерия знаний и онтологии;
• гибридные интеллектуальные системы;
• интеллектуальные агенты, киберфизические системы, интеллектуальное производство.
В рамках конференции ИММВ-2024 был организован круглый стол «Эволюция и перспективы развития нейросетей», а также проведена открытая дискуссия «Мифы и реальности искусственного интеллекта».
В качестве пленарных докладчиков и модераторов были приглашены ведущие отечественные ученые в области интегрированных моделей, мягких вычислений и измерений, искусственного интеллекта.
В конференции приняли участие более 130 ученых, исследователей и специалистов из академических институтов, университетов, отраслевых институтов и организаций Москвы, Санкт-Петербурга, Белгорода, Брянска, Донецка, Дубны, Железногорска, Калининграда, Красноярска, Новосибирска, Ростова-на-Дону, Самары, Смоленска, Таганрога, Твери, Тулы, Ульяновска, Челябинска, из Мехико (Мексика) и Могилева (Республика Беларусь).
Вашему вниманию предлагаются материалы круглого стола «Эволюция и перспективы развития нейросетей» и открытой дискуссии «Мифы и реальности искусственного интеллекта».
Президент Российской ассоциации искусственного интеллекта профессор В.В. Борисов
Круглый стол
«Эволюция и перспективы развития нейросетей»
(14 мая 2024 г., пресс-центр конькобежного центра МО «Коломна»)
Модератор:
Визильтер Ю.В., д.ф.-м.н., проф. РАН (Москва, ГоиНИИАС),
Дискуссанты круглого стола:
Забежайло М.И., д.ф.-м.н., проф. (Москва, ФИЦ ИУ РАН), Елистратов В.В., д.т.н., проф. (Москва, УРТИИ МО РФ), Кобринский Б.А., д.м.н., проф. (Москва, ФИЦ ИУ РАН), Борисов В.В., д.т.н., проф. (Смоленск, филиал НИУ «МЭИ»), Еремеев А.П., д.т.н., проф. (Москва НИУ «МЭИ»), Аверкин А.Н., к.ф.-м.н., доц. (Москва, ФИЦ ИУ РАН), Симонов Н.А., к.ф.-м.н. (Москва, ФТИАН РАН), Добрынин Д.А., к.т.н. (Москва, ФИЦ ИУ РАН).
Ю. В. Визильтер :
Коллеги, я предварительно сформулировал ряд вопросов по тематике нашего круглого стола, которые предлагаю объединить в основные группы. Во-первых, насколько мы вообще понимаем то, что сейчас происходит в области искусственных нейронных сетей? То есть насколько у нас есть теоретическая основа для понимания того, как нейросети работают? Есть ощущение, что, несмотря на все замечательные успехи, практика в сфере нейросетей опережает теорию. И в отсутствие теоретического обоснования есть опасение, что мы не знаем, куда движемся и куда дальше придем.
Во-вторых, следует ли нам ожидать дальнейшего бурного развития нейро-сетей или потенциал нейросетей сейчас близок к насыщению? Я, например, сторонник этой точки зрения. Считаю, что через два-три года мы выйдем на плато развития нейросетевых технологий и ничего нового от нейросетей не получим. Хотя это непопулярная точка зрения, и большинство исследователей считают, что нейросети будут активно развиваться.
В-третьих, несколько лет назад говорили, что вся «история» про нейросети — это «история» про большие данные. Обобщая, можно сформулировать вопрос, насколько справедлива точка зрения, что искусственный интеллект — это «наука о данных», а насколько — что это «наука о методах»? Лежат ли по-прежнему в основе успешных нейросетевых решений сбор и обработка больших данных? Мешает ли сегодня недостаток данных для обучения решению практических задач? Как бороться с этой проблемой?
В-четвертых, вопросы о больших языковых моделях (LLM, Large Language Model). Действительно ли они способны рассуждать или просто воспроизводят то, что в них заложили? Это противопоставление гипотезы Large World Model против гипотезы Large Savant Idiot (Savant Idiot — психическое состояние, когда люди с особым развитием всё запоминают, но при этом неспособны рассуждать, создавать новое и т. д.). Так вот вопрос: что же такое эти генеративные нейросетевые и большие языковые модели — действительно внутри них имеется модель мира, или они просто запомнили всё на свете и спроси у них, они всё расскажут.
В-пятых, насколько в дальнейшем изменятся роль и функции специалистов в области искусственного интеллекта? Вообще всех специалистов? В том числе насколько будет востребована профессия программиста, насколько вообще программирование уйдёт в историю (если верить обещаниям разработчиков GitHub Copilot и других систем автоматического программирования). Что будет основным инструментом разработчика интеллектуальных систем в ближайшие годы — машинное обучение или инженерия запросов? Какие нейросетевые технологии наиболее сильно повлияют на нашу жизнь в ближайшие пять лет? 10 лет? 15?
Далее, насколько появление больших языковых моделей повлияет на развитие науки в ближайшие годы? Сегодня Александр Валерьевич Буха-новский говорил про использование этих моделей в качестве помощников учёных, которые в значительной степени автоматизируют не только рутинную обработку данных, но и рутинные научные задачи, например планирование и подготовку рутинных отчётов об экспериментах.
Насколько вообще мы предвидим вклад больших языковых моделей в науку? Недавно в Nature были опубликованы работы, где приведено решение математических проблем, которые выполнили большие генеративные модели. Причем эти результаты опубликованы именно как математические, а не как работы по машинному обучению. Имеются
70
также новые результаты использования больших генеративных моделей и в других областях науки - химии,биологии.
В-шестых, обладают ли генеративные нейросети творческими способностями, или это грубая их имитация. Сейчас, как правило, в этом ключе говорят про большие языковые модели, про которые генерируют тексты. А ведь есть и другие генеративные модели: которые генерируют и изображения, и музыку, и звук. Вроде бы это два разных вида генеративных моделей, но вот насколько они различаются, а что в их природе общего, и как это использовать — тоже интересная тема для обсуждения.
В-седьмых, есть целая группа вопросов о том, как обеспечить доверие и безопасность при практическом применении нейросетевых решений, особенно в автономной робототехнике? Нейросетевые решения являются «непрозрачными», ведут себя как «черный ящик», и в этом смысле мы не можем им полностью доверять. Насколько важна проблема непрозрачности нейросетевых решений? Каковы пути решения этой проблемы? Кроме того, важный вопрос — это их уязвимость к атакам. Нейросети могут неправильно работать, если, например, изменить несколько пикселей на изображении, в отличие от человека, который не станет по-другому интегрально воспринимать изображение (что еще раз является подтверждением того, что механизм функционирования нейросетей отличен от того, как это делают люди). И это характерно, как показали последние исследования, не только для сверточных нейросетей.
М. И. Забежайло (реплика):
И зрительную систему человека можно ввести в заблуждение зрительными иллюзиями... Более простой пример: классический средневековый портрет «Знатная дама», ей подрисовали усики — и нейросеть уже ничего не понимает. А человек понял бы сразу, что это фейк.
Ю. В. Визильтер (продолжая):
Вопрос про фейки — это еще один вопрос про безопасность и токсичность нейросетей в социальной сфере. Группа вопросов обеспечения доверия и безопасности при практическом применении нейросетевых решений также охватывает проблемы эмбодимента (embodiment) — физического взаимодействия с роботами.
В-восьмых, говоря о перспективах — насколько важна аппаратная реализация нейросетей? В настоящее время базовая аппаратная реализация нейросете-вых решений — это либо графические карты (например, аппаратные решения Nvidia), либо спецпроцессоры. Но все они в основном эффективно реализуют тензорные вычисления, обеспечивая аппаратное ускорение нейросетей. Достаточно давно развиваются нейроморфные решения, более приближенные к их биологическим аналогам. Возникает вопрос: насколько важно их развивать, какова перспектива их внедрения и практического использования? Также развиваются аппаратные нейросетевые решения, основанные на оптических и голографических эффектах и принципах. Эти технологии также считаются очень перспективными.
Если смотреть ещё дальше, то нас ожидают, возможно, квантовые компьютеры, хотя это совсем не нейросети. Однако имеются подходы для реализации нейросетевых моделей на квантовых компьютерах.
Я считаю, что аппаратная реализация нейросетей — это очень важная часть проблемы, и, думаю, что Василий Васильевич Елистратов затронет тему о том, насколько важно иметь стек отечественных доверенных аппаратно-программных решений в сфере нейросетевых технологий.
В-девятых, важный вопрос — про общий (сильный) искусственный интеллект. Несколько лет назад я обычно говорил, что этот вопрос пока не находится на повестке дня. Сейчас так сказать уже нельзя.
При этом, конечно, нужно различать, говорим ли мы о методах и технологиях общего искусственного интеллекта (то есть о создании больших моделей, способных решать уже не отдельные узкофункциональные, а широкие наборы универсальных задач в открытых средах) или о создании искусственной личности со своими чувствами, желаниями и волей. Это, мне кажется, тоже важный вопрос для обсуждения.
Наконец, вопрос, который больше всего волнует в СМИ — возможно ли создание такого нейросетевого искусственного интеллекта, который был бы по-настоящему Super-Human? То есть, не на проценты превышал качество распознавания человеком визуальных образов или лучше писал бы статьи и диссертации (что уже стоит на повестке дня), а такой, уровень решений которого будет настолько превосходить человеческий, что его замыслы, цели и решения будут людям совершено непонятны? Насколько мы верим, что это возможно?..
Давайте вместе подумаем над этими вопросами.
А сейчас я хочу передать микрофон Василию Васильевичу Елистратову, чтобы он осветил те вопросы, которые его интересуют.
В. В. Елистратов:
Уважаемые коллеги, чтобы наше обсуждение было более конструктивным, хотелось бы определить состав аудитории. Прошу поднять руки разработчикам, заказчикам, эксплуатантам систем с искусственным интеллектом, а также тех, кто готовит кадры. Так как здесь присутствуют представители по всем названным номинациям, уверен, что решения нашего круглого стола будут конструктивными. Для обсуждения других вопросов приглашаю всех в конгрессно-выставочный центр «Патриот» (г. Кубинка), где с 12 августа 2024 г. пройдет цикл научно-деловых мероприятий, в том числе затрагивающих вопросы развития технологий искусственного интеллекта.
Хотелось бы поднять несколько интересующих меня проблем.
Первая проблема — подготовка отраслевого кадрового резерва, так как это очень важный аспект развития технологий искусственного интеллекта, в том числе с учетом динамики их развития.
72
Другая проблема, будем ли мы нейросетевые технологии использовать в дальнейшем? Как долго они проживут? На данный момент, мне кажется, этого никто не скажет. Тем более что любые интеллектуальные технологии, в том числе нейросетевые, как правило, ориентированы на решение специфических задач.
В этих условиях отраслевые специалисты, ориентированные на решение специализированных задач, сейчас «на вес золота». В условиях дефицита специалистов необходимо привлечение в оборонную сферу специалистов в области передовых нейросетевых технологий из различных отраслей народного хозяйства. Для этого требуется обеспечить им такие условия труда и быта, чтобы при переходе в оборонный сектор они практически не замечали изменений (за исключением соблюдения режимных требований).
Для создания необходимого кадрового резерва на предприятиях-партнёрах и в вузах нами сейчас запущена активная фаза подготовки специалистов двойного (в гражданской и оборонной сфере) назначения. Мы прекрасно понимаем, что специалист выйдет из стен университетов только через четыре-пять лет. Возникает противоречие: с одной стороны, для подготовки классных специалистов нужны высококвалифицированные преподаватели, имеющие необходимые компетенции, которыми, в свою очередь, обладает достаточно узкий круг специалистов, глубоко погруженных в прагматику технологий искусственного интеллекта, но не всегда и не в полной мере обладающих возможностью передачи своих знаний и умений. Поэтому в ряде университетов остро встаёт проблема по обеспечению качества преподавания дисциплин по искусственному интеллекту. И пока этот вопрос до сих пор не решен.
В этот переходный период для решения озвученной кадровой проблемы мы используем базу ведущих университетов, научно-исследовательских центров и институтов, систему дополнительного профессионального образования, то есть готовим необходимых нам специалистов «во внешнем контуре». Мы совместно с нашими партнерами проводим системную работу по подготовке специалистов по номинациям: заказчики, разработчики, приемщики, пользователи систем с искусственным интеллектом.
Например, мы активно используем научно-методические и учебно-методические наработки, возможности программно-инструментальных средств, созданных в Гос-НИИАС под руководством Юрия Валентиновича Визильтера, в образовательных целях при подготовке необходимых нам специалистов.
Также исследовательский центр «Сильный искусственный интеллект в промышленности» (Санкт-Петербург, Университет ИТМО), один из руководителей которого, Александр Валерьевич Бухановский, принимает участие в работе нашего круглого стола, готовит для нас группу специалистов по номинации «Квалифицированный заказчик систем с искусственным интеллектом».
Еще один существенный вопрос — сертификация систем (прежде всего, доверенных систем) искусственного интеллекта.
И это только небольшая часть проблем и вопросов, которые я хотел бы (и могу) обсуждать на данном круглом столе.
Мы достаточно открыты для сотрудничества, большинство полученных вами результатов в гражданской сфере может быть востребовано для обеспечения и повышения обороноспособности страны, безопасности государства. Для этого на площадке Минобороны России под моим управлением организована экспертиза проектов, и многие из вас уже представляли свои проекты и участвовали в экспертизе проектов. Мы формируем научно-технологический задел, реестр проектов, рекомендуемых к использованию в работах по госзаданиям. Эти апробированные результаты можно проверить на различных реальных задачах.
Поэтому я попрошу Вадима Владимировича Борисова обеспечить «точку входа» для ваших предложений в Управление развития технологий искусственного интеллекта МО РФ.
Ю. В. Визильтер:
Мне хотелось бы передать слово специалистам, которые на примере собственной многолетней работы могут оценить динамику развития искусственного интеллекта как научного направления. И мне хотелось бы попросить осветить во временной перспективе сопоставление и противостояние классических методов искусственного интеллекта и нейросетевых методов. Насколько одно побеждает другое, или возможно их совместное развитие и использование. Сначала хотелось бы передать микрофон Михаилу Ивановичу Забежайло, а затем Борису Аркадьевичу Кобринскому.
М. И. Забежайло:
В своем завтрашнем выступлении я постараюсь несколько сбалансировать сегодняшнее обсуждение проблематики нейросетей, рассмотрев развитие исследований в области искусственного интеллекта, начиная с Алана Тьюринга и группы Code-Breakers, работавших в BLetchLey Park , до нынешних времен, в том числе до третьей (DARPA-й) волны искусственного интеллекта.
Сегодня же я бы хотел вернуться к проблеме подготовки кадров, которую поднял в своем выступлении Василий Васильевич Елистратов. Накопленный в этой сфере опыт показывает, что необходимо обеспечить дополнительное образование либо курсы повышения квалификации в области искусственного интеллекта, в том числе для должностных лиц, принимающих ответственные решения. Это привело бы к совершенно иной динамике внедрения этих методов и технологий в различные отрасти народного хозяйства, в том числе и в оборонную сферу.
Другой аспект — специфика области обороны и безопасности такова, что не про всё можно говорить. И соответственно, результаты на выходе изделий, как правило, закрыты разными требованиями, грифами и т.д. А вопросы не то что доверия и доказуемого описания области, в которой предлагаемое решение надежно работает, а хотя бы верификации этого решения, как были, так и остаются. Что делать? Фактически проблема. Наверное, если бы это был Open Sourse,
74
то про ошибки было бы всё ясно. А что делать в противном случае? Для таких случаев имеется простой подход, используемый в ряде задач различного назначения, но опирающийся на одни и те же математические модели и методы, — интерполяционные и экстраполяционные модели (по Юрию Ивановичу Журавлёву). То есть можно отработать ряд задач «в открытой постановке» для последующей их «аранжировки», отладки и верификации этих решений специалистами для «закрытого» применения.
В. В. Елистратов:
Михаил Иванович, я сразу же отвечу на Ваши пожелания. Да, мы в той или иной степени выполняем и поддерживаем ряд таких работ (при участии различных государственных заказчиков и фондов), которые могут быть масштабированы, транслированы в оборонную сферу. К нам обращаются за консультациями представители по линии Минпромторга, Фонда перспективных исследований, Агентства стратегических инициатив, фонда Национальной технологической инициативы и других фондов с просьбой экспертной оценки эффективности и полезности результатов различных проектов, а зачастую и выработки рекомендаций по их повышению.
Ю. В. Визильтер :
Поскольку у нас все-таки дискуссия, хотелось бы озвучить несколько соображений против высказанной выше позиции по поводу возможности и целесообразности конверсии успешных гражданских решений в оборонную сферу. Это очень популярная идея, которая совсем не представляется мне бесспорной.
Где такая конверсия работает? Предположим, у нас есть успешная система обработки документов. Ну конечно, её можно быстро превратить в военную систему обработки документов, так как разницы здесь нет, функциональная задача одна и та же. Но проблема в следующем: ни у кого (на мой взгляд, не надо здесь заблуждаться) в России нет сегодня никаких особых ноу-хау в искусственном интеллекте, которые были бы в мире неизвестны.
Область открытая, всё публикуется и в основном все приложения специфически зависят от данных. Это один из тех вопросов, которые я выше пытался обозначить для дискуссии. Таким образом, если у вас есть хорошие данные, на которых вы можете выучить определённого класса алгоритм (а алгоритм этот всё равно известен), то сила вашей системы именно в тех данных, на которых система обучена, и в подборе правильных алгоритмов именно под эти данные. И если некая компания научила, например, замечательную гражданскую систему видеонаблюдения определять, носят ли работники каски и защитные костюмы, то это совершенно не означает, что теперь эти же разработчики вот эту же систему должны срочно адаптировать под какую-нибудь систему обнаружения целей для оружия. Дело в том, что там совсем другие данные, другого характера, и, возможно, они потребуют вообще других алгоритмов. В таких случаях идея конверсии никак не работает, потому что она не облегчает суммарно решение задачи.
Прошу прощения за длинный комментарий. Теперь хотелось бы передать слово Борису Аркадьевичу Кобринскому, чтобы он нам высказал свою точку зрения.
Б. А. Кобринский:
Юрий Валентинович, так как у нас сейчас завязалась дискуссия, то я буквально несколько слов скажу по ее поводу, а затем продолжу ответы на вопросы, поставленные Вами в начале круглого стола.
То, что касается подготовки кадров, мне приходится работть совершенно с разными категориями студентов и специалистов: и на ВМК МГУ (с магистрантами технического профиля), и в отделении медицинской кибернетики в РНИМУ им. Пирогова (со специалистами в области медицины, знающими высшую математику, но при этом не являющимися «технарями»). Нам действительно надо вычленять необходимое образовательное «ядро» в сфере искусственного интеллекта, а к нему формировать дисциплины дополнительного образования.
При этом нужно понимать, что все охватить нельзя. И конечно же, при формировании дисциплин необходимо учитывать специфику подготовки заказчиков, разработчиков и пользователей систем искусственного интеллекта.
А то, что Юрий Валентинович сказал по поводу конверсии гражданских решений в оборонную сферу, то я с этим и согласен, и не согласен.
От данных, конечно же, многое зависит. Однако в оборонную сферу могут быть перенесены отдельные оригинальные идеи и подходы, а не решения целиком. И у многих из нас такой положительный опыт есть.
Теперь, возвращаясь к одному из вопросов Юрия Валентиновича Визиль-тера о сопоставлении/противопоставлении классических методов искусственного интеллекта и нейросетей. Например, в 1980-е годы мы делали экспертные системы. Они давали объяснение, позволяли работать как с типичными, так и с атипичными ситуациями, поскольку эти ситуации были в явном виде описаны в базе знаний.
А для нейросетей значимость нетипичных данных теряется. Это так называемая проблема меньшинства заключающаяся в том, что, например, если каких-либо данных, характеризующих 1-й класс больше, чем данных, задающих 2-й класс, то нейросеть выдаёт худшие результаты на данных для 2-го класса.
Этот вопрос связан с доверием к модели и к результатам, а также с их объяснением. Эти вопросы особенно остро стоят при использовании нейросетей для критических приложений.
Согласиться или нет с решением, которое предлагает нейросеть? Если человек согласился, а произошла ошибка, то его накажут. Если же человек не согласился, то ему скажут «тебе дали нейросеть, обученную специалистами, а ты не согласился, и это привело к ошибке»... Причем в зависимости ситуации управления, в которой находится человек (в контуре, над контуров или вне контура управления), нужны разные типы объяснений.
76
И еще об одном поставленном вопросе: «Обладают ли нейросети способностью к рассуждению или это имитация»? Я бы на этот вопрос ответил так: нейросети имитируют рассуждения. Потому что идёт имитация в той области, информацию о которой нейросеть освоила.
А как только нейросеть выходит за рамки предметной области, появляются псевдорассуждения, галлюцинации. Приведу пример: мы начали новый проект, аналогичные работы по которому мы не смогли найти. Обратились к ChatGPT, который нам подобрал пять наиболее близких по тематике публикаций, одну из которых он приписал Вадиму Владимировичу Борисову. Я к нему обратился за материалами этой статьи. Однако, как оказалось, Вадим Владимирович такую статью не писал. То есть ChatGPT подобрал и названия журналов, и авторов, а также сгенерировал названия статей и их аннотации. Все было подобрано разумно, только это были «чистой воды» галлюцинации!
В. В. Борисов (реплика):
А я затем посмотрел и подумал, что, в принципе, неплохая тематика и, очевидно, стоило бы написать статью на тему, сгенерированную ChatGPT!
Б. А. Кобринский (продолжая):
Но ещё хуже, когда происходит встраивание ложных данных в достоверную информацию. На это сначала можно не обратить внимание. И затем уже мы сами будем генерировать галлюцинации, основанные на частично недостоверной информации. Над решением этой проблемы стоит серьезно задуматься.
В. В. Борисов:
Наша дискуссия вышла за рамки оговоренной темы, но я считаю, это неплохо. Тем не менее я хотел бы вернуть нашу дискуссию к поставленным на круглом столе вопросам, дополнив их следующими, по моему мнению, важными вопросами:
во-первых, какие модели (в контексте существующих и рассмотренных классов нейросетевых моделей) отмирают;
во-вторых, правда ли, что сейчас «выживают» только так называемые чемпионские решения по принципу «победитель забирает все», «угнетая» развитие всех других моделей (которые стоило бы развивать и которые, возможно, могли бы «выстрелить» в средне- или долгосрочной перспективе)?
Ю. В. Визильтер:
По поводу судьбы разных научно-исследовательских направлений, коллеги, давайте попробуем вспомнить опыт последних десятилетий. Я, например, первый раз столкнулся с нейросетевыми технологиями достаточно давно, и, например, будучи еще студентом, участвовал в молодёжной нейросетевой олимпиаде, которую проводил Александр Николаевич Горбань. Это было время очередного всплеска интереса к искусственным нейронным сетям, который был спровоцирован распространением алгоритма их обучения BackPropagation. И казалась, ну вот, сейчас всё решится — мы научились эффективно обучать нейросети, и теперь, наконец-то, начали получать значимые конкретные результаты. Был очень большой энтузиазм. Однако, придя на работу в практический НИИ, поскольку требовалось
решать практические задачи технического зрения, я, как и многие коллеги, в тот момент был вынужден от нейростей отказаться и надолго обратиться к совершенно другим методам, поскольку нейросети в то время не были лучшим практическим инструментом. Другие методы в области технического зрения были лучшими, именно ими мы и пользовались.
К счастью, нейросетевые методы продолжали развиваться, и это на новом витке развития привело к большим успехам и новому взрыву интереса к нейросетевым архитектурам и алгоритмам, начиная с 2011 г.
М. И. Забежайло (уточняющий вопрос):
А почему же все-таки состоялся этот взрыв?
Ю. В. Визильтер (продолжая):
Современный искусственный интеллект, как мне представляется, выстроен вокруг бенчмарков (Benchmark). Мировое сообщество исследователей делает так: появилась новая задача, для неё создаётся бенчмарк, то есть некая база, на которой нужно продемонстрировать результаты, и идет соревнование. На методы, которые победили, особенно, победили с большим отрывом, сразу все смотрят и говорят: «О, как интересно!». Именно такие события произошли в 2011 г. Было соревнование по распознаванию визуальных образов на ImageNet, которое представлялось очень сложным, результаты были очень слабыми, и вдруг появляется нейросеть ALexNet, которая с огромным отрывом побеждает все предыдущие решения и достигает уровня человека. С этого момента свёрточные нейросети стали активно развиваться. Точно также никто не ждал появления трансформеров (Transformer), которые вдруг стали показывать совершенно потрясающие результаты в анализе естественного языка (NLP), хотя до этого были огромные накопленные онтологии, словари, методы лингвистического, семантического анализа языка и т. д. И вдруг трансформеры начали всех побеждать в задачах NLP, опять же, на бенчмарках.
Сейчас именно так и развивается наука. Никто, к счастью, не может гарантировать, что завтра не появится что-то совсем новое и не начнёт обыгрывать нейросети. Иначе наука закончится через три года. Поэтому мне кажется, что ответ всё-таки такой: для того чтобы привлечь к себе внимание, новый метод должен побить предыдущий на какой-нибудь конкретной задаче, а лучше - на многих разных задачах. Другого способа в нынешней науке я не вижу.
Но на вопрос, стоит ли развивать ли методы, которые сегодня ещё не бьют лидеров, ответ - конечно, да, иначе лидеры никогда не сменятся и мы не увидим новых методов.
М. И. Забежайло (уточняющий вопрос):
Юрий Валентинович, и всё-таки вопрос: метод градиентного спуска — это вторая половина 1960-х годов. Метод обучения нейросетей Back Propagation — это 1974 г. (Александр Иванович Галушкин). До середины 1990-х годов если и вспоминали Мак-Каллока и Питтса, то очень
78
«локально». А вот в начале 2000-х и далее, к 2011 г., — вдруг взрыв. С Вашей точки зрения, почему?
Ю. В. Визильтер (продолжая):
Действительно, первые свёрточные нейросети появились еще в начале 1980-х годов. Почему же они выстрелили только в 2011 г.? Как мы сейчас знаем, если вы делаете свёрточную нейросеть небольшой и учите ее на небольшом объеме данных, то она совсем не обгоняет по качеству другие методы. В 2000-х главными методами были случайные деревья (Random Forest). То есть на всех соревнованиях по машинному обучению, в том числе в задачах компьютерного зрения, побеждали алгоритмы типа Random Forest или метода опорных векторов (SVM Владимира Наумовича Вапника) или бустинга (вспомните знаменитые детекторы AdaBoost). И вдруг в 2011 году выяснилось, что начиная с определённого масштаба данных на миллионах изображений большие свёрточные нейросети (ImageNet и др.) начинают качественно превосходить все существовавшие методы, потому что все предыдущие методы, включая метод опорных векторов, случайные деревья, неспособны обучаться на сверхбольших массивах данных. И там, где эти методы выходят на насыщение, свёрточные нейросети способны продолжать учиться. И на этих сверхбольших объёмах обучающих данных свёрточные нейросети раскрыли свои возможности.
После прорыва 2010-х прошло почти 15 лет. Сложились новые условия, и появились трансформеры, которых, так же как и сверточные нейро-сети, никто не ждал...
М. И. Забежайло:
Хочу сделать короткое дополнение. Отмеченный прорыв в сфере нейросетей оказался возможным благодаря прорыву в инфраструктуре: High Performance Computing (HPC), распределённые вычисления и широкополосная связь (смотри отчёт комиссии Э. Шмидта — Б. Урока Конгрессу США).
Ю. В. Визильтер:
Михаил Иванович, я продолжу Вашу мысль. Прорыв в больших языковых моделях был также связан с тем, что человечество взяло и создало своего цифрового двойника в Интернете. Если не было бы всех этих терабайт цифровых данных, текстов, накопленных в Интернете за предыдущее время, никакого бы прорыва не было бы. Даже если бы трансформеры были придуманы в 1960-е годы, так как их просто нечем было бы «накормить».
М. И. Забежайло:
Вы сказали «трансформер» и упомянули Владимира Наумовича Вапника (размерность Вапника — Червоненкиса)... Трансформеры и механизм фокусировки внимания — как вы к этому относитесь с точки зрения размерности Вапника — Червоненкиса? И не идём ли мы к подмене задачи классификации, использования обобщающей способности, к задаче информационного поиска?
Ю. В. Визильтер :
Это очень важный вопрос. Я его перефразирую следующим образом: а что определяет сложность модели? Когда говорят «большая модель», обычно говорят про миллионы, миллиарды настраиваемых параметров, коэффициентов. Но на самом деле в современной нейросети, помимо коэффициентов, есть нелинейности. И еще вопрос, что важнее: иметь больше обучаемых коэффициентов или иметь больше
нелинейностей? И вот почему, известны способы представления ней-росети как дерева решений. Просто дерево будет очень-очень большим.
М. И. Забежайло (реплика):
... для рекуррентных нейросетей не все так чисто...
Ю. В. Визильтер (продолжая):
Нет, конечно, для фидфорвард-нейросетей (Feedforward, нейросети прямого распространения сигналов) типа многослойного персептрона или свёрточной нейросети с определенными видами нелинейностей можно построить эквивалентные деревья решений. Так вот, количество ветвлений в этих деревьях связано не с количеством коэффициентов, а с количеством нелинейностей. То есть получается, что нужно при оценке сложности и емкости решающего правила нужно учитывать и количество обучаемых коэффициентов, и количество нелинейностей.
При этом чем трансформер отличается от классической нейросети? У трансформера сразу встречается нелинейность, потому что там в модуле внимания берётся произведение двух входных векторов и потом дальше ещё идет обработка. Поэтому нельзя просто взять и сказать: у этой свёрточной нейросети столько-то коэффициентов, и поэтому она имеет такую-то сложность, а трансформер с таким же количеством коэффициентов имеет такую же сложность. Потому что у трансформера гораздо больше нелинейностей в эквивалентном пересчете. То есть сложность трансформера обусловлена нелинейной многоэтапной обработкой.
М. И. Забежайло:
Можно ещё раз зацепиться за сложность нейросетей? Известно с 1996 года, что рекуррентные нейросети полны по Тьюрингу. То есть любой алгоритм можно описать средствами рекуррентных нейросетей. Но при этом, как только стали строить реальные рекуррентные нейросети, оказалось, что у них с точки зрения вычислительной эффективности всё совершенно плохо. Возникают доказуемо трудноразрешимые задачи со всеми прелестями на этот счёт.
Итак, по поводу сложности: как вы видите проблему сложности в перспективе развития нейросетей по тем трендам, о которых вы говорили?
Ю. В. Визильтер:
Это действительно интересно, хотя мало кто об этом задумывается. Давайте посмотрим, как работает трансформер. Например, ему подают на вход 1000 токенов, и он учится формировать 1001-й. Потом он берёт этот 1001-й токен и по ним предсказывает наиболее вероятный 1002-й. Но, по сути, этот процесс напоминает работу машины Тьюринга, машину Поста, конечные автоматы. Здесь в самом деле есть текстовая лента, символьная последовательность.
80
М. И. Забежайло :
Даже лямбда-конверсии Чёрча, тоже помним...
Ю. В. Визильтер :
Да, совершенно верно. Как ни странно, очень многие современные идеи реализуют базовые идеи кибернетики, которые были сформированы еще на заре ее возникновения и развития. Эти удивительные большие языковые модели, о которых никто не мог и подумать во времена Чёрча и Тьюринга, на самом деле реализуют предложенные ими идеи. То есть, на вход подается лента символов, машина смотрит на все предыдущие символы, генерирует следующий символ, смотрит, генерируют следующий — это математическая машина, которая когда-то была использована в чисто теоретических рассуждениях, для того чтобы оценивать сложность, полноту, замкнутость математических систем.
Или давайте рассмотрим диффузные нейросетевые модели (Diffusion Models). Идея их работы такова: берем некоторое изображение и его зашумляем, потом еще раз зашумляем, потом еще раз зашумляем, и так много раз, до тех пор, пока изображение полностью не превратится в шум.
Теперь возьмем самое левое и следующее изображение, то есть чистое и чуть за-шумлённое. Как известно, мы легко можем дать нейросети выучить обратное преобразование для избавления от шума - это называется задачей деной-зинга (denoising) или шумоподавления. Дальше мы можем научить нейросеть обратному преобразованию и между третьим и вторым изображением для его восстановления. И так - между всеми следующими смежными изображениями. В итоге мы можем, таким образом, научить нейросеть поэтапно восстанавливать изображение из шума.
Вроде получается ерунда - ну, как такое может быть, ведь в шуме информации нет, а в изображении есть. Но все, кто изучал теорию информации, знают, что на самом деле всё наоборот. Белый шум — это смесь всей возможной информации. Известный эффект: если в театре нужно, чтобы актёры производили шум толпы, надо, чтобы каждый говорил что-то своё, и тогда мы услышим шум.
Еще на заре кибернетики Эшби сказал, что можно сделать «усилитель смысла», которому на вход будет подаваться шум, а из него будут отфильтровываться осмысленные сигналы. Получается, что диффузные нейросетевые модели — это и есть эшбиевские усилители смысла!
Именно так работают все современные Midjourney, которые рисуют нам волшебные картинки по текстовым запросам. То есть опять базовая идея, высказанная на заре кибернетики, сегодня практически реализуется с использованием современных нейросетевых технологий. Мне кажется, это само по себе чудесно, удивительно и интересно!
М. И. Забежайло :
Но только для задач, которые корректны по А. Н.Тихонову.
Ю. В. Визильтер :
Из шума изображение выделить — это совершенно некорректная задача!
М. И. Забежайло:
Не буду здесь спорить. Вопрос в машине Тьюринга: я могу построить дедуктивное доказательство корректности заключения. А как быть с доверием к результатам искусственных нейронных сетей, не только транс-формеров, с вашей точки зрения?
Ю. В. Визильтер:
С моей точки зрения, всё проверяется экспериментом. То есть если у нас есть тестовые задачи, а сейчас тестовых задач очень много (некоторые бенчмарки - для очень сложных задач), и если на них нейросети показывают результаты, которые близки к 100 %, значит, результат похож на правду.
Позвольте небольшое отступление. Нам кажется, что наша цивилизация всегда требовала логических обоснований. Но многие антропологи считают, что это не так (см., например, Джозеф Хенрик. «Секрет нашего успеха. Как культура движет эволюцией человека, одомашнивает наш вид и делает нас умнее»). На самом деле традиционная культура устроена так: ты спрашиваешь эскимоса, почему он строит свою иглу именно из этих частей, именно с такой сложной последовательностью действий, которую европеец выучить не может. Эскимос этого обосновать не может, а просто говорит, что «так принято делать». То есть всю жизнь люди учились так же, как нейросети. Был процесс накопления в культуре неких ноу-хау, которые один человек придумать не может. Это называется кумулятивной культурной эволюцией.
Б. А. Кобринский (ремарка):
Методом проб и ошибок?
Ю. В. Визильтер:
Да, но это происходит именно на протяжении поколений. Почему так долго, сотни тысяч лет, развивались каменные орудия? Потому что это очень сложно происходило, с нуля. Проверяли много раз, если теряется, допустим, европеец в австралийской пустыне, то он не может употреблять в пищу некоторые растения, потому что он не знает, как их надо приготовить: некоторые из них ядовитые, некоторые вызывают расстройство желудка. То есть в большей части в человеческой культуре бытовали «непрозрачные» алгоритмы, которые нельзя объяснить. И мне кажется, что такая же история сейчас воспроизводится в нейронных сетях. То есть то, что нейросети «непрозрачные», — это по современным меркам плохо, а с практической точки зрения — хорошо!
Б. А. Кобринский:
Юрий Валентинович, я хочу вернуться к Вашему ответу на вопрос Михаила Ивановича Забежайло. Вы сказали, на тестовой выборке мы получаем некое доказательство. Тестовая выборка, мы все хорошо знаем, это не доказательство. Ведь есть валидация, и есть верификация? Вали-дация выполняется на близких данных, а верификация осуществляется в других условиях. Для этих задач данные могут отличаться, и тогда можно ли говорить о доверии к модели, к результату только на основе использования тестовых данных.
82
Ю. В. Визильтер :
Коллеги, у нас дискуссия, кто бы еще хотел взять слово? А. П. Еремеев:
Мы занимаемся проблематикой искусственного интеллекта уже лет 40. На нашей кафедре прикладной математики НИУ «МЭИ» преподавал Дмитрий Александрович Поспелов, его первые ученики — Вадим Николаевич Вагин и Юрий Иванович Клыков.
Наша проблематика — системы поддержки принятия оперативных решений реального времени. Нами создан ряд решений и в атомной энергетике, и в оборонной сфере. Одними из основных требований для критических приложений являются надежность, устойчивость и объяснимость результатов. И с большим трудом удавалось убедить пользователей таких критических приложений, когда система управлялась на основе классических моделей (на основе дифференциальных и конечно-разностных уравнений), что причиной возникновения внештатных ситуаций являлась либо недостоверная информация, либо неучтенные факторы (наглядный пример — авария на Фукусимской АЭС).
Возвращаясь к нейросетям. Имеются известные теоремы А.Н. Тихонова, статьи академика В.Б. Бетелина, а также Ваши статьи, Юрий Валентинович. С одной стороны, у нейросетей нет объяснимой компоненты, а с другой, чем сложнее нейросеть, тем меньше ее надежность и устойчивость.
Если же говорить о вкладе отечественных ученых в теорию и практику искусственных нейронных сетей, то следует отметить, что недавно был предложен новый тип нейронных сетей KAN (Kolmogorov-Arnold Network) на основе фундаментальной теоремы Колмогорова — Арнольда, в которых, в отличие от многослойных пер-септронов, обучаются функции активации. Эти сети проще, чем известные сети глубокого обучения, а значит, для них проще решаются проблемы надежности, устойчивости и обучения. Это очень важно для бортовых решений в условиях ограничения вычислительных мощностей. Хотелось бы понять, насколько эффективны нейросети этого типа и для каких задач?
Ю. В. Визильтер :
Относительно недавно Макс Тегмарк (автор замечательной книги «Наша математическая Вселенная. В поисках фундаментальной природы реальности») предложил для графа нейросети (типа многослойного персептрона) нелинейности перенести на ребра. Эта идея звучит совершенно по-новаторски, хотя автор опирается на известные теоремы. Но на самом деле такие нейросетевые модели уже были известны и ранее. Подобные решения многие предлагали лет пять-шесть назад. Например, ReLU является элементом нелинейности, который традиционно используется в нейросетях. Если вы возьмете от одного выхода несколько ReLU с разными сдвигами и дальше поставите сумматор с коэффициентами, то получите такую же управляемую нелинейность. То есть ничего супернового здесь нет. И мы это пробовали, и не только мы. Просто на этом фактобучаемой нелинейности особо не акцентировали внимание.
А идея понятна, вы можете любую зависимость аппроксимировать небольшим количеством таких элементов. При этом эту нелинейность можно сделать как функцию: синус, косинус, экспонента и т. д., получив любые сложные нелинейности.
Но практика показывает, что такие нейросети очень медленно обучаются, и для сложных примеров их пока выучить не удалось. Поэтому я бы сказал, что перспективы использования таких нейросетей пока достаточно неопределенные.
А по поводу вопроса, какие нейросети мы сможем «запихнуть на борт» (то есть как нейросеть сделать наименее вычислительно затратной), то тут сегодня есть много идей и приемов, а именно: во-первых, можно выполнить «квантование» нейросетей. Сейчас все транс-формеры работают уже не на шестнадцати и даже не на восьми, а на четырех битах. Притом что качество их работы более-менее сохраняется; во-вторых, часть коэффициентов нейросетей можно просто обнулить; в-третьих, можно выполнить дистилляцию нейро-сетей. То есть берем относительно большую нейросеть, например с 70 млрд параметров, и преобразуем ее в относительно меньшую модель, например с 7 млрд параметров; в-четвертых, можно вообще изменить архитектуру нейросетей. Так, самое вычислительно затратное в трансформерах — это модули внимания (квадратичные вычисления, все со всеми сравниваются). Соответственно, модуль внимания можно заменить на что-либо альтернативное, менее вычислительно затратное, например на рекуррентные сети, либо запускать в работу только часть блоков, либо вообще найти альтернативу трансформерам;
в-пятых, можно разбить нейросети на блоки, каждый из которых будут работать по своему назначению, и будет роутер, который запускает эти отдельные блоки (это называется Mixture-of-Experts, то есть смесь экспертов).
И, как мне кажется, именно сочетанием этих подходов мы скорее сейчас получим практический эффект, нежели с использованием той архитектуры, которую предложили Тагмарк с коллегами.
А. Н. Аверкин:
Был задан вопрос по поводу объяснимого искусственного интеллекта, я считаю, что это ключевой вопрос в контексте проблемы «непрозрачности» нейросетей.
По программе DARPA с 2017 г. было потрачено более 10 млрд долларов на разработку методов объяснимого искусственного интеллекта (ExpLainabLe Artificial Intelligence) для объяснения сначала сверточных нейросетей, а затем и трансформеров.
Сейчас эти подходы используются не только для «подсветки» наиболее важных элементов данных, пикселей для нейросетей, но и для их лингвистического описания, а также решения задач защиты нейросетей.
Вопрос обеспечения устойчивости нейросетей — тоже очень серьезный вопрос. Фактически все нейросети неустойчивы.
84
Все нейросети, к которым имеется доступ через Интернет, можно «положить», «отравив» соответствующим образом обучающую выборку. Для этого даже не нужно знать архитектуру этих нейросетей, просто достаточно примерно знать, на каких данных они обучаются.
Методы же объяснимого искусственного интеллекта позволяют выявить наиболее уязвимые места в обучающей выборке и генеративно их «закрасить», существенно снизив эффективность вредоносных атак на нейросети.
Предложен также ряд методов объяснимого искусственного интеллекта для больших языковых моделей, ориентированных на объяснение их поведения, на выявление галлюцинаций.
Подводя итог сказанному, хочу еще раз отметить, что непрозрачность нейросетей — это ключевой момент, преодолев который (для третьего или, может, даже четвертого поколения развития нейросетей), нейросети научатся объяснять сами себе (естественно, на своем языке), как они получили то или иное решение, и вступать в диалог. Если же нейросеть сможет на логическом, символьном языке самой себе объяснить, как она получила то или иное решение, то мы получим гораздо более сильный искусственный интеллект, чем тот, который имеется сейчас.
В. В. Борисов:
Алексей Николаевич, у меня к Вам вопрос: Вы действительно имеете в виду, что нейронные сети должны научиться объяснить самим себе, как они получили то или иное решение?
А. Н. Аверкин:
Да, это так. Это не я придумал. Об этом говорит и Ян Лекун (Yann LeCun), то есть действительно нейросеть сама себе должна объяснить, как она получила то или иное решение. Об этом говорил и Юрий Валентинович Визильтер. И я с этим полностью согласен.
Ю. В. Визильтер :
Абсолютно верно было сказано. По международной классификации Self-Reflection — это один из инструментов общего искусственного интеллекта, примеры которого я приводил в своем пленарном докладе.
М. И. Забежайло :
Жизнь показывает, что «дьявол скрывается в деталях». А не могли бы вы прокомментировать термин «объяснение»? Что именно Вы имеете в виду под этим термином? Что значит «объяснить»?
А. Н. Аверкин:
Ну, во-первых, чтобы система к любому своему решению давала хоть какое-то объяснение, во-вторых, чтобы это объяснение было понятно всем: и разработчикам, и неподготовленным пользователем, то есть чтобы она могла ориентироваться на того человека, которому объясняет. Дальше, объяснение должно быть достаточно точным. Объяснение предполагает наличие разработанной аксиоматики,
86
ряда метрик точности объяснения и других оценочных параметров, которые антропоморфны, ориентированы на человека.
Сейчас уже разработан с десяток стандартов для объяснимого искусственного интеллекта.
Б. А. Кобринский:
Алексей Николаевич, Вы сказали, что должно быть объяснение, понятное всем. Однако объяснение для разных уровней всегда разное...
А. Н. Аверкин:
Пункт первый — объяснение должно быть всегда; пункт второй — оно должно быть понятно всем. Это не противоречит друг другу, это просто разные позиции одного и того же суждения.
Н. А. Симонов:
Есть еще одна проблема нейросетей — проблема случайных ошибок. Например, для нейросети ImageNET ошибки распознавания составляют 10%, и за последние четыре года этот процент не уменьшается. Я исследовал, почему подобные ошибки возникают, и пришел к выводу, что причина ошибок носит случайный характер.
Ю. В. Визильтер:
Мне кажется, что это очень ценное замечание, которое нас возвращает к теме о том, что нельзя считать, что нейросети «думают» так же, как люди. Нейросети реагируют совершенно на другое.
Вот захотели мы, например, разработать нейросетевую систему распознавания объектов на модельных данных, которые выдают современные симуляторы. Для человека эти модельные данные выглядят похожими на реальные. Но если мы обучим нейросеть на этих модельных данных, то выяснится, что на реальных данных она будет работать неправильно. Начинаем искать причины, и выясняется, и текстура не та, и трава другая, и кирпичи не похожи.
Реальные же данные выглядят немного по-другому. Так вот, нейросети замечательно выучивают не то, чего мы от них хотели (мы же хотели, чтобы они выучили типы объектов, которые нам понятны), а они выучат текстуры, которые создает симулятор.
Нейросети идут по пути наименьшего сопротивления — просто выучивают то, что им дают на примерах. А мы никак не можем им объяснить, чего же мы от них хотим (в отличие от больших языковых моделей, которым мы можем дать соответствующие указания и объяснить, почему они ошибаются).
М. И. Забежайло :
Небольшой комментарий к тому, что вы только что сказали.
Для больших языковых моделей при работе с текстами имеется прямая связь между синтаксисом и семантикой. А для нейросети
в рассмотренном Вами примере для текстур прямой связи между синтаксисом и семантикой нет.
Возможно, что в аудитории есть специалисты, которые сталкивались с реакцией больших языковых моделей на предъявление им кода. Когда им код предлагаешь и спрашиваешь, есть ошибки или нет ошибок, то в ответ приходит некоторый другой код, который даже не компилируется. Проблема в том, что семантика текста программы другая. Языковая модель работает синтаксически, она преобразовывает символы. И для нее является проблемой, как связать баги с текстом через индексы и символы.
Поэтому в задачах, где синтаксис и семантика связаны между собою, есть надежда на положительный эффект, а где они не связаны — над этим нужно работать.
Ю. В. Визильтер :
У трансформеров есть токенизатор, который разбивает текст на токены и предварительно его кодирует. И если токенизатор научен, например, на английский текст, то он совершенно не оптимально работает для программного кода. И те, кто создает нейросети для программирования, используют другие токенизато-ры.
Д. А. Добрынин:
Юрий Валентинович, такой простой, но одновременно сложный вопрос: как Вы считаете, какие основные ограничения для нейросетей прекратят их развитие в ближайшее будущее?
Ю. В. Визильтер :
В значительной степени всё зависит от данных, на которых нейросети обучаются, а также от объема этих данных. Если говорить про большие языковые модели, то уже на сегодня их разработчики использовали для обучения почти весь цифровой след человечества в Интернете (по крайней мере, его текстовую часть). Откуда же им добывать новые знания?
Это, может быть, один из самых главных вопросов: могут ли нейросети выйти за пределы того, чему их научили? Мне кажется, скорее всего, нет. С точки зрения качества решений они ограничены тем, что они узнали при обучении. Если обучающая выборка ограничена, то ограничены и возможности обучаемых на ней алгоритмов.
Другое дело - если новые знания приобретаются не пассивно, а активно, в постоянных экспериментах, которые производятся в открытом внешнем мире. То есть интеллектуальный агент в процессе обучения сам пополняет обучающую выборку. Это то, что называется обучением с подкреплением. Особенно интересно, когда такое активное обучение проводится с помощью больших языковых моделей.
Например, DeepMind в последнее время развивает идею «генеративного расширения выборки», которая заключается в следующем. Если мы обучаем нейросеть на лучших примерах действий человека из упомянутого «цифрового следа», то нейросе-тевая модель в лучшем случаем сможет воспроизвести именно лучшее поведение человека. Можно ли достичь большего?
Вот что предлагают коллеги из DeepMind. У нейросетей (трансформеров) есть параметр «температуры». Нейросеть в процессе обучения собирает некое распределение, на основе которого с какой-то вероятностью предсказывает следующий токен. Повышая «температуру» сети, можно размывать это распределение и выбирать все менее вероятные ответы. То есть, повышая температуру, мы будем получать не самый вероятный ответ, а второй по вероятности, третий, десятый и т. д. Когда мы «выкручиваем» температуру на максимум, нейросеть начинает как бы бредить при высокой температуре: повышается ее креативность, но при этом ухудшается качество. Используя это, мы можем усилить генерацию бредовых ответов. Среди этих бредовых ответов большая часть никуда не годится, а оставшаяся часть - хуже «нормальных» выученных ответов. Но случайно среди этого бреда могут оказаться и несколько гениальных ответов. Если у нас есть экспериментальный стенд или контрольный алгоритм, работающий как фильтр, который проверяет качество полученных ответов (он-то на самом деле и является в этой схеме источником новых знаний!), то отобранные им гениальные ответы отделяются от «бреда» и добавляются в обучающую выборку, на которой выполняется дальнейшее дообучение нейросети. Потом эта дообученная нейросеть снова в режиме «бреда» генерирует множество примеров, и они снова фильтруются. И так, итеративно за счёт дообучения путём искусственной генерации примеров и их тестирования, выученное распределение «знаний» нейросети постепенно смещается в сторону того, что нас интересует, и чего никогда не было в исходном множестве примеров. Это, собственно, напоминает историю о том, откуда эскимосы знают, как правильно построить иглу. Такой непростой и небыстрый путь эволюции знаний нейронных сетей.
Поэтому мой прогноз, что на сегодня быстрый прогресс качества работы больших языковых моделей уже остановился или остановится в течение нескольких лет, поскольку просто не останется новой информации, которую они быстро могли бы «сожрать», «переварить» и использовать. А дальше будет относительно медленный экспериментальный процесс добычи новых знаний из окружающего мира. Он все равно может оказаться намного быстрее, чем это можем делать мы, люди, но возможности нейросетей уже никогда не будут расти так быстро, как они росли до сих пор за счет готовой к употреблению цифровой информации, собранной и подготовленной людьми.
Конечно, данный путь эволюции нейросетей потребует гигантских вычислительных ресурсов. Но если к этому добавить вербальное обучение с подкреплением (Reinforcement Learning), методы рефлексии и саморефлексии, которые приближают нас к более объяснимому искусственному интеллекту, направленный поиск решений, то не такое уж это и гигантское количество попыток. И тогда есть шанс, что мы все-таки получим сверхчеловеческий (Superhuman) искусственный интеллект. Однако я не думаю, что он будет развиваться очень быстро. Наиболее вероятный прогноз заключается в том, что
88
в ближайшие два-три года нейросетевые технологии выйдут на «пологое плато», после чего будут продолжать развиваться и дальше, но уже существенно медленнее.
Коллеги, у нас заканчивается время. Спасибо огромное всем, кто принял участие в дискуссии и в работе круглого стола.