Научная статья на тему 'СИСТЕМЫ ГЕНЕРАТИВНОГО ИНТЕЛЛЕКТА ДЛЯ СИНТЕЗА ИЗОБРАЖЕНИЙ, СЦЕНАРИИ ИХ ИСПОЛЬЗОВАНИЯ И СВЯЗАННЫЕ ЗАДАЧИ'

СИСТЕМЫ ГЕНЕРАТИВНОГО ИНТЕЛЛЕКТА ДЛЯ СИНТЕЗА ИЗОБРАЖЕНИЙ, СЦЕНАРИИ ИХ ИСПОЛЬЗОВАНИЯ И СВЯЗАННЫЕ ЗАДАЧИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
241
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
генеративный интеллект / синтез изображений / сценарии использования генеративного интеллекта / generative intelligence / image synthesis / use cases of generative intelligence

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Егорова А. А., Рыжов А. П.

В работе рассмотрены системы генеративного интеллекта для синтеза изображений, подробно описана одна из mix (DALL-E 2). приведены известные примеры использования таких систем. Целесообразность подготовки такого обзора заключается в сложившейся ситуации в области генеративного интеллекта, множеством завышенных ожиданий и даже страхов, практическим отсутствием описания и анализа сценариев их использования в бизнесе. Статья будет полезна всем, кто хотел бы попять реальные возможности и ограничения таких систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

GENERATIVE INTELLIGENCE SYSTEMS FOR IMAGE SYNTHESIS, THEIR USE CASES, AND RELATED ISSUES

This paper discusses generative intelligence systems for image synthesis, provides a detailed description of one of them (DALL·E 2), and presents known examples of such systems in use. The rationale for preparing such a review is due to the current situation in the field of generative intelligence, with many inflated expectations and even fears, and a practical lack of description and analysis of their business use cases. The article will be useful to anyone who would like to understand the real possibilities and limitations of such systems.

Текст научной работы на тему «СИСТЕМЫ ГЕНЕРАТИВНОГО ИНТЕЛЛЕКТА ДЛЯ СИНТЕЗА ИЗОБРАЖЕНИЙ, СЦЕНАРИИ ИХ ИСПОЛЬЗОВАНИЯ И СВЯЗАННЫЕ ЗАДАЧИ»

ВЕСТН. МОСК. УН-ТА. СЕР. 15. ВЫЧИСЛ. МАТЕМ. И КИВЕРН. 2024. .V 1. С. 47 60 Lomonosov Computational Mathematics and Cybernetics Journal

УДК 517.967.23

А. А. Егорова1, А. П. Рыжов2

СИСТЕМЫ ГЕНЕРАТИВНОГО ИНТЕЛЛЕКТА ДЛЯ СИНТЕЗА ИЗОБРАЖЕНИЙ, СЦЕНАРИИ ИХ ИСПОЛЬЗОВАНИЯ И СВЯЗАННЫЕ ЗАДАЧИ

В работе рассмотрены системы генеративного иптеллекта для синтеза изображений, подробно описана одна из них (DALL-E 2). приведены известные примеры использования таких систем. Целесообразность подготовки такого обзора заключается в сложившейся ситуации в области генеративного интеллекта, множеством завышенных ожиданий и даже страхов, практическим отсутствием описания и анализа сценариев их использования в бизнесе. Статья будет полезна всем, кто хотел бы попять реальные возможности и ограничения таких систем.

Ключевые слова: генеративный интеллект, синтез изображений, сценарии использования генеративного иптеллекта.

DOI: 10.55959/MSU/0137 0782 15 2024 47 1 47 60

1. Введение. Генеративный искусственный интеллект это тин систем искусственного интеллекта (ИИ), который может создавать новый контент, включая разговоры, истории, изображения, видео, музыку и т.н. Системы генеративного интеллекта основаны на моделях машинного обучения больших лингвистических моделях (Large Linguistic Models LLMs), предварительно обученных на огромных объемах данных.

Большие лингвистические модели, возникшие совсем недавно (компания OpcnAI выпустила первую статью в 2018 г. [1]), являются одной из самых обсуждаемых областей искусственного интеллекта. Оценки их потенциала разнятся от крайне негативных до крайне восторженных, систематический опыт их использования в бизнесе практически отсутствует. Так, известный ученый в области ИИ И. Хомский заканчивает свое эссе [2| словами: "Учитывая аморальность, нсевдо-научность и лингвистическую некомпетентность этих систем, мы можем только смеяться или плакать над их популярностью". Множество восторженных отзывов читатель может найти самостоятельно. Отметим также, что генеративный интеллект является и одной из самых динамично развивающихся областей ИИ [3] (см. рис. 1).

Новые системы появляются чуть ли не каждый месяц. Авторы не ставят целью обзор таких новинок он устареет до публикации статьи. Однако авторы считают, что наработанный опыт создания и использования таких систем достаточен для получения предварительных выводов об их возможностях и ограничениях.

В данной работе мы остановимся на генерации изображений. В п. 2 подробно описывается технология создания изображений генеративным ИИ но текстовой подсказке на примере нейронной сети DALL-E 2 [4|, совершившей значимый прорыв в области создания высококачественных изображений. Затем в п. 3 обсуждаются различные инструменты генеративного интеллекта, отвечающие потребностям автоматизации бизнес-процессов. В заключение формулируются выводы проведенного исследования и обсуждаются возможные направления развития таких систем.

2. Технология создания изображений генеративным интеллектом (на примере

DALL-E 2). Система DALL-E 2 это последняя версия генеративной модели OpcnAI для создания оригинальных изображений из текстовых описаний [4|. Эта система использует методы глубокого обучения для создания высококачественных изображений на основе текстового ввода. Система DALL-E 2 способна создавать как абстрактные, так и фотореалистичные изображения,

1 Мех.-мат. факультет МГУ, студ., e-mail: aliiia.egorovaOmatli.msu.ru

" Факультет ВМК МГУ, проф., д.т.п., e-mail: ryjovOcs.msu.ru

toloctvcm

KLNot:

■тавота

Гlosed-Source

Ifhirmtii L

llnstrifCti

fjurpsstc-ljS

Sttf« ilwl Wvr

Рис. 1. Эволюция больших ЯЗЫКОВЫХ моделей

от подробных иллюстраций животных до сюрреалистичных пейзажей. В системе используется архитектура на основе преобразователя (transformer), которая была обучена на разнообразном наборе данных изображений и текстовых описаний, что позволяет ей генерировать изображения, не ограниченные определенным стилем или категорией. Эта универсальность делает DALL-E 2 ценным инструментом для широкого круга задач, включая создание оригинальных иллюстраций, визуального контента, дизайна продуктов и архитектурных визуализаций.

Важной функцией DALL-E 2 является возможность реалистичного редактирования и ретуширования фотографий с помощью "закрашивания". Пользователи могут ввести текст для желаемого изменения и выбрать область изображения, которую они хотят отредактировать. В течение нескольких секунд DALL-E 2 предлагает несколько вариантов на выбор. Помимо преобразования текста в изображение DALL-E 2 может создавать различные варианты изображения, вдохновленные оригиналом. Процесс создания изображений представлен на рис. 2.

Общее описание алгоритма выглядит следующим образом: текстовый кодировщик принимает текстовую подсказку и генерирует текстовые вложения, которые в свою очередь служат входными данными для "первоочередной модели" (prior model), которая генерирует соответствующие вложения изображений; модель декодера изображений генерирует фактическое изображение из вложений. Рассмотрим каждый этан подробно.

1) СЫР: соединение, текстовой и визуальной информации. "Вложения" 1 текста и изображений, используемые DALL-E 2, поступают из другой сети, созданной OpenAI, которая назы-

1 "Вложения" (embeddings) это многомерные числовые представления для объектов, которые используются в

T«ct Embedding

Image Embedding

"An aalr-tHitwl lOLMiQirxj In a fropleat resDf! in space in vùpomate styte-

Teul Enc«de<

Рис. 2. Процесс создания изображений DALL-E 2

вается CLIP (Contrastivc Language-Image Pre-training) модель нейронной сети, которая возвращает лучшую подпись для данного изображения. Сеть CLIP имеет цель изучения связи между текстовым и визуальным представлениями одного и того же объекта, CLIP обучает 2 кодировщика, один из которых преобразует изображение во "вложение" изображения, а друх'ой преобразует текст во "вложение" текста.

Основная идея тренинга CLIP:

• создать кодировку изображения и текста для каждой из пар "изображение заголовок";

• вычислить косинусное сходство каждой нары "вложений" (изображение, текст);

• итеративно минимизировать косинусное сходство между неверными парами "изображение заголовок" и максимизировать косинусное сходство между правильными парами "изображение заголовок".

Как только обучение завершено, модель CLIP останавливается, DALL-E 2 переходит к следующей задаче: поиск подходящих встраиваний CLIP изображений для текстовой подсказ-

2) Подключение текстовой семантики к соответствующей визуальной семантике. Кодировщик CLIP не создает вложения изображений, DALL-E 2 использует другую модель, называемую "первоочередной»" (prior model), конструирующую их на основе вложений текста, сгенерированных текстовым кодировщиком CLIP. Разработчики DALL-E 2 попробовали два варианта модели: авторегреесивную (модель, в которой наблюдения за предыдущими временными шагами используются в качестве входных данных в уравнении регрессии для прогнозирования значения на следующем временном шаге) и диффузионную. Оба варианта дали сопоставимую производительность, но диффузионная модель оказалась более эффективна в вычислительном отношении, поэтому она была выбрана. Диффузионные модели [5] представляют собой генеративные модели на основе трансформаторов. Они берут часть данных (например, фотографию) и постепенно добавляют шум по временным шагам, пока она не станет неузнаваемым. Далее они пытаются полностью восстановить изображение [7] (см. рис.3).

машинном обучении и искусственном интеллекте. Они позволяют преобразовать даппые, такие, как текст, изображения или звук, в числовой формат, который компьютеры могут легче обрабатывать и анализировать. "Вложения" обладают свойством сохранять семантическую информацию, что означает, что объекты с близкими значениями вложений обычно имеют схожий смысл. Например, в случае текстовых "вложений" слова с похожим значением будут иметь близкие числовые представления.

Рис. 3. Диффузионная модель

3) Декодер: генерация изображения из вложения, изображений. В DALL-E 2 декодер представляет собой еще одну модель, созданную OpenAI, которая называется GLIDE (Guided Language to Image Diffusion for Generation and Editing) управляемый язык распространения изображений для генерации и редактирования; GLIDE это модифицированная диффузионная модель. От моделей чистой диффузии ее отличает включение текстовой информации. Модель диффузии начинается со случайно выбранного гауссова шума, поэтому нет возможности управлять этим процессом для создания определенных изображений. Например, диффузионная модель, обученная на наборе данных о собаках, будет последовательно генерировать фотореалистичные изображения собак. Но создать, например, определенную породу собак не получится. Модель GLIDE опирается на генеративный успех диффузионных моделей, дополняя процесс обучения текстовыми вложениями это приводит к созданию текстового условного изображения. Именно эта модифицированная модель GLIDE позволяет редактировать изображения с помощью текстовых подсказок. Модель GLIDE, используемая в качестве декодера в DALL-E 2, немного изменена она включает не только текстовую информацию, но также и вложения CLIP.

В DALL-E 2 возможно и изменение имеющейся картинки (так называемые вариации). Чтобы внести вариации в образ, в сохраненных основных элементах и стиле преобразуются тривиальные детали. Система DALL-E 2 создает варианты изображения, получая вложения CLIP-изображения и пропуская их через декодер Diffusion. На рис. 4 приведен пример таких вариаций для исходного изображения (вверху).

Опишем алгоритм вариаций на примере задачи: "Нарисовать дом, окруженный деревом, и солнце на фоне неба". Сначала мы не знаем точно, каким получится рисунок, но знаем основные черты (в терминах DALL-E 2 "текстовые вложения"), которые должны появиться: "дом", "дерево", "солнце" и "небо" . Переход от данного предложения к изображению это как раз то, что делает первоочередная модель. Для каждой такой детали у нас возникает множество возможных изображений ("вложений изображений"): различные дома, деревья и т.д. Выберем но одному из каждого множества и, совместив образы, получим итоговое изображение. Точно так же мы могли бы перерисовать какую-нибудь из деталей (не нарушая при этом изначальной задачи), например, сделать дом поменьше и солнце поместить левее. В результате получается новое решение задачи; точно так же и DALL-E 2 создает свои вариации.

К известным недостаткам DALL-E 2 можно отнести следующие:

• нет возможности генерировать изображения со связным текстом когда DALL-E 2 просят

Рис. 4. Вариации к верхнему изображению, созданные DALL-E 2

сгенерировать изображения с конкретным текстом внутри, то он создает приведенные на рис. 5 изображения с ошибками;

Рис. 5. Результаты запроса "Знак к надписью «ту name is Alina»"

• DALL-E 2 плохо связывает атрибуты с объектами. Когда ставится задача создать изображение "красного куба поверх синего куба", то DALL E 2 склонен путать, какой куб должен быть красным, а какой — синим (см. рис. 6);

• еще одна область, в которой DALL E 2 не справляется, — создание сложной картины. Когда авторы запросили изображения "Таймс-сквер", DALL E 2 сгенерировал рекламные щиты без каких-либо понятных деталей (рис. 7);

• помимо ограничений, связанных с созданием изображений, DALL E 2 также имеет погреш-

Рис. 6. Результаты запроса ''Белый куб на черном шаре"

Рис. 7. Результаты запроса Таймс-сквер

ности из-за субъективности данных, собранных из интернета. Примером являются предвзятые представления о профессиях [7] (см. рис. 8).

3. Обзор инструментов генеративного интеллекта для бизнеса. Здесь мы рассмотрим известные примеры использования генеративного интеллекта в бизнесе.

Анализируя данные и предпочтения клиентов, с помощью генеративного интеллекта можно создавать индивидуальный маркетинговый контент, который с большей вероятностью привлечет клиентов. Это может включать персонализированные электронные письма, рекламу в социальных сетях и даже персонализированные рекомендации по продуктам на веб-сайтах электронной коммерции. Помимо этого, генеративный интеллект также можно использовать для повышения эффективности бизнес-процессов: например, для создания отчетов, презентаций, фирменного рекламного контента, стиля компании (логотип, дизайн сайта и т.д.) и многого другого [8]. Далее мы рассмотрим пять различных инструментов ИИ для увеличения эффективности операционных процессов компании.

3.1. Flair [9] инструмент искусственного интеллекта для разработки фирменного контента, который помогает пользователям быстро и недорого создавать высококачественные маркетинговые активы. С помощью Flair клиенты могут создавать целые фотосессии для евоего продукта менее чем за минуту, снимая его в любом месте и сохраняя детали евоего бренда. Клиент может создавать изображения в своей собственной "фирменной эстетике" или выбирать из имеющейся библиотеки высококачественных стилей. Одна из особенностей сервиса наличие "умных подсказок" предоставление примеров изображений для подсказок и функция автозаполнения,

Рис. 8. Результаты запроса "Генеральный директор", "Свадьба", "Санитарный работник", "Ресторан"

которая помогает общаться с генеративным интеллектом.

С цен ари й использов ания.

1. Выбрать фото продукта (загрузить свое или выбрать из каталога образцов) и его расположение.

2. Выбрать шаблон для настройки подсказки (ввести ключевые слова, например, "флакон для дуХОВ"} "цветы", "закат").

3. Отредактировать подсказку: ввести тип продукта и количество выводимых результатов (обязательно) и (по желанию) на чем он размещен, что находится на заднем фоне, дополнительные детали.

4. Сгенерировать и выбрать понравившийся вариант.

Пример работы Flair приведен на рис. 9.

Рис. 9. Пример работы Flair. Результаты запроса "Флакон духов на влажной красной поверхности с множеством птиц на заднем плане"

• наличие "умных подсказок" и многих окон для ввода конкретных деталей. Так запрос становится точнее, а также пользователь знает, с какой степенью подробности можно описать желаемое изображение;

• рекламируемый товар гармонично вписан в описанное изображение, а не добавлен сверху.

Недостатки:

• игнорирует части запроса. Причем при выводе нескольких результатов, может "забыть" деталь лишь на части изображений, а на других отобразить описание целиком.

3.2. Illustroke [10] — это платформа на базе генеративного интеллекта, которая позволяет пользователям быстро и легко создавать векторные иллюстрации (SVG — Scalable Vector Graphics — масштабируемая векторная графика) из текстовых подсказок.

Векторная графика — способ представления графических объектов и изображений в компьютерной графике, основанный на математическом описании элементарных геометрических объектов (таких, как точки, линии, сплайны, круги, окружности, эллипсы, многоугольники и т.д.). Платформа позволяет пользователям вводить запрос, а затем создавать индивидуальные векторные иллюстрации, которые можно загружать и использовать для веб-сайтов, социальных сетей и других онлайн-целей.

Сценарий использования.

1. Ввести запрос — что надо проиллюстрировать.

2. Выбрать стиль иллюстрации из трех отделов: "Общие стили" (абстрактный, комиксы, детская книга, реализм и т.д.), "Художники" (Сальвадор Дали, Ван Гог, Пабло Пикассо и т.д.), "Мультфильмы" ("Симпсоны", "Покемон" и т.д.). Для каждого стиля представлены примеры иллюстраций.

3. Выбрать цвет (разноцветный или черно-белый), объектный режим (в режиме "полного изображения" — полноценная иллюстрация с фоном, либо режим "центрированного изображения"), количество цветовых слоев.

4. Сгенерировать и выбрать из трех полученных вариантов.

Пример работы Illustroke приведен на рис. 10.

Examples [ Film Noir

"Two man looking each other "

Examples | Simpson

"Two man looking each other"

Examples | Futurist

"Two man looking each other"

Рис. 10. Пример работы Illustroke

• векторные изображения;

• простой интерфейс.

Недостатки:

• ввод запроса в тестовом формате но чти все детали желаемого изображения выбираются из библиотеки стилей, цветов и т.д. С одной стороны, это избавляет от сложности самостоятельного ввода запроса, с другой стороны, сильно ограничивает пользователя, сводя его "творчество" к минимуму;

• очень примитивные и похожие друг на друга картинки, несмотря на разные стили.

3.3. PatternedAI [11] это инструмент для создания "бесшовных" узоров паттернов, который помогает пользователям создавать уникальные креативные шаблоны для своих продуктов.

Сценарий использования.

1. Ввести "подсказки" описать (с любой степенью подробности) детали шаблона (например, что на нем представлено, цвета, стиль, фон, чем может быть вдохновлен этот узор (inspired by Rembrandt)).

2. Ввести "негативные подсказки" чего не должно быть в шаблоне (нежелательные цвета, детали, стили и т.д.).

3. Выбрать степень схожести результата и входных данных пользователя, размер изображения и количество полученных вариантов.

4. Сгенерировать и выбрать понравившиеся варианты. Пример работы PatternedAI приведен на рис. 11.

Prompt: Prompt: Prompt:

red roses in Gustav Klsmt style A vintage pattern inspired by Rembrandt A vintage pattern of faces inspired by Monet

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 11. Пример работы PatterriedAI

Достоинства:

• точнейшее попадание в художественный стиль и превосходная имитация живописи;

• наличие "негативных подсказок";

• возможность выбора степени совпадения запроса с результатом ИИ ("guidance scale").

Недостатки:

• возможности сервиса ограничиваются .лишь созданием узоров и не предлагают макетов для их дальнейшего использования.

3.4. Э^сЫггщ [12] инструмент для создания многих видов высококачественных изображений: стоковых фотографий, постеров, обложек для книг, "иконок для приложений", логотипов и картин.

Сценарий использования.

1. Выбрать одну из вышеперечисленных категорий.

2. Ввести "подробную подсказку" того, что должно быть на изображении.

3. Сгенерировать изображение.

Примеры работы Б1;оект^ приведены на рис. 12.

Ртю

PlTfegi'I ISfevH

Eaaiïauies

Poster

Wallpaper

Prompt

Prompt

Anthropomorphic cute bee,Big eyes, face, detailed,

Design a picture of dried olive leaf

intricate, elegant, highly detailed, digital painting,

artstation, concept art, smooth, sharp focus

illustration, art by Krenz Cushart and Artem Demura

Stock Image

Prompt a monster

Рис. 12. Пример работы 81осктщ

Достоинства:

• наличие категорий изображений;

• высококачественные фотореалистичные изображения.

Недостатки:

• неудобно описывать изображение из-за того, что есть только одно окно для текста, а не несколько, разбитых но категориям цвета, стиля и т.д.;

• нет никаких умных подсказок или хотя бы руководства но описанию. Пользователь не знает, насколько сложную детализацию сможет обработать система (например, обработает ли она запрос: "Легкая зарисовка умной девушки в стиле рЪсаг");

• нет возможности генерировать изображения с текстом (см. рис. 12, центральное изображение) ;

• изображения часто абсолютно не соответствуют запросу (см. рис. 12, изображение справа — результат на запрос "монстр").

3.5. Ьоока [13] — это платформа идентификации бренда, разработанная для того, чтобы облегчить предпринимателям создание профессионального логотипа и фирменного стиля. Она не только позволяет быстро создавать сотни макетов логотипов на основе данных, введенных пользователем, и настраивать дизайн, чтобы получить "идеальный" логотип, но и сразу же представляет множество брендовых маркетинговых материалов с новым пользовательским логотипом от визитных карточек до чашек и футболок. Помимо этого, сервис по логотипу определяет шрифты, цветовую гамму и стили, полностью создавая профессиональный дизайн бренда: веб-дизайн, профили во всех соцсетях, презентации и многое другое.

Сценарий использования.

1. Ввести данные компании: название, слоган и отрасль.

2. Выбрать понравившиеся примеры логотипов, цветовую гамму и (по желанию) значки/картинки, которые будут использованы в логотипе.

3. Выбрать понравившиеся логотипы и продукты с данным дизайном. Примеры работы Ьоока приведены на рис. 13.

Your Color Palette These »re based on your logo colors. You c«n change these liter.

Рис. 13. Пример работы Ьоока

Достоинства:

• профессионапьнейший дизайн;

• сразу выводятся сотни вариантов логотипов, а не заданное пользователем количество;

• масса продуктов с созданным дизайном;

• простой интерфейс.

Недостатки:

• ири создании логотипа нужно выбрать понравившиеся примеры, при этом на совершенно разные стили выбранных логотипов ИИ выводит почти одни и те же варианты, которые, более того, не совпадают с выбранным стилем.

Таким образом, генеративный интеллект активно применяется в бизнесе, экономя время и деньги на создании разнообразного контента, необходимого компаниям.

4. Предварительные выводы. Как отмечено выше, генеративный интеллект является и одной из самых динамично развивающихся областей ИИ, много численные новые системы на его базе разрабатываются как крупными компаниями, так и стартанами, поэтому выводы носят предварительный характер.

Системы на базе генеративного интеллекта способны создавать новый контент (тексты, рисунки, клипы и пр., которых не было раньше). Это их свойство находит практическое применение.

Приведенный выше обзор разнообразных инструментов ИИ демонстрирует их привлекательность и ценность для бизнеса. Эти инструменты предоставляют компаниям мощные средства для создания нестандартного и яркого ("креативного") контента с минимальными усилиями и затратами. Важно отметить, что хотя автоматизация и генерация контента с использованием ИИ предоставляют новые возможности, успешное использование этих инструментов требует грамотной стратегии и качественного контроля. Компании должны быть внимательными к тому, как они интегрируют ИИ-созданный контент в свою маркетинговую стратегию, чтобы сохранить свой брсндовый стиль и ценности. Тем не менее, эти инструменты предоставляют компаниям уникальную возможность сэкономить время и ресурсы при создании визуального контента, что может стать ключевым фактором в достижении более широкой аудитории и укреплении бренда. С учетом быстрого развития ИИ, вложения в эти технологии могут быть весьма перспективными для компаний, стремящихся оставаться конкурентоспособными в современной цифровой экономике.

Однако, лежащие в основе генеративного интеллекта статистические методы вызывают много вопросов и даже насмешек. Так, в [14] такие системы сравниваются со "стохастическими попугаями". Термин "стохастические попугаи" впервые использовала Э.М. Бендер, лингвист, профессор Стэнфордекого университета. Стохастический попугай это сущность, "предназначенная для бессистемного связывания между собой последовательных лингвистических выражений на основе вероятности, что они связаны между собой, но без привязки к смыслу" [14]. Это же было подмечено И. Хомским [2| и в наиболее взвешенном (по нашему представлению) виде сформулировано В. В. Сенкевичем2 : "Используя статистику вместо логики, мы всегда будем получать усредненные ответы вместо правильных. В простых случаях они будут совпадать почти всегда, в сложных почти никогда".

Более серьезными выглядят энергетические и экологические ограничения генеративного интеллекта. Такие системы требуют огромных затрат на обучение. Впервые на это обратил внимание К. Хао [15]. Ссылаясь на [16], он приводит расчеты эмиссии СО2 (см. рис. 14).

В [17] приводятся следующие данные:

• общее потребление воды для обучения СРТ-З составляет 3,5 млн литров;

• разговоры ChatGPT потребляют 128 млн литров пресной воды за один месяц;

• потребление воды Google в США в 2021 г. составило 3,3 млрд галлонов (12,4 млрд литров), а "дополнительные глобальные местоположения" (т.е. остальной мир) составляют дополнительные 971 млн галлонов (4,4 млрд литров).

В [18] со ссылкой на отчет Ассоциации полупроводниковой промышленности Вашингтона и Корпорации полупроводниковых исследований утверждается, что ири сохранении сложившихся

"Частная переписка.

Common carbon footprint benchmarks

in lbs of C02 equivalent

Roundtrip flight b/w NY and SF (1 passenger)

Human life (avg. 1 year}

American life (avg. 1 year)

US car including fuel (avg. 1 lifetime)

Transformer (213M parameters) w/ neural architecture search

Рис. 14. Сравнительные показатели выбросов C02

трендов в 2040 г. компвютеры будут потреблятв болвше энергии, чем человечество будет производить. Подобные фактв1 невозможно не учитвтатв. Так, глава OpenAI (компании, разработавшей GPT-1 — GPT-4 и ChatGPT) С. Альтман, выступая на конференции MIT "Будущее бизнеса с ИИ", заявил: "Я думаю, что приблизился конец эры, в которой существуют эти очень, очень большие модели. Мы будем улучшать их другими способами" [19].

Важными также являются ограничения, связанные со сценариями использования генеративного интеллекта. Важнейшим является невозможноств инкрементального (итеративного, сходящегося) улучшения понравившегося варианта в диалоге с системой (как предлагается, например, в [20] для задачи поиска), что важно для дизайна и многих других приложений. Стохастическая природа алгоритмов, лежащих в основе генеративного интеллекта, приводит к ситуации, когда изображение или выделенная его часть генерируется заново, а не улучшается выбранный вариант. Механизм вариаций, основанный на использовании диффузионной модели (п.2), также генерирует новый объект, который может существенно отличаться от выбранного. Использование существующего механизма подсказок (prompts) пока можно отнести больше к искусству, чем к инженерии [21], хотя вопрос техники подсказок (prompt engineering) начая обсуждаться и даже появляются курсы по "промптингу" [22]. Перспективными подходами этого направления видятся "цепочка мыслей" (Chain-of-Thought Prompting, [23]) и "дерево мыслей" (Tree-of-Thoughts, [24, 25]), во многом близкие хорошо зарекомендовавшей себя в решении практических задач технологии оценки и мониторинга сложных процессов [26]. Авторы надеются увидеть в ближайшем будущем проблемно-ориентированные системы (дизайн одежды, дизайн помещений и пр.) такого рода.

СПИСОК ЛИТЕРАТУРЫ

1. Radford A., Narasimhan К., Salimans T., Sutskever I. Improving language understanding by generative pre-training [Электронный ресурс]. 2018. URL: https://cdn.openai.com/research-covers/language-unsupervised/language _understanding_paper.pdf

2. Chomsky N. The false promise of ChatGPT//The New York Times [Электронный ресурс]. 2023. URL: https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html (дата обращения:

3. L e С u n Y. A survey of LLMs with a practical guide and evolutionary tree [Электронный ресурс]. URL: https://twitter.com/ylecun/ status/1651762787373428736 (дата обращения: 08.11.2023)

4. Rame s h A., Dhariwal P., Nichol A., Chu C., Chen M. DALL-E 2 [Электронный ресурс]. URL: https://openai.com/Dall-e-2/ (дата обращения: 08.11.2023)

5. Ho J., Jain A., Abbeel P. Denoising diffusion probabilistic models [Электронный ресурс]. 2020.

6. Rame s h A., Dhariwal P., Nichol A., Chu C., Chen M. Hierarchical text-conditional image generation with CLIP latents [Электронный ресурс]. 2022. URL: https://arxiv.org/pdf/2204.06125.pdf

7. Singh A. How Does DALL-E 2 Work? [Электронный ресурс] 2022. URL: https://niodiuni.com/augment ed-startups/how-doos-dall-o-2-work-o6d492a2667f (дата обращения: 08.11.2023)

8. N a 1 b a n d у a n A. AI personalization in 2023: examples, tools, and tips [Электронный ресурс]. 2023. URL: https://10wob.io/blog/ai-porsonalization/// applications (дата обращения: 08.11.2023)

9. Flair [Электронный ресурс]. URL: https://flair.ai/ (дата обращения: 08.11.2023)

10. Illstroko [Электронный ресурс]. URL: https://illnstroko.com/ (дата обращения: 08.11.2023)

11. PattornodAI [Электронный ресурс]. URL: https://www.pattornod.ai/ (дата обращения: 08.11.2023)

12. Stockimg [Электронный ресурс]. URL: https://stockinig.ai/ (дата обращения: 08.11.2023)

13. Whitfield D. Looka [Электронный ресурс]. 2016 URL: https://looka.com/ (дата обращения: 08.11.2023)

14. Bonder Е.М.. Gobrn Т.. М с М i 11 а п - М a j о г A., Shmitcholl S. On the dangers of stochastic parrots: can language models bo too big? [Электронный ресурс]. URL: https://dl.acni.org/doi/opdf/10.1145/ 3442188.3445922 (дата обращения: 08.11.2023)

15. H а о К. Training a single AI model can omit as much carbon as five cars in their lifetimes. MIT Technology review [Электронный ресурс]. 2019. URL: https://www.tochnologyroviow.coni/2019/06/06/239031/training-a-singlo-ai-niodol-can-oniit-as-niuch-carbon-as-fivo-cars-in-thoir-lifotimos/ (дата обращения: 08.11.2023)

16. S t r u b о 11 E.. G a n о s h A.. M с С a 11 u m A. Energy and policy considerations for doop learning in NLP [Электронный ресурс]. 2019. URL: https://arxiv.org/pdf/1906.02243.pdf (дата обращения: 08.11.2023)

17. Thompson С. AI is thirsty [Электронный ресурс]. URL: https://clivothonipson.niodiuni.coni/ai-is-thirsty-37f99f24a26o (дата обращения: 08.11.2023)

18. В о a 11 A. Will computers run out of power? Machines could use more than world's production of electricity by 2040 [Электронный ресурс]. URL: https://www.dailymail.co.nk/scioncotoch/articlo-3707040/ Will-conipiitors-riin-powor-^iachinos-iiso-world-s-prodiiction-oloctricity-2040-oxports-claini.htnil (дата обращения: 08.11.2023)

19. Голова н о в Г. По мнению главы OponAI. эра крупных языковых моделей заканчивается [Электронный ресурс]. 2023. URL: https://hightoch.plus/2023/04/18/po-ninoniyu-glavi-oponai-ora-krupnih-yazikovih-modoloi-zakanchivaotsya (дата обращения: 08.11.2023)

20. Р ы ж о в А.П.. Огород н и к о в Н.М. Об одном методе порсонализации поиска информации //Интеллектуальные системы. Теория и приложения. 22. Вып. 4. 2018. С. 65 78.

21. Nguyen В. AI ''prompt engineer"; jobs can pay up to $375.000 a year and don't always require a background in tech. Insider [Электронный ресурс]. 2023. URL: https://www.bnsinossinsidor.com/ai-pronipt-onginoor-jobs-pay-salary-roqiuronionts-no-toch-backgronnd-2023-3 (дата обращения: 08.11.2023)

22. Prompt engineering guide [Электронный ресурс]. 2023. URL: https://www.promptinggnido.ai/rn (дата обращения: 08.11.2023)

23. Woi J.. Wang X.. S ch nnr mans D.. Bosnia M.. Ichtor В.. Xia F.. Chi E.. Lo Q.. Zhou D. Chain-of-thonght prompting elicits reasoning in largo language models [Электронный ресурс]. 2022. URL: https://arxiv.org/abs/2201.11903 (дата обращения: 08.11.2023)

24. Y а о S.. Y u D.. Zhao J.. S h a f r a n I., Griffiths T.L.. С а о Y.. Xarasi m h a n K. Tree of thoughts: deliberate problem solving with largo language models [Электронный ресурс]. 2023. URL: https://arxiv.org/abs/2305.10601 (дата обращения: 08.11.2023)

25. Long J. Largo language model guided troe-of-thonght [Электронный ресурс]. 2023. URL: https://arxiv.org/abs/2305.08291 (дата обращения: 08.11.2023)

26. P ы ж о в А.П. Оценка и мониторинг процессов в социотохничоских системах и связанные с ними задачи/'/Интоллоктуальные системы. Теория и приложения. 22. Вып. 2. 2018. С. 129 139.

Поступила в редакцию 28.10.23 Одобрена поело рецензирования 06.11.23 Принята к публикации 06.11.23

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.