Два года назад я выпускал первую часть статьи о тогдашнем личном петпроекте, в котором грезил создать генератор RPG игр, построенном на ИИ технологиях, таких как GPT-4 и Stable Diffusion. Цель была чтобы пользователь вводил промпт, а на выходе получал готовую консистентную игру с геймплеем. Это её бы отличало от привычных role‑play чатов, где возможно всё, главное уговорить нейронку.
В то время GPT-4 еле‑еле справлялся с продумыванием ASCII карт, и в целом левел‑дизайном, а SD не умел генерировать графику множеств элементов, которые нужны были для игры. Технологии шагнули далеко вперед за эти два года, а у нас появилось ограниченное финансирование, и теперь мы можем генерировать не только локации и персонажей... но и вообще весь игровой пайплайн, включая сюжет квестов и скиллы для боя. В последующей серии статей я расскажу, и покажу, чего мы достигли, каким образом, а также покажу примеры миров, которые у нас получилось сгенерировать. И это по‑настоящему впечатляет!

Как всё начиналось?
Итак, нам нужно сгенерить RPG. Начнём с того, как это должно выглядеть? В самом начале мы начали делать то, что было бы легко собрать, а также то что лежало на поверхности, чтобы в целом доказать, что это возможно и выгодно. А именно, мы хотели сгенерировать 2D top‑down open‑world мир с биомами, где тайлы, объекты и персонажи были бы сгенерированы. Через некоторое время мы многое переделали, но я хочу показать как мы к этому пришли, потому что это не менее интересные моменты на основе которых мы и выстроили итоговый прототип.
Мы начали с базы, а именно с генерации поверхности земли. Для тайлов нам нужна была бесшовность, а также внятная текстура top‑down вида. Сначала мы пробовали это делать через SD, но бесшовный режим сильно снижал качество результата + мы не нашли готовую модель, которая бы адекватно генерировала текстуру. Однако, gpt‑image-1 справилась и с тем, и с тем, и на ней мы решили остановиться по части тайлов.

Улучшение тайлов
Тут мы уже получаем что‑то, с чем можно работать. После полишинга промптов и добавления пикселизации мы избавились от резких границ между тайлами, но мне визуально не нравился резкий обрезанный переход между разными типами картинок. Сначала мы подумали в сторону алгоритмической дифузии, но это выглядело не очень хорошо. Поэтому пришла идея провести SD‑дифузию границ тайлов...
Мы выделили базовый тайл локации, и для каждого иного тайла локации провели следующую операцию: выложили 8 тайлов 3×3 базового типа, и посередине вставили целевой тайл с которым мы хотим получить нейро‑переход, и по маске применили к нему img2img. Получилось что‑то неплохое:


Самое главное, что проведя вырезку итоговых тайлов после первого прохода, и перекомпоновав их еще раз, прогнав через более сложную маску, мы можем получить весь бесшовный набор переходов между этими видами тайлов (по стандарту 16-и тайловой карты). Выглядело это по итогу вот так:


Это было всё довольно дёшево (4 цента за тайл + 1 за переходы с базовым), а главное масштабировалось. С этими тайлами и переходами мы могли генерировать биомы произвольных размеров — то что и нужно было для нашей open‑world задумки.
Персонажи и анимация
Далее своё внимание мы обратили на объекты и персонажей. Опять же, у нас был выбор между SD и gpt‑image, первое было дешевле, контролируемее, но менее качественно. В силу того, что мы намучились с true‑alpha в SD (по стандарту SD не умеет генерировать альфу, а делает только белый фон), мы решили остановиться на gpt‑image для объектов, тем более они получались там более качественнее. Для персонажей же дела обстояли иначе, ибо мы хотели добавить покадровые анимации для ударов, бега и стояния на месте. С этим нам помог ControlNet + Pixelization + IPAdapter. Мы как раз уже умели генерировать портреты NPC, и радовало то, что вместе с контролированием позы мы могли переносить образ NPC прямо на анимированную фигурку.

Но у нас с этим методом были проблемы в том, что иногда SD генерировал стоячие анимации не лицом к камере, а задом, и мы поняли, что это была неточность в обучении самого ControlNet, так как кости стояли правильно (лицом в камеру). Так же отдельный геморрой был с обрезкой фона, так как. SD не умел в альфу без дополнительного плагина из‑за которого генерация теряла в качестве. Мы пробовали обрезать фон лучшими алгоритмами, достаточно хорошими нейросетями, но в генерациях SD иногда проскакивали какие‑то артефакты на фоне, которые сильно от него отличались. Не говоря уже о том, что у обрезанного спрайта на контрасте с тёмными цветами виднелась белая обводка, которую сложно было убрать без стирания самого спрайта (особенно если есть тень, или у персонажа полу‑прозрачная одежда). Самое большое разочарование в этом подходе было то, что получившееся кадры, если их проиграть как анимацию, не были похожи на что‑то динамическое! Мы предположили, что нейронка просто не понимает, что делает анимацию, и каждый кадр не приспособлен к тому, чтобы смотреться в динамике.

Структура мира и расстановка объектов
Далее нам нужно было сгенерировать саму структуру мира из тайлов, а также наполнить его различными точками интереса, соединив дорогами. Для прототипа ничего не стали придумывать особенного, и сделали генерацию тайлов через шум Перлина, создали горы и озёра, которые являлись отдельными типами тайлов для каждого биома.
Дальше перед нами стояли задачи по размещению объектов и персонажей в мир. Сэмплировать местность и как‑то фрактально просить нейросеть расставить каждый объект вручную было бы слишком дорого, и не факт, что качественно. Поэтому единственный вариант для открытого мира это поделить мир на зоны, и для каждого типа зон написать алгоритм генерации соответствующей структуры.
Мы выделили следующие типы зон: населенный пункт, лагерь, равнина, заросли и свободная территория (там все назначенные объекты расставлялись совершенно случайно). Для каждого типа существовал свой алгоритм, а также свои входные аргументы, которая LLM должна была заполнить. Например для населенного пункта были аргументы представляющие собой объекты: зданий, декораций, прохожих, и дорог (это уже тайл). Алгоритм расставлял категоризированные объекты в подходящие места. В итоге хоть и базово, но у нас получилась карта с городами и дорогами между ними:

Однако, по моим субъективным меркам прекрасного, вблизи сочетание всего того, что мы придумали, выглядело просто отвратительно... У нас еще, кажется, сломалась генерация персонажей к этому моменту, и у меня сохранился подобный скриншот:

Переосмысление концепта
В этот момент мы поняли, что делаем что‑то кардинально не то, собрались всей командой, и обсудили полную переработку нашего прототипа. По сути, мы решили делать не open‑world RPG, а пошаговый 2.5D narrative RPG. Вместо генерации открытого мира с квестами, мы решили сосредоточиться на повествовании истории, придуманной нейронкой.
Множество вещей, такие как анимации и открытый мир нам попросту не требовались. Следующего я не упоминал, но мы даже пытались генерировать скиллы для экшен боёвки, а именно сгенерировать интерпретируемый код на js для них (предоставив LLM C# интерфейс для взаимодействия с миром), и даже эту идею вырезали из‑за пошаговости (хотя она была довольно интересная). Пошаговость многое нам упростила, также как и разделение мира на небольшие локации. Через некоторое время мы собрали новый вид нашей игры, и выглядело это уже довольно красиво:

Мы подумали, что для наших генераций подойдёт вид как в don't starve. Мы приблизили камеру и повернули её на градусов 50, а так же укрупнили тайлы, и выставили объекты и персонажей перпендикулярно земле. Так же мы убрали нейронные переходы между тайлами, оставив только градиентную маску на границах разных типов. В целом сделали всё более наглядно, чтобы сфокусировать игрока на стиле сгенерированного мира, и контексте самой истории, каждая деталь уже была более важна.
Персонажей мы реализовали в виде «картонного» шейдера, и в принципе выбрали подобный стиль интерфейса. Шейдер превращает спрайт в меш и добавляет обводку. Так мы выделяем персонажей от фонового бекграунда, а вместо покадровой анимации ходьбы мы сделали прыжки по клеткам, чтобы избавиться от кривых покадровых анимаций.

А из‑за того, что мы поделили общую карту на локации с переходами между ними, каждая локация теперь составлялась не при помощи конструктора, а напрямую проектировалась LLM. Она рисовала сетку из тайлов по буквам, а также сразу же расставляла на них нужные объекты. На выходе мы получали подобную структуру, где первый символ это код тайла, а второй — объект на нём.|ft|f.|fS|m.|mS|m.||f.|r.|rV|r2|vt|vb||r.|r.|r.|rE|vb|fS||fS|rT|rA|rA|ft|f.||ft|vt|vS|ft|f.|ft||fS|vb|ft|f.|ft|fS|
Под каждую локацию собирался свой список тайлов и декора, причём по инкриментальному принципу: нейронка могла переиспользовать уже придуманные ранее элементы. Из‑за того, что LLM собирала локации произвольно, в зависимости от их описания, назначения и сюжета, они лучше всего подходили по ситуации, и были очень разнообразными.


Про цену генерации
Так же хочу добавить комментарий относительно цены проектирования локаций. Среди всех генеративных запросов, которые мы отправляли в API, этот оказался одним из самых дорогих. Промпт был не очень большим, но качественный результат получался только у самых мощных моделей с thinking == high, и думало оно над небольшой локацией минут пять. Сравняться это лишь может по своему масштабу с генерацией истории главы (но об этом не в этой части). Не знаю почему так, но наверное внутри он проводил множественные итерации проектирования. Поэтому GPT-4 два года назад с этой задачей конечно же не справился, она оказалась не такой уж и простой.
Если же добавлять к этому тайлы, объекты карты и персонажей, то в сумме может выходить около полутора доллара. Это больше половины цены всей генерации, остальную скушает история и квесты. Всё это генерировалось при помощи gpt‑image-1.5 с качеством medium, и каждый тайл/объект/персонаж стоили нам в среднем так же по 4 цента. Вот и выходит, что средняя история на 30 минут геймплея с 6 локациями, учитывая переиспользование, содержит 6 тайлов, 8 персонажей и 15 различных объектов. Да, дорого, но такова цена относительно хорошей картинки. Хотя думаю какой‑нибудь Flux мог бы справится с подобным и подешевле, но деньги на разработку у нас уже закончились (мы не успели довести его до конца), поэтому я и решил вам рассказать про данный проект.
Важно уточнить, что всё это генерировалось не агентом. Мы вручную проектировали пайплайн по этапам, валидацию, формат данных, промпты и игровые ограничения. Нейросети генерировали содержимое внутри этих рамок, собирая под конец из разных частей итоговой json для воспроизведения его на unity клиенте.
Подытоживая
После переработки идеи всё в целом стало сильно проще, но теперь мы стали разрабатывать narrative RPG, поэтому мы были вынуждены задуматься о том как нам генерировать интересный сюжет и подачу, а не только квесты с диалогами (хотя тут тоже была проделана работа). Об этом, и о генеративной бекенд архитектуре я расскажу вам в следующей части данной серии статей.
Нам удалось добиться генерации 30 минутного геймплея за эти же 30 минут ожидания генерации, и туда был включён не только визуал и локации, а также сюжет, сюжетные ветки, озвучка, музыка и боёвка. Поэтому, как мне кажется, это довольно перспективно с учётом того, что это нам обошлось в сумме в 3 доллара по цене всех API запросов. Персональная игра за 250 рублей звучит неплохо) Однако, существуют несколько проблем, особенно с консистентностью сложного и большого сюжета и игровым его повествованием, которые мы побороли только частично, и об этом я вам тоже потом расскажу.
Спасибо, что дочитали до конца. Вопросы, сомнения и критику нейрогенерации буду ждать в комментариях. Постараюсь учесть их в следующей статье, где подробнее разберу генерацию сюжета и бэкенд-архитектуру.






















