惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Help Net Security
Help Net Security
宝玉的分享
宝玉的分享
Microsoft Security Blog
Microsoft Security Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
A
About on SuperTechFans
Microsoft Azure Blog
Microsoft Azure Blog
月光博客
月光博客
量子位
博客园 - 叶小钗
Last Week in AI
Last Week in AI
阮一峰的网络日志
阮一峰的网络日志
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
V
V2EX
D
DataBreaches.Net
Vercel News
Vercel News
博客园 - Franky
Recorded Future
Recorded Future
B
Blog RSS Feed
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
GbyAI
GbyAI
M
MIT News - Artificial intelligence
F
Full Disclosure
S
SegmentFault 最新的问题
L
LangChain Blog
F
Fortinet All Blogs
美团技术团队
IT之家
IT之家
博客园 - 司徒正美
Cyberwarzone
Cyberwarzone
NISL@THU
NISL@THU
P
Privacy International News Feed
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Y
Y Combinator Blog
C
Check Point Blog
The GitHub Blog
The GitHub Blog
L
Lohrmann on Cybersecurity
I
Intezer
I
InfoQ
Spread Privacy
Spread Privacy
Project Zero
Project Zero
T
Threatpost
S
Secure Thoughts
C
Comments on: Blog
N
News | PayPal Newsroom
Application and Cybersecurity Blog
Application and Cybersecurity Blog
H
Heimdal Security Blog
T
The Blog of Author Tim Ferriss
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Hugging Face - Blog
Hugging Face - Blog
U
Unit 42

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Нейрогенератор игровых миров. Часть 2: «оно» ожило
Евгений Серпинин · 2026-06-14 · via Все публикации подряд на Хабре

Два года назад я выпускал первую часть статьи о тогдашнем личном петпроекте, в котором грезил создать генератор RPG игр, построенном на ИИ технологиях, таких как GPT-4 и Stable Diffusion. Цель была чтобы пользователь вводил промпт, а на выходе получал готовую консистентную игру с геймплеем. Это её бы отличало от привычных role‑play чатов, где возможно всё, главное уговорить нейронку.

В то время GPT-4 еле‑еле справлялся с продумыванием ASCII карт, и в целом левел‑дизайном, а SD не умел генерировать графику множеств элементов, которые нужны были для игры. Технологии шагнули далеко вперед за эти два года, а у нас появилось ограниченное финансирование, и теперь мы можем генерировать не только локации и персонажей... но и вообще весь игровой пайплайн, включая сюжет квестов и скиллы для боя. В последующей серии статей я расскажу, и покажу, чего мы достигли, каким образом, а также покажу примеры миров, которые у нас получилось сгенерировать. И это по‑настоящему впечатляет!

Вступление к началу сгенерированной истории

Вступление к началу сгенерированной истории

Как всё начиналось?
Итак, нам нужно сгенерить RPG. Начнём с того, как это должно выглядеть? В самом начале мы начали делать то, что было бы легко собрать, а также то что лежало на поверхности, чтобы в целом доказать, что это возможно и выгодно. А именно, мы хотели сгенерировать 2D top‑down open‑world мир с биомами, где тайлы, объекты и персонажи были бы сгенерированы. Через некоторое время мы многое переделали, но я хочу показать как мы к этому пришли, потому что это не менее интересные моменты на основе которых мы и выстроили итоговый прототип.

Мы начали с базы, а именно с генерации поверхности земли. Для тайлов нам нужна была бесшовность, а также внятная текстура top‑down вида. Сначала мы пробовали это делать через SD, но бесшовный режим сильно снижал качество результата + мы не нашли готовую модель, которая бы адекватно генерировала текстуру. Однако, gpt‑image-1 справилась и с тем, и с тем, и на ней мы решили остановиться по части тайлов.

Сгенерированые тайлы на gpt-image-1 в сборке

Сгенерированые тайлы на gpt-image-1 в сборке

Улучшение тайлов
Тут мы уже получаем что‑то, с чем можно работать. После полишинга промптов и добавления пикселизации мы избавились от резких границ между тайлами, но мне визуально не нравился резкий обрезанный переход между разными типами картинок. Сначала мы подумали в сторону алгоритмической дифузии, но это выглядело не очень хорошо. Поэтому пришла идея провести SD‑дифузию границ тайлов...

Мы выделили базовый тайл локации, и для каждого иного тайла локации провели следующую операцию: выложили 8 тайлов 3×3 базового типа, и посередине вставили целевой тайл с которым мы хотим получить нейро‑переход, и по маске применили к нему img2img. Получилось что‑то неплохое:

До и после img2img по маске для получения внешних переходов

До и после img2img по маске для получения внешних переходов

Слева сборка тайлов второго прохода img2img для получения внутренних и боковых переходов. Справа сама маска перегенерации

Слева сборка тайлов второго прохода img2img для получения внутренних и боковых переходов. Справа сама маска перегенерации

Самое главное, что проведя вырезку итоговых тайлов после первого прохода, и перекомпоновав их еще раз, прогнав через более сложную маску, мы можем получить весь бесшовный набор переходов между этими видами тайлов (по стандарту 16-и тайловой карты). Выглядело это по итогу вот так:

Сгенерированые тайлы воды со сгенерировными переходами между базовым тайлом биома с травой

Сгенерированые тайлы воды со сгенерировными переходами между базовым тайлом биома с травой

Еще один пример с чем-то космическим

Еще один пример с чем-то космическим

Это было всё довольно дёшево (4 цента за тайл + 1 за переходы с базовым), а главное масштабировалось. С этими тайлами и переходами мы могли генерировать биомы произвольных размеров — то что и нужно было для нашей open‑world задумки.

Персонажи и анимация
Далее своё внимание мы обратили на объекты и персонажей. Опять же, у нас был выбор между SD и gpt‑image, первое было дешевле, контролируемее, но менее качественно. В силу того, что мы намучились с true‑alpha в SD (по стандарту SD не умеет генерировать альфу, а делает только белый фон), мы решили остановиться на gpt‑image для объектов, тем более они получались там более качественнее. Для персонажей же дела обстояли иначе, ибо мы хотели добавить покадровые анимации для ударов, бега и стояния на месте. С этим нам помог ControlNet + Pixelization + IPAdapter. Мы как раз уже умели генерировать портреты NPC, и радовало то, что вместе с контролированием позы мы могли переносить образ NPC прямо на анимированную фигурку.

Портрет персонажа + маска для ControlNet + итоговый результат анимации

Портрет персонажа + маска для ControlNet + итоговый результат анимации

Но у нас с этим методом были проблемы в том, что иногда SD генерировал стоячие анимации не лицом к камере, а задом, и мы поняли, что это была неточность в обучении самого ControlNet, так как кости стояли правильно (лицом в камеру). Так же отдельный геморрой был с обрезкой фона, так как. SD не умел в альфу без дополнительного плагина из‑за которого генерация теряла в качестве. Мы пробовали обрезать фон лучшими алгоритмами, достаточно хорошими нейросетями, но в генерациях SD иногда проскакивали какие‑то артефакты на фоне, которые сильно от него отличались. Не говоря уже о том, что у обрезанного спрайта на контрасте с тёмными цветами виднелась белая обводка, которую сложно было убрать без стирания самого спрайта (особенно если есть тень, или у персонажа полу‑прозрачная одежда). Самое большое разочарование в этом подходе было то, что получившееся кадры, если их проиграть как анимацию, не были похожи на что‑то динамическое! Мы предположили, что нейронка просто не понимает, что делает анимацию, и каждый кадр не приспособлен к тому, чтобы смотреться в динамике.

Пример динамики сгенерированной анимации данным методом

Пример динамики сгенерированной анимации данным методом

Структура мира и расстановка объектов
Далее нам нужно было сгенерировать саму структуру мира из тайлов, а также наполнить его различными точками интереса, соединив дорогами. Для прототипа ничего не стали придумывать особенного, и сделали генерацию тайлов через шум Перлина, создали горы и озёра, которые являлись отдельными типами тайлов для каждого биома.

Дальше перед нами стояли задачи по размещению объектов и персонажей в мир. Сэмплировать местность и как‑то фрактально просить нейросеть расставить каждый объект вручную было бы слишком дорого, и не факт, что качественно. Поэтому единственный вариант для открытого мира это поделить мир на зоны, и для каждого типа зон написать алгоритм генерации соответствующей структуры.

Мы выделили следующие типы зон: населенный пункт, лагерь, равнина, заросли и свободная территория (там все назначенные объекты расставлялись совершенно случайно). Для каждого типа существовал свой алгоритм, а также свои входные аргументы, которая LLM должна была заполнить. Например для населенного пункта были аргументы представляющие собой объекты: зданий, декораций, прохожих, и дорог (это уже тайл). Алгоритм расставлял категоризированные объекты в подходящие места. В итоге хоть и базово, но у нас получилась карта с городами и дорогами между ними:

Карта мира с дорогами и городами

Карта мира с дорогами и городами

Однако, по моим субъективным меркам прекрасного, вблизи сочетание всего того, что мы придумали, выглядело просто отвратительно... У нас еще, кажется, сломалась генерация персонажей к этому моменту, и у меня сохранился подобный скриншот:

Небольшой сгенерированый магический посёлок

Небольшой сгенерированый магический посёлок

Переосмысление концепта
В этот момент мы поняли, что делаем что‑то кардинально не то, собрались всей командой, и обсудили полную переработку нашего прототипа. По сути, мы решили делать не open‑world RPG, а пошаговый 2.5D narrative RPG. Вместо генерации открытого мира с квестами, мы решили сосредоточиться на повествовании истории, придуманной нейронкой.

Множество вещей, такие как анимации и открытый мир нам попросту не требовались. Следующего я не упоминал, но мы даже пытались генерировать скиллы для экшен боёвки, а именно сгенерировать интерпретируемый код на js для них (предоставив LLM C# интерфейс для взаимодействия с миром), и даже эту идею вырезали из‑за пошаговости (хотя она была довольно интересная). Пошаговость многое нам упростила, также как и разделение мира на небольшие локации. Через некоторое время мы собрали новый вид нашей игры, и выглядело это уже довольно красиво:

Визуал второго прототипа в жанре narrative RPG

Визуал второго прототипа в жанре narrative RPG

Мы подумали, что для наших генераций подойдёт вид как в don't starve. Мы приблизили камеру и повернули её на градусов 50, а так же укрупнили тайлы, и выставили объекты и персонажей перпендикулярно земле. Так же мы убрали нейронные переходы между тайлами, оставив только градиентную маску на границах разных типов. В целом сделали всё более наглядно, чтобы сфокусировать игрока на стиле сгенерированного мира, и контексте самой истории, каждая деталь уже была более важна.

Персонажей мы реализовали в виде «картонного» шейдера, и в принципе выбрали подобный стиль интерфейса. Шейдер превращает спрайт в меш и добавляет обводку. Так мы выделяем персонажей от фонового бекграунда, а вместо покадровой анимации ходьбы мы сделали прыжки по клеткам, чтобы избавиться от кривых покадровых анимаций.

Анимация передвижения в новом прототипе

Анимация передвижения в новом прототипе

А из‑за того, что мы поделили общую карту на локации с переходами между ними, каждая локация теперь составлялась не при помощи конструктора, а напрямую проектировалась LLM. Она рисовала сетку из тайлов по буквам, а также сразу же расставляла на них нужные объекты. На выходе мы получали подобную структуру, где первый символ это код тайла, а второй — объект на нём.
|ft|f.|fS|m.|mS|m.|
|f.|r.|rV|r2|vt|vb|
|r.|r.|r.|rE|vb|fS|
|fS|rT|rA|rA|ft|f.|
|ft|vt|vS|ft|f.|ft|
|fS|vb|ft|f.|ft|fS|

Под каждую локацию собирался свой список тайлов и декора, причём по инкриментальному принципу: нейронка могла переиспользовать уже придуманные ранее элементы. Из‑за того, что LLM собирала локации произвольно, в зависимости от их описания, назначения и сюжета, они лучше всего подходили по ситуации, и были очень разнообразными.

Пример расстановки объектов. Локация "Торговая площадь Понивиля"

Пример расстановки объектов. Локация "Торговая площадь Понивиля"

Внутри пчелиного улья

Внутри пчелиного улья

Про цену генерации
Так же хочу добавить комментарий относительно цены проектирования локаций. Среди всех генеративных запросов, которые мы отправляли в API, этот оказался одним из самых дорогих. Промпт был не очень большим, но качественный результат получался только у самых мощных моделей с thinking == high, и думало оно над небольшой локацией минут пять. Сравняться это лишь может по своему масштабу с генерацией истории главы (но об этом не в этой части). Не знаю почему так, но наверное внутри он проводил множественные итерации проектирования. Поэтому GPT-4 два года назад с этой задачей конечно же не справился, она оказалась не такой уж и простой.

Если же добавлять к этому тайлы, объекты карты и персонажей, то в сумме может выходить около полутора доллара. Это больше половины цены всей генерации, остальную скушает история и квесты. Всё это генерировалось при помощи gpt‑image-1.5 с качеством medium, и каждый тайл/объект/персонаж стоили нам в среднем так же по 4 цента. Вот и выходит, что средняя история на 30 минут геймплея с 6 локациями, учитывая переиспользование, содержит 6 тайлов, 8 персонажей и 15 различных объектов. Да, дорого, но такова цена относительно хорошей картинки. Хотя думаю какой‑нибудь Flux мог бы справится с подобным и подешевле, но деньги на разработку у нас уже закончились (мы не успели довести его до конца), поэтому я и решил вам рассказать про данный проект.

Важно уточнить, что всё это генерировалось не агентом. Мы вручную проектировали пайплайн по этапам, валидацию, формат данных, промпты и игровые ограничения. Нейросети генерировали содержимое внутри этих рамок, собирая под конец из разных частей итоговой json для воспроизведения его на unity клиенте.

Подытоживая
После переработки идеи всё в целом стало сильно проще, но теперь мы стали разрабатывать narrative RPG, поэтому мы были вынуждены задуматься о том как нам генерировать интересный сюжет и подачу, а не только квесты с диалогами (хотя тут тоже была проделана работа). Об этом, и о генеративной бекенд архитектуре я расскажу вам в следующей части данной серии статей.

Нам удалось добиться генерации 30 минутного геймплея за эти же 30 минут ожидания генерации, и туда был включён не только визуал и локации, а также сюжет, сюжетные ветки, озвучка, музыка и боёвка. Поэтому, как мне кажется, это довольно перспективно с учётом того, что это нам обошлось в сумме в 3 доллара по цене всех API запросов. Персональная игра за 250 рублей звучит неплохо) Однако, существуют несколько проблем, особенно с консистентностью сложного и большого сюжета и игровым его повествованием, которые мы побороли только частично, и об этом я вам тоже потом расскажу.

Спасибо, что дочитали до конца. Вопросы, сомнения и критику нейрогенерации буду ждать в комментариях. Постараюсь учесть их в следующей статье, где подробнее разберу генерацию сюжета и бэкенд-архитектуру.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

0%Попробовал бы демо просто из любопытства0

0%Генерировал бы свою вселенную, и доводил её до идеала0

0%Интересна только техническая часть, играть не стал бы0

0%Больше интересно поиграть в сгенерированные миры других людей0

0%Не интересно, не верю в нейрогенерируемые игры0

Никто еще не голосовал. Воздержавшихся нет.