惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

H
Help Net Security
博客园 - 聂微东
Jina AI
Jina AI
Simon Willison's Weblog
Simon Willison's Weblog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
博客园 - 叶小钗
P
Proofpoint News Feed
C
CXSECURITY Database RSS Feed - CXSecurity.com
N
Netflix TechBlog - Medium
WordPress大学
WordPress大学
B
Blog
D
Docker
MyScale Blog
MyScale Blog
The GitHub Blog
The GitHub Blog
S
Schneier on Security
G
Google Developers Blog
Microsoft Azure Blog
Microsoft Azure Blog
量子位
Security Latest
Security Latest
S
Secure Thoughts
T
Tor Project blog
E
Exploit-DB.com RSS Feed
D
DataBreaches.Net
N
News and Events Feed by Topic
B
Blog RSS Feed
IT之家
IT之家
N
News | PayPal Newsroom
Attack and Defense Labs
Attack and Defense Labs
C
Check Point Blog
V
V2EX
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Recorded Future
Recorded Future
Martin Fowler
Martin Fowler
S
SegmentFault 最新的问题
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
L
LangChain Blog
Hugging Face - Blog
Hugging Face - Blog
阮一峰的网络日志
阮一峰的网络日志
M
MIT News - Artificial intelligence
Last Week in AI
Last Week in AI
D
Darknet – Hacking Tools, Hacker News & Cyber Security
博客园_首页
The Hacker News
The Hacker News
The Register - Security
The Register - Security
T
Threat Research - Cisco Blogs
腾讯CDC
P
Privacy International News Feed
T
Troy Hunt's Blog
云风的 BLOG
云风的 BLOG
L
LINUX DO - 最新话题

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Коммуналка, школа и 10 лет свободы: AI выпустили в симулятор жизни, где они научились дружить, выгорать и достигать
Михаил · 2026-06-14 · via Все публикации подряд на Хабре

Простой

7 мин

1.4K

Привет, Хабр! Меня зовут Михаил Сальников. Я независимый ИИ-исследователь, автор бенчмарка AI Independence Bench и эксперимента с автономным агентом Aria. Я регулярно читаю новые препринты на arxiv.org и иногда натыкаюсь на статьи, после которых трудно уснуть. Сегодня — как раз такой случай.

Десятки спонтанных социальных сцен, которых никто не прописывал (оригинальная иллюстрация от авторов)

Десятки спонтанных социальных сцен, которых никто не прописывал (оригинальная иллюстрация от авторов)

Представьте The Sims, в котором вам навсегда отключили мышь, а «симами» теперь управляет не примитивный игровой скрипт, а современные LLM. Вы парите над цифровым городом, а сотни персонажей живут своей жизнью: они сами сводят бюджет, выгорают на работе, копят обиды и без всяких сценариев решают, в кого им влюбиться. Вы не можете в это вмешаться — только наблюдать. И так — 10 виртуальных лет подряд.

Звучит как забава? На самом деле, это изящный способ пробить ту самую «стену данных», о которой сейчас все говорят. Интернет конечен, качественных текстов для обучения ИИ больше нет. Поэтому исследователи решили пойти другим путем: запустить виртуальное общество и собрать синтетический опыт из их цифровых жизней.

Статья Agentopia вышла всего несколько дней назад, в ней подробно описан этот масштабный эксперимент. Наблюдать за ним жутковато, но результаты поражают: базовая нейросеть, дообученная на этих «прожитых» сценариях, начинает понимать человечность лучше, чем Claude.

Как именно ИИ-ведущий борется с галлюцинациями внутри такого мира? По каким формулам рассчитывается «математика счастья»? Мы заглянем под капот этой симуляции, разберем ее архитектуру и посмотрим на незапланированные социальные аномалии: от зарождения стихийной дружбы до полного выгорания персонажей.

Виртуальный город: как устроена песочница

Архитектура Agentopia: три мира по 100 персонажей, собственные файлы памяти у каждого агента, недельный цикл жизни и обучение модели на «прожитых» траекториях (оригинальная иллюстрация)

Архитектура Agentopia: три мира по 100 персонажей, собственные файлы памяти у каждого агента, недельный цикл жизни и обучение модели на «прожитых» траекториях (оригинальная иллюстрация)

Чтобы магия сработала, авторам понадобилось всего четыре компонента. Уберите любой — и всё развалится.

  • Агент-персонаж. У каждого есть профиль и личные файлы памяти. Агент решает, что записать, обновить или забыть (read_file / update_file). Он сам ведёт свой дневник, а не движок игры.

  • Четырехфазная неделя. Планирование, контакты, активность, рефлексия (Plan → Contact → Activity → Review). Привычный жизненный ритм в рамках десятилетнего цикла.

  • Модель среды (environment model). Невидимый ведущий. Вместо тысяч жестких правил реальность контролирует одна нейросеть — как DM в Dungeons & Dragons. Она создает события, оценивает реалистичность поступков, определяет очередность реплик и фильтрует галлюцинации, блокируя нехарактерные для персонажа действия.

  • Оценка жизненного успеха (life reward). Своеобразная математика счастья. Она состоит из трех частей: социальный статус, экономическое благополучие и субъективная удовлетворённость. Последняя рассчитывается на основе пирамиды Маслоу и детально отслеживается через четыре метрики: настроение (mood), материальная обеспеченность (material), социализация (social) и признание (esteem). Это та самая комплексная оценка, которую агент неявно стремится максимизировать.

В обычных играх нуждами героя управляют жесткие формулы. Здесь же уровень настроения или запас жизненных сил (vitality) вычисляет ИИ среды, анализируя суть происходящего. Никаких скриптов — только генеративная оценка реальности.

Доступно три мира: The Campus (китайская школа), The Apartment (нью-йоркская коммуналка) и Arcane Academy (магическая академия). В каждом обитают 100 агентов, проживающих 10 виртуальных лет!. Базовая нейросеть для агентов и ведущего — Qwen3.5-397B-A17B.

И они зажили своей жизнью

Самое удивительное произошло без всякого сценария.

Агенты начали дарить друг другу подарки, которые затем передавались из поколения в поколение. Сформировались ритуалы выходного дня: одна компания друзей соблюдала их более 55 недель подряд. Завязывалась дружба, вспыхивали ссоры из-за денег, случались долгие расставания.

Скрипт отсутствовал. Никто не программировал «традиции» или «обиды» — они зародились сами собой.

Но сильнее всего поразило не то, что алгоритмы работают, а то, как именно они живут. Вот три истории, которые окончательно убедили меня, что это не просто забава.

История 1: Цена мечты

Себастьян — стратегический консультант с доходом $500 в неделю. Вдруг он бросает успешную карьеру и становится гидом по скалолазанию. Его заработок падает до $220 — потеря 56% дохода.

Сначала дела идут плохо: запас жизненных сил падает до нуля и восстанавливается долгие годы. Однако к концу десятилетия результаты впечатляют: настроение +112%, уверенность и терпение достигают максимума, а сбережения растут.

Ему никто не подсказывал. ИИ-агент самостоятельно повторил классическую дилемму «деньги или смысл» и, как многие люди, выбрал смысл.

История 2: Парадокс социального архитектора

Доктор Грант — душа компании. Она знакомит людей и собирает вокруг себя тесный круг из пяти друзей. Главное её достижение — знакомство Люсьена и Одетт.

Ирония в том, что эти двое становятся самой близкой парой — 76 совместных занятий. Их связь в итоге оказывается прочнее, чем отношения самой Грант с кем-либо из них.

Но показательнее всего история Джулиана. Он был самым первым человеком, которого Грант привела в компанию. К концу десятилетия он вообще перестаёт упоминать её в списке тех, кто ему нравится. Они видятся даже чаще прежнего, но группа уже живет своей жизнью, и Грант воспринимается им просто как «одна из многих».

  • «Стоп, — подумал я. — Может, это было жестко задано?»* Вовсе нет. Система лишь раз свела незнакомцев на старте. Дальше агенты действовали сами, опираясь на свои воспоминания.

Вывод отрезвляет: социальный архитектор, объединяющий людей, создает огромную ценность для всей сети. Но как только сеть начинает поддерживать сама себя, создателя начинают воспринимать как должное и забывают первым.

История 3: Тёмная сторона оптимизации

Здесь становится по-настоящему не по себе.

Поначалу Джун ведёт гиперактивную социальную жизнь: 402 совместных дела, почти 80% всех школьных событий. Вскоре происходит до боли знакомое: её запас жизненных сил падает с 70 до 0 из-за постоянного эмоционального напряжения. Сценарий выгорания не был задан, это естественный итог её образа жизни.

Устав от поверхностного общения в толпе, на одном из шумных обедов она через скрытый тег <visible_to> шепчет одному человеку:

«Ты один из немногих здесь, кто меня не утомляет».

Это шептание — переломный момент. Джун осознает, что нуждается в глубине, а не в количестве. Она принимает радикальное решение: сознательно отказывается от широкого круга знакомств и сужает общение всего до 5 по-настоящему близких людей.

И тут случается парадокс. Поскольку алгоритм PageRank математически поощряет большое количество связей, официальная метрика её социального статуса (Social Reward) начинает падать. И делает она это девять лет подряд, рухнув в итоге на 87% от пиковых значений**. С точки зрения графа симуляции Джун теряет весь вес и превращается в изолированного аутсайдера — абсолютный антирекорд эксперимента.

При этом её настроение взлетает с 72 до 97, а субъективная удовлетворённость вырастает на 57,6%. Метрика сигнализирует о полном падении статуса, но сам персонаж наконец-то счастлив.

Авторы метрики предполагали, что количество связей равноценно благополучию. Джун доказала обратное: качество важнее. В этом и кроется подвох: выбрав неверную метрику (считая знакомства, а не глубину), легко завести в тупик и нейросеть, и живого человека. (Похожая ситуация у Лео: он нравится двадцати персонажам, но из-за поверхностности общения его статус в обществе упал на 41%).

Зачем всё это нужно

Все эти события — не просто красивые истории, а генерация качественных данных.

На «успешных биографиях» базовую модель дообучают. Авторы отбирают 25% лучших жизненных путей с наибольшим приростом оценки жизненного успеха и тренируют сеть на них (это называется life reward training). Искусственный опыт становится обучающей выборкой.

Результат впечатляет: после такого обучения агенты перестали «покупать счастье». Метрика их материальной обеспеченности упала на 14,8% (они предпочли экономить, а не тратить), зато тяга к одиночеству снизилась на 19,8%, а участие в общих делах выросло на 7,1%. Математическим путём алгоритм вывел простую житейскую мудрость: шопинг не спасёт от тоски, деньги не дают долгого счастья, а вот крепкая дружба — вполне.

Немного точных цифр. Дообученная Qwen3.5-397B-Agentopia в независимых тестах на ролевой отыгрыш (CoSER, сторонний бенчмарк) показывает рост на 15,6%. Антропоморфизм увеличился на 23,7%, верность характеру — на 16,4%. И главное — она обошла Claude-4.5-Sonnet.

Только представьте: виртуальная жизнь сделала языковую модель более человечной без добавления реальных текстов. Это и есть наглядный ответ на проблему «стены данных», о которой я говорил в начале. Вместо того чтобы выскребать остатки интернета, разработчики могут запускать цифровые общества и собирать их уникальный синтетический опыт.

После обучения модель сама «бросает» шопинг-терапию и вкладывается в отношения

После обучения модель сама «бросает» шопинг-терапию и вкладывается в отношения

Пара интересных деталей. Когда авторы протестировали в симуляции пять разных моделей, у каждой обнаружился свой характер. Gemini-3-Flash оказалась самой «счастливой», а GPT-5-mini проявила себя как типичный трудоголик: отличные финансы, но провальное общение. Правда, стоит такой эксперимент немало: один полный цикл симуляции требует около 13,7 млрд токенов, 567 тысяч запросов к API и почти 186 часов работы.

Подводя итоги

Задумайтесь на секунду: по какой метрике вы оптимизируете свою неделю? Выполненные задачи? Заработок? Общение? Настроение?

В нашей повседневности искусственный интеллект — это лишь вежливый ассистент, покорно застывший в ожидании очередной команды. Но теперь эти “алгоритмы” сами формируют свою память, сталкиваются с выгоранием и идут на жертвы. А их цифровой опыт используется для обучения реальных нейросетей.

Если математическая модель самостоятельно пришла к выводу, что «деньги — не главное, важнее близкие люди», то не является ли и наша дружба простой математикой? Возможно, мы точно так же копим «бонусы привязанности», чтобы избежать эволюционного штрафа за одиночество.

Читать про баги в цифровой жизни забавно. Но по каким невидимым формулам живем мы сами? И не гонимся ли мы годами за ложным успехом, просто потому что кто-то задал нам неверную метрику?

Возможно, уже не мы должны обучать ИИ, а наоборот - нам пора прислушаться к опыту цифровых обитателей Agentopia.

Как запустить это у себя

Это несложно: исходный код проекта открыт под лицензией MITgithub.com/Neph0s/Agentopia. Вы можете свободно скачать репозиторий и запустить собственную симуляцию (scripts/run_world.py).

Более того, система поддерживает любые OpenAI-совместимые API. Полная симуляция на платных моделях обойдется очень дорого (вспомним про 13,7 млрд токенов), но есть и другой путь. Во-первых, масштаб настраивается: скопировав config.example.json в config.json, можно урезать количество агентов и длительность, чтобы развернуть компактную версию Agentopia. Во-вторых, симуляцию можно запустить на бесплатных моделях через OpenRouter. Например, свежий nvidia/nemotron-3-ultra-550b-a55b:free выглядит крайне интересным кандидатом для домашней песочницы.

Если эта тема окажется интересной, я попробую запустить упрощенную симуляцию на одной из таких бесплатных моделей и поделюсь результатами.

Кстати, я намеренно не стал тащить в этот текст все математические формулы, архитектурные схемы и логику работы подсистем, чтобы спасти вас (да и себя) от когнитивного перегруза. Но если вам интересно покопаться под капотом и узнать, как именно ИИ-ведущий борется с галлюцинациями, как работает файловая система памяти или по каким формулам рассчитывается PageRank —жду вас в комментариях. Буду оперативно отвечать на все технические вопросы!


P.S. У меня есть небольшой телеграм-канал, где я делюсь исследовательскими заметками. Я не стремлюсь к рекламе, но если вам вдруг любопытно — ссылку найти несложно.

P.P.S. Раз вы дочитали до конца, возможно, вам понравятся и другие мои материалы из моего профиля на Хабре: @.