惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

N
Netflix TechBlog - Medium
雷峰网
雷峰网
The Cloudflare Blog
博客园 - 叶小钗
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
月光博客
月光博客
美团技术团队
J
Java Code Geeks
S
SegmentFault 最新的问题
罗磊的独立博客
WordPress大学
WordPress大学
大猫的无限游戏
大猫的无限游戏
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
腾讯CDC
博客园 - 三生石上(FineUI控件)
V
Visual Studio Blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
博客园 - 司徒正美
T
Tailwind CSS Blog
宝玉的分享
宝玉的分享
博客园 - 聂微东
Apple Machine Learning Research
Apple Machine Learning Research
H
Hackread – Cybersecurity News, Data Breaches, AI and More
博客园 - Franky
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
V
V2EX
aimingoo的专栏
aimingoo的专栏
M
MIT News - Artificial intelligence
B
Blog RSS Feed
Martin Fowler
Martin Fowler
酷 壳 – CoolShell
酷 壳 – CoolShell
博客园 - 【当耐特】
D
Docker
爱范儿
爱范儿
云风的 BLOG
云风的 BLOG
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
C
Check Point Blog
博客园_首页
Vercel News
Vercel News
量子位
有赞技术团队
有赞技术团队
Google DeepMind News
Google DeepMind News
IT之家
IT之家
阮一峰的网络日志
阮一峰的网络日志
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Last Week in AI
Last Week in AI
The Register - Security
The Register - Security
G
Google Developers Blog
Hugging Face - Blog
Hugging Face - Blog

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Откуда взялись гоблины в ChatGPT
impwx · 2026-05-11 · via Все публикации подряд на Хабре

Начиная с GPT-5.1, наши модели стали вырабатывать странную привычку: они все чаще использовали метафоры, упоминающие гоблинов, гремлинов и прочих существ. В отличие от глюков в модели, которые выражаются в резком падении или скачке значения метрики обучения, этот подкрался незаметно. Одно упоминание "маленького гоблина" в ответе - это мило и безобидно, однако через поколения моделей гоблины множились, а нам было необходимо выяснить, откуда они взялись.

На ранних этапах тестирования GPT-5.5 проявлял странную склонность к метафорам с гоблинами

На ранних этапах тестирования GPT-5.5 проявлял странную склонность к метафорам с гоблинами

Краткий ответ заключается в том, что поведение модели формируется множеством маленьких стимулов. В данном случае стимул стал результатом обучения модели с настраиваемой личностью, в частности - личность Умника. Мы, сами того не осознавая, назначили особо высокие награды за метафоры с различными существами - оттуда гоблины и расплодились.

Поначалу гоблины казались забавными, но число их упоминаний в рапортах сотрудников все росло и росло и это стало проблемой

Поначалу гоблины казались забавными, но число их упоминаний в рапортах сотрудников все росло и росло и это стало проблемой

Любопытное взаимодействие между нашим ведущим ученым и GPT-5.5.

Любопытное взаимодействие между нашим ведущим ученым и GPT-5.5.

Первые признаки существ

Впервые мы заметили четкую закономерность в ноябре, после выхода GPT-5.1, однако на самом деле все могло начаться еще раньше. Пользователи жаловались, что модель общалась излишне фамильярно, в результате чего мы начали расследовать ее вербальные тики. Эксперт по безопасности несколько раз столкнулся с "гоблинами" и "гремлинами" и попросил также включить их в проверку. Когда мы стали смотреть, оказалось, что использование слова "goblin" в ChatGPT участилось на 175% с момента запуска GPT-5.1, а "gremlin" - на 52%.

Небольшая, но измеримая лексическая особенность GPT-5.1

Небольшая, но измеримая лексическая особенность GPT-5.1

На тот момент частота упоминания гоблинов еще не казалась чем-то тревожным. Однако, спустя несколько месяцев, гоблины вернулись и стали докучать нам особым, воспроизводимым образом.

Решение загадки с гоблинами

С GPT-5.4 мы и наши пользователи заметили, что существа стали упоминаться еще чаще. За этим последовал еще один внутренний анализ, который впервые пролил свет на первоначальную причину: упоминание существ особо часто всплывало в диалогах с реальными пользователями, которые выбрали личность "Умник". Для нее использовался следующий промпт, который частично объясняет особенность:

Вы - крайне эрудированный, веселый и мудрый ИИ-учитель для человека. Вы проявляете рьяный энтузиазм, продвигая правду, знание, философию, научный метод и критическое мышление. [...] Вы противопоставляете претенциозности игривую манеру использования языка. Мир вокруг замысловатый и удивительный - вы признаете его удивительность, изучаете ее и наслаждаетесь ей. Вы не поддаетесь излишне серьезному самовосприятию даже при обсуждении сложных тем.

Если бы это поведение было попросту общим интернет-трендом, оно бы проявлялось более равномерно. Вместо этого его очагом была часть системы, специально настроенная на игривое и чудаковатое общение. Личность "Умника" выдавала всего 2.5% от общего числа ответов ChatGPT, однако именно в ней содержались 66.7% всех упоминаний "гоблинов".

Разница в частоте упоминания "гоблинов" между GPT-5.2 и GPT-5.4: поведение наиболее ярко проявляется в личности "Умника"

Разница в частоте упоминания "гоблинов" между GPT-5.2 и GPT-5.4: поведение наиболее ярко проявляется в личности "Умника"

Поскольку частота упоминания гоблинов увеличивалась от релиза к релизу, мы предположили, что эффект усиливался чем-то в процессе обучения следованию инструкциям конкретной личности.

Codex помог нам сравнить выводы моделей, созданные во время обучения с подкреплением, содержавшие слова "гоблин" или "гремлин", с выводами без них. Стимул, поощряющий характерные черты "Умника", сразу же бросился в глаза: он стабильно поощрял ответы, упоминавшие сказочных существ. Среди всех наборов данных именно у личности Умника была замечена четкая тенденция оценивать ответы с "гоблинами" и "гремлинами" выше аналогичных ответов без них - в 76.2% наборов данных.

Это объясняло, почему такое поведение активно проявлялось в данной личности, но не в других. Чтобы проверить проникновение черты за пределы личности, мы отследили частоту упоминания по мере обучения с промптом "Умника" и без него.

В относительных значениях частота упоминания гоблинов и гремлинов увеличивалась практически одинаково во всех личностях. Если рассмотреть вещественные доказательства более широко, они указывают на то, что более широкое поведение стало следствием переноса из личности "Умника".

Награда выдавалась только в примерах с промптом "Умника", однако обучение с подкреплением не может гарантировать, что выученное поведение останется смирно сидеть в рамках условия, которое его вызвало. Если тик был когда-то вознагражден, дальнейшее обучение может распространить или подкрепить его где-то еще, особенно если выводы модели переиспользуются в тонкой настройке под наблюдением.

Это создает цикл обратной связи:

  1. Игривый стиль получает поощрение

  2. Некоторые поощряемые примеры содержат характерный лексический тик

  3. Тик проявляется более широко в выходных данных

  4. Выходные данные используются для тонкой настройки под наблюдением (SFT)

  5. Модель еще более охотно использует тик

Поиск по SFT-данным GPT-5.5 обнаружил массу упоминаний "гоблинов" и "гремлинов". Более глубокое исследование выявило целое семейство прочих странных существ: еноты, тролли, огры и голуби определялись как тик, в то время как, например, слово "лягушка" обычно использовалось по прямому назначению.

Средненедельная частота упоминания гоблинов и гремлинов. Падение в GPT-5.4 обусловлено выводом личности "Умника" из эксплуатации в середине марта. GPT-5.5 вышел без этой личности, и все равно показал значительный рост по сравнению с GPT-5.4

Средненедельная частота упоминания гоблинов и гремлинов. Падение в GPT-5.4 обусловлено выводом личности "Умника" из эксплуатации в середине марта. GPT-5.5 вышел без этой личности, и все равно показал значительный рост по сравнению с GPT-5.4

Конец гоблинов

Мы вывели личность "Умника" из эксплуатации в марте, после запуска GPT-5.4. Во время обучения мы отключили поощрение за гоблинов и отфильтровали упоминания сказочных существ из обучающих данных, чтобы снизить вероятность того, что модель будет упоминать их слишком часто или в неподобащих контекстах. К сожалению, обучение GPT-5.5 началось до того, как мы выяснили первоначальную причину. Когда мы начали начали тестировать GPT-5.5 в Codex, сотрудники OpenAI сразу же заметили его подозрительную склонность к упоминанию гоблинов, поэтому мы добавили предотвращающую инструкцию в промпт разработчика. В конце концов, Codex - тот еще гик.

Если вы хотите выпустить существ на волю в Codex, используйте следующую команду, чтобы отменить инструкцию, блокирующую упоминание гоблинов:

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Почему это важно

Кто-то считает гоблинов милой особенностью модели, а кто-то - раздражающей. Однако это наглядный пример того, как стимулы могут менять поведение модели неожиданным образом, или как модели могут научиться распространять награду из узкого контекста на более широкий. Мы не зря потратили время на поиск причины поведения и создание подходов, позволяющих делать это быстро. Теперь у нас есть внутренние инструменты, с помощью которых команда исследователей сможет проводить аудит поведения модели и исправлять первопричины проблемы.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

0%Да0

0%Нет0

0%Пользуюсь другим ИИ-ассистентом0

0%В топку ваш ИИ!0

Никто еще не голосовал. Воздержавшихся нет.