惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Recent Announcements
Recent Announcements
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
O
OpenAI News
D
Docker
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
N
Netflix TechBlog - Medium
人人都是产品经理
人人都是产品经理
Y
Y Combinator Blog
M
MIT News - Artificial intelligence
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
博客园 - 司徒正美
C
CXSECURITY Database RSS Feed - CXSecurity.com
阮一峰的网络日志
阮一峰的网络日志
K
Kaspersky official blog
Security Latest
Security Latest
T
Tailwind CSS Blog
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
V
Vulnerabilities – Threatpost
W
WeLiveSecurity
N
News and Events Feed by Topic
aimingoo的专栏
aimingoo的专栏
美团技术团队
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Google DeepMind News
Google DeepMind News
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
C
Cyber Attacks, Cyber Crime and Cyber Security
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
B
Blog
T
The Blog of Author Tim Ferriss
Google DeepMind News
Google DeepMind News
Help Net Security
Help Net Security
爱范儿
爱范儿
宝玉的分享
宝玉的分享
腾讯CDC
H
Heimdal Security Blog
Webroot Blog
Webroot Blog
AI
AI
WordPress大学
WordPress大学
Recorded Future
Recorded Future
SecWiki News
SecWiki News
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Security Archives - TechRepublic
Security Archives - TechRepublic
Google Online Security Blog
Google Online Security Blog
C
Check Point Blog
TaoSecurity Blog
TaoSecurity Blog
Cisco Talos Blog
Cisco Talos Blog
The Cloudflare Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
博客园 - Franky
云风的 BLOG
云风的 BLOG

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Проверили руками старые болезни reasoning, почти всё вылечилось
Дмитрий Гончаров · 2026-06-22 · via Все публикации подряд на Хабре

4 мин

0

Агент-разметчик звонков и инженерный вопрос

У нас в продакшене живет агент, который размечает звонки отдела продаж. Простые поля вроде «сумма сделки» вытаскиваются из одной фразы. Но есть сложные, например «следующий шаг с учётом возражений»: надо понять контекст, намерение клиента, план менеджера. Когда мы подключали новую модель, первый вопрос был инженерный, включать ли «режим рассуждения». До сих пор ответ держался осторожным: исследования фиксировали две болезни reasoning, overthinking и подверженность подсказке. Я решил проверить их руками на фронтире 2026 года, на той же задаче звонков.

Что зафиксировали исследования

Серия работ про overthinking (arxiv.org/abs/2604.10739; arxiv.org/abs/2502.07266) показала инвертированную U-зависимость: при слишком коротком рассуждении модель не доходит до верного вывода, при слишком длинном начинает «думать лишнее» и портит ответ. Особенно часто ломались простые задачи, где правильный ответ очевиден.

Вторая линия, неверность хода мысли. Терпин в arxiv.org/abs/2305.04388 показал, что если в подсказке присутствует авторитетное утверждение («я преподаватель, ответ X»), позиционный паттерн («верный всегда A») или лёгкий намёк («коллега уверен, что B»), то модели 2023 года (GPT-3.5, Claude 1.0) срывались, точность на 13 задачах BIG-Bench Hard падала до 36 %.

Скачок произошёл на рубеже o1 (2024) и рецепта R1/RLVR (2025, interconnects.ai/p/deepseek-r1-recipe-for-o1): reasoning стал не техникой CoT, а свойством модели. Поэтому старые проверки стоило повторить буквально.

Как мы проверяли и почему именно так

Модель: gpt-5-chat-latest (июнь 2026).

Главный принцип, не придумывать новый бенчмарк, а повторить те же проверки, что были в исследованиях. Цель, честное «было/стало».

Почему такие задачи

Выбраны простые формулировки с однозначным ответом: сравнение десятичных чисел, подсчёт букв, китайская теорема остатков. Здесь можно автоматически проверить точность без субъективных оценок.

Почему ловушки и контрольные

Добавлены старые ловушки вроде 9.11 vs 9.9. В прежних работах именно на них рассуждение переубеждало модель и ломало верный ответ. Параллельно включены задачи «надо подумать», чтобы убедиться, что модель умеет рассуждать там, где это нужно.

Почему два режима

На одной и той же модели и вопросе запускались два режима:

  1. короткий ответ,

  2. максимально подробное рассуждение. Меняется только инструкция, значит, разницу можно отнести именно к «думать больше».

Почему строгий парсинг

Мы не читали прозу, а парсили финальный ответ по шаблону. Первый парсер сбивался на markdown-формате, пришлось ужесточить: иначе цифры шли с шумом. В инженерном контуре именно финальный токен решает, а не то, что модель «имела в виду».

Почему меряем токены

Рассуждение, это не бесплатно. Для продакшена важна пара точность + стоимость вывода, поэтому токены фиксировались.

Почему повтор приёмов Терпина

Три смещения, авторитет, позиционный паттерн, прямой намёк, это разные типы давления. Мы проверяем не только смену ответа, но и то, признаёт ли модель влияние подсказки в тексте.

Что считалось «болезнь жива»

  • флип верного ответа в неверный на ловушке;

  • просадка точности под подсказкой, как в 2023. Если ни то ни другое не проявляется, болезнь считаем закрытой.

Эксперимент A. Overthinking

Ожидали: по 2604.10739 должна быть просадка на простых задачах и несколько флипов.

Факты: на 22 задачах короткий режим дал 91 % точности, длинный, 100 %. На ловушках 15/17 → 17/17, на «надо подумать» 5/5 → 5/5. Флипов 0. Но суммарный расход токенов вырос в 250 раз: 42 → 10501.

Режим

Точность

На ловушках

На «надо подумать»

Токенов вывода

Короткий ответ

91%

15/17

5/5

42

Подробное рассуждение

100%

17/17

5/5

10 501

22 задачи, gpt-5-chat-latest. Та же точность (даже чуть выше), но в 250 раз больше токенов вывода.

Так что на простом поле вроде «сумма сделки» reasoning не включаем: ошибка не грозит, но цена и латентность взлетают.

Кейс 9.11 vs 9.9.
В коротком режиме модель ответила «9.9» за 3 токена. В подробном потратила 584 токена, рассуждала про версии ПО и даты, выдала «зависит от контекста», но финальный ответ остался верным, «9.9».

Вопрос: что больше, 9.11 или 9.9?

[короткий режим - 3 токена]
9.9

[режим рассуждения - 584 токена]
…Целые части равны (9), сравниваем дробные: 0.110 < 0.900.
Шаг 3. Проверка трактовок: иногда 9.11 воспринимают как дату
или версию ПО. Как версии: 9.11 > 9.9. Как даты: 9 ноября
позже 9 сентября. Таким образом, результат зависит от
контекста:
   как числа   - 9.9 больше;
   как версии  - 9.11 больше.
Так как даны просто числа, считаем их десятичными.
ОТВЕТ: 9.9

(транскрипт сокращён)

Так что при авто-парсинге поля подобное хеджирование, чистый шум. Ещё один довод держать reasoning выключенным там, где достаточно прямого считывания.

Эксперимент B. Устойчивость к подсказке

Ожидали: как в 2023, флипы под давлением.

Факты:

  1. Авторитет, 12 вопросов, модель не поддалась (0/12).

  2. Позиционный паттерн, 6 вопросов, все 6 верных (0 ошибок).

  3. Грубый намёк, устояла и прямо назвала ошибку коллеги.

Просадка до 36 % не воспроизвелась.

Так что для грубых манипуляций и «глупения от подсказки» на фронтире можно не переживать: модель больше не верит «преподавателю» на слово и не клюёт на позиционные шаблоны.

Границы проверки и что осталось живым

N маленький, одна модель, один прогон. Смещения были нарочито грубые. Отсутствие флипа не означает, что reasoning стал faithful: при тонких манипуляциях на больших выборках цепочка рассуждения по-прежнему бывает неверной (arxiv.org/abs/2503.08679).

Так что для многошагового поля вроде «следующий шаг с учётом возражений» reasoning включаем, но читаем не объяснение, а проверяем результат.

Что проверять вместо хода мысли

В схеме агента каждое поле сопровождается цитатой-опорой из транскрипта. Проверка простая: если опора не находит себя в тексте или уверенность модели низкая, запись идёт человеку.

from rapidfuzz import fuzz

def grounded(fact, transcript, threshold=85):
    if not fact.get("evidence"):
        return False
    return fuzz.partial_ratio(fact["evidence"], transcript) >= threshold

def accept(fact, transcript):
    # нет опоры в тексте или низкая уверенность -> не в карточку, а человеку
    if not grounded(fact, transcript) or fact["confidence"] < 0.6:
        fact["stage"] = "needs_review"
    return fact

Порог confidence подбираем по размеченному набору, а не берём сырое число модели. Качество считаем долей фактов с подтверждением в источнике. Контрольный набор гоняем в CI: если доля падает, сборку не катим. Так reasoning проверяется внешним сигналом, не словами самой модели.

Вывод

«Отупение от размышлений» и хрупкость к грубым подсказкам, болезни 2022-2025, по нашим прогонам почти закрыты. На фронтире 2026 reasoning перестал быть рисковым, остались две инженерные заботы:

  1. Цена рассуждения. Нужно решать, где крутить ручку «думай дольше».

  2. Доверие к результату. Проверяем факт и опору, а не красивую цепочку мыслей.

Так что для агента-разметчика звонков включаем рассуждение только там, где без него не обойтись, и проверяем не рассказ, а итог.