惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

The Cloudflare Blog
阮一峰的网络日志
阮一峰的网络日志
人人都是产品经理
人人都是产品经理
宝玉的分享
宝玉的分享
L
LINUX DO - 热门话题
量子位
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Apple Machine Learning Research
Apple Machine Learning Research
Scott Helme
Scott Helme
O
OpenAI News
V
Visual Studio Blog
博客园_首页
T
Threat Research - Cisco Blogs
H
Hacker News: Front Page
罗磊的独立博客
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
PCI Perspectives
PCI Perspectives
T
The Exploit Database - CXSecurity.com
Malwarebytes
Malwarebytes
IT之家
IT之家
A
Arctic Wolf
NISL@THU
NISL@THU
SecWiki News
SecWiki News
T
Tenable Blog
博客园 - 叶小钗
Project Zero
Project Zero
C
CERT Recently Published Vulnerability Notes
W
WeLiveSecurity
N
News and Events Feed by Topic
博客园 - 【当耐特】
博客园 - Franky
大猫的无限游戏
大猫的无限游戏
Spread Privacy
Spread Privacy
V
V2EX
Jina AI
Jina AI
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Cisco Blogs
P
Privacy & Cybersecurity Law Blog
爱范儿
爱范儿
李成银的技术随笔
月光博客
月光博客
S
SegmentFault 最新的问题
T
Tailwind CSS Blog
L
Lohrmann on Cybersecurity
有赞技术团队
有赞技术团队
F
Fortinet All Blogs
M
Microsoft Research Blog - Microsoft Research
G
GRAHAM CLULEY
Recorded Future
Recorded Future
B
Blog

Все публикации подряд на Хабре

Zero — новый agent-first язык программирования от Vercel, который изменит все (нет) Запускаем рекламу в дачной нише: какие креативы и форматы работают, на что смотреть в аналитике Паттерны организационного дизайна: практическое руководство Почему алгоритмы сливают твой депозит? 3 причины, о которых молчат «успешные» бэктесты Как «спят» вкладки в браузере Приоритет задач определяется не только ощущением срочности [Перевод] Махинации с прибылью Anthropic Project Loom: Virtual Threads, Scoped Values и preview #7 Structured Concurrency Мнения математиков о том, как ИИ опроверг гипотезу Эрдёша Слабоумие и отвага: как я за выходные сделала прототип ИИ-помощника для UX-дизайнера ИИ учит нас писать лучше. Или хуже? Как проектировать ИИ-инструменты, которые делают пользователей лучше «Раньше хотел каждый, сейчас и бесплатно не надо»: гаджеты, про которые мы все забыли ИИ-агенты в бизнесе: почему 80% компаний увольняют людей, но не получают ROI Как я строил ИИ-стартап, или Новые архитектурные риски 2026 4 интересных парадокса, рождающих жаркие дискуссии Рабочее место не-вайбкодера: настраиваем harness Когнитивный инжиниринг Feature Based Clean Architecture. Часть 1: Эволюция NestJS-приложения в неподдерживаемое состояние Как мы перестали бояться «пустых охватов» и сделали инфлюенс-маркетинг управляемым каналом роста Подключили B2B email-платформу к голосовым ассистентам через MCP. Архитектура, код, где ломается [Перевод] Почему AI-агенты ломаются на длинных задачах — и как обвязка помогает им дописывать приложения Облачно, возможны нейросети: кризис датасетов и ахиллесова пята систем машинного зрения — DIY-чтение на выходные Спустя 5 лет и $5 миллионов: почему создание нового языка для веб-разработки оказалось ошибкой Безопасная песочница Облачная LLM на 16 ГБ VRAM — часть 2: LangGraph Server, LangSmith и SDK Современный SSH-клиент для MS-DOS Как продвигать агентство недвижимости: от вывески до прямых эфиров MCP для GitHub + GitLab: инженерный гайд 2026 Вы платите OpenAI $20 в месяц, а он зарабатывает на вас ещё $100 млн за полтора месяца. И это только начало ИИ забирает работу «белых воротничков»: чему учить детей, чтобы выжить в будущем Практический ИИ-агент Python: LangGraph + Qdrant Как я делал ping и traceroute на iOS без entitlements — и почему это оказалось проще, чем UMP-консент для AdMob 4 MVP за 4 месяца, 30 холодных DM, 1 регистрация: building in public по-русски VPS-бастион: доступ к домашнему серверу без белого IP Kampus AI — нейросеть для генерации учебных работ для студентов и школьников Игры, помогающие продавать — примеры интересных рекламных акций с видеоиграми €500 в Telegram Ads принесли сделку на 350 000 ₽. Разбор B2B-кампании Чтение на выходные: «Разработка игр и теория развлечений» Рафа Костера Личный архив: сбор, бэкап, таймлайн фотографий INFOSTART TECH EVENT или INFOSTART A&PM EVENT — как понять, куда вам нужнее? Peer testing на основе Закона Линуса Релиз GitLab 19.0: ИИ-оркестрация, которая наконец-то догнала темп написания кода Как бизнесу оценить готовность к аттестации по новому Приказу ФСТЭК № 117 Технический гайд по сторис – часть 4: как мы добавили видео формат Представительство в арбитражном процессе: правовые различия между внешним защитником и инхаусом «Где новые фичи?» — Как AI-миграция легаси вернет IT-бюджет бизнесу Что нужно знать работнику про увольнение Новые требования Москвы к ЦИМ для АГР: готовый инструмент для проектировщиков в nanoCAD BIM Строительство WireGuard: простота и надёжность современного VPN-туннеля или секретное рукопожатие в тёмной комнате Выйдет ли GTA 6 в 2026 году, и чего ждать от игры Как меня назвали «невовлечённым», а я нашёл офшоры на Кипре Как LLM научила рекомендательную модель видеть больше, чем историю взаимодействий От хаоса к экосистеме: Модель зрелости комьюнити в бизнесе Свет, тьма, VEML7700 и Python Сказ о том, как мы процессы разработки в GRI меняли. Часть 2 Майский «В тренде VM»: громкие уязвимости в Linux, ActiveMQ, SharePoint и Acrobat Reader Статический анализ, заряженный ИИ: как LLM ищут уязвимости в коде и где их границы Блок “Процессы” и почему мы называем его нашим мини-n8n Как поменялся рынок интернет-рекламы: сравнение первых кварталов 2025 и 2026 годов: исследование click.ru Мониторинг Kerio Connect через Zabbix 7: разбор шаблона без агентов и regex по DAT 671 Allow в Claude Code за день: как родился сетап Spec-build 3 известные интересные задачи на логику Как айтишнику позаботиться о менталке и не перерабатывать OpenAI vs Anthropic: битва экс-коллег за корпоративного клиента и $1 трлн на IPO SEO для интернет-магазина в 2026: что поменялось и как с этим работать Сможете ли вы спроектировать Maven‑монорепозиторий для 5 микросервисов? 6 неудобных вопросов про американское произношение, которые айтишники боятся задать Неожиданная встреча: теория графов вновь помогла решить проблему в анализе Фурье Иллюзия трансформации: почему компании платят за спектакль вместо изменений AMD представила Ryzen 9 PRO 9965X3D и еще 5 процессоров, которые пойдут далеко не всем История IDE в Google Первые отзывы на новинки о System Design Влияние параметра planner_upper_limit_estimation на планы выполнения и профиль нагрузки PostgreSQL при использовании 1C Границы 100% разработки с агентами Быстрый OCR на основе Paddle Дооснащение любительской электровакуумной мастерской. Вакуумметр, течеискатель, полярископ Mythos: модель, о которой Anthropic не говорит. Реверс по жертвам — от 27-летней дыры в OpenBSD до побега из песочницы Как использовать Qwen3.7-Max и Grok Build 0.1 для ИИ-агентов в России Suricata IPS NFQueue with nDPI. Часть VI Важные изменения в защите информации в России: что нового? В чем секрет достоверного замедления биологического старения? Вредное ускорение: Умный светофор на перегруженных перекрестках Как сисадмин написал свою библиотеку для Jira на Ruby: история Rujira Сломанный найм: почему рынок труда превратился в казино и что с этим делать Физики нашли свидетельства того, что Вселенная не идеально однородна, вопреки стандартной модели космологии Вопросы на собеседованиях, к которым лучше готовиться заранее Что детектировал детектор таксофонных карт? Как работают выделенные ядра в облачном сервере: от планировщика Linux до тестов производительности Математика кластеров: разбираемся в умной кластеризации данных на примере нашей системы поиска аномалий в логах. Часть 1 Ответы с «деврел‑супервизии», вопрос седьмой: выгорание, когда от вас ждут вечный драйв и креатив История одного // todo, который ждал своего часа пол года Если пропустили Claude последние 3 месяца: топ-5 фич с юзкейсами и история про $400K в Bitcoin Проектируем с нуля калькулятор на FPGA. Части 4 и 5: Фреймворк и оборудование Почему 10× от AI могут дать только лояльные сотрудники Speech-to-LaTeX: распознавание математических выражений и предложений в LaTeX Что внутри портфолио продуктовых и ux/ui-дизайнеров из Т-Банка, Додо, Figma, Альфы, Revolut? Чем заменить Excel в 2026 году: обзор российского ПО и других аналогов Как Rust обрабатывает repr и ABI на границе с C: что ломается и почему 5 промтов, чтобы подготовить презентацию в нейросетях через SpeShu.AI
Как мы подключили LLM к поддержке, а получили идеального лжеца
xuxur · 2026-05-23 · via Все публикации подряд на Хабре

Время на прочтение5 мин

Охват и читатели113

Кейс

Где‑то в начале года мы решили: давайте автоматизируем часть поддержки через LLM. Ну, знаете, идея тогда казалась почти очевидной.

У нас SaaS‑продукт, вопросы в основном типовые: «где там настройки поменять?», «данные не обновляются — почему?», «хочу сменить тариф», «webhook не приходит», «логи посмотреть». В общем, большая часть тикетов выглядела так, будто их можно закрывать роботом. Особенно когда очередной отчёт показал, что поддержка тратит кучу времени на одни и те же ответы. Симптомами были текучка выше среднего и достаточно быстрое выгорание. Вокруг все только и говорили про ИИ‑ассистентов и вот, кажется, идеальный момент чтобы их попробовать. Наконец‑то задача, у которой есть очевидная ценность для бизнеса и влияние которой будет достаточно легко измерить. Кроме этого нам казалось, что мы немного опаздываем на поезд ИИ что тоже, безусловно, давило на нас.

Мы ни в коем случае не думали о том, чтобы заменять живых операторов. План внедрения был аккуратным: ИИ отвечает на простые вопросы, сложные уходят людям, у модели есть доступ к базе знаний, и если модель не уверена — ответ не отправляется. Ну, по крайней мере, такой был план и так это выглядело на слайдах. В дальнейшем мы хотели полностью освободить саппорт от рутины, снизить выгорание и текучку. На практике система оказалась намного хаотичнее.

Как всё работало

Если совсем упростить: пользователь пишет в чат поддержки, система определяет тип тикета, простые попадают к ИИ‑ассистенту, модель генерирует ответ, и ответ сразу отправляется пользователю. Всё рабоатло без участия оператора. Все вопросы в духе: «как обновить токен», «где API key найти», «как Telegram подключить», «как изменить e‑mail», «какие тарифы бывают» обрабатывались нейросетью и даже не попадали на экран к оператору.

В первые недели всё было просто идеально: метрики были хорошими, ИИ отвечал практически мгновенно, закрывал кучу тикетов, а нагрузка на саппорт упала. Среднее время первого ответа упало в разы, некоторые тикеты стали закрываться вообще без людей. Внутри команды было такое ощущение: «О, кажется, реально работает». И какое‑то время всё действительно работало.

А потом ИИ начал выдумывать ответы

Сначала это выглядело как случайности — один пользователь спросил: «Какой лимит запросов у API на базовом тарифе?» ИИ ответил уверенно: «1000 запросов в минуту». Проблема в том, что у нас вообще нет лимитов по минутам. Никогда не было. Но ответ — загляденье: вежливо, спокойно, с форматированием и даже советом перейти на другой тариф при росте нагрузки. Пользователь поверил. Никто этого не заметил, ну, пока пользователь не вернулся уже к человеку. Мы сначала подумали: ну, единичный сбой. Спойлер: нет.

Потом таких тикетов стало появляться всё больше. Не массово, скорее как странные мелкие эпизоды, которые сначала даже не складывались в систему. Где‑то ИИ ссылался на старую документацию, где‑то обещал настройку, которой уже давно нет, где‑то уверенно объяснял поведение системы, которого вообще не существовало. И самое неприятное — пользователи часто этому верили. Потому что ответы выглядели слишком нормальными. В какой‑то момент мы начали специально просматривать логи таких диалогов и довольно быстро поняли, что проблема намного глубже, чем казалось сначала.

Самое неприятное — ИИ почти никогда не говорил «не знаю»

Вот это меня лично удивило больше всего. Если модели не хватало информации, она почти никогда не отвечала: «Я не могу найти ответ» или «Уточните вопрос». Вместо этого ИИ достраивал контекст, предполагал, придумывал, смешивал старую документацию с новой, уверенно интерпретировал непонятные запросы. И всё это звучало очень правдоподобно. В какой‑то момент модель начала ссылаться на настройки, которых в интерфейсе уже несколько месяцев не было. И это не был бред. Это было похоже на ответ уставшего сотрудника, который что‑то помнит, что‑то перепутал — но говорит уверенно.

Мы слишком поздно поняли главную проблему: она не в самих ошибках, а в том, что пользователи (а вместе с ними и мы) очень быстро начинают доверять тону и уверенности ИИ‑ассистента. Если ответ быстрый, вежливый, структурированный, профессионально звучит то мозг автоматически решает — «Это компетентно». Даже если внутри ерунда. Современные LLM делают это пугающе хорошо. Старые ошибались очевидно, а новые ошибаются убедительно.

Самый странный кейс случился как‑то ночью. По ночам никого кроме ИИ не было, а ответы на сложные вопросы составлялись с утра. Клиент написал в поддержку: перестала работать интеграция после обновления. ИИ отвечает, что проблема во «временной деградации webhook worker в EU‑регионе». При этом у нас нет EU‑региона, нет webhook worker, и вообще архитектура устроена иначе. Но сообщение было настолько уверенным, что клиент просто ответил: «Окей, спасибо, подожду фикса». Когда мы это увидели утром, у нас был один вопрос: откуда модель это взяла? Вот тут стало реально не по себе. ИИ не просто ошибался — он генерировал очень убедительные объяснения несуществующих проблем.

После этого мы начали смотреть логи внимательнее и вдруг оказалось, что таких случаев намного больше, чем мы думали. Просто большинство пользователей не замечали, не проверяли — или верили. Иногда ИИ придумывал ограничения, обещал несуществующие фичи, ссылался на старые настройки, объяснял баги выдуманными причинами. И почти никогда не говорил: «Мне не хватает информации». Как будто для модели продолжать диалог естественнее, чем признать «я не знаю».

В итоге мы откатили почти всю автоматизацию. Сейчас LLM у нас ещё используются, но совсем по‑другому. Не как самостоятельный саппорт. Скорее как помощник для операторов, поиск по документации, черновик ответа или суммаризатор длинных тикетов.

И знаете, главный вывод оказался довольно неожиданным. Проблема современных ИИ — не только в галлюцинациях. А в том, что они очень плохо умеют честно признавать: «Я не знаю». И чем умнее модели, тем это опаснее. Потому что со временем всё труднее отличить уверенный правильный ответ от уверенного вымысла.