惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

N
News and Events Feed by Topic
Malwarebytes
Malwarebytes
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
C
Cybersecurity and Infrastructure Security Agency CISA
F
Future of Privacy Forum
C
Cisco Blogs
T
The Exploit Database - CXSecurity.com
A
Arctic Wolf
S
Securelist
K
Kaspersky official blog
S
Schneier on Security
T
ThreatConnect
T
Tenable Blog
Spread Privacy
Spread Privacy
T
True Tiger Recordings
AWS News Blog
AWS News Blog
F
Fox-IT International blog
量子位
T
Threatpost
V
Vulnerabilities – Threatpost
C
CERT Recently Published Vulnerability Notes
Cisco Talos Blog
Cisco Talos Blog
GbyAI
GbyAI
宝玉的分享
宝玉的分享
腾讯CDC
G
Google Developers Blog
aimingoo的专栏
aimingoo的专栏
Cyberwarzone
Cyberwarzone
有赞技术团队
有赞技术团队
S
SegmentFault 最新的问题
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
V
Visual Studio Blog
U
Unit 42
雷峰网
雷峰网
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Simon Willison's Weblog
Simon Willison's Weblog
O
OpenAI News
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The GitHub Blog
The GitHub Blog
The Register - Security
The Register - Security
MyScale Blog
MyScale Blog
小众软件
小众软件
A
About on SuperTechFans
Last Week in AI
Last Week in AI
Y
Y Combinator Blog
博客园 - 三生石上(FineUI控件)
美团技术团队
Google Online Security Blog
Google Online Security Blog
P
Proofpoint News Feed
MongoDB | Blog
MongoDB | Blog

Все публикации подряд на Хабре

AI-агент для финансовых процессов: как мы научили ИИ считать числа из базе данных без галлюцинаций Автопостинг на 8 платформах: архитектура waterfall, custom publisher'ы и API-ловушки Кинетика против бронзы: Почему Голиаф был обречен в дуэли с Давидом [Перевод] Масштабирование LLM: от одного чипа до ЦОДа. Глава 2. Шардинг LLM не работает за вас. Она работает с вами Чем лучше защищает минеральный SPF, тем страшнее он выглядит Стимпанк как часть жизни. История паровых двигателей и место, которое они занимали в мире в XIX-XX веках. Часть 1 Гастарбайтеры ворвались в IT и зарабатывают на рекламе: тут вам не снег лопатой кидать Новые методы и инструменты: как мы обновили курсы по тестированию в Яндекс Практикуме Java 21 в стиле «клятый энтерпрайз» на одноплатном компьютере возрастом 13 лет Ваши секреты внутри LLM. Куда уходят промпты и чего стоит опасаться? 10× труда. 10% к бонусу. Главный риск AI-эпохи — это сениор AI-инженер, который умеет считать Сапожник с сапогами Минимум, который удержит тебя на плаву в период дедлайнов Как без проблем переносить курсы между платформами? Обзор формата SCORM Когда Claude Code ошибается не по своей вине: документационный долг в соло-проектах 70% кода с AI — и ни на день быстрее qrrot — база данных со встроенным ИИ Шахматные программы V. Оценочная функция Восстание масс в обществе спектакля и отчуждение труда в царстве количества: что делать во времена всеобщего упадка? Не умеешь работать с ИИ? Тебя заменит тот, кто умеет Как интеллект становится уязвимостью под давлением Не надо так: три типичные ошибки, которые приводят ко взлому Заметки про код-стайл в C++ Забытый мультиколор (часть 1) Культура ест стратегию на завтрак: почему не работает долгосрочное планирование Советское ИИ: Забытые гении Как оплатить iCloud в России в 2026 году без смены региона Apple ID Глубокая интеграция месседжинга с бизнес процессами в фреймворке NodaLogic Контекстные менеджеры в Python за пределами with open(): пишем свои и упрощаем код Пароль против уборщицы Выяснились детали мега-IPO SpaceX, а также первый прибыльный квартал Anthropic Люди с психическими расстройствами – новая нефть? Когда нейросети перестанут галлюцинировать? И почему на «что за дичь» они несут ещё большую дичь? Мессенджер HalChat теперь в Google Play: 3 года разработки, ИИ в браузере и квест с модерацией Реверс-инжиниринг Xiaomi Smart Band 10 Когда памяти мало Среда повседневности как объект проектирования: что общего у горца, серотониновой ямы и митохондрий AGENTS.md создавали, чтобы помогать агентам. Я использую его, чтобы их вычислять Почему устанавливают join_collapse_limit = 20 Почему устанавливают join_collapse_limit = 20 Эрик Рис, автор Lean Startup: Почему хорошие компании становятся плохими после IPO Context-driven Reusable Form Pattern: Масштабируемая архитектура для Create / Edit / Create-from-Source Пузырьковая сетка, кошачья стая и не только — неожиданные источники вдохновения для QoS-алгоритмов ___, или «Заголовок намеренно оставлен пустым» ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM Нейросеть оживить фото ИИ: Как оживить фото нейросетью в 2026 году? Разбираемся в ML без воды: от базы до Attention. Часть 5: Метрики качества В поисках «кофейного Грааля». Как человечество пытается сварить идеальный кофе и какие рецепты предлагают…математики Программатик: Часть 2 — OpenRTB Интернет до бесконечных лент: каким был 2010 год Перезапуск TrueIndex: что изменилось в рейтинге языков программирования Проектный холст: как менеджеру подбирать «краски» управления под разные команды «Метафизика в формулах: математическое ядро «Веры Паломника — Исход» Java и постквантовый TLS Marcli: Markdown Терминал Кнопочный смартфон с 5G за 2800 рублей — разбираем и изучаем китайскую диковинку Где неприятности — там и жизнь Разворачивайте платформы: stackfile Мой путь в Microsoft Мобильная разработка за неделю #631 (18 — 24 мая) Что не так с Mixtape, и почему не все довольны новой игрой? Стоматология каменного века. Как неандертальцы лечили зубы 59 тысяч лет назад Почему классическое управление проектами часто не работает в IT-продуктах Строительство Саркофага. Часть 2. Бетонные реки и стальные берега РАЗРАБОТКА ПАРАМЕТРИЗИРУЕМОГО МОДУЛЯ CORDIC-АЛГОРИТМА НА SYSTEM VERILOG Вариационное исчисление как метафора свободы выбора: от градиентного спуска к онтологии пути Ekahau Sidekick и RSSI‑offset: физические ограничения метода и пять независимых причин неточности клиентской модели Колесо потока против раскола Обзор интересных особенностей переворачивающихся при умножении чисел В С неопределённое поведение повсюду MCP-агрегатор: объединяем инструменты для LLM в один сервер Дата-центры в космосе: как Google и SpaceX готовят новую инфраструктуру для ИИ Google готовит замену Chromebook: какими будут ноутбуки Googlebook Пользователь пишет issue, агент меняет сайт. Да, я это сделал Корпоративные конфликты в ИТ-секторе: механика судебной защиты активов и субсидиарных рисков Цена одной опечатки: Как три неверные буквы сорвали киберограбление на миллиард долларов Как я победил спам в своих email аккаунтах Whitepaper Сбера «AI-Disrupt PDLC»: разбор для тех, кто пишет код RustDesk Pro в России не купить. После долгих лет администрирования мы собрали своё честное решение Не пики, а бассейны: почему эволюция — это блуждание по графу жизни Как Gemini 3.5 Flash сломали ради красивых графиков (и почему она обходит 3.1 Pro только на бумаге) Вредоносная атака на Laravel-Lang meta-attention is all you need Как перестать путаться в IP-адресах серверов Сколько стоят ошибки в арбитраже: декомпозиция ценообразования на судебные услуги в Москве Разбираемся в ML без воды: от базы до Attention. Часть 4: kNN Vortex: фреймворк для тех, кого задолбала итальянская кухня в репозитории Использование тепла ЦОД в мире и РФ Часть 4. Скорость света — технические детали Не цитируй мне нейросеть Что сейчас с Project Loom? Примеры и код Рождённые в Сумерках Meta 1 мая показала как они хранят ключи от ваших бэкапов WhatsApp. Разбираю архитектуру и сравниваю Линт проектов: собираем ESLint, Prettier и Stylelint в один пакет Reasoning-модели сломали мой промпт-инжиниринг. Год переучиваюсь РБМК: enfant terrible Как я собеседую менеджеров AI-продуктов для крупного Enterprise Парадокс рынка труда: конкуренция выросла, но не везде, нанимать легче, но не везде Модификаторы в Blender: осваиваем Boolean
RAG в энтерпрайзе: почему демо работает, а прод нет
Claritas · 2026-05-25 · via Все публикации подряд на Хабре

Уровень сложностиСредний

Время на прочтение6 мин

Охват и читатели0

Мнение

Представьте себе типичное совещание. Кто-то из руководства возвращается с конференции, садится напротив и говорит: «У них там бот по внутренней документации, надо себе такой же. До конца квартала».

Через четыре месяца у тебя есть Pinecone, OpenAI API, две недели работы над парсингом PDF и чат-бот, который на демо отвечает на пять подобранных вопросов идеально. А на шестой, который задаст любой нормальный сотрудник, отвечает уверенным бредом.

Дальше про то, что именно между этими двумя состояниями происходит. Но без «правильной архитектуры RAG», потому что такой не существует.

Демо работает по причинам, которые в проде не выполняются

Когда инженер собирает PoC, он подсознательно выбирает запросы, на которые знает ответ. И выбирает документы, в которых этот ответ есть в явном виде одним абзацем. Эмбеддинг такого запроса попадает близко к эмбеддингу этого абзаца, top-1 выдаёт нужный чанк, модель его пересказывает. Демо.

В проде у тебя:

  • Запросы пользователей, которых ты не видел.

  • Документы, в которых ответ размазан по трём разделам, противоречит документу из соседнего отдела и устарел на полтора года.

  • Половина «документации» — это PDF со сканами, презентации со скриншотами таблиц и Confluence-страницы, последний редактор которых уже год как уволился.

Дальше идут косяки, которые появляются именно в этом переходе.

Чанкинг — выбор того, как именно ты сломаешься

Любой туториал по RAG начинается с RecursiveCharacterTextSplitter и фразы «возьмём чанки по 500 токенов с overlap 50». На реальных документах это разваливается так.

Политика отпусков, например, это длинная таблица, где строки: «по уходу за ребёнком», «учебный», «без сохранения», и в каждой строке три столбца условий. Splitter режет её посередине. Чанк 1 содержит первые пять строк без шапки. Чанк 2 — оставшиеся семь строк, тоже без шапки. На запрос «сколько дней учебного отпуска» эмбеддинг попадёт в чанк, где этой строки нет, потому что в нём есть слово «учебный» в другом контексте — например, в примечании.

Semantic chunking лучше, но непредсказуем. Один и тот же документ можно поделить так, что в чанке окажется «вопрос» из предыдущего раздела и «ответ» из следующего, и модель радостно соединит несвязанное.

На практике приходится писать кастомный чанкер под каждый тип документа: один для таблиц, другой для длинного нарратива, третий для FAQ. А это уже  инженерная работа на недели.

Эмбеддинги обучены на интернете, а не на ваших внутренних терминах (к сожалению)

Внутри любой большой компании есть слой жаргона, который для эмбеддинг-модели — шум. «Оборачивающий сервис», «проксирующий слой», «адаптер», «фронт» — это, возможно, одно и то же в вашем контексте, а может, и разное.

Я видел кейс, где внутренний продукт назывался «Атлас», и в документации он встречался без поясняющего контекста, потому что «все же знают». Эмбеддинг запроса «как сбросить пароль в Атласе» уверенно тащил статьи про географические карты, потому что в обучающем корпусе модели «Атлас» — это атлас.

Файнтюнить эмбеддинг-модель на корпоративных данных можно, но это отдельный проект с разметкой, валидацией и поддержкой, на демо это никто не делает.

Top-k — это казино

Допустим, retrieval вернул вам пять чанков. Релевантные ли они? Cosine similarity показывает 0.78, 0.76, 0.75, 0.74, 0.73. Один из них реально нужный, остальные — плотный шум, который выглядит похоже.

Дальше модель получает все пять и пытается из этого собрать ответ. Если повезло, она вытащит правильный. Если не повезло, она усреднит, добавит уверенности и выдаст нечто, что звучит правдоподобно и неправда.

Reranker (cross-encoder типа bge-reranker или Cohere Rerank) немного помогает. Он улучшает порядок внутри уже найденного. Если правильного чанка в top-50 не было, то reranker его не вернёт.

И отдельная боль: что делать, когда два чанка противоречат друг другу. Документ от 2022 года и документ от 2026 года в выдаче с похожей релевантностью. Модель не знает, какой свежее. Если в чанке нет даты в явном виде (а её там обычно нет, дата в метаданных, которые ты, скорее всего, не пробросил) — то если повезет, угадает.

PDF — отдельная разновидность ада

В энтерпрайзе всё в PDF. Внутренние регламенты, инструкции, презентации, отчёты. Парсеры справляются с одноколоночным текстом, но:

  • Таблицы. PyMuPDF извлекает таблицу как набор строк по координатам, без понимания структуры. Получаешь «графа1 значение1 графа2 значение2 графа3 значение3», и хорошо если в правильном порядке.

  • Двухколоночные документы. Тексты из левой и правой колонок чередуются построчно. Читать это бесполезно, эмбеддить тем более.

  • Сканы. Без OCR ты вообще ничего не получишь. С OCR ты получишь шум с ошибками распознавания. Tesseract на русском со старым шрифтом — отдельная история.

  • Картинки и диаграммы. Архитектурная схема, в которой описан весь процесс, для RAG не существует. Хорошо, если кто-то расписал её текстом рядом, но обычно — нет.

Решение есть, оно стоит дорого: апишка какого-нибудь GPT для парсинга страниц PDF как изображений с описанием. Считайте бюджет: тысяча страниц документации — сотни долларов на парсинг, а это совсем не разовая операция, ведь документы обновляются.

Permissions — то, о чём никто не думает до прода

Условный сотрудник из отдела продаж пишет: «расскажи про планы по сокращению штата». RAG бодро ищет, находит документ из HR, который этому сотруднику видеть нельзя, и пересказывает.

Row-level security на векторной БД будет не из коробки. Pinecone научился в метадата-фильтры, Weaviate тоже, но логика «у пользователя X есть доступ к группам A, B, C, документ Y относится к группе D — отфильтровать» должна быть реализована на каждом запросе, да и к тому же корректно. Если вы не пробросили ACL в метаданные при индексировании — RAG просто игнорирует разрешения (и вы об этом узнаете в момент инцидента).

Отдельно весело, когда ACL меняется: сотрудник перешёл в другой отдел. В исходной системе доступы пересчитались сразу. В векторной БД метадата осталась прежней до следующего реиндекса. Окно уязвимости будет как раз между этими событиями.

Multi-hop запросы простой RAG не вытягивает

Запрос: «Кто отвечает за систему биллинга и какой у него рабочий чат». Это два шага: сначала найти владельца биллинга, потом найти его контакты. Векторный поиск делает один шаг.

Запрос: «Сравни условия по овердрафту в тарифе Премиум и Премиум+». Чанк с одним тарифом и чанк с другим тарифом — это две разные точки в векторном пространстве. Один запрос их обоих не вытянет с одинаковым приоритетом.

Лечится агентами и query decomposition: модель разбивает запрос на подзапросы, делает несколько извлечений, потом собирает. Это работает медленнее (дороже, что немаловажно), и каждый из этих шагов может просто сломаться.  

Оценка — отдельная проблема, которую обычно игнорируют

Как понять, что RAG работает? Тестов мало, потому что нет ground truth. RAGAS даёт метрики (faithfulness, answer relevancy, context precision), но они считаются той же LLM, что и отвечает, то есть оценщик и подсудимый одно лицо.

LLM-as-a-judge систематически добра к ответам, которые выглядят уверенно. Если бот сказал «согласно политике компании, отпуск составляет 28 дней» — судья поставит высокую оценку. Тот факт, что в реальной политике 24 дня, судья не проверит.

Единственное, что работает — это реальные пользователи и обратная связь. Кнопки «полезно/нет», ручной разбор плохих ответов раз в неделю, и переиндексация по результатам.

То, что обычно срабатывает

Не серебряная пуля, но несколько вещей, которые в среднем спасают.

Сузить домен. Не делайте «бота по всей документации компании». Делайте бота по политикам HR. Или бота по API одного сервиса. Чем уже домен, тем выше вероятность, что извлечение вернёт правильное.

Гибрид BM25 и векторного поиска. Полнотекстовый поиск не умеет в синонимы, векторный — в точные термины и аббревиатуры. Их объединение через reciprocal rank fusion работает заметно лучше, чем любой по отдельности.

Структурированные данные — не в RAG. Если у вас есть таблица «сотрудник → отдел → телефон», не индексируйте её эмбеддингами. Сделайте text-to-SQL или просто фильтр. RAG нужен там, где данные действительно неструктурированные.

Заставить модель сказать «не знаю». В системном промпте — явная инструкция: если в контексте нет ответа, не придумывай. Это не работает в 100% случаев, но снижает галлюцинации хоть как-то.

Не строить мегаплатформу. Энтерпрайз любит универсальные решения, RAG плохо ложится на универсальность. Лучше пять узких ботов, которые работают, чем один общий, которому никто не доверяет.


После пары таких внедрений у меня сформировалось правило: если заказчик хочет «бот по всей нашей документации к концу квартала», я честно говорю, что к концу квартала будет демо, а в прод оно поедет в лучшем случае через полгода с командой из инженера данных и бэкендера. Иногда после этого разговор заканчивается. И, честно говоря, это тоже нормальный исход.