惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园_首页
SecWiki News
SecWiki News
Vercel News
Vercel News
Google DeepMind News
Google DeepMind News
Engineering at Meta
Engineering at Meta
Martin Fowler
Martin Fowler
G
Google Developers Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Blog — PlanetScale
Blog — PlanetScale
Microsoft Security Blog
Microsoft Security Blog
博客园 - 司徒正美
The Register - Security
The Register - Security
aimingoo的专栏
aimingoo的专栏
C
Check Point Blog
GbyAI
GbyAI
V
V2EX
美团技术团队
The Cloudflare Blog
N
Netflix TechBlog - Medium
V
Visual Studio Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
云风的 BLOG
云风的 BLOG
宝玉的分享
宝玉的分享
Y
Y Combinator Blog
D
DataBreaches.Net
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
H
Hackread – Cybersecurity News, Data Breaches, AI and More
小众软件
小众软件
C
CERT Recently Published Vulnerability Notes
A
About on SuperTechFans
Google DeepMind News
Google DeepMind News
D
Docker
Hacker News: Ask HN
Hacker News: Ask HN
H
Help Net Security
爱范儿
爱范儿
Jina AI
Jina AI
S
Schneier on Security
P
Proofpoint News Feed
AWS News Blog
AWS News Blog
The GitHub Blog
The GitHub Blog
G
GRAHAM CLULEY
N
News and Events Feed by Topic
MyScale Blog
MyScale Blog
AI
AI
腾讯CDC
博客园 - 【当耐特】
Security Archives - TechRepublic
Security Archives - TechRepublic
Simon Willison's Weblog
Simon Willison's Weblog
Latest news
Latest news
O
OpenAI News

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
DCD: доменно-ориентированная архитектура для построения RAG-систем
redmadrobot · 2026-06-18 · via Все публикации подряд на Хабре

7 мин

0

Привет! Это Роботы.
Недавно мы выпустили статью на arXiv, где представили архитектурный подход DCD (Domain–Collection–Document) для структурирования пространства знаний и обработки запросов в RAG-системах. Мы провели подробные эксперименты, оценили работу подхода на собственном бенчмарке и показали, как он влияет на качество поиска и генерации в сравнении с другими подобными методами. А теперь хотим здесь рассказать о ключевых идеях, лежащих в основе DCD Design.

Потребность в таком подходе возникла из-за ограничений классических RAG-пайплайнов. При работе с неоднородными корпусами документов и многошаговыми запросами они часто теряют в качестве: плоская организация знаний не позволяет эффективно ограничивать область поиска, а отсутствие явного процесса обработки запросов усложняет работу с большими коллекциями данных.

DCD решает эту проблему за счёт иерархической декомпозиции информационного пространства и многоэтапной маршрутизации с использованием структурированных ответов модели. Это позволяет последовательно сужать область поиска и генерации на каждом этапе обработки запроса. Архитектура также включает умный чанкинг, гибридный поиск и встроенные механизмы валидации и контроля генерации.

Ключевая идея метода

Идея простая: качество ответов растёт, если поиск работает не по всей базе знаний сразу, а внутри семантически однородной области, объединённой общей тематикой, терминологией или пользовательскими сценариями. Такой подход ограничивает поиск семантически связным пространством. В результате снижается влияние нерелевантных документов, а найденный контекст лучше соответствует структуре пользовательского запроса. 

В неоднородных корпусах данных документы из разных предметных областей оказываются в одном поисковом пространстве. В подобных условиях одного сходства эмбеддингов часто недостаточно: отдельные фрагменты могут выглядеть релевантными сами по себе, но вместе не складываются в логичный и полный ответ.

Различия между классическим RAG и DCD Design

Различия между классическим RAG и DCD Design

Перед началом поиска система явно определяет, в какой области знаний следует искать информацию. Ограничивая поиск семантически однородным пространством, DCD снижает влияние документов из других предметных областей и лучше согласует найденный контекст с логикой пользовательского запроса.

Архитектура DCD Design

В основе DCD лежит трёхуровневая организация знаний. Вместо единого пространства поиска система разделяет базу знаний на предметные области, тематические коллекции и отдельные документы. Такая структура позволяет ограничить область поиска ещё до извлечения документов и снижает вероятность попадания нерелевантного контекста в ответ.

Каждый уровень выполняет свою задачу:

  • Domain — определяет верхнюю границу поиска и формируется так, чтобы минимизировать семантические пересечения с другими предметными областями.

  • Collection — более узкая тематическая область внутри домена дополнительно ограничивает пространство поиска. Например, внутри одного домена это могут быть юридические документы, справочные материалы или пользовательские FAQ.

  • Document — базовая единица хранения знаний. Тут документы разбиваются на чанки для последующего поиска.

Поиск всегда выполняется сверху вниз: Domain → Collection → Document.

Как устроен DCD Design

Как устроен DCD Design

DCD Router

Навигацией в этой иерархии занимается DCD Router. Он последовательно определяет наиболее подходящие домен, коллекцию и документ для каждого пользовательского запроса. Решения принимаются на основе структурированных ответов языковой модели. Перед началом работы задаётся структура доменов и коллекций, а документы распределяются между ними. Названия документов сохраняются без изменений, тогда как для доменов и коллекций вручную задаются идентификаторы.

Когда поступает пользовательский запрос, система вместе со списком доступных доменов передаёт его языковой модели, которая выбирает наиболее подходящий домен. Затем тот же процесс последовательно повторяется для коллекции и документа. Если модель ошибается, система использует резервные элементы на каждом уровне, что позволяет сохранить работоспособность даже после нескольких неудачных попыток маршрутизации.

Для верхних уровней иерархии используются более подробные метаданные. Это уменьшает вероятность ошибок маршрутизации, поскольку неверный выбор домена автоматически ограничивает поиск неправильной частью базы знаний. Чем точнее описаны домены и коллекции, тем надёжнее работает навигация по иерархии.

Умный чанкинг

Важная часть архитектуры DCD — механизм умного чанкинга. Документы разбиваются на чанки с помощью скользящего окна с перекрытием соседних фрагментов. Такой способ сегментации сохраняет локальную семантическую связность текста и снижает вероятность того, что важная информация окажется потеряна на границах чанков. Благодаря этому логически связанные фрагменты, занимающие несколько предложений или абзацев, остаются доступными во время поиска. Это особенно важно для сложных запросов, где ответ приходится собирать из нескольких частей документа.

Схема работы умного чанкинга

Схема работы умного чанкинга

Каждый чанк дополнительно обогащается метаданными, полученными из структуры документа. Они описывают положение фрагмента в иерархии и сохраняют связь с исходным документом. Благодаря этому поиск опирается не только на семантическое сходство текста, но и на структурные связи между фрагментами одного документа или коллекции.

Сочетание перекрывающихся чанков и структурных метаданных делает извлечение фрагментов более последовательным и снижает вероятность собрать ответ из семантически несвязанных частей. В результате найденный контекст лучше соответствует структуре пользовательского запроса, а генерация становится более стабильной. 

Fast Guardrails

Помимо основного пайплайна поиска и генерации, DCD включает механизм Fast Guardrails для ранней проверки ответа. Он объединяет guardrails, защиту от галлюцинаций и быстрый предварительный анализ ответа ещё до завершения генерации.

Последовательность работы выглядит так:

  • пользовательский запрос проходит проверку по словарю запрещённых слов;

  • допустимые запросы передаются в DCD-пайплайн;

  • во время потоковой генерации анализируются первые 150 токенов ответа;

  • на основе запроса, найденного контекста и начала ответа система решает, показывать результат пользователю или заблокировать его.

Проверка выполняется параллельно с генерацией, поэтому не добавляет заметной задержки и позволяет отсеивать неподдерживаемые запросы ещё до завершения ответа.

Эмпирическая проверка гипотезы 

Чтобы проверить предложенный подход, мы сравнили DCD с несколькими современными архитектурами RAG на синтетическом датасете, который моделирует реальные сценарии использования корпоративных баз знаний.

В эксперименте использовалась упрощённая версия DCD: перед векторным поиском LLM-классификатор последовательно определял домен и коллекцию, после чего поиск выполнялся только в соответствующем сегменте базы знаний.

Корпус был построен на основе реальных данных клиента из сферы девелопмента. Все названия, числовые значения и чувствительная информация были заменены синтетическими, при этом исходная структура данных и связи между документами сохранились.

В качестве базовых методов мы использовали Naive RAG, Naive RAG + Reranker, Contextual RAG и RAPTOR. Для DCD дополнительно оценивались конфигурации с reranker и контекстным индексом.

Эксперимент включал генерацию синтетического корпуса, построение векторных индексов, запуск всех сравниваемых пайплайнов и оценку качества поиска и генерации. Во всех конфигурациях итоговый ответ генерировала одна и та же модель — Qwen3.6 с температурой 0. В качестве LLM-as-a-Judge использовалась GPT-oss-120b.

По итогам эксперимента наша гипотеза подтвердилась: явная иерархия знаний и предварительная маршрутизация позволяют сделать поиск более устойчивым и повысить фактическую точность ответов без усложнения самой языковой модели. При этом DCD требует меньше вычислений на этапе индексации, чем некоторые современные альтернативы, поскольку не использует LLM для обработки каждого чанка.

Подробные результаты экспериментов, математическое описание метрик и полное сравнение с Contextual RAG, RAPTOR и другими подходами смотрите в статье на arXiv.

Ограничения DCD

Как и любой архитектурный подход, DCD имеет свои ограничения.

Во-первых, по мере роста базы знаний усложняется её поддержка. Чем больше доменов и коллекций появляется в системе, тем сложнее сохранять между ними чёткие семантические границы. Особенно если соседние области используют похожую терминологию или схожую структуру документов.

Во-вторых, в нашей работе использовалась упрощённая конфигурация DCD. Маршрутизация выполнялась только на уровнях Domain и Collection, без отдельного выбора документа. Такой вариант сохраняет основную идею иерархического ограничения пространства поиска, но уменьшает вычислительные затраты и упрощает экспериментальную постановку. Поэтому полученные результаты стоит рассматривать именно в контексте этой конфигурации.

Кроме того, DCD предполагает, что база знаний хотя бы минимально структурирована. Если работать с полностью неорганизованным набором документов, преимущества иерархической маршрутизации постепенно исчезают, а качество поиска приближается к тому, что показывают современные реализации Naive RAG.

Наконец, стоит учитывать особенности самого эксперимента. Мы использовали синтетический корпус, построенный по шаблонам на основе данных одного прикладного домена. Документы внутри каждого домена имели схожую структуру и различались главным образом конкретными значениями. В подобных условиях DCD закономерно получает дополнительное преимущество за счёт явной организации пространства знаний.

Выводы

Проведённые эксперименты показывают, что подход DCD способен повысить качество поиска и фактическую точность ответов, сохраняя предсказуемые вычислительные затраты. При этом DCD не требует усложнения самой языковой модели и не добавляет дополнительные циклы рассуждений, а достигает результата за счёт более грамотной организации знаний.

Конечно, это не универсальное решение. DCD лучше всего подходит для задач, где семантические границы между предметными областями можно определить заранее. Именно в таких сценариях явная организация знаний становится эффективной альтернативой всё более сложным агентным и reasoning-архитектурам.

Если захотите подробнее изучить реализацию или повторить эксперименты, мы открыли исходные материалы проекта. Датасет доступен на Hugging Face, а код — на GitHub. Оба репозитория поддерживает лаборатория R&D red_mad_robot.


Над материалом работали

Авторы — Валера Ковальский, Никита Белов, Никита Митейко, Игорь Решетников, Максим Максимов;

Иллюстрации — Саша Буяк, Юля Ефимова.


Если интересно больше наших исследований, экспериментов и инженерных деталей — заглядывайте в тг-канал команды R&D: t.me/rmr_rnd

А в основном канале red_mad_robot — новости, анонсы и всё, что происходит вокруг компании: t.me/redmadnews