Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 3]

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

Сергей Кобец · 2026-05-14 · via Все публикации подряд на Хабре

Доброго времени суток!

В прошлой статье, мы рассмотрели 2 достаточно универсальные метрики характерные для почти любой агентской системы, в этой сместим фокус внимания и поговорим об оценке самого популярного архитектурного шаблона RAG.

Есть довольно значительная вероятность, что уважаемый читатель, открывший статью про инженерию качества, уже знает, что такое RAG. Но на всякий случай дам краткое описание с ключевыми смыслами:

Что такое RAG и зачем он нужен

Когда мы работам с LLM мы довольно сильно ограничены длиной контекста - числом токенов(частей слов), которые модель может учесть в генерации ответа. Да, некоторые модели сейчас работают с контекстом больше 1 миллиона и даже бесплатный open source уже предлагает больше 200 тысяч. Для понимания роман “Война и мир” - от 600 до 800 тысяч токенов (в зависимости от в LLM), хватит ли нам этого для счастья? Интуитивно кажется, что да, но есть нюансы:

Потеря качества

Lost in the Middle, современные модели, совсем не одинаково трактуют содержимое в разных частях контекста и имеют свойство значительно лучше учитывать начало и конец контекста, скатываясь в бредогенератор когда мы оперируем чем-то в середине. Обычно нас совсем не устроит деградация качества, при ответе на вопросы из середины контекста, мало того если мы хотим от LLM режима максимальной точности, мы скорее всего в итоге тюнинга ограничим свои промпты и контекст к ним в сотни/тысячи токенов, даже если модель формально поддерживает миллион… Причин у явления много, если есть желание покопаться поглубже рекомендую полистать эту Статью, а тут я ограничусь довольно интуитивным объяснением:

Теоретически, механизм внимания используемый в LLM, позволяет модели “смотреть” на любой токен в последовательности с равной вероятностью, мы учитывает все имеющиеся токены, когда генерируем новый. Однако на практике модели обучаются выделять больше внимания тем частям текста, которые чаще встречаются в обучающих данных, а у обучающей выборке LLM есть особенность, эти данные часто имеют структуру, где ключевая информация находится в начале (введение/системный промпт) или в конце (вывод, заключение, учебный запрос от пользователя). Модель учится, что важная информация часто находится в этих позициях, и заметно хуже учитывает середину.

Значительный рост стоимости

Большие контексты довольно дороги, для одной пользовательской сессии может занимать гигабайты или десятки гигабайт памяти и если мы хотим, чтобы генерация была быстрой эта память GPU. Мы просто никогда не сведем экономику своего проекта если выдадим каждому пользователю огромный контекст, в случае если нашим агентом пользуются параллельно даже сотни пользователей, не говоря о больших порядках. Есть два популярных способа с этим жить:

Эпизодически использовать суммаризацию (метрику качества для нее, мы рассмотрели в прошлой статье)
Динамически подгружать только нужные части в контекст, но этот способ, сразу пораждает вопрос: “А как понять, какой контекст нужный”. Ответом на него и является архитектура RAG (хотя не только она тут применима) Что же это такое: Идея невероятно проста, если наш контекст основан на чем-то относительно статичном: корпоративных документах, исходном коде, картинках с котами, статьях для habr и т.п. давайте просто проиндексируем его заблаговременно каким-то способом, положим в специализированное хранилище и в каждом пользовательском запросе, по тексту самого запроса, просто будем доставать нужные части из индекса.

Общий пайплайн RAG

Таким образом мы сводим архитектуру системы к нескольким шагам:

Найти документы(или их части) которые потенциально могут быть полезны для ответа на запрос пользователя
Как-то их отранжировать и выбрать topN наиболее полезных
Все полезные упаковать в контекст к LLM, если нужно как-то пошаманив с ними дополнительно
По полученному контексту сгенерировать ответ на запрос Довольно просто и очень популярно, 2/3 проектов про ИИ на современном рынке, это что-то про RAG

Проблематика:

Давайте подойдем к метрикам, с проблематики которую они будут измерять, опишем, что именно в RAG может работать неправильно.

Мы не находим нужные фрагменты - мы не очень удачно проиндексировали свои данные и теперь в желаемый topN просто не попадают нужные данные, а если нет данных, то модель может их получить только бредогенерацией
Мы находим слишком много данных - опять же проблема в не очень корректной индексации, мы находим то, что нужно, но получаем в topN избыточные нецелевые данные, на которых начинаем ловить Lost in the Middle и палить вычислительные ресурсы в холостую.
Мы находим нужные данные, но модель не очень хорошо генерирует ответ, галлюцинирует или отвечает не совсем по теме запроса.

Давайте рассматривать как это измерять, как и в прошлых статьях на примере фреймворка RAGAS.

Начнем с поиска. Тут как в любой системе оперирующей SERP (Search Engine Results Page), нас интересует, чтобы нужные документы были в выдаче в принципе и чтобы более релевантные были выше в выдаче и метрики нам нужны соответствующие.

Context Precision

Первая метрика Context Precision - точность, измеряя именно ее, мы оцениваем релевантность выдачи и правильность порядка в соответствии с ней.

$\text{Context Precision@K} = \frac{\sum_{k=1}^{K} \left( \frac{\text{TP}_k}{\text{TP}_k + \text{FP}_k} \times v_k \right)}{\sum_{j=1}^{K} v_j}$

Формула довольно проста, но давайте рассмотрим ее подробнее:

TP_k (true positives@k) — число релевантных чанков в первых k результатах.
FP_k (false positives@k) — число нерелевантных чанков в первых k результатах.
v_k — индикатор: 1, если чанк k релевантен, иначе 0.
В знаменателе суммарное количество всех релевантных чанков среди первых K результатов.

Простой пример для понимания:

Представьте, что у нас есть список из 5 найденных чанков(документов). Мы нашли 2 правильных чанка. Правильные чанки находятся на позициях 2 и 5.

Позиция (k)	Правильный ли чанк (v_k)?	Precision@k (доля правильных в первых k)	Вклад в сумму (Precision@k × v_k)
1	Нет (0)	0/1 = 0.0	0.0 × 0 = 0
2	Да (1)	1/2 = 0.5	0.5 × 1 = 0.5
3	Нет (0)	1/3 = 0.33	0.33 × 0 = 0
4	Нет (0)	1/4 = 0.25	0.25 × 0 = 0
5	Да (1)	2/5 = 0.4	0.4 × 1 = 0.4

Для второго ответа (позиция 2): Мы берем Precision@2, который равен 0.5, потому что только 1 из 2 первых документов был правильным. Этот “наказательный” балл за низкую точность в начале списка умножается на 1 (так как ответ правильный) и попадает в итоговую сумму.
Для пятого ответа (позиция 5): Мы берем Precision@5, который равен 0.4, потому что только 2 из 5 первых документов были правильными. Этот еще более низкий балл умножается на 1 и тоже попадает в сумму.
Сумма числителя: 0.5 + 0.4 = 0.9
Всего правильных документов в топ-5 (знаменатель): 2
Context Precision@5 = 0.9/2=0.45

Осталось, поговорить о том как вычисляется v_k, тут как и в примерах прошлой статьи, фреймворк просто эксплуатирует LLM со следующем промптом и примеры в технике Few-Shot

Given question, answer and context verify if the context was useful in arriving at the given answer. Give verdict as “1” if useful and “0” if not with json output.

В коде использование метрики выглядит вот так:

from ragas.metrics.collections import ContextPrecision
from ragas import SingleTurnSample

# Создаем экземпляр метрики
metric = ContextPrecision(llm=evaluator_llm)

# Формируем пример с контекстами, где правильные чанки на позициях 2 и 5
sample = SingleTurnSample(
    user_input="Когда была основана Apple?",
    retrieved_contexts=[
        "Apple — это компания из Кремниевой долины.", 
        "Apple была основана в 1976 году.",  
        "Apple производит iPhone и iPad.",
        "Apple имеет офисы по всему миру.",
        "Основание Apple произошло 1 апреля 1976 года."
    ],
    reference="1 апреля 1976 года"
)

# Вычисляем оценку
score = await metric.ascore(sample)
print(f"Context Precision@5: {score}")

Context Recall

Следующая метрика Context Recall полнота, определяет насколько наш SERP соотносится с эталонным ответом. Считается он крайне просто:

$\text{Context Recall} = \frac{\text{Количество утверждений из эталона, найденных в контексте}}{\text{Общее количество утверждений в эталоне}}$

Самое любопытное тут конечно понятие “утверждение”, как легко догадаться, это результат обращения к LLM со следующим промптом и Few-Shot примерами

Given a context and an answer, analyze each statement in the answer and classify if the statement can be attributed to the given context or not. Use only binary classification: 1 if the statement can be attributed to the context, 0 if it cannot. Provide detailed reasoning for each classification.

У метрики довольно любопытная реализация, тут не стали как в Factual Correctness, отдельным проходом извлекать утверждения, а всю логику и определения утверждений и оценки их соответствия позиции в SERP, упаковали в единственный промпт с Few-Shot примерами и более сложным структурным выводом. Вообще это должно было негативно сказаться на точности и увеличить требования к когнитивности LLM, но так просто существенно быстрее, если разбирать сперва контекст и запрос на части, для оценки метрики на большом Golden Set ждать пришлось бы мучительно долго. У метрики есть более развесистая и точная вариации без этой особенности Context Entities Recall, для тех кто готов подождать, так же никто не запрещает прогнать и Factual Correctness, по мне это очень разумная практика.

Пример использования метрики в коде:

from ragas.metrics.collections import ContextRecall
from ragas import SingleTurnSample

metric = ContextRecall(llm=evaluator_llm)
sample = SingleTurnSample(
    user_input="Кто основал Apple?",
    retrieved_contexts=["Стив Джобс и Стив Возняк основали Apple."],
    reference="Apple была основана Стивом Джобсом, Стивом Возняком и Рональдом Уэйном."
)
score = await metric.ascore(sample)
print(f"Context Recall: {score}") # Будет < 1.0, т.к. Уэйн не упомянут в контексте

Важно упомянуть, что Context Recall совсем не обязательно используют только для оценки и оптимизации поиска, есть немало техник построения RAG, в которых схожие промпты используются для сокращения нерелевантного ответа, уже на уровне Augmentation (этапа обработки SERP), с очень простой механикой: давайте попросим LLM повыкидывать из SERP все нерелевантное, а затем остаток отдадим на генерацию. Соотвественно Context Recall и его более тяжеловесные вариации, применимы и для оценки работы шага Augmentation.

Faithfulness

Последней в этой статье, рассмотрим метрику Faithfulness - “верность”, ее задача оценить последний шаг RAG пайплайна генерацию. Метрика оценивает все ли утверждения в ответе взяты из предоставленного контекста (отсутствие галлюцинаций). Как и две ранее упомянутые, она входит в тройку метрик “измеряемых при любых обстоятельствах”, в целом ее игнорирование крайне пагубная практика, к сожалению нередко встречаемая даже в казалось бы вполне взрослых платформах и конкретных реализациях RAG систем… Что иногда крайне развлекает меня, в процессе деятельности по аудиту различных ИИ систем :-)

$\text{Faithfulness} = \frac{\text{Количество утверждений в ответе, подтвержденных контекстом}}{\text{Общее количество утверждений в ответе}}$

Вы к этому моменту, уже наверное должны были осознать, что такое “утверждения” в терминах RAGAS, не буду сильно раздувать текст. В целом метрика крайне похожа на Factual Correctness, отличаясь ориентацией на верификацию SERP, а не сверку утверждений запроса с эталоном и менее сложным способом извлечь отдельные утверждения. Работает она в 3 прохода:

Сперва генерируем утверждения из сгенерированного ответа, используя промпт с примерами

Given a question and an answer, analyze the complexity of each sentence in the answer. Break down each sentence into one or more fully understandable statements. Ensure that no pronouns are used in any statement.

Затем верифицируем полученные утверждения по контексту(SERP от поискового движка), используя промпт с примерами

Your task is to judge the faithfulness of a series of statements based on a given context. For each statement you must return verdict as 1 if the statement can be directly inferred based on the context or 0 if the statement can not be directly inferred based on the context.

Забираем результат шага через структурный вывод и считаем итоговую метрику по формуле

Пример использования в коде:

from ragas.metrics.collections import Faithfulness
from ragas import SingleTurnSample

metric = Faithfulness(llm=evaluator_llm)
sample = SingleTurnSample(
    retrieved_contexts=["Apple основана Стивом Джобсом."],
    response="Apple основана Стивом Джобсом и Илоном Маском." # Галлюцинация!
)
score = await metric.ascore(sample)
print(f"Faithfulness: {score}") # Будет около 0.5

На этом, закончим данную статью. Надеюсь информация Вам была полезна! В следующей части поговорим об процессе Е-Е оценки.

Благодарю за внимание!

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

0%Сложно, нужно упросить повествование, сделать более простые подводки к рассматриваемой теме0

0%Добавить больше подробностей из «внутренностей» RAGAS0

50%Добавить статью про логику выбора метрик, когда какая необходима2

75%Добавить в текст статей изображения котов!3

Проголосовали 4 пользователя. Воздержавшихся нет.

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Все публикации подряд на Хабре

Потеря качества

Значительный рост стоимости

Общий пайплайн RAG

Проблематика:

Context Precision

Context Recall

Faithfulness