惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
G
GRAHAM CLULEY
P
Privacy & Cybersecurity Law Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
宝玉的分享
宝玉的分享
P
Proofpoint News Feed
H
Help Net Security
V
Visual Studio Blog
阮一峰的网络日志
阮一峰的网络日志
C
Cisco Blogs
人人都是产品经理
人人都是产品经理
Know Your Adversary
Know Your Adversary
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Recorded Future
Recorded Future
I
Intezer
罗磊的独立博客
T
The Exploit Database - CXSecurity.com
Blog — PlanetScale
Blog — PlanetScale
Malwarebytes
Malwarebytes
Spread Privacy
Spread Privacy
T
Tor Project blog
V
Vulnerabilities – Threatpost
云风的 BLOG
云风的 BLOG
腾讯CDC
B
Blog RSS Feed
Stack Overflow Blog
Stack Overflow Blog
F
Future of Privacy Forum
MyScale Blog
MyScale Blog
Latest news
Latest news
IT之家
IT之家
MongoDB | Blog
MongoDB | Blog
The Hacker News
The Hacker News
S
Securelist
博客园 - 【当耐特】
C
CXSECURITY Database RSS Feed - CXSecurity.com
T
Threat Research - Cisco Blogs
Jina AI
Jina AI
Cisco Talos Blog
Cisco Talos Blog
B
Blog
博客园 - 三生石上(FineUI控件)
Last Week in AI
Last Week in AI
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
M
MIT News - Artificial intelligence
V
V2EX
D
Darknet – Hacking Tools, Hacker News & Cyber Security
The Cloudflare Blog
The GitHub Blog
The GitHub Blog
博客园 - 聂微东
F
Full Disclosure
C
CERT Recently Published Vulnerability Notes

Все публикации подряд на Хабре

Астрологическая схемотехника Безопасный Docker с torque Spring AI: феноменология цифрового сознания, или Как я перестал бояться и полюбил облачные модели [Перевод] Torque: релизы на автопилоте Сравниваем точность расчета копланарных линий передачи для СВЧ МИС: SimPCB Lite против Ansys HFSS Ошибка найма «рок‑звезды» — как один супер‑инженер разрушил команду за полгода Детекция чужого почерка в экзаменационных бланках без эталонного образца Как хедхантер превращает поиск работы в бег за «морковками» Баги, которые нас воспитали: инженерные истории с Go Loto Зачем ОС нужен Root-of-Trust и как KasperskyOS работает с разными реализациями А что, если управлять торговой платформой голосом? За 48 часов собрали голосового ассистента и проверили Ваша трансформация обречена на провал. Восемь причин, почему Иду в топ ниши строительных калькуляторов. Три месяца спустя HPSC: процессоры NASA, которые сделают космические аппараты по-настоящему умными Архитектура монорепозитория для параллельного исполнения торговых стратегий Чтобы не выглядело как пет-проект»: как я в одиночку сделал премиальный интерфейс кино-сервиса (с кодом) Вам продают ИИ. Покупать нужно не его Матрица компетенций джедая: как снизить Bus Factor на проекте Production начинается там, где заканчивается вайбкодинг От фич и каскадов к генеративной модели: как мы переосмыслили рекомендации с помощью ARGUS Отвечай, как топовый специалист: как службе поддержки решать настоящие, а не озвученные проблемы клиентов Новые IT-специалисты эпохи AI: как зарубежные и российские компании относятся к vibe-coders, low-coders и zerocoders Локальная система проверки персонала: как мы автоматизировали скрининг соискателей без передачи ПДн наружу Разрабатывали решение для автоматизации, а получили универсальный продукт «Мультиплексор для Лабораторных измерений» Подготовка и сдача экзамена PMP в мае 2026 года Время закрывать доски. Ваш SaaS таск-трекер — это просто слой лака над базой данных Как мы проектировали multi-agent feedback для обучения рисованию Что такое Gemma 4: обзор новой LLM от Google CyBOK. Глава 3. Законы и регуляторные нормы. Часть 8 LLM-инференс на фотонах? Препарируем передовые технологии, представленные в апреле Агенты выходят на работу (часть 3) Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать Окей, Lamoda, что надеть на вечеринку? Как обучить LLM навыкам ИИ-стилиста ArchiMate 4: Отказ от слоёв и унификация метамодели Дальнейшая судьба SFP-Master Игровой ПК или PlayStation 5: что выгоднее в 2026 году Flipper One — нам нужна ваша помощь Как мы построили корпоративную LLM-платформу: архитектура, грабли и выводы Устранить нельзя оставить — разбираем ситуацию с уязвимостями в российской виртуализации Bitrix и Laravel: веб-хуки, ERP и все-все-все (часть 5) Поиск секрета популярности лучших репозиториев GitHub за всё время существования платформы Сэкономили на облаке под 1С: ДО — заложили бюджет на штраф. Разбираем 152-ФЗ при работе с 1С Компьютерное зрение: что получается, когда у вас не идеальная лаборатория, а дождь, снег и подвижный манипулятор Параметризация в JUnit 5 и Allure Report Мне 15, и я собираю AI-стартап для недвижки: как я победил GPU, баги PyTorch и очередь в визовый центр Стратегия «Голубого океана»: как системный аналитик влияет на продукт Проектируем с нуля калькулятор на FPGA. Часть 3: Практические численные методы От видимости сети до кибербезопасности: главный миф о сетевой телеметрии, который мешает раскрыть потенциал NetFlow Как интегрировать ТСД с любой конфигурацией «1С: Предприятия»? Человеческие головы, сандалии и лягушки: стегоконтейнеры за тысячи лет до первого компьютера GigaIDE Pro для разработки на Django Как добиться непостоянного момента? Книга: «Kubernetes. Полное руководство по развертыванию и управлению Kubernetes в облачных и локальных средах. 2-е изд.» Почему IT-специалисты остаются: что работает на удержание в 2026 году Соединение деталей 3D-печатных изделий… Простое ли дело? Yamaha RGX121Z RM — современный суперстрат с японским вайбом второй половины 1980-х Как я написал плагин для WooCommerce под Yandex YCP или как купить в 1 клик из Алисы Креативное программирование: визуализация звука Сложно читать IT литературу на кривом русском? Есть решение — книжный ревью (рефакторинг) История о том, как человечество наняло очень странного сотрудника Как мы в отделе документации создали LLM агента для автоматизированного перевода с английского на другие языки Почему e-ink до сих пор не убил LCD, хотя должен был Как оплачивать нейросети и остальное недоступное в РФ в 2026: 9 способов с ценами и рисками, где можно влететь Решение проблем в управлении: почему мидл-менеджеры справляются с кризисами эффективнее топов Сколько телефонов и планшетов продали партнёры: единое хранилище данных для бренда электроники Google Fellow, студент Нанкина и создатель TikTok: кто сделал Seedream и Seedance. Досье SpeShu.AI В прорывном эксперименте из первых в мире полностью искусственных яиц вылупились птенцы Разворачиваем облачный ТОиР на заводе за две недели Vivaldi 8.0 — Унифицированная свобода выбора Как мы с нуля реализовали двустороннее доверие «лес–лес» с Microsoft Active Directory Хакер спас мир и сел в тюрьму: Невероятная история Маркуса Хатчинса и червя WannaCry Построение корпоративной архитектуры в ИТ-проектах, используя методологию TOGAF Пайплайн не должен хранить секрет: безопасное хранение и доставка секретов для CI/CD с Deckhouse Code и Stronghold ОГЭ информатика. 16 задание на Python Asus, MSI и Gigabyte урезают производство материнских плат. Что происходит на рынке Claudex: как я подружил Claude Code с ChatGPT/Codex OAuth без OpenAI API key Как измерить скорость интернета? Почему выгорают не слабые, а ваши Версионирование таблиц репозитория метаданных Sigla Vision Графическая утилита PostgreSQL mini Profiler (в помощь экспертам по технологическим вопросам 1С и не только им) Шахматные программы IV. Термины и методы Почему Я.Директ не приводит премиальных клиентов и что с этим делать – продали элитных туров на 600 млн Реестр отечественного ПО: как бизнесу выбрать решение среди 30 000 записей и не ошибиться Глаза не видят, а код пишется: как я настраиваю и программирую 100+ модулей в умном доме Архитектура AI-сервисов: почему монолит убивает latency и GPU Процессы: чего до сих пор не хватало обычным BPM (Часть 2) Книжный салон — дополнительные книги от издательства «БХВ». Предзаказ Как продакту довести фичу до прода без PMBOK и PRINCE2 Оргмодель, процессы и агенты (Часть 1) Probe-сеть из 10 регионов: что я не учёл про AS-разнесённость Как автоматизировать повторную обработку сообщений из архива в DATAREON Platform Arguments to Config — простая и мощная библиотека для парсинга аргументов в CLI-приложении на C# Как я обучил GPT с нуля на русском языке — и что из этого получилось Миллион алых нод: о выборе баз данных для хранения больших объёмов Билеты, баги и БДСМ: хроники тревел-стартапа От vSphere к VCD: как мы построили хранилище образов и нативный CSI для Kubernetes Фолдинг белка на ноутбуке. De novo дизайн KRAS G12D (Switch II) ингибитора. Докинг, валидация в AlfaFold Server и PyMOL Тебя уволят, и ничего не сломается. Возможно, станет даже лучше ИИ от Anthropic вскрыл банки G20, Цукерберг уволил 8000 человек за один день, а мы это пропустили Один за всех: как я в одиночку тащу фуллстек-проект, который незаметно разросся до соцсети
AI Evals: Почему без оценки качества ваш продукт стоит на месте
alexlyk314 · 2026-05-21 · via Все публикации подряд на Хабре

Уровень сложностиПростой

Время на прочтение4 мин

Охват и читатели615

Вы меняете системный промпт, надеетесь, что все заработало и деплоите фичу в продакшен. На следующее утро прилетает жалоба: агент выдумал дедлайн или проигнорировал важную инструкцию. Вы снова открываете IDE, правите промпт, смотрите глазами на пару примеров — «вроде стало лучше» и цикл вновь повторяется.

Если это ваша повседневная реальность, у нас плохие новости: вы не управляете продуктом, вы играете в лотерею.

В мире, где LLM-агенты становятся основой бизнес-процессов, AI Evals (оценки) — это не дополнительная нагрузка на инженеров, а единственная возможность контролируемых улучшений. Лидеры индустрии, от OpenAI до Anthropic, сходятся в одном: если вы не можете измерить качество работы ИИ - вы не можете им управлять.

Почему Evals — это ваш самый дефицитный ресурс

Представьте, что вы строите самолет, но не проводите летные испытания, потому что «пилоты вроде справляются на тренажере». В ИИ ситуация еще опаснее: агент недетерминирован.

  • Регрессии: Вы исправили галлюцинации в суммаризации, но случайно «сломали» извлечение данных из таблиц. Без автоматизированных оценок вы узнаете об этом только тогда, когда клиенты начнут массово уходить.

  • Масштабирование: Человеческий контроль — это «бутылочное горлышко». Вы не можете вручную проверить 10 000 диалогов. Без системы оценки вы просто не сможете расти.

  • Скорость разработки: Пока вы гадаете, почему агент ведет себя странно, ваши конкуренты внедряют системы оценки, позволяющие им безопасно деплоить обновления по 5 раз в день. Пока вы тратите часы на «ручной перебор», они «скармливают» свои промпты бенчмаркам и получают объективную метрику Faithfulness (верности источнику) или Completeness (полноты).

Как это работает на самом деле

Оценка (Eval) — это простая функция: f(output) -> score. Но за этой простотой скрывается системный подход. Согласно методологии Anthropic, качественный eval-фреймворк сочетает три уровня проверки:

1. Code-based Assertions (Фундамент)

Это ваши «юнит-тесты» для ИИ. Проверяют структуру (JSON, наличие полей), длину или соответствие формальным правилам.

  • Кейс: Агент должен вернуть ответ в JSON. Тест проверяет JSON.parse(). Если не распарсилось — тест провален. Быстро, дешево, надежно.

2. LLM-as-a-Judge (Масштабируемость)

Использование более мощной или специализированной модели для оценки результатов вашего агента.

  • Кейс: Представьте, что вы автоматизировали ответы на тикеты пользователей с помощью агента. Проблема в том, что стандартные методы (например, поиск ключевых слов или простая проверка на токсичность) не улавливают нюансы вашего бренда.

    Вы используете более мощную модель (например, GPT-5 или Claude 4), которая выступает в роли «строгого менеджера отдела поддержки». Вы подаете ей Input (тикет пользователя) и Output (ответ вашего агента).

    Промпт для судьи:

    «Оцени ответ агента по 3-балльной шкале (1-3) по критериям:

    1. Эмпатия: Выразил ли агент понимание проблемы клиента?

    2. Конкретика: Есть ли в ответе пошаговое решение или статус тикета?

    3. Соблюдение политики: Не обещал ли агент возврат денег, если это запрещено правилами компании (критическое нарушение)?

    Если критерий 3 нарушен — автоматический провал теста.»

    Почему это хорошо?

    • Детекция бренда: Вы можете настроить судью так, чтобы он штрафовал агента за «излишнюю сухость» или «чрезмерное использование смайликов», если это не соответствует вашему tone-of-voice.

    • Автоматический «Стоп-кран»: Если LLM-судья ставит 1 по критическому критерию, такой ответ блокируется до проверки человеком.

    • Результаты:

      • До внедрения: Агенты иногда «срывались» в оправдания или давали ложные обещания компенсаций.

      • После внедрения: Удалось снизить количество «недовольных повторных обращений» на 22% за счет того, что «судья» отфильтровывал неэмпатичные ответы еще до того, как они уходили клиенту.

3. Human-in-the-loop (Калибровка)

Эксперты в предметной области выборочно проверяют логи, чтобы убедиться, что «LLM-as-a-Judge» не сошел с ума. Это калибровка вашего «измерительного прибора».

Кейс из индустрии: Анализ ошибок

Известный эксперт Хамель Хусейн, консультировавший десятки AI-стартапов, вывел золотое правило: никогда не автоматизируйте то, что не поняли руками.

На проекте NurtureBoss всего три типа ошибок объясняли 60% всех провалов агента. Команда, которая не провела ручной «error analysis», пыталась внедрить сложные системы мониторинга, которые измеряли «среднюю температуру по больнице», но не замечали критических сбоев.

Как действовать:

  1. Соберите 50 «реальных» диалогов из продакшена.

  2. Прочитайте их руками. Выпишите типы ошибок (галлюцинация, потеря контекста, нарушение формата).

  3. Напишите простой eval для самого частого типа ошибки.

  4. Внесите правки и сравните результат Pass Rate до и после.

Заключение: Почему «безоценочная» разработка — это тупик

Команды, пренебрегающие оценками (evals), неизбежно попадают в бесконечный цикл: исправление одного бага порождает новый, а инженеры теряются в «шуме», не понимая, где реальная регрессия, а где случайность. Вы перестаете разрабатывать продукт и начинаете бесконечно «тушить пожары».

Команды, которые инвестируют в evals на раннем этапе, получают противоположный эффект. Разработка ускоряется, так как каждый найденный баг превращается в тест-кейс, который навсегда закрывает дверь для подобных ошибок в будущем. Субъективное «агент стал работать хуже» превращается в конкретные, измеримые данные, с которыми можно работать. Ценность такого подхода растет по экспоненте, но только при условии, что evals — это фундамент архитектуры, а не «заглушка», которую дописывают перед деплоем.

Ваш путь от хаоса к системному улучшению продукта:

  1. Начинайте с малого. Собирайте реальные кейсы отказов и превращайте их в тесты.

  2. Четко формулируйте критерии успеха. Размытые требования порождают размытые результаты.

  3. Комбинируйте методы. Не полагайтесь только на LLM-as-a-Judge или только на код. Используйте гибридные подходы, где каждый метод закрывает слабые стороны другого.

  4. Усложняйте задачи. Если все тесты проходят на 100% — значит, ваш бенчмарк слишком прост и не дает ИИ «потолка» для роста.

  5. Читайте логи. Никакой дашборд не заменит понимания того, как именно агент принимает решения «под капотом».

Оценка AI-агентов — это развивающаяся дисциплина. По мере того как агенты переходят к долгосрочным задачам и мультиагентным системам методы будут эволюционировать. Но база останется неизменной: вы не можете улучшить то, что не можете измерить.

Начинайте строить свои evals сегодня. Пока вы сомневаетесь, лидеры в индустрии уже создают инфраструктуру, которая делает качество их продуктов стабильно высоким, а не счастливой случайностью. В мире AI побеждает не тот, у кого «умнее» модель, а тот, кто умеет быстрее всех учиться на своих ошибках.