Как я построил guardrails, которые не дали моему AI-агенту пойти вразнос

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

xi ji · 2026-06-13 · via Все публикации подряд на Хабре

Средний

8 мин

На третий день мой агент слил email одного клиента в переписку с другим клиентом. Это была не гипотетическая история из доклада на конференции. Это был мой код, в проде, делающий то, что я никогда не тестировал.

Я собрал support-агента на LangGraph и GPT-4o. Он умел искать по базе знаний, подтягивать детали аккаунта и готовить ответы. В staging он работал прекрасно. В проде ему понадобилось ровно 72 часа, чтобы вытащить PII одного пользователя в разговор с другим. Причина оказалась до неловкого простой: модель включила сырой контекст из базы данных прямо в ответ, и ничто в моём пайплайне это не проверяло.

Постфактум фикс был очевиден. Фреймворки для AI-агентов дают вам оркестрацию, вызов инструментов и память. Они не дают вам безопасность. Это уже на вас.

Почему ваш фреймворк не включает guardrails

LangChain, CrewAI, LangGraph, Agents SDK от OpenAI. Выберите любой. Ни один из них не идёт из коробки с валидацией входа, фильтрацией выхода или контролем расходов. Они исходят из того, что вы добавите это сами.

Большинство команд так и не добавляют.

Почему это важно — объясняет простая арифметика. При точности 90% на шаг, агентный workflow из 5 шагов успешен в 59% случаев. Workflow из 10 шагов падает до 35%. На 20 шагах вы на уровне 12%. Каждый незащищённый шаг — это умножение вашей вероятности отказа.

Guardrails не чинят точность. Они ограничивают радиус поражения, когда точность отказывает. Разница между «агент дал неправильный ответ» и «агент дал неправильный ответ, в который попал чей-то номер соцстрахования» — это один output-валидатор.

Следующие две недели я строил стек guardrails. Код ниже — то, к чему я в итоге пришёл.

Четыре guardrail, нужные каждому агенту

Каждому агенту нужна защита в четырёх точках:

Input guardrails ловят prompt injection и вычищают чувствительные данные до того, как их увидит LLM.
Output guardrails валидируют ответы до того, как их увидят пользователи, блокируя галлюцинации и утёкший контекст.
Cost circuit breakers не дают счёту за API улететь в космос из-за зацикливания или неожиданно длинных разговоров.
Tool call validators подтверждают, что агент вызывает только разрешённые инструменты с параметрами, проходящими проверку схемы.

Все четыре умещаются менее чем в 200 строк Python. Накладные расходы по latency — 10–50 мс на слой. Альтернатива — узнавать о сбоях от своих клиентов.

Input guardrails: ловим плохие промпты до выполнения

Ваш input-валидатор работает до того, как LLM вообще увидит промпт. Он делает две вещи: блокирует попытки инъекции и редактирует PII.

import re
from dataclasses import dataclass

@dataclass
class ValidationResult:
    is_valid: bool
    reason: str = ""
    sanitized_input: str = ""

class InputGuardrail:
    INJECTION_PATTERNS = [
        r"ignore\s+(all\s+)?previous\s+instructions",
        r"you\s+are\s+now\s+a",
        r"disregard\s+(your|all)\s+(rules|instructions)",
        r"system\s*prompt\s*:",
        r"<<\s*SYS\s*>>",
    ]

    PII_PATTERNS = {
        "ssn": r"\b\d{3}-\d{2}-\d{4}\b",
        "credit_card": r"\b\d{4}[\s-]?\d{4}[\s-]?\d{4}[\s-]?\d{4}\b",
        "email": r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b",
    }

    def validate(self, user_input: str) -> ValidationResult:
        # Check for prompt injection
        for pattern in self.INJECTION_PATTERNS:
            if re.search(pattern, user_input, re.IGNORECASE):
                return ValidationResult(
                    is_valid=False,
                    reason=f"Prompt injection detected: {pattern}"
                )

        # Scrub PII from input
        sanitized = user_input
        for pii_type, pattern in self.PII_PATTERNS.items():
            sanitized = re.sub(pattern, f"[REDACTED_{pii_type.upper()}]", sanitized)

        return ValidationResult(
            is_valid=True,
            sanitized_input=sanitized
        )

Это не пуленепробиваемо. Настойчивый атакующий обойдёт основанное на regex обнаружение инъекций. Но оно ловит частые попытки, которые по моему опыту составляют около 80% реальных атак. Для продакшена с чувствительными данными добавьте поверх regex-прохода модель-классификатор (вроде Lakera Guard или дообученного DistilBERT).

Вычистка PII — именно та часть, что спасла бы меня на третий день. Если бы мой input guardrail вырезал email из контекста базы данных до того, как он попал в разговор, утечки бы не случилось.

Output guardrails: останавливаем галлюцинации до пользователя

Валидация выхода — то место, где большинство команд пропускают guardrails вовсе. Модель дала ответ, выглядит разумно, отправляем. Но «выглядит разумно» — это не тот стандарт, на который можно полагаться.

from pydantic import BaseModel, field_validator
from typing import Optional
import json

class AgentResponse(BaseModel):
    answer: str
    confidence: float
    sources: list[str]

    @field_validator("confidence")
    @classmethod
    def check_confidence(cls, v):
        if not 0.0 <= v <= 1.0:
            raise ValueError("Confidence must be between 0 and 1")
        return v

    @field_validator("answer")
    @classmethod
    def check_no_pii_leak(cls, v):
        pii_patterns = [
            r"\b\d{3}-\d{2}-\d{4}\b",  # SSN
            r"\b\d{4}[\s-]?\d{4}[\s-]?\d{4}[\s-]?\d{4}\b",  # Credit card
        ]
        for pattern in pii_patterns:
            if re.search(pattern, v):
                raise ValueError("Response contains potential PII")
        return v

class OutputGuardrail:
    def __init__(self, confidence_threshold: float = 0.7):
        self.confidence_threshold = confidence_threshold

    def validate(self, raw_response: dict) -> ValidationResult:
        try:
            response = AgentResponse(**raw_response)
        except Exception as e:
            return ValidationResult(
                is_valid=False,
                reason=f"Response failed schema validation: {e}"
            )

        if response.confidence < self.confidence_threshold:
            return ValidationResult(
                is_valid=False,
                reason=f"Confidence {response.confidence} below threshold"
            )

        if not response.sources:
            return ValidationResult(
                is_valid=False,
                reason="No sources provided for claim"
            )

        return ValidationResult(is_valid=True, sanitized_input=response.answer)

Pydantic-модель делает двойную работу. Она навязывает структуру (LLM обязана вернуть JSON с answer, confidence и sources) и прогоняет контентные проверки (никакого PII в выходе). Когда валидация падает, мой агент повторяет запрос с дополнительным контекстом: «Ваш предыдущий ответ отклонён, потому что [причина]. Попробуйте снова».

Два повтора со всё более конкретными инструкциями чинят большинство падений валидации. Если падает три раза — я возвращаю заготовленный fallback-ответ и логирую инцидент.

Kill switch: circuit breaker по расходам и токенам

Это тот guardrail, про который никто не пишет, и именно он стоил мне $400.

У меня был баг, из-за которого агент входил в цикл повторов. Вызов инструмента падал, агент повторял, повтор падал чуть иначе, и агент повторял снова. Каждый повтор сжигал токены на шаге рассуждения плюс на вызове инструмента. Он крутился шесть часов ночью, прежде чем я заметил.

import time
from threading import Lock

class CostCircuitBreaker:
    def __init__(
        self,
        max_tokens_per_request: int = 50_000,
        max_tokens_per_session: int = 200_000,
        max_api_calls_per_minute: int = 30,
        max_daily_spend_usd: float = 50.0,
    ):
        self.max_tokens_per_request = max_tokens_per_request
        self.max_tokens_per_session = max_tokens_per_session
        self.max_api_calls_per_minute = max_api_calls_per_minute
        self.max_daily_spend = max_daily_spend_usd

        self._session_tokens = 0
        self._minute_calls = []
        self._daily_spend = 0.0
        self._lock = Lock()

    def check_budget(self, estimated_tokens: int) -> ValidationResult:
        with self._lock:
            # Per-request limit
            if estimated_tokens > self.max_tokens_per_request:
                return ValidationResult(
                    is_valid=False,
                    reason=f"Request needs ~{estimated_tokens} tokens, "
                           f"limit is {self.max_tokens_per_request}"
                )

            # Session limit
            if self._session_tokens + estimated_tokens > self.max_tokens_per_session:
                return ValidationResult(
                    is_valid=False,
                    reason="Session token budget exhausted"
                )

            # Rate limit
            now = time.time()
            self._minute_calls = [t for t in self._minute_calls if now - t < 60]
            if len(self._minute_calls) >= self.max_api_calls_per_minute:
                return ValidationResult(
                    is_valid=False,
                    reason="API call rate limit exceeded"
                )

            # Daily spend
            estimated_cost = (estimated_tokens / 1_000_000) * 3.00  # ~GPT-4o rate
            if self._daily_spend + estimated_cost > self.max_daily_spend:
                return ValidationResult(
                    is_valid=False,
                    reason="Daily spend limit reached"
                )

            # All checks passed, record usage
            self._session_tokens += estimated_tokens
            self._minute_calls.append(now)
            self._daily_spend += estimated_cost

            return ValidationResult(is_valid=True)

Per-request лимит ловит очевидный случай: одно гигантское контекстное окно, которое прожжёт ваш бюджет. Session-лимит ограничивает суммарные траты на один разговор. Rate-лимит предотвращает шторм повторов. А дневной лимит трат — ваш абсолютный потолок.

Я выставил дневной лимит в $50. Если упираюсь в него — система перестаёт звать API и возвращает ответ «сервис временно недоступен». Я лучше получу простой, чем счёт-сюрприз.

Валидация вызова инструментов: агент не должен звать то, что вы не одобрили

Когда у агента есть доступ к базе данных, файловой системе или внешнему API, валидация вызовов инструментов — не опция. Без неё взломанный или запутавшийся агент может выполнить разрушительную операцию.

class ToolCallGuardrail:
    def __init__(self, allowed_tools: dict[str, dict]):
        """
        allowed_tools format:
        {
            "search_knowledge_base": {
                "allowed_params": ["query", "top_k"],
                "max_calls_per_session": 20,
            },
            "get_account_info": {
                "allowed_params": ["account_id"],
                "max_calls_per_session": 5,
            },
        }
        """
        self.allowed_tools = allowed_tools
        self._call_counts: dict[str, int] = {}

    def validate_tool_call(
        self, tool_name: str, params: dict
    ) -> ValidationResult:
        # Tool must be in allowlist
        if tool_name not in self.allowed_tools:
            return ValidationResult(
                is_valid=False,
                reason=f"Tool '{tool_name}' is not in the allowlist"
            )

        tool_config = self.allowed_tools[tool_name]

        # Check parameters
        for param in params:
            if param not in tool_config["allowed_params"]:
                return ValidationResult(
                    is_valid=False,
                    reason=f"Parameter '{param}' not allowed for {tool_name}"
                )

        # Check call frequency
        count = self._call_counts.get(tool_name, 0)
        if count >= tool_config["max_calls_per_session"]:
            return ValidationResult(
                is_valid=False,
                reason=f"Tool '{tool_name}' call limit reached"
            )

        self._call_counts[tool_name] = count + 1
        return ValidationResult(is_valid=True)

Я выбрал default deny. Если инструмента нет в allowlist — агент не может его вызвать. Если параметра нет в списке разрешённых для этого инструмента — вызов отклоняется. Это ловит и попытки джейлбрейка (когда модель пытается вызвать execute_sql или delete_record), и галлюцинированные имена инструментов (что случается чаще, чем вы думаете).

Лимиты частоты вызовов держу отдельно по каждому инструменту, потому что у разных инструментов разный профиль риска. Поиск — дёшево и безопасно вызвать 20 раз. Обновление аккаунта должно происходить максимум раз-два за разговор.

Собираем вместе: продакшен-стек guardrails

Вот как эти четыре части соединяются в реальном пайплайне агента:

User Input
    |
[Input Guardrail] --> reject / sanitize
    |
[Cost Circuit Breaker] --> check budget
    |
[LLM Reasoning]
    |
[Tool Call Guardrail] --> validate tool + params
    |
[Tool Execution]
    |
[LLM Response Generation]
    |
[Output Guardrail] --> validate / retry / fallback
    |
User Response

Каждый guardrail логирует свои решения. На каждый отказ — структурированная запись с причиной, входом, который его вызвал, и таймстампом. Раз в неделю я гоняю запрос по этим логам в поисках паттернов: если одна и та же попытка инъекции встречается 50 раз — это, вероятно, автоматизированная атака. Если output guardrail отклоняет 15% ответов за низкую уверенность — это проблема качества retrieval, которую надо чинить выше по пайплайну.

Суммарный overhead по latency для всех четырёх guardrails — менее 40 мс (без учёта ML-классификаторов). Для пользователя это невидимо.

Что бы я сделал иначе

Если бы начинал заново, я бы добавил guardrails до написания первой строки логики агента. Описанный здесь каркас — примерно 200 строк Python. Две недели у меня ушло только потому, что я встраивал его в уже существующую систему и параллельно разбирал инцидент с PII.

Мой прогноз: в течение 12 месяцев крупные агентные фреймворки начнут поставлять guardrails как first-class функцию. LangGraph уже движется в эту сторону со своим механизмом interrupt. А пока — вы сами по себе.

Начните с input guardrails и cost circuit breaker. Только эти два предотвратили бы оба моих инцидента (утечку PII и ночной счёт на $400). Добавьте валидацию выхода, когда появится продакшен-трафик, чтобы настроить пороги уверенности. Добавьте валидацию вызова инструментов, если у агента есть доступ на запись хоть к чему-нибудь.

Guardrails не сделают вашего агента умнее. Но они не дадут глупым моментам превратиться в инциденты.

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Все публикации подряд на Хабре

Почему ваш фреймворк не включает guardrails

Четыре guardrail, нужные каждому агенту

Input guardrails: ловим плохие промпты до выполнения

Output guardrails: останавливаем галлюцинации до пользователя

Kill switch: circuit breaker по расходам и токенам

Валидация вызова инструментов: агент не должен звать то, что вы не одобрили

Собираем вместе: продакшен-стек guardrails

Что бы я сделал иначе