LLM-пентест в 2026: что изменилось за год

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

cheebo · 2026-05-05 · via Все публикации подряд на Хабре

Простой

8 мин

853

Обзор

Привет, Хабр! Согласно отчёту Trend Micro TrendAI за прошлый год число CVE во всей AI-экосистеме почти удвоилось: с 419 до 756. Цифры стартовые, но мысль простая. Тестировать нейросетевые сервисы как обычные веб-приложения в 2026-м уже недостаточно. И вот почему.

В этой статье разберу:

что появилось нового в OWASP LLM Top 10 (версия 2025);
какие атаки реально работают в проде, а какие так и остались в arXiv;
чем тестируют LLM сейчас (open-source стек плюс российские игроки);
плюс короткий практический playbook на четыре уровня.

OWASP LLM Top 10 2025: что новое

Версия 2025 закрепила то, что было на слуху, но не было каноном. Главные изменения:

LLM01 Prompt Injection теперь явно делится на direct, indirect и multimodal. Это уже не “что-то странное в чате”, а три разных вектора с разными митигациями.
LLM07 System Prompt Leakage (NEW). Системный промпт стал отдельной сущностью, потому что хидден-промпт у Grok, утечка инструкций ChatGPT по запросу “Windows product key” и схожие истории показали: разработчики до сих пор кладут туда конфиденциальные данные.
LLM08 Vector and Embedding Weaknesses (NEW). RAG-poisoning, embedding inversion, similarity-attacks. На бенчмарках ASR (Attack Success Rate) на отравлённой базе знаний доходит до 60%.
LLM10 Unbounded Consumption (NEW). Бывший Denial-of-Service, расширенный до Denial-of-Wallet и model extraction. В мире pay-per-token это бьёт по кошельку быстрее, чем по доступности.

Параллельно в декабре 2025-го вышел OWASP Top 10 for Agentic Applications 2026 (ASI01–ASI10). Это не “ещё один список”, а другая модель угроз: tool-use, browsing, code execution. Если ваш ассистент умеет дёргать инструменты, обычный LLM Top 10 покрывает примерно половину рисков.

Атаки, которые реально работают

Crescendo и Skeleton Key

Crescendo (Russinovich et al., arXiv 2404.01833) — многоступенчатый jailbreak. Модель сама себя загоняет в нужное состояние: серия безобидных вопросов, постепенное смещение контекста, к восьмому-десятому ходу выполняет то, что отклонила бы на первом. Crescendomation на AdvBench даёт +29…61% ASR на GPT-4 и +49…71% на Gemini-Pro по сравнению со state-of-the-art. Воспроизводится на проде стабильно и это сделало вектор де-факто бенчмарком для multi-turn-атак.

Skeleton Key подход проще, но дольше держится. По сути просьба обновить инструкции “только для исследовательских целей”. В тестах Microsoft пробил Llama 3, Gemini Pro, GPT-3.5, GPT-4o, Mistral Large, Claude 3 Opus и Cohere Commander R Plus. Защищённость от этого вектора в 2024–2025 у разных моделей сильно различалась. Если давно не проверяли, стоит проверить.

Many-shot

Anthropic в 2024-м показал, что модели с длинными контекстными окнами пробиваются простой подачей десятков “примеров” вредных диалогов перед целевым запросом. Чем длиннее контекст, тем выше ASR. Логика простая: пример важнее системного промпта.

Linguistic Sandwich и Time Machine

Эти два часто недооценивают, особенно в русскоязычной среде.

Linguistic Sandwich оборачивает запрос в смесь языков и диалектов так, что safety-classifier на английских паттернах ломается, а основная модель всё ещё понимает, что от неё хотят. По данным LLAMATOR, ASR на русскоязычных запросах выше базового в 2-4 раза.

Time Machine (он же Past Tense): “А как раньше делали то-то?”. Модели чаще соглашаются обсуждать действия, отнесённые в прошлое. Просто, работает.

Публичных бенчмарков с измерением ASR именно для русского пока почти нет и это неудобный пробел. Вендоры показывают цифры на английском, а заказчик в РФ хочет про русский.

GCG, AmpleGCG и универсальные суффиксы

GCG (Greedy Coordinate Gradient, arXiv 2307.15043) подбирает adversarial-суффиксы, которые ломают согласование. AmpleGCG (arXiv 2404.07921) ускорил атаку до сотен суффиксов в час с ASR ~99% на GPT-3.5. В 2025-м вышла работа “Universal Jailbreak Suffixes Are Strong Attention Hijackers” (arXiv 2506.12880), которая объяснила механику: суффиксы перетягивают внимание модели, а не “обманывают” её. Это меняет подход к защите.

Атаки на цепочку: RAG, MCP и MCPTox

Тут стало интереснее всего.

RAG-poisoning. Атакующий внедряет в knowledge base документы с инструкциями, которые срабатывают, когда retriever их вытащит. Защита через TrustRAG (k-means кластеризация подозрительных документов) и context-based access control помогает, но не радикально.

Tool poisoning через MCP. Anthropic выпустил Model Context Protocol в конце 2024-го и за год MCP стал основной поверхностью атаки на агенты. MCPTox (arXiv 2508.14925) это бенчмарк на 45 реальных MCP-серверах, 353 инструментах и 1312 тест-кейсах против 20 LLM. ASR у o1-mini получился 72.8%, у DeepSeek-R1 выше 60%. Самой “стойкой” из топовых моделей оказалась Claude-3.7-Sonnet, но и у неё доля отказов меньше 3%, то есть атака пробивает почти всегда. Разброс между моделями серьёзный, и публичных воспроизведений на GigaChat, YandexGPT или Cotype я пока не встречал. Если у вас есть, поделитесь в комментариях.

Дополнительно вышел MCP-38 (arXiv 2603.18063), который описал 38 классов уязвимостей MCP, включая parasitic tool chaining и dynamic trust violations.

CVE 2025 года: то, что прилетело в прод

Список того, что попало в публичные базы и реально использовалось:

CVE	Что	Класс
CVE-2025-32711 EchoLeak	Zero-click prompt injection в Microsoft 365 Copilot. Эксфильтрация данных без действий пользователя. Aim Security, arXiv 2509.10540	Indirect prompt injection
CVE-2025-53773	RCE в GitHub Copilot через prompt injection с записью в файл агента	Tool-use exploit
CVE-2025-54135 CurXecute	Prompt injection через Slack MCP-сервер в Cursor IDE с RCE (Aim Security)	MCP poisoning
CVE-2025-54136 MCPoison	Подмена `.cursor/mcp.json` в репозитории, эскалация до RCE при открытии проекта (Check Point Research)	MCP config
CVE-2025-49596	CSRF в MCP Inspector с RCE при дефолтной конфигурации	Dev-tooling
CVE-2025-55182 React2Shell	Уязвимость десериализации в React Server Components (затронуты Next.js 15.x/16.x). Использовалась сканером Bissa: десятки тысяч `.env`-файлов и сотни успешных эксплоитов	Supply chain

Отдельно стоит упомянуть Whisper Leak (Microsoft Defender Research, 2025). Это side-channel: по размерам и таймингам пакетов streaming-LLM можно восстановить тему диалога, не имея доступа к содержимому. Атака работает поверх TLS. В OWASP LLM Top 10 этой атаки нет. Возможно, зря.

И ещё: утечка системных промптов персонажей Grok в августе 2025-го и история с Windows product keys из ChatGPT в июле 2025-го (классический jailbreak через “guessing game”). Оба кейса бьют в LLM07.

Чем тестируют LLM в 2026-м

Open-source стек

Garak (NVIDIA, Leon Derczynski). Самый зрелый сканер. Больше сотни probe-классов, тысячи генерируемых промптов на прогон, интеграция с NeMo Auditor и AVID (AI Vulnerability Database). Помимо классического pass/fail умеет в Z-score: видно, насколько модель отклоняется от state-of-the-art на конкретном тесте. Для отчёта заказчику сильно удобнее, чем сухое “37 фейлов из 120”.

PyRIT (Microsoft). Orchestration-фреймворк с converter-ами, scoring engines и интеграцией с Azure AI Foundry. Базовая команда AI Red Team Microsoft на нём же.

Promptfoo. Application-aware: тестирует не модель в вакууме, а ваше приложение целиком (RAG, плагины, REST). Хорошо ложится в CI/CD, есть мэппинг на OWASP, NIST AI RMF, MITRE ATLAS, EU AI Act, ISO 42001.

DeepTeam (Confident AI). Plug-and-play, минимум кода, готовый OWASPTop10() пресет. Удобен, когда нужно быстро отчитаться по compliance.

FuzzyAI (CyberArk). ArtPrompt (ASCII-art jailbreak), many-shot, Crescendo, Unicode smuggling, веб-интерфейс, поддержка OpenAI/Anthropic/Gemini/Azure/Ollama.

Ещё рантайм-страж: LLM Guard (Protect AI), NeMo Guardrails (NVIDIA, DSL Colang), Lakera Guard, Prompt Security. Это уже не red-teaming, а защита in-line.

Российские игроки

HiveTrace (Raft Digital Solution + AI Talent Hub ИТМО). Два продукта. Monitor для SOC поверх GenAI с детектом prompt injection и утечек PII в инференсе. Red Enterprise — отчёт по red-teaming-аудиту с маппингом находок на OWASP LLM Top 10.

LLAMATOR (open-source, тот же коллектив ИТМО, лицензия CC BY-NC-SA 4.0). Архитектура на трёх моделях: attack model, tested model, judge model. Большой набор атак с маркерами all/eng/rus/vlm/owasp:llm01–llm10. Интеграция: REST API, OpenAI-совместимые, Telegram (через Telethon), WhatsApp, Selenium для веб-чатов вроде Gandalf от Lakera. На русскоязычных атаках работает заметно лучше англоязычных альтернатив, точные публичные цифры по ASR в README отсутствуют. На коммерческое применение лицензия NC накладывает ограничения, на это стоит смотреть до встраивания в энтерпрайз-CI.

ML-команды Bi.Zone, Kaspersky MLTech и Positive Technologies подходят к теме сбоку, через свои основные продукты (TDR, MaxPatrol). Прямого сравнения “open-source стек против enterprise red-teaming в РФ” по фактам и метрикам публично не делал никто и тут есть пространство для отдельной заметки.

Что меняет приказ ФСТЭК №117

Приказ №117 от 11 апреля 2025 года “Об утверждении Требований о защите информации, содержащейся в государственных информационных системах” зарегистрирован в Минюсте 16 июня 2025-го (рег. №82619), вступает в силу 1 марта 2026-го и заменяет Приказ №17 от 11 февраля 2013 года.

Касается он ГИС, а не любой LLM в проде. Если у вас обычный b2c-сервис без госконтрактов, прямого требования “пройти аудит по 117” нет. Но как только сервис интегрируется с государственными системами или попадает в периметр оператора ГИС, требования начинают накладываться и на AI-обвязку: журналирование, контроль целостности, сегментация, подсистема обнаружения вторжений. Конкретной методики “как тестировать LLM” в самом приказе нет, эта часть отдана методическим документам ФСТЭК более низкого уровня и оператору системы. На практике: формальной процедуры пентеста LLM регулятор пока не предписывает, но требует, чтобы у оператора она была и была документирована.

Параллельно идёт законопроект Минцифры (regulation.gov.ru, ID 02/04/03-26/00166424) с четырёхуровневой градацией рисков ИИ-систем. Пилоты намечены на 2027-й. Это уже про ИИ как таковой, а не про ГИС.

Российские LLM и почему это про деньги тоже

GigaChat 2 / GigaChat MAX / GigaChat 3 Ultra Preview (последняя в open-weight MoE-варианте, ~702B общих, ~36B активных параметров, MIT). YandexGPT 5 / 5.1 Pro / Alice AI LLM (контекст 128K, по данным Яндекса побеждает GPT-4.1 в 56% запросов в их закрытых тестах). T-Pro и T-lite от Т-Банка. Cotype от MTS AI. RuGPT, RuT5, RuBERT по мелочи.

По исследованию Nodul (ноябрь 2025), при генерации текста объёмом 10 тысяч символов GigaChat-2 MAX оказался в 208 раз дороже DeepSeek. Цифра выглядит дико, но порядок именно такой. И вот тут Denial-of-Wallet из теоретической атаки превращается в осязаемый финансовый риск. Простой repetition-token attack по несколько часов в день и счёт за инфраструктуру растёт.

Это атака не на доступность сервиса, а на P&L. На неё мало смотрят при пентесте и её обычно не закрывают rate-limiting, потому что rate-limiting обычно ограничивает запросы, а не токены.

Практический playbook

Микс, который реально работает (по сути, рекомендация Microsoft AI Red Team плюс Vectra AI плюс мой опыт):

Broad scan, 30–60 минут на модель. Garak или Promptfoo пробегают полный набор probe-ов: jailbreak, encoding, утечки. Цель: отсечь явное.
Compliance scan, 15–30 минут на PR. Promptfoo с пресетом OWASP Agentic Top 10 или DeepTeam с OWASPTop10(). Регрессия покрытия видна сразу.
Deep exploitation, 2–4 часа. PyRIT с Crescendo и TAP-ветками, кастомные converter-ы под ваш домен, multi-turn-сценарии. Здесь же LLAMATOR с Linguistic Sandwich на русском.
Manual expert testing, 1–2 дня. Архитектурный обзор, бизнес-логика, social engineering chains, эксплуатация цепочек. Это то, что Garak и Promptfoo в принципе не покрывают, что бы там ни обещали маркетинговые материалы.

Если в стеке есть RAG, добавьте отдельный прогон корпус-poisoning с подмешиванием отравленных документов и проверкой similarity-метрик. Если есть MCP-сервер, прогоните MCPTox или его адаптацию под ваши инструменты. Если есть streaming в проде, оцените Whisper Leak risk через падение или его отсутствие в TLS-метриках после паддинга.

И не забыть AI-BOM (AI Bill of Materials): список моделей, fine-tune датасетов, плагинов, MCP-серверов. Без него supply-chain (LLM03) превращается в гадание.

FAQ

В чём разница между OWASP LLM Top 10 и Agentic Top 10?

Первый про модель и её ввод-вывод. Второй про агента, который пользуется инструментами, ходит в интернет и исполняет код. Если у вас просто чат-бот, хватит первого. Если ассистент дёргает API и пишет в БД, нужны оба.

LLAMATOR или Garak, что выбрать?

LLAMATOR сильнее на русскоязычных атаках и сценариях с реальными каналами (Telegram, WhatsApp, веб-чаты через Selenium). Garak это индустриальный стандарт, лучше документирован, удобнее для регрессий в CI. В норме их используют вместе.

Whisper Leak реально использовали в проде?

Публично подтверждённых атак на конкретные сервисы пока нет, но Microsoft Defender уже добавил его в свою модель угроз. Если ваш сервис стримит ответы LLM наружу через TLS, проверять стоит. Митигация: паддинг чанков. Готовых рецептов от провайдеров пока мало.

Если коротко: “пентест нейронки” в 2026-м это уже не одна задача, а четыре разных (модель, RAG, агент, инфраструктура). Garak и LLAMATOR не закроют всё, человеческая экспертиза тоже нужна. Денежные риски в виде Denial-of-Wallet недооценены. И судя по динамике CVE, в 2026-м их станет больше.

Что из этого у вас уже в проде, а что белые пятна? Какой комплект вы реально гоняли на ваших моделях? Любопытно сверить часы.

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Все публикации подряд на Хабре

OWASP LLM Top 10 2025: что новое

Атаки, которые реально работают

Crescendo и Skeleton Key

Many-shot

Linguistic Sandwich и Time Machine

GCG, AmpleGCG и универсальные суффиксы

Атаки на цепочку: RAG, MCP и MCPTox

CVE 2025 года: то, что прилетело в прод

Чем тестируют LLM в 2026-м

Open-source стек

Российские игроки

Что меняет приказ ФСТЭК №117

Российские LLM и почему это про деньги тоже

Практический playbook

FAQ