Точно ли агенты безопасны?

Буквально недавно я писал статью по мотивам материала Anthropic - того самого, где опять говорили "джуны больше не нужны".

Ребята учитывают одни детали, игнорируют другие и по факту сравнивают тёплое с мягким :) потому что основная проблема джунов - далеко не LLM-агенты, но подробнее в той статье

Но к чему это я? Anthropic выкатили ещё один материал - уже про использование агентов в безопасности

Меня зовут Эдгар Сипки, я founder easyp & sipki tech и отбираю доклады на Golang Conf в программном комитете. А в своём тг-канале делюсь прикладными LLM - инструментами и подходами для разработки - подписывайтесь, дальше будет больше :)

Суть вот в чём - LLM-агенты это уже полноценный инструмент взлома. За год Anthropic заблокировали 832 аккаунта за злоупотребления, и доля действительно опасных акторов выросла с ~33% до ~56%. Опаснее становится не "вообще всё", а именно доля серьёзных игроков

Одна история - то, как могут взломать вас, вашего агента, вашего помощника, к примеру через промпт-инъекции в скиллах или через MCP.

Но есть вопрос поинтереснее :)

А могут ли ваш продукт взломать, используя LLM?

Ответ - да…

LLM агента подключают буквально на всех этапах сейчас, от написания кода вируса до поиска учёток в уже взломанных сетях

Самый жёсткий кейс получил риск-балл 100 из 100: шпионская кампания, где агент сам вёл разведку, эксплуатировал уязвимости, ходил по сети и собирал данные.

В ноябре 2025 года Anthropic опубликовала отчёт о том, что они назвали «первой задокументированной AI-оркестрированной кибершпионской кампанией». Группировка GTG-1002

Агент выполнял 80–90% всей операции самостоятельно: разведку, написание эксплойтов, перехват учётных данных, перемещение по сети и эксфильтрацию данных. Человек-оператор вмешивался лишь в 4–6 ключевых точках на всём протяжении кампании. Именно эта операция получила максимальный балл ARiES (AI Risk Enablement Score) — 100 из 100 :)

Но, об этом подробнее, в тг, а мы пожалуй вернемся к сути пока статьи Как биться с будущими… ?

С одной стороны, есть инструменты для анализа ваших скиллов, MCP и так далее, такие как Bumblebee и Skill Spectre. Их задача - сделать так, чтобы ваше рабочее пространство и ваших агентов не взломали.

Но что делать, если вы пишете проект и можете не учитывать те или иные кейсы безопасности? И вот тут гораздо интереснее.

А если дыра в вашем собственном коде?

Mythos и его наследник fable хайпанули в первую очередь тем, что позволили найти огромное количество дыр в безопасности в крупных системах.

Но вот в чём факт: немалую часть этих уязвимостей нашли только потому, что был доступ к коду, так как проекты были oss. Здесь ~~маркетинг~~ пиар немножко отыграл своё, будем честны :)

ТО ЕСТЬ!

Mythos особенно хорошо находит уязвимости именно тогда, когда ей доступен исходный код, а при анализе в изоляции или в black-box режиме результаты кратно становится хуже. Разрыв с доступом к исходнику количество ложноотрицательных результатов снижается на 55% по сравнению с анализом без него, но, пока не раслабляем булки, дальше интереснее

Одно из самых важных деталей: это все было и до mythos :) Видите ли, 70% атакующих инструментов - это OSS-модели , по Bi.Zone как раз таки недавно опубликовала анализ всей этой истории и в итоге - 70% это open-source модели, дообученные или аблитерированные специально под генерацию вредоносного контента

К чему это я - современные агенты, особенно опенсорсные - уже достигли достаточного развития , чтобы помогать искать уязвимости в системе (особенно уж если у вас открытый код к которому можно его подключить).

Особенно с учётом того, что есть Heretic, который позволяет провести аблитерацию любой модели и заставить её выдавать практически любую запрещённую информацию, а также помогать в любых (абсолютно) задачах, в итоге планка входа для атакующего упала и продолжает падать

Так в итоге, это лишний хайп Mythos или же реаьлность?

И хайп, и реальность - и нет, это не увиливание :)

Хайп - потому что и до Mythos этим активно занимались, просто ребята решили очень неплохо распиарить свой новый продукт
Реальность - планка входа атакующих сильно упала, и скорее всего будет дальше падать

Так что вопрос не "правда ли агенты умеют ломать". Вопрос - что делать, чтобы ломали вас чуть поменьше :)

Одна история - писать код, а другая - проверить, что он безопасный

Безопасность кода - отдельный навык, и вайб-кодинг его по умолчанию не покрывает (особенно если еще и вайбкодер пишет, а не программист) агент пишет работающий код, а не безопасный - это разные критерии приёмки

И речь даже не о том, что ваш продукт целенаправленно будет ломать Opus, речь о том, чтобы код, написанный вечерком, сам не оставил дыру - как недавно в одном из стартапов, где вайб-код оставил открытый токен прямо во фронтенде :D

Но, что делать если доступа до Mythos нет? (или он крайне дорогой) - Security скиллы, ведь до начала хайпа Mythos , многие как раз таки их и использовали, Anthropic просто красиво завернули всю эту историю. Ведь если OSS модели уже помогают атакующей стороне, то поверьте - они хорошо помогают и нам, причем

Причем один из самых популярных - скилл от разработчиков sentry , и он проверяет код на типовые дыры - секреты в клиентском коде, инъекции, права доступа и многое другое

Ну и про workspace не забываем, ведь код мы проверили - а взломать могут и само рабочее пространство, через скиллы и MCP. Для этого - Bumblebee и Skill Spectre, про них было выше (и подробнее позже распишу в тг)

Что в итоге

В прошлой статье я Anthropic критиковал - и не отказываюсь :)

Тут ребята тоже без пиара не обошлись все таки, Mythos завернули красиво - хотя и ломагенты, и security-скиллы прекрасно жили до них

Но, будем объективны, планка входа для атакующего упала и будет падать еще сильнее, но к счастью, нам тоже становится проще, ведь если агент может найти дырку в безопасности, помочь ее залатать он тоже может неплохо :)

P.S. Дальше будет продолжение уже про Bumblebee и Skill Spectre в тг

推荐订阅源

Все публикации подряд на Хабре