惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

S
Securelist
O
OpenAI News
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
T
Threat Research - Cisco Blogs
D
Darknet – Hacking Tools, Hacker News & Cyber Security
Google Online Security Blog
Google Online Security Blog
C
CXSECURITY Database RSS Feed - CXSecurity.com
N
News and Events Feed by Topic
S
Security Affairs
SecWiki News
SecWiki News
Project Zero
Project Zero
L
Lohrmann on Cybersecurity
P
Proofpoint News Feed
P
Palo Alto Networks Blog
L
LINUX DO - 最新话题
H
Hacker News: Front Page
Recent Commits to openclaw:main
Recent Commits to openclaw:main
I
Intezer
Simon Willison's Weblog
Simon Willison's Weblog
W
WeLiveSecurity
T
The Exploit Database - CXSecurity.com
K
Kaspersky official blog
The GitHub Blog
The GitHub Blog
I
InfoQ
云风的 BLOG
云风的 BLOG
雷峰网
雷峰网
B
Blog
IT之家
IT之家
AWS News Blog
AWS News Blog
Jina AI
Jina AI
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Google DeepMind News
Google DeepMind News
Spread Privacy
Spread Privacy
N
News and Events Feed by Topic
Security Latest
Security Latest
美团技术团队
C
Check Point Blog
WordPress大学
WordPress大学
T
Tenable Blog
S
Security @ Cisco Blogs
Last Week in AI
Last Week in AI
博客园 - 聂微东
月光博客
月光博客
博客园 - 【当耐特】
S
Schneier on Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
S
Secure Thoughts
Schneier on Security
Schneier on Security
C
Cisco Blogs
Cyberwarzone
Cyberwarzone

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Точно ли агенты безопасны?
Эдгар · 2026-06-13 · via Все публикации подряд на Хабре

Точно ли агенты безопасны?

Простой

4 мин

5K

Буквально недавно я писал статью по мотивам материала Anthropic - того самого, где опять говорили "джуны больше не нужны".

Ребята учитывают одни детали, игнорируют другие и по факту сравнивают тёплое с мягким :) потому что основная проблема джунов - далеко не LLM-агенты, но подробнее в той статье

Но к чему это я? Anthropic выкатили ещё один материал - уже про использование агентов в безопасности

Меня зовут Эдгар Сипки, я founder easyp & sipki tech и отбираю доклады на Golang Conf в программном комитете. А в своём тг-канале делюсь прикладными LLM - инструментами и подходами для разработки - подписывайтесь, дальше будет больше :)

Суть вот в чём - LLM-агенты это уже полноценный инструмент взлома. За год Anthropic заблокировали 832 аккаунта за злоупотребления, и доля действительно опасных акторов выросла с ~33% до ~56%. Опаснее становится не "вообще всё", а именно доля серьёзных игроков

Одна история - то, как могут взломать вас, вашего агента, вашего помощника, к примеру через промпт-инъекции в скиллах или через MCP.

Но есть вопрос поинтереснее :)

А могут ли ваш продукт взломать, используя LLM?

Ответ - да…

LLM агента подключают буквально на всех этапах сейчас, от написания кода вируса до поиска учёток в уже взломанных сетях

Самый жёсткий кейс получил риск-балл 100 из 100: шпионская кампания, где агент сам вёл разведку, эксплуатировал уязвимости, ходил по сети и собирал данные.

В ноябре 2025 года Anthropic опубликовала отчёт о том, что они назвали «первой задокументированной AI-оркестрированной кибершпионской кампанией». Группировка GTG-1002

Агент выполнял 80–90% всей операции самостоятельно: разведку, написание эксплойтов, перехват учётных данных, перемещение по сети и эксфильтрацию данных. Человек-оператор вмешивался лишь в 4–6 ключевых точках на всём протяжении кампании. Именно эта операция получила максимальный балл ARiES (AI Risk Enablement Score) — 100 из 100 :)

Но, об этом подробнее, в тг, а мы пожалуй вернемся к сути пока статьи Как биться с будущими… ?

С одной стороны, есть инструменты для анализа ваших скиллов, MCP и так далее, такие как Bumblebee и Skill Spectre. Их задача - сделать так, чтобы ваше рабочее пространство и ваших агентов не взломали.

Но что делать, если вы пишете проект и можете не учитывать те или иные кейсы безопасности? И вот тут гораздо интереснее.

А если дыра в вашем собственном коде?

Mythos и его наследник fable хайпанули в первую очередь тем, что позволили найти огромное количество дыр в безопасности в крупных системах.

Но вот в чём факт: немалую часть этих уязвимостей нашли только потому, что был доступ к коду, так как проекты были oss. Здесь маркетинг пиар немножко отыграл своё, будем честны :)

ТО ЕСТЬ!

Mythos особенно хорошо находит уязвимости именно тогда, когда ей доступен исходный код, а при анализе в изоляции или в black-box режиме результаты кратно становится хуже. Разрыв с доступом к исходнику количество ложноотрицательных результатов снижается на 55% по сравнению с анализом без него, но, пока не раслабляем булки, дальше интереснее

Одно из самых важных деталей: это все было и до mythos :) Видите ли, 70% атакующих инструментов - это OSS-модели , по Bi.Zone как раз таки недавно опубликовала анализ всей этой истории и в итоге - 70% это open-source модели, дообученные или аблитерированные специально под генерацию вредоносного контента

К чему это я - современные агенты, особенно опенсорсные - уже достигли достаточного развития , чтобы помогать искать уязвимости в системе (особенно уж если у вас открытый код к которому можно его подключить).

Особенно с учётом того, что есть Heretic, который позволяет провести аблитерацию любой модели и заставить её выдавать практически любую запрещённую информацию, а также помогать в любых (абсолютно) задачах, в итоге планка входа для атакующего упала и продолжает падать

Так в итоге, это лишний хайп Mythos или же реаьлность?

И хайп, и реальность - и нет, это не увиливание :)

  1. Хайп - потому что и до Mythos этим активно занимались, просто ребята решили очень неплохо распиарить свой новый продукт

  2. Реальность - планка входа атакующих сильно упала, и скорее всего будет дальше падать

Так что вопрос не "правда ли агенты умеют ломать". Вопрос - что делать, чтобы ломали вас чуть поменьше :)

Одна история - писать код, а другая - проверить, что он безопасный

Безопасность кода - отдельный навык, и вайб-кодинг его по умолчанию не покрывает (особенно если еще и вайбкодер пишет, а не программист) агент пишет работающий код, а не безопасный - это разные критерии приёмки

И речь даже не о том, что ваш продукт целенаправленно будет ломать Opus, речь о том, чтобы код, написанный вечерком, сам не оставил дыру - как недавно в одном из стартапов, где вайб-код оставил открытый токен прямо во фронтенде :D

Но, что делать если доступа до Mythos нет? (или он крайне дорогой) - Security скиллы, ведь до начала хайпа Mythos , многие как раз таки их и использовали, Anthropic просто красиво завернули всю эту историю. Ведь если OSS модели уже помогают атакующей стороне, то поверьте - они хорошо помогают и нам, причем

Причем один из самых популярных - скилл от разработчиков sentry , и он проверяет код на типовые дыры - секреты в клиентском коде, инъекции, права доступа и многое другое

Ну и про workspace не забываем, ведь код мы проверили - а взломать могут и само рабочее пространство, через скиллы и MCP. Для этого - Bumblebee и Skill Spectre, про них было выше (и подробнее позже распишу в тг)

Что в итоге

В прошлой статье я Anthropic критиковал - и не отказываюсь :)

Тут ребята тоже без пиара не обошлись все таки, Mythos завернули красиво - хотя и ломагенты, и security-скиллы прекрасно жили до них

Но, будем объективны, планка входа для атакующего упала и будет падать еще сильнее, но к счастью, нам тоже становится проще, ведь если агент может найти дырку в безопасности, помочь ее залатать он тоже может неплохо :)

P.S. Дальше будет продолжение уже про Bumblebee и Skill Spectre в тг