惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

爱范儿
爱范儿
Know Your Adversary
Know Your Adversary
Google DeepMind News
Google DeepMind News
A
Arctic Wolf
P
Privacy & Cybersecurity Law Blog
云风的 BLOG
云风的 BLOG
Stack Overflow Blog
Stack Overflow Blog
V
Visual Studio Blog
Project Zero
Project Zero
L
LangChain Blog
N
News and Events Feed by Topic
博客园 - Franky
Last Week in AI
Last Week in AI
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Scott Helme
Scott Helme
T
The Exploit Database - CXSecurity.com
P
Proofpoint News Feed
Blog — PlanetScale
Blog — PlanetScale
www.infosecurity-magazine.com
www.infosecurity-magazine.com
W
WeLiveSecurity
月光博客
月光博客
博客园_首页
美团技术团队
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
腾讯CDC
Latest news
Latest news
WordPress大学
WordPress大学
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Spread Privacy
Spread Privacy
Attack and Defense Labs
Attack and Defense Labs
量子位
L
LINUX DO - 热门话题
C
CERT Recently Published Vulnerability Notes
Webroot Blog
Webroot Blog
L
Lohrmann on Cybersecurity
aimingoo的专栏
aimingoo的专栏
T
Troy Hunt's Blog
Security Latest
Security Latest
小众软件
小众软件
Cloudbric
Cloudbric
Hacker News: Ask HN
Hacker News: Ask HN
S
Secure Thoughts
雷峰网
雷峰网
T
Threat Research - Cisco Blogs
H
Hacker News: Front Page
IT之家
IT之家
Simon Willison's Weblog
Simon Willison's Weblog

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Один ИИнженер — десять рук: как мы исследовали LLM в AppSec
SolarSecurit · 2026-05-05 · via Все публикации подряд на Хабре

Всем привет, на связи Solar appScreener!
В этой статье расскажем о нашем опыте использования ИИ в нашем собственном продукте.

ИИ‑агенты уже стали неотъемлемой частью процесса разработки, это больше не мимолетный хайп, а новая реальность. По данным исследования Sonar (State of Code Developer Survey 2026, https://www.sonarsource.com/state‑of‑code‑developer‑survey‑report.pdf), 72% разработчиков, попробовавших использовать ИИ, стали использовать его ежедневно. А 42% всего написанного кода уже сгенерирован ИИ, или существенно им доработан. Какие‑то запредельные числа. Стоит признать, что мы живем в новой реальности, в которой вайбкодинг — это новый стиль программирования.

Но остается незакрытым вопрос — а что там происходит с безопасностью этого кода?! И тут данные неутешительны. ИИ продолжает генерировать код с уязвимостями. 45% образцов кода, генерируемых ИИ, оказались небезопасными (Veracode. GenAI Code Security Report, https://www.veracode.com/blog/genai‑code‑security‑report/). Это как подбросить монетку, безопасный ли код был сгенерирован или нет. Не то, что хочется от видеть в разрезе безопасности. Вот несколько основных причин, почему так происходит:

  1. Модели обучались на огромных массивах публичного кода, перенимая паттерны и стиль его написания. И там было много уязвимостей и небезопасных шаблонов кода

  2. ИИ не «понимает» что такое безопасность как концепция в написании кода, а продолжает статистически вероятную последовательность токенов

  3. ИИ пока не может держать «в уме» весь проект целиком, где в нем и как курсирует чувствительная информация, например, определение пользователя, поэтому ошибается.

Но это не значит, что ИИ не может решать проблемы безопасности. Может, и еще как!

Сейчас все больше вендоров идут в сторону умного внедрения ИИ в свои продукты. Наиболее успешными кейсами по текущим исследованиям (Veracode. GenAI Code Security Report, https://www.veracode.com/blog/genai‑code‑security‑report/, Checkmarx 2025 Trends on AI Security, https://checkmarx.com/learn/ai‑security/2025-trends‑on‑ai‑security‑how‑appsec‑must‑evolve‑with‑the‑ai‑shifted‑sdlc/) является применение ИИ для триажа найденных уязвимостей и генерации для них исправлений. Интересный факт — никто не пророчит замену ИИ классических SAST/DAST анализаторов, напротив, они получают дополнительный буст для развития за счет ИИ.

Как выглядит классический SAST:

Почему на классический триаж не хватает времени?

Поэтому возникает вопрос: как автоматизировать всю эту рутину и получать сэмплы безопасного кода? Может ИИ?

А вот здесь стоит задать себе еще несколько вопросов:

  • Какие данные передавать ИИ?

  • Где взять ИИ?

  • Автоматизируем ли мы на самом деле триаж с помощью ИИ?

  • Автоматизируем ли мы на самом деле исправление кода с помощью ИИ?

  • Что произойдет с конфиденциальностью моего кода и данных?

Зная все эти «боли», мы в «Соларе» за несколько лет до того, как вайб‑кодинг стал повседневностью, начали разработку ИИ‑плагина для нашего продукта Solar appScreener. Он называется DerAI и включает две технологии: DerTriage (триаж уязвимостей, которые находит анализатор SAST) и DerCodeFix (генерация исправленного кода для таких сработок). И всё это даже в on‑prem, а не только в «облаке»!

Как это работает

В appScreener давно существовал механизм для фильтрации ложных сработок — Fuzzy Logic Engine. Это запатентованная нами технология использует математический аппарат нечеткой логики для определения истинности срабатывания. Мы 7 лет анализировали и размечали различные Open Source проекты, как заведомо уязвимые, так и обычные проекты, исследовали документацию библиотек и фреймворков, писали соответствующие тест‑кейсы для оттачивания этого механизма. И весь этот накопившийся объем размеченных данных лег в основу обучения нашей собственной модели.

Мы протестировали различные Open Source LLM, выявили оптимальную модель, и принялись за ее дообучение накопленной нами информацией. Поскольку вся разметка исходных данных изначально происходила с помощью appScreener, то и итоговая модель заточена под него, и они отлично работают в тандеме, конкретные цифры будут ниже.

А вот как DerTriage и DerCodeFix выглядят в интерфейсе.

На вход для обработки подается не просто код‑семпл, а вся информация, доступная анализатору. Это описания правил, рекомендации и примеры по исправлению, вся трасса уязвимости с дополнительным контекстом для каждого узла, и другие метаданные. Дополнительные инструкции по правильной работе с имеющейся кодовой базой для сохранения ее работоспособности. Это важно при генерации фиксов.

Все это позволило получить на выходе компактную оптимизированную модель, обладающую отличными показателями точности и эффективности. Всё по заветам Брюса Ли.

Чем это лучше, чем просто спросить у ИИ‑модели:

Широкопрофильная LLM «захламлена» лишней информацией. Возвращаемся к тезису, что генерирует код она плохо, и безопасность там 50/50. Также это высокое потребление ресурсов в on‑prem варианте: чем больше модель, тем больше она потребляет. Плюс риски потери конфиденциальности кодовой базы при отправке ее сканирования в «облако» к зарубежным компаниям.

Отметим и сложность поиска. Попробуйте скинуть ей большой файл с кодом и попросите найти в нем уязвимости. А потом просканируйте его разными SAST‑анализаторами. Результаты совпадать не будут. А что с межпроцедурным анализом? А межфайловым? А с анализом во время сборки? Такое обычная LLM не сможет, а вот SAST+LLM вполне.

Итак, теперь самое интересное. Перейдем к баттлу облачных и локальных LLM в AppSec

Из больших облачных LLM мы рассматривали:

  1. ChatGPT 5.2

  2. DeepSeek 3.2

  3. Gigachat

Из сопоставимых по размеру локальных моделей выбрали:

  1. ChatGPT OSS openai/gpt‑oss-20b 05/08/2025

  2. Mistral 14b-2512 02/12/2025

  3. LocalChat

Сначала мы проанализировали 20 приложений, написанных на Java и Python. Почему именно эти языки? Во‑первых, они относятся к категории самых простых и сложных языков для ИИ в разрезе безопасности (Veracode. GenAI Code Security Report, https://www.veracode.com/blog/genai‑code‑security‑report/), во‑вторых, они очень распространены: их доля составляет 45,4% и 61,8% среди основных языков программирования в России.

Все приложения довольно масштабные — от 100 000 строк кода, поэтому массив данных собрали большой. Выявили около 12 000 уникальных сработок анализатора, при этом пятая часть уязвимостей относилась к категории критических.

Дальше мы сформировали единый промпт. Он включал системные данные: название уязвимости, описание, сегмент кода, трассу достижимости (путь данных до небезопасной функции), дополнительные идентификаторы уязвимостей (CWE). Мы также добавили пользовательский паттерн «Представь, что ты опытный AppSec». Таким образом все модели получили на вход одинаковый массив информации и промт, все кристально идентично.

Итак, триаж: что оцениваем?

Будем оценивать 4 метрики — общая точность, прецизионность, полнота и процент ошибок:

  • Общая точность — насколько верно LLM определяет истинность и ложность срабатывания. Рассчитывается как (TP+TN)/ALL

  • Прецизионность — сколько реальных уязвимостей среди тех, что LLM отметила, как истинные. Рассчитывается как TP/(TP+FP).

  • Полнота — сколько из реальных уязвимостей проекта были выявлены LLM. Рассчитывается как TP/(TP+FN).

  • Процент ошибок — насколько часто LLM ошибается в процессе разметки. Рассчитывается как (FP+FN)/ALL.

    На всякий случай напомним, что это за аббревиатуры:

  • TP — LLM верно подтвердила истинное срабатывание

  • TN — LLM верно отклонила ложное срабатывание

  • FP — LLM ошибочно подтвердила ложное срабатывание

  • FN — LLM ошибочно отклонила истинное срабатывание

Java‑проекты

Например, при обработке результатов сканирования проекта vulnado модели показали такие результаты:

При анализе на всей подборки Java‑проектов, и суммаризации результатов, получаем такие метрики:

Ремарка по поводу полноты 100% у ChatGPT. Это достигнуто за счет заметного ухудшения других оценок. Если все сработки анализатора подтвердить, то FN будет = 0, а значит полнота = 100%. Но это не значит, что LLM отлично справилась, напротив, она не смогла отфильтровать ложные сработки, что и повлекло снижение остальных метрик.

Python‑проекты

Например, при обработке результатов сканирования проекта vulpy модели показали такие результаты:

При анализе на всей подборки Python‑проектов, и суммаризации результатов, получаем такие метрики:

ChatGPT ведет себя диаметрально противоположно, и устремил не FN=0, а FP=0, путем отклонения массы истинных сработок, что отражено в других метриках.

Результирующая таблица

Из тестов видно, что как на более сложном для организации безопасности для ИИ Java, так и на более простом Python, специальная заточенная под AppSec модель DerAI показывает себя значительно лучше конкурентов для триажа уязвимостей.

Теперь время DerCodeFix

С ним проще. Будем оценивать исправляет ли предложенный фикс уязвимость (Good), или нет (Not Good), и смотреть на точность обработки.

Результирующая таблица

По исследования задача генерации исправления заметно труднее, чем триаж уязвимостей. И это наглядно подтверждается статистикой. Здесь натренированность и заточенность модели DerAI под решение конкретных задач прослеживается как нельзя лучше.

Наши выводы:

ИИ более чем применим в AppSec, и индустрия к этому активно движется. Но использование классических LLM для решения текущих задач непродуктивно: дешевле и проще подбрасывать монетку при триаже, а эффективность будет не хуже больших LLM. Но решение есть, это узкопрофильные, заточенные под безопасность модели, интегрируемые в сам анализатор безопасности кода, такие как DerAI в appScreener. Такие модели показывают отличные результаты уже сегодня и более чем применимы в жизни в настоящее время.

Ждем ваши мысли, идеи в комментариях!