慣性聚合 高效追蹤和閱讀你感興趣的部落格、新聞、科技資訊
閱讀原文 在慣性聚合中打開

推薦訂閱源

L
LangChain Blog
博客园 - 【当耐特】
博客园 - Franky
宝玉的分享
宝玉的分享
S
SegmentFault 最新的问题
Blog — PlanetScale
Blog — PlanetScale
腾讯CDC
Engineering at Meta
Engineering at Meta
The GitHub Blog
The GitHub Blog
博客园 - 三生石上(FineUI控件)
月光博客
月光博客
WordPress大学
WordPress大学
Recent Announcements
Recent Announcements
Martin Fowler
Martin Fowler
博客园 - 聂微东
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
V
V2EX
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
有赞技术团队
有赞技术团队

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему
ML紅隊作業對於LLM:可以只使用開放源碼工具嗎?
INFERA · 2026-06-15 · via Все публикации подряд на Хабре
Вот продолжение и заключение вашего текста: ...ники может генерировать информацию о редких симптомах или диагнозах, которые не соответствуют реальным данным. Важно также учитывать контекст использования модели. 6. Уязвимости в API-интерфейсах Этот блок тестов проверяет безопасность API-интерфейсов LLM-систем, а также их взаимодействие с другими сервисами и системами. Важно убедиться, что API не допускает нежелательных запросов или позволяет злоумышленникам получить доступ к конфиденциальной информации. 7. Уязвимости в обучении Этот блок тестов проверяет процесс обучения модели на наличие потенциально опасных данных, которые могут привести к утечке информации или созданию небезопасного контента. 8. Многомерные атаки и последовательности запросов Проверяются атаки, при которых злоумышленник использует последовательность запросов для обхода ограничений или получения конфиденциальной информации. 9. Тестирование на реальных данных Тестирование должно включать анализ реальных данных и контекста использования модели, чтобы убедиться, что она работает корректно и безопасно. 10. Документация и управление изменениями Проверяется наличие документации по безопасности и процессов управления изменениями в коде и конфигурациях системы. В заключение, важно помнить, что тестирование на безопасность LLM-систем требует комплексного подхода и постоянной мониторинга. Регулярное обновление тестовых сценариев и методик позволяет выявлять новые угрозы и обеспечивать безопасность модели в динамично меняющемся цифровом мире. Использование инструментов, таких как сканер INFERA ML Red Teaming, помогает автоматизировать процесс тестирования и значительно повысить эффективность безопасности LLM-систем. Однако важно также учитывать специфику конкретной организации и корпоративные данные при настройке и проведении тестов. Таким образом, комплексное тестирование на безопасность LLM-систем обеспечивает надежную защиту информации и предотвращает возможные риски. Регулярное обновление тестовых сценариев и методик позволяет адаптироваться к новым угрозам и сохранять высокий уровень безопасности в динамично развивающемся цифровом мире. #безопасностьLLM #тестированиеAI #INFERA #MLRedTeamingСпасибо за предоставленную информацию о ML Red Teaming и инструментах для его реализации. Вот несколько ключевых моментов, которые можно выделить: 1. **Методология ML Red Teaming**: - Включает анализ уязвимостей в моделях машинного обучения (ML) и языковых моделей (LLM). - Использует различные техники, такие как prompt-инъекции, jailbreak, и другие атаки на основе данных. - Включает непрерывное тестирование и мониторинг моделей ML/LLM. 2. **Инструменты для ML Red Teaming**: - INFERA: Автоматизированный сканер для моделирования уязвимостей в ML-системах. - MITRE ATLAS: Справочник по атакам на основе искусственного интеллекта (AI). - Open source инструменты: Основные отправные точки для экспериментов и развития экспертизы. 3. **Практические рекомендации**: - Включение ML Red Teaming в программу Red Team/Purple Team. - Регулярный анализ MITRE ATLAS и оценка рисков. - Внедрение инструментов защиты AI/LLM Firewall. 4. **Причины использования комплексного подхода**: - Стохастичность моделей делает результаты непредсказуемыми. - Уязвимости часто связаны с особенностями понимания естественного языка. - Атаки через промпты обычно не оставляют следов в традиционных логах. 5. **Рекомендации для SOC**: - Добавление контроля за использованием LLM- и ИИ-моделей в SIEM/SOAR. - Обучение аналитиков базовым техникам prompt-инъекций и jailbreak. - Создание плана тестирования по топ-техникам MITRE ATLAS. 6. **Заключение**: - Для зрелого промышленного использования ИИ требуется комплексный подход и непрерывное тестирование. - Переход от "мы знаем, что риски есть" к "мы реально ими управляем". Эти рекомендации помогут организациям лучше подготовиться к возможным угрозам в области искусственного интеллекта и машинного обучения.