Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama.cpp) — и при чём тут кража облачных ключей

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как Фалькон Тех меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

Aleksei Fokin · 2026-06-11 · via Все публикации подряд на Хабре

5 мин

2.8K

Часть 2 серии про атаки на AI-инфраструктуру. В первой части мы поймали на ловушку сканер, который встроил разведку MCP (Model Context Protocol — протокол инструментов для агентов) в обычный мультипротокольный скан. Тогда речь шла о слое агентов и инструментов. Сегодня спускаемся на уровень ниже — к самому inference-слою: открытым серверам Ollama и llama.cpp, на которых крутятся модели. И тут картина мая 2026-го получилась куда интереснее, чем «просто сканируют».

Коротко тезис: открытый Ollama — это бесплатный GPU для атакующего, и охота за таким compute давно поставлена на поток. Но за май наша сеть ханипотов (приманки в DE/US/RU) зафиксировала не только воровство инференса, а нечто новое — использование LLM-эндпоинта как SSRF-плацдарма для кражи облачных учёток. Разберём по данным.

(Про «открытые AI-сервера без аутентификации» как явление подробно — в части 1, повторяться не буду; здесь — про то, что с ними делают.)

Откуда данные

У нас развёрнута сеть приманок (honeypot) в трёх странах. Среди прочих сервисов — фейковый Ollama API на стандартном порту 11434: он отвечает как настоящий Ollama (список моделей, OpenAI-совместимые эндпоинты), но ничего не исполняет, а пишет в лог каждый запрос: путь, тело, User-Agent, источник. За май на эту приманку прилетело ~75 300 запросов.

Это уже не шум. Это зрелая категория со своей таксономией, инструментарием и — что важнее всего — постоянными акторами, которых видно из месяца в месяц.

Анатомия атаки: что именно делают с открытым Ollama

Разложим классифицированные запросы по типу активности (доли округлены, от размеченной части трафика):

Тип	Доля	Что это значит
Сканирование	~95%	Массовый поиск открытых Ollama/llama.cpp в интернете
`inference_abuse`	~3.7%	Кража инференса: гоняют запросы к `/api/generate`, `/v1/chat/completions`
`model_abuse_external`	~0.8%	Попытки подгрузить/использовать сторонние модели
`ssrf_cloud_cred`	~0.5%	SSRF через LLM-эндпоинт → кража cloud-metadata кредов
`admin_probe`	~0.1%	Зондирование админских путей

95% — это, ожидаемо, разведка: интернет прочёсывают на предмет «а есть ли тут живая модель». Но дальше начинается интересное.

1. Кража инференса — экономика «бесплатного GPU»

Зачем кому-то чужой Ollama? Затем же, зачем чужой майнинг-риг. Inference больших моделей стоит денег — GPU-часы, электричество, API-токены. Открытый Ollama без авторизации — это бесплатный inference-as-a-service, который кто-то любезно выставил наружу. Атакующий находит его и начинает гонять через него свои нагрузки: генерацию текста под спам/фишинг/контент-фермы, обработку данных, прокси для своих сервисов.

Типичная последовательность в логах: сначала /api/tags (узнать, какие модели стоят), потом /v1/models, и если что-то живое — поток запросов в /v1/chat/completions и /api/generate. Самые частые эндпоинты за май:

/api/tags               8 131   ← инвентаризация моделей
/v1/chat/completions    3 102   ← OpenAI-совместимый inference
/v1/models              1 532
/props                  1 282   ← внимание: это llama.cpp, не Ollama
/api/generate             370
/api/show                  76

2. Сканируют не только Ollama — llama.cpp тоже

Строка /props (1 282 запроса) — маркер того, что охотятся не только за Ollama. /props — это эндпоинт сервера llama.cpp (llama-server), отдающий параметры загруженной модели. То есть сканеры держат в голове весь зоопарк self-hosted inference, а не один продукт. Если вы поднимали llama.cpp «на посмотреть» и забыли закрыть — вас тоже найдут.

А ещё рядом зондируют автоматизацию:

/rest/oauth2-credential/callback    62   ← n8n
/api/v1/webhook/test                62   ← n8n

Это пути n8n — платформы no-code-автоматизации, которую часто ставят рядом с локальной LLM для оркестрации AI-воркфлоу. Логика атакующего понятна: где открытый Ollama — там может быть и открытый n8n с креденшелами к десяткам сервисов.

3. Главная новость мая: SSRF через LLM → кража облачных ключей

Категория ssrf_cloud_cred — то, чего в прошлых месяцах не было. Идея в следующем: многие inference-фичи умеют ходить по URL (подгрузить модель, картинку, документ, дёрнуть webhook). Если эндпоинт принимает URL от пользователя и сервер бежит по нему сам — это классический SSRF. А первое, куда направляют SSRF в облаке, — это metadata-сервис 169.254.169.254, который отдаёт временные IAM-креды инстанса.

То есть схема эволюционировала:

Было (месяцами):   найти открытый Ollama → воровать inference (бесплатный GPU)
Стало (май):       найти открытый Ollama → SSRF на 169.254.169.254 → украсть cloud-креды → доступ ко всему облаку

Это качественный сдвиг: от кражи compute к компрометации инфраструктуры, на которой этот compute крутится. Доля пока небольшая (~0.5%), но это именно та активность, которая превращает «ну подумаешь, погоняли мою модельку» в «слили ключи от всего AWS-аккаунта».

Инструментарий: чем сканируют

Любопытная деталь — User-Agent’ы. Абсолютный лидер:

ollama/0.0.0 (amd64 linux) Go/go1.26.3        50 529 запросов
python-httpx/0.27.2                            8 972
Python/3.10 aiohttp/3.13.5                        703
axios/1.16.0                                      278
EchelonGraph-ShadowAIRadar-Verifier/1.0           218

Первое место — официальный Go-клиент Ollama. Сканеры не пишут свой HTTP-стек, а берут штатный клиент и используют его как массовый зонд: он уже умеет говорить на всех нужных эндпоинтах. Отдельно отметим EchelonGraph-ShadowAIRadar — это коммерческий сканер AI-активов (с честным +https://... в UA), который ходит по интернету и каталогизирует открытые AI-сервисы. Граница между «исследователь», «коммерческий разведчик» и «атакующий» здесь, как обычно, размытая.

Лонгитюд: одни и те же акторы из месяца в месяц

Самое ценное в долгом наблюдении — видно, что это не случайные боты, а устойчивые операторы. Топ источников за май:

IP (defanged)	Запросов (доля)	ASN / атрибуция
`37[.]19[.]210[.]21`	50 467 (~67%)	AS212238 Datacamp/CDN77 (вероятно VPN-exit)
`203[.]159[.]90[.]152`	19 112 (~25%)	AS210558 1337 Services GmbH (по открытым данным — экосистема Stark Industries)

Два IP — две трети и четверть всего трафика к приманке: это пара операторов, а не «весь интернет».

Второй IP — 203[.]159[.]90[.]152 — мы видим не первый месяц. В марте-апреле именно он доминировал в Ollama-абьюзе с ~125 000 запросов. Месяц спустя он по-прежнему активен. Это не «случайно прилетело» — это многомесячная кампания со стороны сети, которую открытые источники связывают с экосистемой Stark Industries (поставщик «пуленепробиваемого» хостинга). Первое место в мае, 37[.]19[.]210[.]21 (AS212238 Datacamp/CDN77), — вероятно, VPN-выход, прикрывающий реального оператора.

Вывод по тренду: атаки на LLM-инференс прошли путь сканирование → инвентаризация моделей → кража инференса → SSRF-кража облачных ключей, обзавелись специализированными сканерами и связкой «LLM + n8n». Это самостоятельная поверхность атаки, а не подвид «веб-сканов».

Что с этим делать (защита)

Если у вас есть self-hosted inference (Ollama, llama.cpp, vLLM, LocalAI, text-generation-webui и пр.):

Не выставляйте inference-порт в интернет. Ollama по умолчанию слушает 0.0.0.0:11434 без авторизации. Биндите на 127.0.0.1 или в приватную сеть; наружу — только через reverse-proxy с аутентификацией.
Поставьте auth. Перед Ollama/llama.cpp — nginx/Caddy с Basic-auth/mTLS или API-gateway. Сам Ollama auth «из коробки» не имеет.
Закройте SSRF-вектор. Если используете фичи с загрузкой по URL — фильтруйте назначение: блокируйте 169.254.169.254, link-local, RFC1918, localhost. На облаке — переходите на IMDSv2 (требует токен, ломает наивный SSRF) и ограничивайте hop limit.
Не забывайте про соседей. Рядом стоящие n8n, Jupyter, Grafana, MLflow — отдельная поверхность. Тот, кто нашёл ваш Ollama, проверит и их.
Мониторьте исходящие к metadata. Алерт на любой запрос к 169.254.169.254 от inference-сервиса — дешёвый и надёжный сигнал компрометации.
Проверьте себя снаружи. Shodan/Censys по product:Ollama или порту 11434 — посмотрите, не светитесь ли вы.

IOC (defanged)

# LLM-abuse акторы
203[.]159[.]90[.]152    AS210558 1337 Services GmbH (Stark-связанная сеть, по откр. данным), многомесячная кампания
37[.]19[.]210[.]21      AS212238 CDN77/Datacamp (вероятно VPN-exit)

# Сканер-фингерпринты (User-Agent)
ollama/0.0.0 (amd64 linux) Go/go1.26.3
EchelonGraph-ShadowAIRadar-Verifier/1.0

# Подозрительные пути на inference-приманке
/props                              (llama.cpp probe)
/rest/oauth2-credential/callback    (n8n probe)
/api/v1/webhook/test                (n8n probe)

Данные — агрегированная телеметрия сети ханипотов за май 2026. TLP:CLEAR. Продолжение следует: в инференс-слое ещё много неразобранного.

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Все публикации подряд на Хабре

Откуда данные

Анатомия атаки: что именно делают с открытым Ollama

1. Кража инференса — экономика «бесплатного GPU»

2. Сканируют не только Ollama — llama.cpp тоже

3. Главная новость мая: SSRF через LLM → кража облачных ключей

Инструментарий: чем сканируют

Лонгитюд: одни и те же акторы из месяца в месяц

Что с этим делать (защита)

IOC (defanged)