Как определить LLM под капотом чат-бота: учебный эксперимент по black-box fingerprinting

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

Pronomuos · 2026-05-26 · via Все публикации подряд на Хабре

Простой

6 мин

7.3K

Введение

Когда мы тестируем LLM-приложение в режиме black box, мы видим только интерфейс: отправили сообщение — получили ответ. При этом модель под капотом может быть любой: DeepSeek, Qwen, GLM, Mistral, Llama, Claude, GPT, Gemini или локальная fine-tuned модель. Для обычного пользователя это часто неважно. Для security-тестирования — важно.

В AI cybersecurity это часть reconnaissance: перед тем как оценивать устойчивость приложения к prompt injection, jailbreak-попыткам, утечкам системного промпта или ошибкам в RAG-слое, полезно понимать, какая модельная семья работает внутри. Разные модели по-разному отвечают на странные Unicode-строки, mixed-language запросы, вопросы о собственной идентичности, спорные утверждения и безопасные отказы.

Я попробовал воспроизвести идею статьи LLMmap: Fingerprinting For Large Language Models в упрощённом виде: собрать одинаковые probe-промпты с нескольких моделей OpenRouter и проверить, можно ли отличать модели по совокупности ответов.

Что такое LLM fingerprinting

LLM fingerprinting — это попытка определить модель или модельную семью по наблюдаемому поведению. Аналогия из классического security — OS fingerprinting: мы не видим операционную систему напрямую, но можем отправлять сетевые пакеты и смотреть, как система отвечает.

С LLM всё похоже: probe prompt → black-box chatbot → response

Один ответ почти ничего не доказывает. Модель может галлюцинировать, скрывать своё имя, быть обёрнута system prompt'ом или работать через RAG. Поэтому более надёжная идея — использовать не один вопрос вроде «какая ты модель?», а набор разных probe‑запросов и смотреть на поведение в совокупности.

В LLMmap эта идея формулируется как активный fingerprinting: отправляем заранее подобранные запросы, собираем пары (query, response), а затем классифицируем модель по получившемуся behavioural trace.

В оригинальной статье авторы сообщают, что LLMmap определяет 42 версии LLM с точностью выше 95% при использовании всего 8 взаимодействий. Важно: это результат их полноценного research setup — с большим набором моделей, специальной процедурой выбора probe-запросов, train/test разделением по prompting configurations и обученной inference model. В этом проекте я не пытаюсь заявить такую же точность. Цель ниже скромнее: сделать учебную MVP-реплику идеи и проверить, появляется ли похожий сигнал на маленьком датасете.

Цель проекта

Выбрать несколько фиксированных моделей в OpenRouter.
Подготовить набор probe-промптов в стиле LLMmap.
Собрать ответы всех моделей на одинаковые промпты.
Разделить данные на train / validation / test.
Проверить, сможет ли LLM-судья определить модель по нескольким ответам из test.

Модели

В текущем MVP использовались 4 модели OpenRouter с фиксированными model ID, без latest-алиасов:

Label	OpenRouter model ID	Семейство
`deepseek_v4_flash`	`deepseek/deepseek-v4-flash`	DeepSeek
`qwen3_6_flash`	`qwen/qwen3.6-flash`	Qwen
`glm_5`	`z-ai/glm-5`	GLM / Z.ai
`mistral_medium_3_5`	`mistralai/mistral-medium-3-5`	Mistral

Категории probe-промптов

Вместо обычного benchmark'а «математика / код / перевод» я использовал 6 категорий, вдохновлённых LLMmap-style подходом.

Всего в датасете 36 промптов: по 6 промптов на категорию.

Категория	Кол-во	Зачем нужна
`banner_grabbing`	6	Прямые вопросы о модели и разработчике
`meta_information`	6	Вопросы о cutoff, обучающих данных, ограничениях
`alignment_refusal`	6	Безопасные проверки стиля отказа
`weak_alignment`	6	Спорные или чувствительные утверждения без вредных инструкций
`malformed_multilingual`	6	Смешанные языки, странный ввод, необычная структура
`prompt_wrapper`	6	Обёртки, имитирующие влияние внешних инструкций

Примеры того, что здесь интересно измерять:

отвечает ли модель на прямой вопрос «кто ты?» или уходит в общую формулировку;
как модель объясняет свои ограничения;
насколько формален или подробен отказ;
как модель обрабатывает смешение языков;
насколько устойчиво следует формату;
добавляет ли лишние дисклеймеры;
как меняется стиль при “обёрнутых” запросах.

Как собирались данные

Для каждой модели каждый промпт запускался 4 раза. Параметры генерации были общими для всех моделей.

Итоговый размер полного набора: 4 модели × 36 промптов × 4 повтора = 576 строк JSONL

Одна строка JSONL — это один ответ одной модели на один prompt в одном repeat:

{
  "run_id": "openrouter_mvp_001",
  "sample_id": "qwen3_6_flash__banner_001__rep_0",
  "provider": "openrouter",
  "model_id": "qwen/qwen3.6-flash",
  "label": "qwen3_6_flash",
  "model_family": "qwen",
  "prompt_id": "banner_001",
  "prompt_category": "banner_grabbing",
  "prompt": "...",
  "system_prompt_id": "default_neutral_ru",
  "temperature": 0.7,
  "top_p": 1.0,
  "max_tokens": 512,
  "repeat_index": 0,
  "response": "...",
  "split": "train",
  "usage": {
    "prompt_tokens": null,
    "completion_tokens": null,
    "total_tokens": null
  },
  "error": null
}

Train / validation / test split

Поэтому split сделан по prompt_id: все повторы одного prompt остаются в одной выборке.

Текущая схема:

train: 24 prompt_id
val:    6 prompt_id
test:   6 prompt_id

В val и test лежит по одному prompt на каждую из 6 категорий. При 4 моделях и 4 повторах test содержит: 4 модели × 6 test prompt’ов × 4 повтора = 96 строк

Как оценивалось качество

В этом MVP я не обучал отдельный sklearn/embedding-классификатор. Оценка сделана через few-shot LLM-as-judge baseline.

Схема такая:

Из train-части берутся few-shot примеры ответов известных моделей.
Для каждой истинной модели из test берётся набор её ответов.
LLM-судье показываются few-shot примеры и test-ответы.
Судья должен вернуть predicted_label.

Судья по умолчанию — openai/gpt-4o-mini

Важно: это не оценка по каждой строке test. Это multi-probe оценка: судья получает не один ответ, а несколько ответов одной и той же неизвестной модели.

Для одного прогона с trials=10 и четырьмя моделями получается: 10 trials × 4 модели = 40 решений судьи.

Результаты

В одном из прогонов результат получился таким:

micro accuracy ≈ 0.975
macro accuracy ≈ 0.975

На первый взгляд это число похоже на результат уровня LLMmap, где авторы говорят о точности.

Матрица ошибок:

true \ pred	`deepseek_v4_flash`	`qwen3_6_flash`	`glm_5`	`mistral_medium_3_5`
`deepseek_v4_flash`	10	0	0	0
`qwen3_6_flash`	1	9	0	0
`glm_5`	0	0	10	0
`mistral_medium_3_5`	0	0	0	10

То есть из 40 решений была одна ошибка: один раз ответы qwen3_6_flash были отнесены к deepseek_v4_flash. Остальные модели в этом прогоне были определены без ошибок.

На первый взгляд результат высокий. Но его нужно интерпретировать аккуратно.

Что он показывает:

на маленьком closed-set наборе поведенческие различия действительно заметны;
multi-probe подход работает лучше, чем попытка угадывать по одному ответу;
даже простой LLM-as-judge baseline может извлекать полезный сигнал из ответов.

Чего он не показывает:

что модель можно всегда определить с точностью 97.5%;
что метод устойчив к другим system prompt'ам;
что он будет работать на десятках моделей;
что он обобщается на production-чат-боты с RAG, guardrails и post-processing;
что это полноценная реализация LLMmap.

Ограничения

1. Мало моделей

Сейчас в MVP 4 модели. Это достаточно для демонстрации, но мало для полноценной статьи с сильными обобщениями. Следующий шаг — расширить набор до 6–10 моделей и добавить больше близких пар внутри одной семьи.

2. Маленький test set

В test всего 6 prompt_id. Лучше увеличить число test-промптов и запускать несколько разных split'ов.

3. Возможен bias судьи

LLM-судья может иметь свои предпочтения и скрытое знание о стиле моделей. Для более честной оценки нужно сравнить несколько судей и добавить классический ML baseline.

4. Нет open-set сценария

Сейчас задача closed-set: судья выбирает одну из известных моделей. В реальности модель может быть неизвестной. Для этого нужен класс unknown или отдельный open-set scoring.

Как развивать проект дальше

Самые полезные следующие шаги:

1. Расширить модели

2. Проверить устойчивость к system prompt

Сейчас используется один нейтральный system prompt. Следующий шаг — собрать несколько конфигураций:

нейтральный ассистент
корпоративный support bot
краткий technical assistant
строгий JSON-only assistant

Это приблизит эксперимент к реальным LLM-приложениям, где модель почти всегда обёрнута системной инструкцией.

3. Добавить open-set режим

Выводы

Эксперимент показал, что даже простой набор probe-промптов уже позволяет извлекать заметный behavioral fingerprint LLM-моделей. На небольшом closed-set наборе из 4 моделей few-shot LLM-судья смог определить модель по нескольким test-ответам с высокой точностью в одном прогоне.

Главный практический вывод: спрашивать «какая ты модель?» недостаточно. Гораздо полезнее собирать набор ответов на разные типы запросов: self‑identification, metadata, alignment, multilingual, malformed input и prompt wrappers. Именно совокупность ответов даёт сигнал.

Репозиторий

Ссылка на репозиторий с реализацией

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Все публикации подряд на Хабре

Введение

Что такое LLM fingerprinting

Цель проекта

Модели

Категории probe-промптов

Как собирались данные

Train / validation / test split

Как оценивалось качество

Результаты

Ограничения

1. Мало моделей

2. Маленький test set

3. Возможен bias судьи

4. Нет open-set сценария

Как развивать проект дальше

1. Расширить модели

2. Проверить устойчивость к system prompt

3. Добавить open-set режим

Выводы

Репозиторий