MTP у Qwen3.6 в llama.cpp обещает ×2 по скорости. Я прогнал ту же модель через своего агента

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

MTP у Qwen3.6 в llama.cpp обещает ×2 по скорости. Я прогнал ту же модель через своего агента — и получил обратное

exelens · 2026-05-23 · via Все публикации подряд на Хабре

Простой

6 мин

Кейс

Вступление (и сразу оговорки)

Привет, Хабр.

Меня зовут Лазутин Алексей, я не профессиональный разработчик. SEO, аудиты сайтов, куча рутины с CSV, curl, отчётами для программистов — вот мой цех. Код для себя пишу «как умею»: скрипты, Docker, копипаста с LLM. Если в архитектуре что-то покажется странным — вы, скорее всего, правы. Это не учебник по Python, а честный отчёт эксперимента, который мне самому было интересно повторить.

Недавно на Хабре вышла статья «Qwen3.6 27B MTP… с 60 t/s до 130 t/s» — про Multi-Token Prediction, спекулятивное декодирование и то, что на чистой генерации кода MoE-модель с MTP может ускориться примерно в полтора–два раза без потери качества (lossless, если верить разбору sampling.cpp в llama.cpp).

Я подумал: у меня как раз Qwen3.6-35B-A3B в LM Studio, плюс домашний агент Hermes в Docker — тот же стек, о котором пишут в духе «выжать больше из локальных LLM», только у меня не «один промпт в чат», а многоходовый агент с терминалом и файлами.

Вопрос был простой: если включить MTP-вариант модели, станет ли быстрее и лучше то, чем я реально пользуюсь каждый день?

Спойлер: в сырых t/s я не мерил. Я собрал свой бенчмарк агентских задач и дважды прогнал его — и цифры получились не такие, как в брошюре про MTP.

Откуда вообще Hermes и зачем бенчмарк

Hermes у меня — это обёртка: Hermes Agent в Docker ходит в LM Studio на Mac (host.docker.internal:1234). Профили под SEO-аудиты, handoff для разработчиков, legal-проверки — отдельная история.

Для сравнения моделей я не хотел «на глаз» спрашивать «напиши скрипт» и радоваться красивому ответу. Нужно было:

Одинаковая среда — тот же Docker, те же toolsets, те же промпты.
Объективный score — не «мне понравилось», а «файл есть, в SQLite ≥20 https-строк, в JSON есть ключи».
Время в контексте агента — не только токены/сек, а wall-time (сколько я реально ждал) и сумма API latency из логов Hermes.

Так появился каталог hermes-data/benchmarks/ и команда:

./benchmark-qwen-models.sh

Это 7 задач × 2 модели = 14 прогонов через docker compose run … hermes chat. Каждый прогон — отдельная папка workspace/benchmarks/run-<дата-время>/ с артефактами, логами, REPORT.md и summary.csv.

Я не претендую на MMLU, HumanEval или SWE-bench. Это мой рабочий срез: файлы, терминал, немного сети, чуть SQL — то, что агент делает у меня в SEO/аналитике.

Что за тесты и почему именно такие

Список задач лежит в tasks.yaml (suite qwen-hermes-agent-v1). Идея: не болтовня, а tool calling — Python, CSV, curl, SQLite, regex, JSON, короткое резюме.

№	Задача	Зачем в suite
1	Python по CSV	Скрипт + вывод: типичная «обработай выгрузку»
2	Выборка 15 строк (seed=42)	Точность по данным, отчёт в markdown
3	HTTP curl по 5 URL	Реальный `curl`, но только белый список (`example.com`, `iana.org`) — без чужих боевых сайтов
4	SQLite из CSV	Импорт + `COUNT` для `https%` — часто ломается у агентов
5	Regex по access-log	Вытащить email из лога
6	JSON-агрегация	`products.json` → summary с полями `total_products`, `categories`
7	Резюме статьи	5+ строк, ключевые слова про SEO — «мягкая» задача без жёсткого эталона текста

Фикстуры синтетические — вымышленные домены, учебный лог, статья. Юнит-тесты пакета гоняются без Docker и без интернета; сеть нужна только task3.

Score считает scoring.py: веса задач, чекеры (files_exist, python_syntax, sqlite_https_count, json_keys, …). Итог — процент пройденных проверок. Пересчитать без Hermes:

./benchmark-qwen-models.sh --score-only RUN_DIR SLUG

Метрики времени:

wall Σ — сколько ждал шаг целиком (Docker + Hermes + tools + LM Studio);
API Σ — сумма latency= из agent.log по сессии;
api_calls / tool_calls — сколько раз модель «ходила в круг» (каждый tool ≈ новый chat completion в LM Studio — кто видел лог LM Studio, тот поймёт, почему там сотня строк «Prompt processing progress»).

Сравниваю две модели в LM Studio:

Базовая: qwen/qwen3.6-35b-a3b
MTP: qwen3.6-35b-a3b-mtp

Два прогона: «уставший вечер» и «свежее утро»

Я специально оставил два полных прогона — не усреднял в один красивый отчёт.

Прогон 1 — run-20260522-235929 (конец дня)

LM Studio и модели уже целый день крутились — агентские задачи, аудиты, не один чат.

Модель	Score	wall Σ	API Σ	API calls	tool calls
Базовая	76.5%	168 с	121.6 с	30	27
MTP	100%	190 с	144.8 с	36	27

Быстрее по API — базовая (~23 с экономии).

По задачам:

Базовая провалила SQLite (файлов .db и .txt нет) и JSON-агрегацию (нет task6_summary-….json).
MTP закрыла все 7 задач на 100%.

На этом месте можно было бы написать: «MTP умнее, берите MTP». Но смотрим на время: MTP медленнее по wall и по API, при том что tool calls совпали. То есть ускорение «в 2 раза» из статьи про MTP сюда не перенеслось — зато выросло число API-вызовов (36 против 30).

Прогон 2 — run-20260523-131304 (после перезапуска и обновления LM Studio)

Утром: перезагрузил LM Studio, подтянул обновление, снова ./benchmark-qwen-models.sh.

Модель	Score	wall Σ	API Σ	API calls	tool calls
Базовая	76.5%	143 с	92.4 с	27	24
MTP	88.2%	190 с	132.7 с	42	32

Снова быстрее API у базовой (~40 с).

Что изменилось по сравнению с вечером:

Базовая — тот же 76.5%, но быстрее (меньше нагрузка на GPU/кэш?).
MTP — score упал с 100% до 88.2%: снова нет SQLite у обеих моделей; у базовой дополнительно отвалилась regex-задача (файл не прошёл проверки), у MTP regex уже ок.
У MTP ещё больше API-вызовов (42) и tool calls (32) — агент «крутится» дольше, хотя MTP как раз должен ускорять генерацию токенов, а не число ходов.

Стабильный провал обоих прогонов — task4 (SQLite). Значит, это не «MTP плохой», а сложное место для агента: много шагов, execute_code, пути только под /opt/data/, легко не дописать файлы до конца лимита ходов.

Чем мой бенчмарк отличается от t/s на Habr

В статье про MTP замеры — один длинный промпт, llama-server, --spec-type draft-mtp, задачи «код / перевод / сочинение». Там MTP на Dense даёт до ~2× на коде, на MoE — скромнее, иногда деградация на «творчестве».

У меня другой слой:

Промпт → Hermes → tool (terminal / file / code) → снова модель → … → артефакты на диске → автопроверка

Здесь скорость = f(число ходов, размер контекста, тормоза Docker, LM Studio verbose, усталость GPU). MTP ускоряет один forward pass, но если агент на MTP делает на 40% больше API calls (42 vs 27 во втором прогоне), итоговый wall-time может стать хуже, даже при lossless-токенах.

Это ближе к духу «генератор тестов на LLM» — инструмент под свою рутину, а не универсальный ML-бенчмарк — только у меня рутина не Postman, а SEO-агент с файлами.

Как устроен pipeline (для тех, кто захочет повторить)

Кратко, без лекции по FastAPI:

benchmark-qwen-models.sh → Python pipeline.py (preflight: Docker, образ, LM Studio).
Промпты: hermes-data/prompts/benchmark-qwen/*.txt, плейсхолдеры {{RUN_DIR}}, {{MODEL_SLUG}}.
Каждый шаг — docker compose run + парсинг agent.log (log_parse.py, metrics_io.py).
На выходе: REPORT.md, metrics.json, summary.csv, SCORES-<slug>.json.

Тесты обвязки без железа:

./test-benchmark.sh

Полный suite — примерно час–два терпения (в README честно: один шаг Hermes ≈ 2–15 минут). LM Studio держит одну модель в GPU — параллельно две не гонял.

Переменные, если модели называются иначе:

HERMES_BENCH_MODEL_BASE='qwen/qwen3.6-35b-a3b' \

HERMES_BENCH_MODEL_MTP='qwen3.6-35b-a3b-mtp' \

./benchmark-qwen-models.sh

Выводы (личные, не научные)

MTP в llama.cpp и MTP в «агент + LM Studio + tools» — разные истории. У меня MTP не стал быстрее по wall/API; во втором прогоне был медленнее и более болтлив по числу вызовов.
Качество по score плавает между прогонами (100% → 88.2% у MTP), при этом базовая стабильно 76.5% — оба раза те же дыры, плюс утром ещё regex у базовой. Это напоминание: одного прогона мало, особенно после «целый день гоняли нейросеть».
Самый показательный провал — SQLite (task4) у обеих моделей во втором прогоне и у базовой в первом. Наблюдение: если оцениваете агентов для автоматизации — именно многошаговые «сделай БД и положи файл» ломаются чаще, чем «напиши hello world».
Статья про MTP остаётся правдой в своём измерении (t/s, lossless, llama-server). Я не опровергаю Shannon — я добавляю слой: «а у вас это в агенте?»
Я не разработчик, но собрать воспроизводимый suite оказалось реальнее, чем читать реддит, вручную сравнивать и делать вывод «вчера вроде быстрее». LLM помогали писать Python для scoring и тестов — как в истории про TGS, только проект мой и заточен под Hermes.

P.S. для редакторов и комментаторов

Железо в статью не включал — у меня Mac Studio Apple M4 Max 128 гб + LM Studio.
Репо — код suite, промпты и оба прогона (логи, REPORT.md, summary.csv): https://github.com/exelens/hermes-qwen-benchmark

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Все публикации подряд на Хабре

Вступление (и сразу оговорки)

Откуда вообще Hermes и зачем бенчмарк

Что за тесты и почему именно такие

Два прогона: «уставший вечер» и «свежее утро»

Прогон 1 — run-20260522-235929 (конец дня)

Прогон 2 — run-20260523-131304 (после перезапуска и обновления LM Studio)

Чем мой бенчмарк отличается от t/s на Habr

Как устроен pipeline (для тех, кто захочет повторить)

Выводы (личные, не научные)

P.S. для редакторов и комментаторов