惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
The Exploit Database - CXSecurity.com
D
Darknet – Hacking Tools, Hacker News & Cyber Security
V
Vulnerabilities – Threatpost
Blog — PlanetScale
Blog — PlanetScale
G
Google Developers Blog
M
MIT News - Artificial intelligence
C
Cybersecurity and Infrastructure Security Agency CISA
MyScale Blog
MyScale Blog
P
Privacy International News Feed
MongoDB | Blog
MongoDB | Blog
Know Your Adversary
Know Your Adversary
P
Palo Alto Networks Blog
AWS News Blog
AWS News Blog
Cisco Talos Blog
Cisco Talos Blog
Malwarebytes
Malwarebytes
aimingoo的专栏
aimingoo的专栏
T
Threat Research - Cisco Blogs
Last Week in AI
Last Week in AI
量子位
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
C
CERT Recently Published Vulnerability Notes
Hugging Face - Blog
Hugging Face - Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Y
Y Combinator Blog
L
LangChain Blog
L
LINUX DO - 热门话题
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Simon Willison's Weblog
Simon Willison's Weblog
V
Visual Studio Blog
S
Security @ Cisco Blogs
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
O
OpenAI News
N
News | PayPal Newsroom
Stack Overflow Blog
Stack Overflow Blog
H
Hackread – Cybersecurity News, Data Breaches, AI and More
V
V2EX - 技术
李成银的技术随笔
Recent Announcements
Recent Announcements
C
Check Point Blog
Attack and Defense Labs
Attack and Defense Labs
Recent Commits to openclaw:main
Recent Commits to openclaw:main
S
Security Archives - TechRepublic
小众软件
小众软件
博客园 - 聂微东
月光博客
月光博客
GbyAI
GbyAI
T
Troy Hunt's Blog
S
Securelist
雷峰网
雷峰网

Все публикации подряд на Хабре

[Перевод] Соль и перец в безопасности паролей Что такое «статьи-зомби» CodeGraph: граф кода для Claude Code вместо grep по файлам. Разбираю архитектуру и проверяю бенчмарки Мессенджер Ласточка. Часть 3 Google представила Gemini Omni — универсальную ИИ-модель. Роботы работают, счастлив человек Что у SpaceX с патентным портфелем перед IPO? Делегирование, которому можно научиться у промпт‑инженеров Feature Based Clean Architecture. Часть 5: Масштабирование FBCA и теоретико-графовый анализ зависимостей Настройка типизации формы React Hook Form (≥ v7.44.0) + Zod с разными входными и выходными типами Feature Based Clean Architecture. Часть 4: FBCA: формализация границ ответственности в NestJS-модуле Корпорация «Святые Технологии». Работа мечты (рассказ) CyLab Security Academy: как Carnegie Mellon превратила CTF в полноценную обучающую платформу Feature Based Clean Architecture. Часть 3: Архитектурный риск циклов в NestJS: ROI решений на горизонте пяти лет Домашний сервер без белого IP: безопасная публикация сервисов через VPS, обратный SSH-туннель и Caddy Почему не взлетели дирижабли? Часть 22: Митягина, Эйхенвальд и Ховрина, первый в истории женский экипаж дирижабля Китайцы ответили на H200 — обзор Zhenwu M890 от Alibaba Feature Based Clean Architecture. Часть 2: Декомпозиция на сервисы: анализ ограниченности подхода Лучшие игры для Steam Deck в 2026 году по мнению пользователей Обход блокировок внутри iOS-приложения: VLESS + Reality через sing-box, и грабли по дороге [Перевод] Любой пользователь интернета может позвонить в вашу дверь Новый экспериментальный препарат для похудения обеспечил резкое снижение веса Хром и скорость Провалила вайтборд, но прошла тестовое — как я делала задание для Т-Банка Космическая линза помогла Уэббу увидеть древнейшую галактику Вселенной Почему custom URI schemes в Telegram Mini Apps ведут себя по-разному на Android, iOS и Desktop Как я сократил рутину QA до пары кликов: генератор API-тестов и тест-кейсов на LLM, которым хочу поделиться ИИ‑спасатель в кармане: как мы сделали агента для помощи при ЧС, который работает без интернета QNAME minimisation на практике: RFC 7816, реализация, грабли Агенты, роботы и мы: как ИИ перекраивает рынок труда в Европе От боли к npm install: TDLib для React-Native, или как я делал проект, а получилась библиотека Написание консольного симулятора баттл-арены на языке С++ с реализацией «умных» ботов Очень много букв… Или кейс по специфической настройке рабочего окружения Segmentation Fault: как оно устроено? Python в enterprise: момент, когда пора открыть Java не только ради собеседований MonoGame — игровой движок для тех, кто любит изобретать велосипеды Спасти рядового Буридана Рефакторинг выпадающих списков: от enum к конфигу-константе Free Porn Storage: передаём мемы в TLS-трафике, не привлекая внимания санитаров Мониторинг цен на Авито: MikroTik RouterOS Script Венесуэльская нефть после января 2026 Разговоры с ИИ Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Часть 4. Тестирование Как вытащить ИТ из кризиса перегрузки, если найм запрещён Как мы подключили LLM к поддержке, а получили идеального лжеца Zero — новый agent-first язык программирования от Vercel, который изменит все (нет) Запускаем рекламу в дачной нише: какие креативы и форматы работают, на что смотреть в аналитике Паттерны организационного дизайна: практическое руководство Почему алгоритмы сливают твой депозит? 3 причины, о которых молчат «успешные» бэктесты Как «спят» вкладки в браузере Приоритет задач определяется не только ощущением срочности [Перевод] Махинации с прибылью Anthropic Project Loom: Virtual Threads, Scoped Values и preview #7 Structured Concurrency Мнения математиков о том, как ИИ опроверг гипотезу Эрдёша Слабоумие и отвага: как я за выходные сделала прототип ИИ-помощника для UX-дизайнера ИИ учит нас писать лучше. Или хуже? Как проектировать ИИ-инструменты, которые делают пользователей лучше «Раньше хотел каждый, сейчас и бесплатно не надо»: гаджеты, про которые мы все забыли ИИ-агенты в бизнесе: почему 80% компаний увольняют людей, но не получают ROI Как я строил ИИ-стартап, или Новые архитектурные риски 2026 4 интересных парадокса, рождающих жаркие дискуссии Рабочее место не-вайбкодера: настраиваем harness Когнитивный инжиниринг Feature Based Clean Architecture. Часть 1: Эволюция NestJS-приложения в неподдерживаемое состояние Как мы перестали бояться «пустых охватов» и сделали инфлюенс-маркетинг управляемым каналом роста Подключили B2B email-платформу к голосовым ассистентам через MCP. Архитектура, код, где ломается [Перевод] Почему AI-агенты ломаются на длинных задачах — и как обвязка помогает им дописывать приложения Облачно, возможны нейросети: кризис датасетов и ахиллесова пята систем машинного зрения — DIY-чтение на выходные Спустя 5 лет и $5 миллионов: почему создание нового языка для веб-разработки оказалось ошибкой Безопасная песочница Облачная LLM на 16 ГБ VRAM — часть 2: LangGraph Server, LangSmith и SDK Современный SSH-клиент для MS-DOS Как продвигать агентство недвижимости: от вывески до прямых эфиров MCP для GitHub + GitLab: инженерный гайд 2026 Вы платите OpenAI $20 в месяц, а он зарабатывает на вас ещё $100 млн за полтора месяца. И это только начало ИИ забирает работу «белых воротничков»: чему учить детей, чтобы выжить в будущем Практический ИИ-агент Python: LangGraph + Qdrant Как я делал ping и traceroute на iOS без entitlements — и почему это оказалось проще, чем UMP-консент для AdMob 4 MVP за 4 месяца, 30 холодных DM, 1 регистрация: building in public по-русски VPS-бастион: доступ к домашнему серверу без белого IP Kampus AI — нейросеть для генерации учебных работ для студентов и школьников Игры, помогающие продавать — примеры интересных рекламных акций с видеоиграми €500 в Telegram Ads принесли сделку на 350 000 ₽. Разбор B2B-кампании Чтение на выходные: «Разработка игр и теория развлечений» Рафа Костера Личный архив: сбор, бэкап, таймлайн фотографий INFOSTART TECH EVENT или INFOSTART A&PM EVENT — как понять, куда вам нужнее? Peer testing на основе Закона Линуса Релиз GitLab 19.0: ИИ-оркестрация, которая наконец-то догнала темп написания кода Как бизнесу оценить готовность к аттестации по новому Приказу ФСТЭК № 117 Технический гайд по сторис – часть 4: как мы добавили видео формат Представительство в арбитражном процессе: правовые различия между внешним защитником и инхаусом «Где новые фичи?» — Как AI-миграция легаси вернет IT-бюджет бизнесу Что нужно знать работнику про увольнение Новые требования Москвы к ЦИМ для АГР: готовый инструмент для проектировщиков в nanoCAD BIM Строительство WireGuard: простота и надёжность современного VPN-туннеля или секретное рукопожатие в тёмной комнате Выйдет ли GTA 6 в 2026 году, и чего ждать от игры Как меня назвали «невовлечённым», а я нашёл офшоры на Кипре Как LLM научила рекомендательную модель видеть больше, чем историю взаимодействий От хаоса к экосистеме: Модель зрелости комьюнити в бизнесе Свет, тьма, VEML7700 и Python Сказ о том, как мы процессы разработки в GRI меняли. Часть 2
MTP у Qwen3.6 в llama.cpp обещает ×2 по скорости. Я прогнал ту же модель через своего агента — и получил обратное
exelens · 2026-05-23 · via Все публикации подряд на Хабре

Уровень сложностиПростой

Время на прочтение6 мин

Охват и читатели0

Кейс

Вступление (и сразу оговорки)

Привет, Хабр.

Меня зовут Лазутин Алексей, я не профессиональный разработчик. SEO, аудиты сайтов, куча рутины с CSV, curl, отчётами для программистов — вот мой цех. Код для себя пишу «как умею»: скрипты, Docker, копипаста с LLM. Если в архитектуре что-то покажется странным — вы, скорее всего, правы. Это не учебник по Python, а честный отчёт эксперимента, который мне самому было интересно повторить.

Недавно на Хабре вышла статья «Qwen3.6 27B MTP… с 60 t/s до 130 t/s» — про Multi-Token Prediction, спекулятивное декодирование и то, что на чистой генерации кода MoE-модель с MTP может ускориться примерно в полтора–два раза без потери качества (lossless, если верить разбору sampling.cpp в llama.cpp).

Я подумал: у меня как раз Qwen3.6-35B-A3B в LM Studio, плюс домашний агент Hermes в Docker — тот же стек, о котором пишут в духе «выжать больше из локальных LLM», только у меня не «один промпт в чат», а многоходовый агент с терминалом и файлами.

Вопрос был простой: если включить MTP-вариант модели, станет ли быстрее и лучше то, чем я реально пользуюсь каждый день?

Спойлер: в сырых t/s я не мерил. Я собрал свой бенчмарк агентских задач и дважды прогнал его — и цифры получились не такие, как в брошюре про MTP.

Откуда вообще Hermes и зачем бенчмарк

Hermes у меня — это обёртка: Hermes Agent в Docker ходит в LM Studio на Mac (host.docker.internal:1234). Профили под SEO-аудиты, handoff для разработчиков, legal-проверки — отдельная история.

Для сравнения моделей я не хотел «на глаз» спрашивать «напиши скрипт» и радоваться красивому ответу. Нужно было:

  1. Одинаковая среда — тот же Docker, те же toolsets, те же промпты.

  2. Объективный score — не «мне понравилось», а «файл есть, в SQLite ≥20 https-строк, в JSON есть ключи».

  3. Время в контексте агента — не только токены/сек, а wall-time (сколько я реально ждал) и сумма API latency из логов Hermes.

Так появился каталог hermes-data/benchmarks/ и команда:

./benchmark-qwen-models.sh

Это 7 задач × 2 модели = 14 прогонов через docker compose run … hermes chat. Каждый прогон — отдельная папка workspace/benchmarks/run-<дата-время>/ с артефактами, логами, REPORT.md и summary.csv.

Я не претендую на MMLU, HumanEval или SWE-bench. Это мой рабочий срез: файлы, терминал, немного сети, чуть SQL — то, что агент делает у меня в SEO/аналитике.

Что за тесты и почему именно такие

Список задач лежит в tasks.yaml (suite qwen-hermes-agent-v1). Идея: не болтовня, а tool calling — Python, CSV, curl, SQLite, regex, JSON, короткое резюме.

Задача

Зачем в suite

1

Python по CSV

Скрипт + вывод: типичная «обработай выгрузку»

2

Выборка 15 строк (seed=42)

Точность по данным, отчёт в markdown

3

HTTP curl по 5 URL

Реальный curl, но только белый список (example.comiana.org) — без чужих боевых сайтов

4

SQLite из CSV

Импорт + COUNT для https% — часто ломается у агентов

5

Regex по access-log

Вытащить email из лога

6

JSON-агрегация

products.json → summary с полями total_productscategories

7

Резюме статьи

5+ строк, ключевые слова про SEO — «мягкая» задача без жёсткого эталона текста

Фикстуры синтетические — вымышленные домены, учебный лог, статья. Юнит-тесты пакета гоняются без Docker и без интернета; сеть нужна только task3.

Score считает scoring.py: веса задач, чекеры (files_existpython_syntaxsqlite_https_countjson_keys, …). Итог — процент пройденных проверок. Пересчитать без Hermes:

./benchmark-qwen-models.sh --score-only RUN_DIR SLUG

Метрики времени:

  • wall Σ — сколько ждал шаг целиком (Docker + Hermes + tools + LM Studio);

  • API Σ — сумма latency= из agent.log по сессии;

  • api_calls / tool_calls — сколько раз модель «ходила в круг» (каждый tool ≈ новый chat completion в LM Studio — кто видел лог LM Studio, тот поймёт, почему там сотня строк «Prompt processing progress»).

Сравниваю две модели в LM Studio:

  • Базовая: qwen/qwen3.6-35b-a3b

  • MTP: qwen3.6-35b-a3b-mtp

Два прогона: «уставший вечер» и «свежее утро»

Я специально оставил два полных прогона — не усреднял в один красивый отчёт.

Прогон 1 — run-20260522-235929 (конец дня)

LM Studio и модели уже целый день крутились — агентские задачи, аудиты, не один чат.

Модель

Score

wall Σ

API Σ

API calls

tool calls

Базовая

76.5%

168 с

121.6 с

30

27

MTP

100%

190 с

144.8 с

36

27

Быстрее по API — базовая (~23 с экономии).

По задачам:

  • Базовая провалила SQLite (файлов .db и .txt нет) и JSON-агрегацию (нет task6_summary-….json).

  • MTP закрыла все 7 задач на 100%.

На этом месте можно было бы написать: «MTP умнее, берите MTP». Но смотрим на время: MTP медленнее по wall и по API, при том что tool calls совпали. То есть ускорение «в 2 раза» из статьи про MTP сюда не перенеслось — зато выросло число API-вызовов (36 против 30).

Прогон 2 — run-20260523-131304 (после перезапуска и обновления LM Studio)

Утром: перезагрузил LM Studio, подтянул обновление, снова ./benchmark-qwen-models.sh.

Модель

Score

wall Σ

API Σ

API calls

tool calls

Базовая

76.5%

143 с

92.4 с

27

24

MTP

88.2%

190 с

132.7 с

42

32

Снова быстрее API у базовой (~40 с).

Что изменилось по сравнению с вечером:

  • Базовая — тот же 76.5%, но быстрее (меньше нагрузка на GPU/кэш?).

  • MTP — score упал с 100% до 88.2%: снова нет SQLite у обеих моделей; у базовой дополнительно отвалилась regex-задача (файл не прошёл проверки), у MTP regex уже ок.

  • У MTP ещё больше API-вызовов (42) и tool calls (32) — агент «крутится» дольше, хотя MTP как раз должен ускорять генерацию токенов, а не число ходов.

Стабильный провал обоих прогонов — task4 (SQLite). Значит, это не «MTP плохой», а сложное место для агента: много шагов, execute_code, пути только под /opt/data/, легко не дописать файлы до конца лимита ходов.

Чем мой бенчмарк отличается от t/s на Habr

В статье про MTP замеры — один длинный промптllama-server--spec-type draft-mtp, задачи «код / перевод / сочинение». Там MTP на Dense даёт до ~2× на коде, на MoE — скромнее, иногда деградация на «творчестве».

У меня другой слой:

Промпт → Hermes → tool (terminal / file / code) → снова модель → … → артефакты на диске → автопроверка

Здесь скорость = f(число ходов, размер контекста, тормоза Docker, LM Studio verbose, усталость GPU). MTP ускоряет один forward pass, но если агент на MTP делает на 40% больше API calls (42 vs 27 во втором прогоне), итоговый wall-time может стать хуже, даже при lossless-токенах.

Это ближе к духу «генератор тестов на LLM» — инструмент под свою рутину, а не универсальный ML-бенчмарк — только у меня рутина не Postman, а SEO-агент с файлами.

Как устроен pipeline (для тех, кто захочет повторить)

Кратко, без лекции по FastAPI:

  • benchmark-qwen-models.sh → Python pipeline.py (preflight: Docker, образ, LM Studio).

  • Промпты: hermes-data/prompts/benchmark-qwen/*.txt, плейсхолдеры {{RUN_DIR}}, {{MODEL_SLUG}}.

  • Каждый шаг — docker compose run + парсинг agent.log (log_parse.py, metrics_io.py).

  • На выходе: REPORT.md, metrics.json, summary.csv, SCORES-<slug>.json.

Тесты обвязки без железа:

./test-benchmark.sh

Полный suite — примерно час–два терпения (в README честно: один шаг Hermes ≈ 2–15 минут). LM Studio держит одну модель в GPU — параллельно две не гонял.

Переменные, если модели называются иначе:

HERMES_BENCH_MODEL_BASE='qwen/qwen3.6-35b-a3b' \

HERMES_BENCH_MODEL_MTP='qwen3.6-35b-a3b-mtp' \

./benchmark-qwen-models.sh

Выводы (личные, не научные)

  1. MTP в llama.cpp и MTP в «агент + LM Studio + tools» — разные истории. У меня MTP не стал быстрее по wall/API; во втором прогоне был медленнее и более болтлив по числу вызовов.

  2. Качество по score плавает между прогонами (100% → 88.2% у MTP), при этом базовая стабильно 76.5% — оба раза те же дыры, плюс утром ещё regex у базовой. Это напоминание: одного прогона мало, особенно после «целый день гоняли нейросеть».

  3. Самый показательный провал — SQLite (task4) у обеих моделей во втором прогоне и у базовой в первом. Наблюдение: если оцениваете агентов для автоматизации — именно многошаговые «сделай БД и положи файл» ломаются чаще, чем «напиши hello world».

  4. Статья про MTP остаётся правдой в своём измерении (t/s, lossless, llama-server). Я не опровергаю Shannon — я добавляю слой: «а у вас это в агенте?»

  5. Я не разработчик, но собрать воспроизводимый suite оказалось реальнее, чем читать реддит, вручную сравнивать и делать вывод «вчера вроде быстрее». LLM помогали писать Python для scoring и тестов — как в истории про TGS, только проект мой и заточен под Hermes.

P.S. для редакторов и комментаторов

  • Железо в статью не включал — у меня Mac Studio Apple M4 Max 128 гб + LM Studio.

  • Репо — код suite, промпты и оба прогона (логи, REPORT.md, summary.csv): https://github.com/exelens/hermes-qwen-benchmark