惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Apple Machine Learning Research
Apple Machine Learning Research
L
LangChain Blog
小众软件
小众软件
博客园 - 司徒正美
Schneier on Security
Schneier on Security
S
Secure Thoughts
V
Visual Studio Blog
aimingoo的专栏
aimingoo的专栏
U
Unit 42
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Last Week in AI
Last Week in AI
Google DeepMind News
Google DeepMind News
博客园 - 聂微东
Security Latest
Security Latest
G
Google Developers Blog
罗磊的独立博客
云风的 BLOG
云风的 BLOG
A
Arctic Wolf
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
V
V2EX
P
Proofpoint News Feed
Spread Privacy
Spread Privacy
T
The Exploit Database - CXSecurity.com
The Cloudflare Blog
量子位
Microsoft Security Blog
Microsoft Security Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
AWS News Blog
AWS News Blog
L
LINUX DO - 最新话题
Simon Willison's Weblog
Simon Willison's Weblog
SecWiki News
SecWiki News
H
Hacker News: Front Page
博客园 - 三生石上(FineUI控件)
爱范儿
爱范儿
TaoSecurity Blog
TaoSecurity Blog
S
Security Affairs
T
The Blog of Author Tim Ferriss
H
Hackread – Cybersecurity News, Data Breaches, AI and More
C
Cybersecurity and Infrastructure Security Agency CISA
F
Fortinet All Blogs
O
OpenAI News
D
Darknet – Hacking Tools, Hacker News & Cyber Security
美团技术团队
V
V2EX - 技术
Google Online Security Blog
Google Online Security Blog
博客园 - 【当耐特】
MyScale Blog
MyScale Blog
IT之家
IT之家
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Hacker News: Ask HN
Hacker News: Ask HN

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Окупается ли мультиагентность и можно ли автоматически выбрать паттерн под задачу?
Enorth · 2026-06-15 · via Все публикации подряд на Хабре

Окупается ли мультиагентность и можно ли автоматически выбрать паттерн под задачу?

Средний

5 мин

43

Я прогнал шесть мультиагентных паттернов на трёх бенчмарках и трёх моделях. Под командой агентов тут понимаются связки вроде критика-актора или оркестратора с подчинёнными. Почти везде такая команда проиграла одиночному агенту. Проиграла и по точности, и по цене, а по цене иногда вчетверо.

Это была бы скучная заметка в духе «МАС не нужен, расходимся». Но нашлось исключение. Чем труднее задача для модели, тем больше у команды появляется шанс на выигрыш. Так что вопросов у меня два. Влияет ли вообще топология системы на результат? И если влияет, можно ли автоматически выбирать подходящий паттерн под конкретную задачу? Ответ на второй вопрос пока отрицательный, и самое любопытное здесь именно почему.

Примеры я показываю на мультиагентном фреймворке FEDOT.MAS, а весь код экспериментов с паттернами, прогонами и графиками лежит в репозитории. Я меряю инструмент, который сам и пишу. Но и выводы выйдут в основном не в пользу мультиагентности, так что это скорее самокритика, чем реклама.

Паттерны МАС

Каждый паттерн это способ собрать в одну систему несколько вызовов модели в определённом порядке. Для сравнения я использовал следующие:

  • single. Один агент, один проход. Бейзлайн, с которым сравниваем всё остальное.

  • chain. Цепочка из двух шагов. Один агент раскладывает задачу, другой решает по разложенному.

  • voting. Два агента решают задачу независимо, а третий судья сводит их ответы в один.

  • eval_optimizer. Генератор предлагает ответ, критик принимает его или возвращает на доработку.

  • orchestrator. Координатор на каждом шаге решает, кто из подчинённых работает дальше, и так пока не скажет «готово».

  • blackboard. Агенты пишут на общую доску. Это исследователь, скептик-проверяющий и компоновщик.

Фреймворк поддерживает все эти паттерны и их комбинации, а система собирается из примитивов через перегруженный оператор +. Пример паттерна eval_optimizer:

from fedotmas.adapters.pydantic_ai import PydanticAI
from fedotmas.sdk import agent, Condition

llm = PydanticAI("openrouter:openai/gpt-oss-20b")

gen = agent(
    "gen", takes=dict,
    prompt="Реши задачу; если есть замечание критика, учти его.",
    input="Задача: {task}\nЗамечание (если есть): {verdict}"
)
critic = agent(
    "critic", takes=dict, labels=["approve", "revise"],
    prompt="Проверь решение: approve, если верно, иначе revise.",
    input="Задача: {task}\nРешение: {draft}"
)

system = gen.into("draft") + critic.into("verdict")

# черновик -> вердикт, и так по кругу, пока критик не скажет approve
loop = system.loop(until=Condition(key="verdict", op="eq", value="approve"))

# стартовая точка и запуск
start_point = {"task": task, "draft": "", "verdict": ""}
answer = await loop.run(start_point, llm=llm)

Остальные пять собираются похожим образом. Из интересного хочу отметить, что узлом системы может выступать как один LLM-агент, так и целая МАС или обычная механическая функция на Python.

Сетап эксперимента

Для тестов взял несколько стандартных бенчмарков разной сложности из разных областей. GSM8K это школьная математика. MMLU это вопросы в виде теста из областей от химии до истории. LogiQA это логические задачи. В качестве моделей-исполнителей взял gpt-oss-20b, ministral-8b и llama-3.1-8b. Брал не весь бенчмарк, а его подвыборку из 100 вопросов. В бенчах с разными областями делал бустрап-выборку с фиксированным сидом. Оговорка: на этом этапе рассматривались бенчмарки, не требующие инструментов для агентов.

Каждой роли давал простой и прямой промпт без специальной подгонки под паттерн и держал промпты на одном уровне во всех бенчмарках. Это было сделано, чтобы измерять архитектуру системы, а не промпт-инжиниринг.

Понадобятся ещё ориентир в виде оракула на задачу. Это если бы под каждую задачу кто-то всеведущий выбирал идеальный паттерн. Это потолок, который показывает, сколько в принципе можно выжать выбором.

Важная оговорка. Оракул выбирает задним числом, по уже посчитанным прогонам. Поэтому здесь есть допущение, что на повторном запуске выбранный паттерн дал бы примерно ту же точность. Поэтому выбор берётся по среднему из трёх прогонов, а не по одному, чтобы он отражал устойчивое поведение паттерна на задаче, а не разовую удачу.

Первый результат. Простые задачи

Начнём с лёгкого. На GSM8K и MMLU картина одинаковая. Одиночный агент сидит на границе «стоимость/точность», и сдвинуть его оттуда некуда.

Точность против токенов

Точность против токенов

На GSM8K у gpt-oss-20b single даёт 0.94 за 398 токенов на задачу. Лучший мультиагентный паттерн даёт 0.95, но уже за 1692 токена. Разница в один пункт лежит внутри шума, а платишь вчетверо больше. На MMLU всё то же самое. Любые «умные» надстройки над одним проходом либо не помогают, либо чуть мешают, и при этом всегда стоят в 2-4 раза дороже.

Отдельная поучительная история это оркестратор на слабой модели. У ministral-8b на GSM8K он умудрился сжечь 277 тысяч токенов на задачу. Координатор не может вовремя сказать «готово» и крутит цикл, скармливая растущую историю каждому вызову. Часть задач при этом просто упирается в лимит шагов.

Вывод: на коротких задачах, которые модель решает за один проход, команда агентов превращается в чистый оверхед.

Чем труднее задача, тем больше смысла в выборе

А теперь интересное. Если бы дело было только в том, что «МАС не нужен», статья бы тут и закончилась. Но посмотрим на ту же gpt-oss-20b на бенчмарках по нарастанию трудности.

Что происходит при усложнении бенчмарка

Что происходит при усложнении бенчмарка

Модель одна и та же, но зазор между лучшим фиксированным паттерном и оракулом-на-задачу растёт. На GSM8K он равен +3 пунктам, на MMLU уже +6, а на LogiQA +9. То есть чем труднее задача для модели, тем больше выигрыш можно было бы получить, выбирая паттерн под каждую конкретную задачу.

Запас показывает трудность задачи для модели, а не размер модели. Маленькая ministral-8b на лёгком GSM8K даёт всего +1 пункт запаса, потому что она там сильна. А llama-3.1-8b того же класса, но слабая на этих задачах (0.63-0.80), даёт уже +11…16 пунктов. Дело не в числе параметров, а в том, насколько задача трудна именно для этого исполнителя. Где-то выручает критик, а где-то хватает и одного прохода.

Вот и появляется что выбирать.

Раз выбор важен, давайте выбирать автоматически

Напрашивается простое решение. Поставить перед системой селектор в виде агента, который по тексту задачи выбирает паттерн. В FEDOT.MAS селектор это один агент с ограниченным выбором из меню паттернов. Получилось ли с ним повысить качество?

Нет.

Селектор против бейзлайнов

Селектор против бейзлайнов

Вот цифры на LogiQA у gpt-oss-20b. Одиночный агент даёт 0.77, случайный выбор паттерна 0.73, селектор только 0.71, а оракул 0.89. Селектор не просто не дотянулся до потолка. Он оказался хуже и одиночного агента, и случайного тыка. И так везде. Ни в одной из колонок селектор не обыграл одиночного агента. Случайный выбор он обходил только там, где в выборе была явный выброс по типу зацикливающегося оркестратора.

Дело не в том, что селектор «глупый». Дело в информации. Какой паттерн решит именно эту задачу на этой модели, это эмпирический факт, который лежит в матрице результатов, а не в тексте задачи. По одной формулировке его не вывести. Задачи на вид одинаковые, а решаются разными паттернами по причинам, которых в тексте просто нет. Поэтому и более умный судья тут не спасёт. Проблема не в уме, а в отсутствии сигнала на входе.

Что с этим делать? Как вариант, учить селектор на примерах вида «такую задачу на такой модели лучше всего решает такой паттерн». Это уже файн-тюн, и это тема для отдельного разговора.

Выводы и что дальше

Что удалось узнать и что может быть полезно на практике?

  • Оркестратор на слабой модели опасен. Без жёсткого лимита шагов он зацикливается и сжигает токены.

  • Выбор паттерна окупается только на трудных для модели задачах.

Стоит честно отметить слабое место замера. В паттернах с проверкой верификатором работает та же модель, что и генератор, так что она по сути судит сама себя, без независимого сигнала. Поэтому и честный следующий шаг ведёт туда, где у мультиагентности есть принципиальный способ победить. Это код с реальным прогоном тестов вроде HumanEval, где критик перестаёт быть «вторым мнением» и становится запускалкой тестов с настоящим сигналом. Либо же сложные бенчмарки по типу GAIA2, требующие инструментов и взаимодействия с внешним миром.

А пока все результаты лежат на GitHub и могут быть воспроизведены на других моделях.