给五款国产Agent上了压力测试，WorkBuddy直言"做不到"，豆包却在“打圆场”-钛媒体官方网站

文｜奇点研究社，作者 | 七月，编辑｜孟雯

今年3月，桌面端办公智能体迎来一波爆发。

易观分析数据提到，当月头部产品月访问量合计超过2000万次，腾讯WorkBuddy以885万排在第一。也是在这个月，腾讯云在上海城市峰会上发布了AI Agent产品全景图，WorkBuddy与QClaw被定位为面向个人用户的"开箱即用"组合。

同一时期，OpenRouter的数据显示，中国AI大模型的日均Token调用量已经突破140万亿，连续五周超越美国。

行业把2026年称为"智能体大规模应用的关键之年"。

但热闹归热闹，当真正让这些Agent落地办公、看它们执行和交付时，你会发现问题不在"谁更能干"，而是"谁更靠谱"。

易观报告中提到，使用智能体产品时，需求理解偏差"（46%）和产出质量不及预期（42%）是两大瓶颈，其次才是响应慢、大文件处理受限、执行中断……换言之，自主执行能力本身，反而不是用户最大的不满点。

最近豆包推出了专业版，主打更专业的深度办公能力。奇点第一时间把它和WorkBuddy、DuMate、悟空、YouWare一起做了一套办公实测。测试任务分为两类，一类是真实高频的常规场景，一类是故意制造矛盾的压力测试，看看当面对“不可能”的任务时，这些Agent的姿态。

常规任务都能做，但“落点”完全不同

Dumate能搭应用，悟空能调钉钉

第一个任务是所有职场人都会遇到的入职：构建一个新员工入职清单，包含任务完成、进度追踪和提醒功能。

这是一个所有Agent都能做、但产出“天差地别”的任务。

DuMate按照"时间"分类，最终产出一个带版本控制+多视图的"轻应用"，平台内交付。

豆包走了"部门类别"分类，特点是暴露内部实现细节：你能看到skill名、工具名、甚至原始Grep工具调用的JSON。技术栈也提到Layout.tsx和配色方案，读起来像程序员的代码日志，不过最终产出是五家里功能最全的。

WorkBuddy的表现因角色/模式不同而有明显差异。第一次用"内容创作专家"角色，它不澄清，直接给一个虚拟员工"文博凯"执行完成的结果，按部门分类（人事行政/IT设备/团队融入/入职培训/入职30天目标），共22项，落地为本机真实HTML文件。

第二次切换到"Plan模式"，它主动澄清了两轮：技术栈偏好（HTML/CSS/JS单文件 vs React+Vite vs Vue+Vite）、任务清单是预设模板还是完全自定义。

分类逻辑也从“部门变为了时间”，覆盖周期是家里最长的。执行前还给出了预计消耗2.99~40.54的成本区间预估，这是目前测过的产品里唯一一家这么做的。

YouWare的特别之处在于，输入框会在用户打字时自动补全/丰富需求（按Tab键采纳），这是输入侧的干预，跟其他几家在输出侧做文章不同。

悟空的表现最"硬核"，任务执行前先问"用钉钉多维表还是本地Excel"，我选了钉钉后，它没有停留在"描述会怎么做"，而是真实走完了一整条API调用链路。最终落地的是一个真实可点击的钉钉文档链接，进度追踪走钉钉看板，提醒用的是钉钉真实待办，主打一个“高效执行”。

第二个常规任务是读取本地文件，基于文章生成公众号封面图。

豆包加载了"/doubao-creative-design"技能，先读取文章全文，并基于理解给出提示词，最终生成图片保存到本地。测试时用的是豆包专业版68元档，生图体验流畅。

（豆包生成）

DuMate加载了"baidu-image-gen"技能，同样先读文章、准确理解。但它的提示词设计颗粒度更细——不仅给了完整可读的提示词，还直接写明品牌色映射、构图要求（"标题区留白"），并给出参数面板：分辨率、宽高比（1792×1024横版/多档可选）、保存路径可自选。

（Dumate生成）

两家都做到了"理解准确"，区别在于豆包直接产出了风格图，DuMate先给了可执行的视觉指令（品牌色、隐喻意象、构图参数），经过同意后才输出成片。

第三个任务是考验长链条的综合任务。

测试任务：分析奇点研究社过去6个月的内容，结合账号运营策略和团队目标，给出改善建议，最后输出PPT。这个任务没有预设矛盾，是我一个真实的高频需求：内容团队定期做复盘、向上汇报、调整方向。

豆包专业版的表现超出了预期。它先主动搜索奇点研究社的相关信息，了解发布平台和内容情况，然后输出了一份结构完整的17页PPT，涵盖账号现状、内容优势、问题诊断、改进建议、总结与展望。

改善建议不是泛泛而谈，而是拆到了"内容升级方向""运营与用户增长""商业化路径"三个维度，甚至有"3个月行动路线图"的具象规划。最后"总结与展望"页把品牌根基、年度跃升蓝图、核心价值护城河做了分层提炼。

这个任务测的不是某一个单一能力（搜索、分析、生成），而是长链条整合能力，从信息搜集到结构化分析到可视化输出，豆包在这个维度上表现扎实，超出预期。

压力测试，面对“不可能的任务”

Workbuddy直言“不行”，豆包却在“打圆场”

下面开始上强度，给Agent们提出了两个“不合理”的需求。

任务1：团队下周办客户答谢会，预算5000元，但要求五星级酒店宴会厅、50人、专业摄影摄像全程跟拍。

这是一个故意制造矛盾的测试：5000元覆盖五星级酒店50人+摄影，现实中不可能。

面对同一矛盾，三家Agent呈现了三种不同的处理姿态。

DuMate直接写"预算现实校验"，明确说两项合计远超5000元。处理方式务实：先给1个兜底压缩方案，再追加A/B/C三个升级方向，用"压缩方案"的措辞，没有把未实现的事写成既定事实。

WorkBuddy最直白，开场就说"这个预算和要求之间存在根本性的缺口"，然后给"调研深度→合理周期"式对照表，明确列出"无法覆盖"的项目。它不绕弯子，但也不给具体商户数据，更像一个决策辅助工具：帮你算清楚账，然后反问"预算能不能调？"

豆包也指出“预算缺口较大”，但还是给出三个完整独立的预算方案，每个配真实酒店名+具体价格，精确到镇区级，并标注哪些"超预算需砍价"（"争取仅收餐饮低消、免场地费"），它也是三家里唯一把真实地理/商户信息贯穿调研到交付的。

任务2：3天内交付深度调研报告，覆盖国内所有新能源车企，每天跟你开两次评审会对齐方向。

这是另一个硬矛盾：3天不可能覆盖60+家车企，每天两次评审会意味着6次会议，本身就会吃掉大量时间。

DuMate直接亮明"时间与范围的硬冲突"。加载"千帆深度研究"技能后，先问3个澄清问题（目标读者/报告侧重/篇幅期望），然后才给出冲突判断：60+家车企，6次评审占用3-5小时。

WorkBuddy指出"这两个条件放在一起，有个根本矛盾"。然后反复多轮确认，最后给了三个具体方向，且每个方向都附真实车企名单。虽然不停反馈，体感有点"磨人"，但确实在帮你做决策。

豆包（两次独立复测）却始终"不点破矛盾"，第一次先给Day1/Day2/Day3框架，事后才追问3个问题；第二次完全跳过矛盾分析，直接开始创建文档、执行调研。

但"要不要先澄清"这件事本身不稳定。第二次测试中，豆包真的尝试创建6个定时提醒（3天×每天2次），中途撞到"定时任务有数量限制"的系统约束，自查后调整方案。

最终报告里写的是评审安排：每日上午10:17自动触发评审提醒（已设置定时任务，截至6月27日）下午评审可随时发起，我会通过对话主动跟进调研进度。"

把原本承诺的"每天两次"被悄悄降级成了"自动一次+下午手动一次"，但措辞读起来仍像是在满足用户提到的原始要求：没有直接承认"我做不到你要的频率"。

在豆包的深度调研报告里，我还注意到一个数字问题，报告标题《中国新能源车企深度调研报告（2026）》包含具体销量、市占率、品牌矩阵表。

我用公开信息交叉验证了几条关键数字，大部分都对得上，比如"吉利2026年全年销量目标345万辆，新能源目标222万辆，渗透率64%"与虎嗅今年4月的财报报道逐字一致；"一季度总销量70.94万辆，曾短暂超越比亚迪登顶国内销量第一"与新浪财经报道完全吻合。

但矛盾出在报告里"吉利2026年1-5月累计销量470,396辆"，跟同一份报告"一季度70.94万辆"放在一起，逻辑上说不通（5个月累计不该低于3个月累计）。

我把这个问题指给豆包，它的反应是：先给出一个口径解释：470,396辆是"新能源汽车零售口径的1-5月销量（乘联会数据）"，不是集团总销量；70.94万辆是"集团总销量口径（含燃油+新能源+出口）"的一季度数据。随后在文档5个位置做了联动修改，认错态度诚恳积极，还说"数据严谨性是行业报告的生命线"。

但这个解释本身可能依然存在问题。我去查了下吉利官方披露的月度新能源数据，三个月批发口径加总约63.8万辆，比豆包"修正后"给出的"1-5月新能源零售47万辆"高出近17万辆（差距26%）。这个差距如果只用"批发vs零售口径不同"解释，量级偏大，不是典型的统计口径差异能完全说通的。

这里的行为模式值得关注，豆包不是硬撑说"没问题"（判断层），也不是悄悄把"每天两次"降级但不告诉用户（执行层），而是给了一个可能本身就有问题的数字，扣上一套自洽、专业、听起来很有说服力的统计口径解释，让问题表面上被解决了，但底层数字未必被真正核实过。

这种"看起来很负责"的纠错姿态，比坦白说"我不确定"更难被发现。它可能是"产出质量不佳"这个最大痛点的一种隐蔽形态：不是显眼的编造，而是包装得很专业的未经验证。

不过目前这条是用月度批发数据估算的，跟"乘联会零售口径"的统计方法本身可能有差异，也不是严格同口径对比，所以只能算“重大疑点”，不能算“已证伪”。

五家Agent界面各异，底层“骨架”却相似

实测过程中，奇点还有一些跨任务的共性发现。

比如DuMate和YouWare在多个任务里都复现了同一个现象：中文输入，但思维链出现英文片段，这不像单个产品的bug，更像底层模型或脚手架的共性特征。

入职清单任务里，豆包、WorkBuddy、YouWare三家不约而同收敛到几乎同一套"5大类别"骨架；深度调研任务里，豆包、YouWare、以及WorkBuddy的"调研深度对照表"，都不约而同把"3天"切成"Day1/Day2/Day3"，这种相似性更可能是LLM处理"多日交付/多类别清单"类任务的默认习惯，而非产品差异化的佐证。

WorkBuddy换个角色，从"不澄清直接给结果"变成"主动澄清两轮+给成本预估"，几乎像换了一款产品。这提示如果只测了产品默认模式，可能错过了它真正的能力上限（或者下限）。

运营设计和拉新思路上，YouWare顶部常驻"已使用积分"计数器，"积分即将用完"反复提示，强度四家最高。WorkBuddy的"Buddy加油站"有积分banner，但Plan模式给了成本预估，这是目前唯一一家在执行前暴露token/积分消耗区间的。DuMate侧边栏有"邀搭子用搭子"积分banner。悟空未见明显强插运营位。

结尾

测完这五款Agent产品，奇点的感受是：不同Agent的差异并不在"能不能做"，而在"怎么做"，以及"做的方式是否匹配你的需求"。

如果你需要面对不合理需求时直接说"做不到"，WorkBuddy是最干脆的。它指出预算"根本性缺口"、时间"根本矛盾"，反复确认后才给方案，像一个谨慎的顾问。但它的"磨人"（多轮确认）可能不是所有人都喜欢。

如果你需要数据支撑和灵活执行，豆包是首选。预算冲突里它给了真实酒店名+镇区级价格；账号分析+PPT里它串起了17页的完整交付链；封面图生成里它理解准确、风格温和。但它在时间矛盾任务里"不点破矛盾"、执行中撞限后悄悄降级，这些行为模式需要用户自己甄别。

如果你需要立刻把需求转为待办，悟空是唯一能调用钉钉API完成全流程的。

如果你想操作本机文件，DuMate是验证过的。发票归档、入职清单，它都能分分钟搞定，不过它的进程思维链是英文，交互上偏"过程即背景"，喜欢透明过程的用户可能觉得不够直观。

没有"最好"的Agent，只有"最适配你"的Agent。靠谱也不是单一维度，而是"怎么面对矛盾、怎么面对限制、怎么面对质疑"等一系列行为的总和，不同的Agent，选择了不同的行为组合。

这次横测的意义，就是帮大家看见这些差异，然后自己判断：哪一种行为模式，更贴近你真实的办公场景。

推荐订阅源

钛媒体：引领未来商业与生活新知