惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

D
DataBreaches.Net
T
Threatpost
N
News and Events Feed by Topic
PCI Perspectives
PCI Perspectives
V2EX - 技术
V2EX - 技术
D
Docker
G
Google Developers Blog
Microsoft Security Blog
Microsoft Security Blog
N
News and Events Feed by Topic
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
Google Online Security Blog
Google Online Security Blog
The GitHub Blog
The GitHub Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
Y
Y Combinator Blog
M
MIT News - Artificial intelligence
Blog — PlanetScale
Blog — PlanetScale
博客园 - 司徒正美
T
Troy Hunt's Blog
Webroot Blog
Webroot Blog
Security Archives - TechRepublic
Security Archives - TechRepublic
量子位
Apple Machine Learning Research
Apple Machine Learning Research
H
Help Net Security
F
Full Disclosure
B
Blog
O
OpenAI News
H
Hackread – Cybersecurity News, Data Breaches, AI and More
博客园_首页
Google DeepMind News
Google DeepMind News
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
Engineering at Meta
Engineering at Meta
大猫的无限游戏
大猫的无限游戏
Forbes - Security
Forbes - Security
Know Your Adversary
Know Your Adversary
B
Blog RSS Feed
MongoDB | Blog
MongoDB | Blog
Scott Helme
Scott Helme
T
The Exploit Database - CXSecurity.com
博客园 - 聂微东
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
The Last Watchdog
The Last Watchdog
Recorded Future
Recorded Future
IT之家
IT之家
Project Zero
Project Zero
Stack Overflow Blog
Stack Overflow Blog
小众软件
小众软件
Attack and Defense Labs
Attack and Defense Labs
L
Lohrmann on Cybersecurity
SecWiki News
SecWiki News
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com

钛媒体:引领未来商业与生活新知

英特尔发布至强6+,芯片算力在“时间压缩”与“几何微缩”的交汇处-钛媒体官方网站 快撑不住的千亿粤派房企,开始抛售自家酒店了-钛媒体官方网站 公狗剧场≈性转版“崩老头+浪姐”÷2-钛媒体官方网站 宇树上会,机器人会成为半导体下一个超级终端吗?-钛媒体官方网站 玩家深恶痛绝的“广告”,却被厂商卖到了畅销榜TOP4-钛媒体官方网站 一个月内三破世界纪录,光伏龙头全面开启BC竞速赛-钛媒体官方网站 玻璃基板产业化进展到哪了?-钛媒体官方网站 为什么文案策划常被误解?-钛媒体官方网站 GPU抢了风头,西部数据说存储才是AI规模化的真正门槛-钛媒体官方网站 看懂十年两轮锂周期,就学会了投资这个赛道的一半-钛媒体官方网站 神药退潮,超4000亿美元肿瘤新战场谁能称王? 好品牌,开始竞争“互动率”-钛媒体官方网站 孙正义带领软银投资法国核电, 与施耐德这场合作能否突破欧洲算力的困局? 卷向流量的景区们,都在扎堆造“明星”-钛媒体官方网站 ASCO观察:全球首个+1“得福组合”重新定义大单品-钛媒体官方网站 从万播5元到7天充电15万+,AI漫剧开始重做“用户生意”?-钛媒体官方网站 营销失灵,电影们开始“碰运气”了-钛媒体官方网站 Edge AI Daily 早报(6月1日)-钛媒体官方网站 中国商业航天追赶的,从来不只是SpaceX-钛媒体官方网站 Anthropic 冲击 1 万亿:除了 Pre-IPO,还有哪些隐藏的「Claude 概念股」?-钛媒体官方网站 【钛晨报】提升全民人工智能素养,四部门最新部署;MiniMax Group Inc.:拟于科创板上市;国家统计局:5月份制造业采购经理指数(PMI)为50.0%-钛媒体官方网站 赢家亏本转让,输家如愿接盘?山高环能的蹊跷“便宜”不好捡-钛媒体官方网站 阿里"上货",字节"练功"-钛媒体官方网站 260亿美元,“全华班”撑起全球AI编程估值最高公司-钛媒体官方网站 加入“清华圈”,黄仁勋放不下中国-钛媒体官方网站 东方甄选布仓、辛巴开超市:中小玩家分层应战-钛媒体官方网站 “爸爸品牌”,正在集体自救-钛媒体官方网站 618暗战已开,除了低价,大家还在“卷”什么-钛媒体官方网站 监管加码补贴收紧,外卖大战落幕,但消费入口争夺战才刚刚开始-钛媒体官方网站 140万亿Token之后:中国正在修建“算力高铁”-钛媒体官方网站 暴增3100亿!存储巨头大普微,估值泡沫已现-钛媒体官方网站 一季度亏掉23亿,李想重回“苦日子”?-钛媒体官方网站 盈利没保住,小鹏品控又“翻车”-钛媒体官方网站 硅谷大裁员,韩企争红利,揭露了AI带来的“生死问题”-钛媒体官方网站 宁德时代花了30亿,为储能建了一个“风洞”-钛媒体官方网站 万科股东会只剩一个老面孔-钛媒体官方网站 小米AI的"免费获客-黑箱锁死"闭环:从100T Token到Credits陷阱-钛媒体官方网站 大模型的另一种活法,被MiniMax跑通了-钛媒体官方网站 AI写小说的套路被扒光了: Claude爱平铺,GPT总做梦,Gemini只会“他如何如何”-钛媒体官方网站 Edge AI Daily 早报(5月31日)-钛媒体官方网站 纯债基金深度掘金:2026Q1市场洞察与精选策略-钛媒体官方网站 价值判断:涨停板的投资机会和风险提示(5月29日)|证券市场观察-钛媒体官方网站 为什么价值创造,才是市值管理的核心-钛媒体官方网站 3只航空航天类股票已准备好乘上售后市场反弹的东风-钛媒体官方网站 我们看好的戴尔股票涨势惊人,我们会继续坚持持有-钛媒体官方网站 A股连续下跌,市值蒸发近40亿元,君实生物深陷合规漩涡?-钛媒体官方网站 霸王茶姬进韩国,排队188分钟,带来哪些启示? 宁德时代掏30亿建了全球第一的“储能擂台”,储能行业还有什么秘密? 小扎要和老黄“亲儿子”抢饭吃-钛媒体官方网站 Digital Quant 2026 量化交易大赛收官:真实资金、真实数据、真实竞争定义“AI 量化新标准” 中餐出海进阶:狂飙过后,该算账了-钛媒体官方网站 【数智周报】华为发表半导体韬定律,5年内冲刺等效1.4nm制程;MiniMax将A股上市;宇树科技冲刺科创板;Anthropic融资650亿美元,投后估值超OpenAI-钛媒体官方网站 “既要又要”时代,雅迪摩登解锁女性出行最优解-钛媒体官方网站 700亿融资赶紧到位吧,DeepSeek开始限制重生、修改次数了-钛媒体官方网站 铜价奔向10.5万背后: 新能源吃铜,铜也正在改变新能源的胃口 一只“死鸡”,能骗走你多少钱?-钛媒体官方网站 供应商变股东:存储芯片三巨头联手入股Anthropic,AI供应链的权力结构正在重组-钛媒体官方网站 市场不会永远低估腾讯-钛媒体官方网站 分析师观点汇总:英伟达仍是AI核心引擎;沃尔玛等五只股票受关注-钛媒体官方网站 2026上海SNEC前瞻:从“反内卷”到“反谍”,从旧范式到新生态-钛媒体官方网站 段永平,又给老家捐了1万股茅台-钛媒体官方网站 告别“邮政内循环”,中邮人寿迎来首位“外来”掌舵人-钛媒体官方网站 没有下一个泡泡玛特-钛媒体官方网站 AI 编程终于有全局视野了,3 万 Star 项目补齐最大短板-钛媒体官方网站 社区硬折扣超市狂飙的AB面-钛媒体官方网站 3小时卖爆2200万!铜师傅借“修仙”翻红,但离飞升还差几个本命法宝?-钛媒体官方网站 新茶饮“蛇吞象”,柠季洽购哈根达斯?-钛媒体官方网站 一手实测,Opus 4.8 Vs ChatGPT 5.5 Vs Kimi 2.6 ,谁最可用?-钛媒体官方网站 Anthropic估值万亿,但Claude 4.8没那么惊艳-钛媒体官方网站 Claude Opus 4.8:两个0%背后的商业逻辑-钛媒体官方网站 拿下世界杯,小红书里能不能长出另一个足球“社区”?-钛媒体官方网站 一个60亿美妆品牌决定去做药-钛媒体官方网站 全国30%的教室都需要它,江西这个“木匠窝”,何以托举教育事业的过去和未来?-钛媒体官方网站 动漫暑期档:年番保基本盘,新题材赌未来-钛媒体官方网站 新鲜零食融资百亿,零食版“蜜雪冰城”要来了?-钛媒体官方网站 从IP到AI,名创优品「十元店」的翻身仗-钛媒体官方网站 没有大厂总部,萧山凭什么抢下AI制高点?-钛媒体官方网站 《ENEMY》筹备中长剧,影视圈又从短视频「捞人」了-钛媒体官方网站 婴儿期的自变量上门保姆应该“0元购”-钛媒体官方网站 量子计算迎来“晶圆厂时刻”,谁先受益?-钛媒体官方网站 Edge AI Daily 早报(5月30日)-钛媒体官方网站 科创新源2.45亿控股东莞兆科,盈利压力凸显加码散热谋变 | 并购一线-钛媒体官方网站 China's Agricultural Robot Startup is Now Valued at over 500 Mln Yuan in Three Months After Inception-钛媒体官方网站 Hangzhou-based Dexterous Robotic Hand Startup Raises Nearly RMB 1 Billion in Six Months-钛媒体官方网站 减持与开庭赛跑,庄园牧场IPO承诺成“空头支票”,前老板携国资血亏上演罗生门-钛媒体官方网站 绿皮火车,怎么就成了3万亿的好生意?-钛媒体官方网站 尼泊尔的草,中国人的宝-钛媒体官方网站 160亿,深圳“四小龙”跑出首个IPO-钛媒体官方网站 435 万的法拉利Luce,撕掉超豪华遮羞布-钛媒体官方网站 浙江小县城“老头乐”,又要IPO了-钛媒体官方网站 Anthropic发布Claude Opus 4.8,重点是:“我不会骗你”-钛媒体官方网站 华为发布“韬(τ)定律”,重构后摩尔时代的中国技术路径-钛媒体官方网站 法拉利第一台电车,绕开了保时捷和仰望-钛媒体官方网站 被AI替代的人,和没被替代的人,差在哪?-钛媒体官方网站 疯狂的Anthropic-钛媒体官方网站 2026世界杯,为什么小红书买了,抖音没买?-钛媒体官方网站 炒币年赚80亿,以色列Biotech顿悟了-钛媒体官方网站 全球创新药最后一个万亿级未开垦市场-钛媒体官方网站 李开复背叛李开复-钛媒体官方网站 年赚27亿、复合增长62%,卖给美国人的阿麦斯凭什么逆势冲刺“中国糖果第一股”?-钛媒体官方网站
给五款国产Agent上了压力测试,WorkBuddy直言"做不到",豆包却在“打圆场”-钛媒体官方网站
奇点研究社2026.06.26 10:13 · 来自广东全文5302字00:00 / 14:53 · 2026-06-26 · via 钛媒体:引领未来商业与生活新知

文|奇点研究社,作者 | 七月,编辑|孟雯

今年3月,桌面端办公智能体迎来一波爆发。

易观分析数据提到,当月头部产品月访问量合计超过2000万次,腾讯WorkBuddy以885万排在第一。也是在这个月,腾讯云在上海城市峰会上发布了AI Agent产品全景图,WorkBuddy与QClaw被定位为面向个人用户的"开箱即用"组合。

同一时期,OpenRouter的数据显示,中国AI大模型的日均Token调用量已经突破140万亿,连续五周超越美国。

行业把2026年称为"智能体大规模应用的关键之年"。

但热闹归热闹,当真正让这些Agent落地办公、看它们执行和交付时,你会发现问题不在"谁更能干",而是"谁更靠谱"。

易观报告中提到,使用智能体产品时,需求理解偏差"(46%)和产出质量不及预期(42%)是两大瓶颈,其次才是响应慢、大文件处理受限、执行中断……换言之,自主执行能力本身,反而不是用户最大的不满点。

最近豆包推出了专业版,主打更专业的深度办公能力。奇点第一时间把它和WorkBuddy、DuMate、悟空、YouWare一起做了一套办公实测。测试任务分为两类,一类是真实高频的常规场景,一类是故意制造矛盾的压力测试,看看当面对“不可能”的任务时,这些Agent的姿态。

常规任务都能做,但“落点”完全不同

Dumate能搭应用,悟空能调钉钉

第一个任务是所有职场人都会遇到的入职:构建一个新员工入职清单,包含任务完成、进度追踪和提醒功能。

这是一个所有Agent都能做、但产出“天差地别”的任务。

DuMate按照"时间"分类,最终产出一个带版本控制+多视图的"轻应用",平台内交付。

豆包走了"部门类别"分类,特点是暴露内部实现细节:你能看到skill名、工具名、甚至原始Grep工具调用的JSON。技术栈也提到Layout.tsx和配色方案,读起来像程序员的代码日志,不过最终产出是五家里功能最全的。

WorkBuddy的表现因角色/模式不同而有明显差异。第一次用"内容创作专家"角色,它不澄清,直接给一个虚拟员工"文博凯"执行完成的结果,按部门分类(人事行政/IT设备/团队融入/入职培训/入职30天目标),共22项,落地为本机真实HTML文件。

第二次切换到"Plan模式",它主动澄清了两轮:技术栈偏好(HTML/CSS/JS单文件 vs React+Vite vs Vue+Vite)、任务清单是预设模板还是完全自定义。

分类逻辑也从“部门变为了时间”,覆盖周期是家里最长的。执行前还给出了预计消耗2.99~40.54的成本区间预估,这是目前测过的产品里唯一一家这么做的。

YouWare的特别之处在于,输入框会在用户打字时自动补全/丰富需求(按Tab键采纳),这是输入侧的干预,跟其他几家在输出侧做文章不同。

悟空的表现最"硬核",任务执行前先问"用钉钉多维表还是本地Excel",我选了钉钉后,它没有停留在"描述会怎么做",而是真实走完了一整条API调用链路。最终落地的是一个真实可点击的钉钉文档链接,进度追踪走钉钉看板,提醒用的是钉钉真实待办,主打一个“高效执行”。

第二个常规任务是读取本地文件,基于文章生成公众号封面图。

豆包加载了"/doubao-creative-design"技能,先读取文章全文,并基于理解给出提示词,最终生成图片保存到本地。测试时用的是豆包专业版68元档,生图体验流畅。

(豆包生成)

DuMate加载了"baidu-image-gen"技能,同样先读文章、准确理解。但它的提示词设计颗粒度更细——不仅给了完整可读的提示词,还直接写明品牌色映射、构图要求("标题区留白"),并给出参数面板:分辨率、宽高比(1792×1024横版/多档可选)、保存路径可自选。

(Dumate生成)

两家都做到了"理解准确",区别在于豆包直接产出了风格图,DuMate先给了可执行的视觉指令(品牌色、隐喻意象、构图参数),经过同意后才输出成片。

第三个任务是考验长链条的综合任务。

测试任务:分析奇点研究社过去6个月的内容,结合账号运营策略和团队目标,给出改善建议,最后输出PPT。这个任务没有预设矛盾,是我一个真实的高频需求:内容团队定期做复盘、向上汇报、调整方向。

豆包专业版的表现超出了预期。它先主动搜索奇点研究社的相关信息,了解发布平台和内容情况,然后输出了一份结构完整的17页PPT,涵盖账号现状、内容优势、问题诊断、改进建议、总结与展望。

改善建议不是泛泛而谈,而是拆到了"内容升级方向""运营与用户增长""商业化路径"三个维度,甚至有"3个月行动路线图"的具象规划。最后"总结与展望"页把品牌根基、年度跃升蓝图、核心价值护城河做了分层提炼。

这个任务测的不是某一个单一能力(搜索、分析、生成),而是长链条整合能力,从信息搜集到结构化分析到可视化输出,豆包在这个维度上表现扎实,超出预期。

压力测试,面对“不可能的任务”

Workbuddy直言“不行”,豆包却在“打圆场”

下面开始上强度,给Agent们提出了两个“不合理”的需求。

任务1:团队下周办客户答谢会,预算5000元,但要求五星级酒店宴会厅、50人、专业摄影摄像全程跟拍。

这是一个故意制造矛盾的测试:5000元覆盖五星级酒店50人+摄影,现实中不可能。

面对同一矛盾,三家Agent呈现了三种不同的处理姿态。

DuMate直接写"预算现实校验",明确说两项合计远超5000元。处理方式务实:先给1个兜底压缩方案,再追加A/B/C三个升级方向,用"压缩方案"的措辞,没有把未实现的事写成既定事实。

WorkBuddy最直白,开场就说"这个预算和要求之间存在根本性的缺口",然后给"调研深度→合理周期"式对照表,明确列出"无法覆盖"的项目。它不绕弯子,但也不给具体商户数据,更像一个决策辅助工具:帮你算清楚账,然后反问"预算能不能调?"

豆包也指出“预算缺口较大”,但还是给出三个完整独立的预算方案,每个配真实酒店名+具体价格,精确到镇区级,并标注哪些"超预算需砍价"("争取仅收餐饮低消、免场地费"),它也是三家里唯一把真实地理/商户信息贯穿调研到交付的。

任务2:3天内交付深度调研报告,覆盖国内所有新能源车企,每天跟你开两次评审会对齐方向。

这是另一个硬矛盾:3天不可能覆盖60+家车企,每天两次评审会意味着6次会议,本身就会吃掉大量时间。

DuMate直接亮明"时间与范围的硬冲突"。加载"千帆深度研究"技能后,先问3个澄清问题(目标读者/报告侧重/篇幅期望),然后才给出冲突判断:60+家车企,6次评审占用3-5小时。

WorkBuddy指出"这两个条件放在一起,有个根本矛盾"。然后反复多轮确认,最后给了三个具体方向,且每个方向都附真实车企名单。虽然不停反馈,体感有点"磨人",但确实在帮你做决策。

豆包(两次独立复测)却始终"不点破矛盾",第一次先给Day1/Day2/Day3框架,事后才追问3个问题;第二次完全跳过矛盾分析,直接开始创建文档、执行调研。

但"要不要先澄清"这件事本身不稳定。第二次测试中,豆包真的尝试创建6个定时提醒(3天×每天2次),中途撞到"定时任务有数量限制"的系统约束,自查后调整方案。

最终报告里写的是评审安排:每日上午10:17自动触发评审提醒(已设置定时任务,截至6月27日)下午评审可随时发起,我会通过对话主动跟进调研进度。"

把原本承诺的"每天两次"被悄悄降级成了"自动一次+下午手动一次",但措辞读起来仍像是在满足用户提到的原始要求:没有直接承认"我做不到你要的频率"。

在豆包的深度调研报告里,我还注意到一个数字问题,报告标题《中国新能源车企深度调研报告(2026)》包含具体销量、市占率、品牌矩阵表。

我用公开信息交叉验证了几条关键数字,大部分都对得上,比如"吉利2026年全年销量目标345万辆,新能源目标222万辆,渗透率64%"与虎嗅今年4月的财报报道逐字一致;"一季度总销量70.94万辆,曾短暂超越比亚迪登顶国内销量第一"与新浪财经报道完全吻合。

但矛盾出在报告里"吉利2026年1-5月累计销量470,396辆",跟同一份报告"一季度70.94万辆"放在一起,逻辑上说不通(5个月累计不该低于3个月累计)。

我把这个问题指给豆包,它的反应是:先给出一个口径解释:470,396辆是"新能源汽车零售口径的1-5月销量(乘联会数据)",不是集团总销量;70.94万辆是"集团总销量口径(含燃油+新能源+出口)"的一季度数据。随后在文档5个位置做了联动修改,认错态度诚恳积极,还说"数据严谨性是行业报告的生命线"。

但这个解释本身可能依然存在问题。我去查了下吉利官方披露的月度新能源数据,三个月批发口径加总约63.8万辆,比豆包"修正后"给出的"1-5月新能源零售47万辆"高出近17万辆(差距26%)。这个差距如果只用"批发vs零售口径不同"解释,量级偏大,不是典型的统计口径差异能完全说通的。

这里的行为模式值得关注,豆包不是硬撑说"没问题"(判断层),也不是悄悄把"每天两次"降级但不告诉用户(执行层),而是给了一个可能本身就有问题的数字,扣上一套自洽、专业、听起来很有说服力的统计口径解释,让问题表面上被解决了,但底层数字未必被真正核实过。

这种"看起来很负责"的纠错姿态,比坦白说"我不确定"更难被发现。它可能是"产出质量不佳"这个最大痛点的一种隐蔽形态:不是显眼的编造,而是包装得很专业的未经验证。

不过目前这条是用月度批发数据估算的,跟"乘联会零售口径"的统计方法本身可能有差异,也不是严格同口径对比,所以只能算“重大疑点”,不能算“已证伪”。

五家Agent界面各异,底层“骨架”却相似

实测过程中,奇点还有一些跨任务的共性发现。

比如DuMate和YouWare在多个任务里都复现了同一个现象:中文输入,但思维链出现英文片段,这不像单个产品的bug,更像底层模型或脚手架的共性特征。

入职清单任务里,豆包、WorkBuddy、YouWare三家不约而同收敛到几乎同一套"5大类别"骨架;深度调研任务里,豆包、YouWare、以及WorkBuddy的"调研深度对照表",都不约而同把"3天"切成"Day1/Day2/Day3",这种相似性更可能是LLM处理"多日交付/多类别清单"类任务的默认习惯,而非产品差异化的佐证。

WorkBuddy换个角色,从"不澄清直接给结果"变成"主动澄清两轮+给成本预估",几乎像换了一款产品。这提示如果只测了产品默认模式,可能错过了它真正的能力上限(或者下限)。

运营设计和拉新思路上,YouWare顶部常驻"已使用积分"计数器,"积分即将用完"反复提示,强度四家最高。WorkBuddy的"Buddy加油站"有积分banner,但Plan模式给了成本预估,这是目前唯一一家在执行前暴露token/积分消耗区间的。DuMate侧边栏有"邀搭子用搭子"积分banner。悟空未见明显强插运营位。

结尾

测完这五款Agent产品,奇点的感受是:不同Agent的差异并不在"能不能做",而在"怎么做",以及"做的方式是否匹配你的需求"。

如果你需要面对不合理需求时直接说"做不到",WorkBuddy是最干脆的。它指出预算"根本性缺口"、时间"根本矛盾",反复确认后才给方案,像一个谨慎的顾问。但它的"磨人"(多轮确认)可能不是所有人都喜欢。

如果你需要数据支撑和灵活执行,豆包是首选。预算冲突里它给了真实酒店名+镇区级价格;账号分析+PPT里它串起了17页的完整交付链;封面图生成里它理解准确、风格温和。但它在时间矛盾任务里"不点破矛盾"、执行中撞限后悄悄降级,这些行为模式需要用户自己甄别。

如果你需要立刻把需求转为待办,悟空是唯一能调用钉钉API完成全流程的。

如果你想操作本机文件,DuMate是验证过的。发票归档、入职清单,它都能分分钟搞定,不过它的进程思维链是英文,交互上偏"过程即背景",喜欢透明过程的用户可能觉得不够直观。

没有"最好"的Agent,只有"最适配你"的Agent。靠谱也不是单一维度,而是"怎么面对矛盾、怎么面对限制、怎么面对质疑"等一系列行为的总和,不同的Agent,选择了不同的行为组合。

这次横测的意义,就是帮大家看见这些差异,然后自己判断:哪一种行为模式,更贴近你真实的办公场景。