



























豆包手机推出GUI Agent引发激辩,这款号称能解放双手的智能助手正处于风口浪尖。一边是用户对语音操控未来的热切期待,一边是对隐私泄露和技术成熟度的深度担忧。本文将深度剖析GUI Agent的技术困境、生态博弈与隐私争议,揭示这场人机交互革命背后的真实挑战与未来路径。

最近关于“豆包手机”和 GUI Agent(图形界面智能体)的讨论炸了锅。
看了一圈评论区,目前的风评简直是冰火两重天:一半人喊着“未来已来”,期待能像钢铁侠的 Jarvis 一样解放双手;另一半人捂紧了口袋,生怕隐私底裤都被扒光。
市场需求摆在那里,谁不想动动嘴就能搞定一切?但现实是,目前的 GUI Agent 做得还不够,甚至可以说是“虽勇但菜”。
说实话,现在的 GUI Agent 准确率撑死也就 60 分。
这玩意儿目前只能解决“手里拎着东西、完全没法碰手机”的极端场景。一旦你手空着,自己点的速度绝对比它快。
为什么手机厂商之前不敢推? 原因很简单:难选。
要在“准确”和“智能”之间做取舍太痛苦了。现在的准确率之所以低,是因为 GUI Agent 在搞“暴力破解”——它试图用强化学习去模拟人类的点击操作,去识别屏幕上的像素。
这其实有点反直觉。明明系统底层有 Media Kit、Siri Kit 这种现成的 API 接口,为什么不用?因为调不动。系统权限不仅难拿,而且充满了限制。
所以现在的局面是:这东西既侵犯隐私(需要读屏),又不够智能(经常点错),准确率还低。
对于大厂来说,推这种产品简直就是砸牌子。所以说,这次豆包手机确实是大胆,甚至带着点“赌徒”心态。
既然 GUI 这么难,为什么不老老实实接 API?
这就涉及到一个长期主义的判断:Agent(智能体) 终究比 API 更简单。
这听起来反直觉,但你细品:
现在的 GUI Agent 有点像 2022 年底的 ChatGPT,刚出来让人眼前一亮,虽然全是 Bug,但只要数据跑起来,半年一年后绝对是另一个物种。
技术不是问题,巨头才是问题。
GUI Agent 就像自动驾驶,最怕的不是车不行,而是有人把路给你挖断了。
现在的互联网生态是割裂的。腾讯、阿里这种拥有“模型+生态”的巨头,凭什么让你一个手机厂商的 Agent 随便在我的 App 里“自动驾驶”?
目前的难题就在这:断点。
但历史的车轮浩浩荡荡,谁也挡不住。未来的终局大概率是:
最终,人类会被解放出来,把省下的时间全都投入到娱乐 App 里去“杀时间”。
关于隐私,大家其实心里都有数:在巨头面前,用户的隐私捍卫能力约等于零。
但即便如此,大家还是想要块遮羞布。
从目前的反馈看,纯云端的 Agent 必死无疑,因为用户太害怕隐私泄露了。未来的 GUI Agent 一定是端侧为主,云端为辅。
未来的手机会变成什么样?
Google 的“反重力”演示已经给出了答案:Agent 界面将取代现有的 IDE 界面。
虽然现在手机厂商还在观望,虽然巨头还在互相封锁,但只要有一家(比如苹果)把端侧体验做到了 90 分,瞬间就会倒逼全生态开放。
对于豆包这次的尝试,咱们可以嘲笑它的完成度,也可以嘲笑它被各家封杀,但不能嘲笑它的方向。毕竟,封不了,也挡不住。
本文由 @Ethan_AIPM 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。