惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

GbyAI
GbyAI
L
LINUX DO - 热门话题
月光博客
月光博客
B
Blog
博客园 - 叶小钗
美团技术团队
D
Docker
A
About on SuperTechFans
Stack Overflow Blog
Stack Overflow Blog
酷 壳 – CoolShell
酷 壳 – CoolShell
WordPress大学
WordPress大学
P
Proofpoint News Feed
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Y
Y Combinator Blog
V
V2EX
Apple Machine Learning Research
Apple Machine Learning Research
博客园 - 三生石上(FineUI控件)
The Register - Security
The Register - Security
博客园_首页
The Cloudflare Blog
I
InfoQ
T
Tailwind CSS Blog
MongoDB | Blog
MongoDB | Blog
Engineering at Meta
Engineering at Meta
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
Microsoft Azure Blog
Microsoft Azure Blog
有赞技术团队
有赞技术团队
C
CERT Recently Published Vulnerability Notes
AWS News Blog
AWS News Blog
Spread Privacy
Spread Privacy
V
Visual Studio Blog
博客园 - Franky
Cloudbric
Cloudbric
Help Net Security
Help Net Security
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
N
News and Events Feed by Topic
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Webroot Blog
Webroot Blog
博客园 - 【当耐特】
TaoSecurity Blog
TaoSecurity Blog
B
Blog RSS Feed
N
News | PayPal Newsroom
人人都是产品经理
人人都是产品经理
H
Heimdal Security Blog
L
LangChain Blog
PCI Perspectives
PCI Perspectives
Jina AI
Jina AI
Google DeepMind News
Google DeepMind News
Schneier on Security
Schneier on Security

少数派

派早报:Google 发布 Fitbit Air 等 - 少数派 「新人报到」確認需求,再開始 - 少数派 从 SOLO 独立开发者社区,我看到了越来越多开发者开始做自己的产品 - 少数派 我怎么管理那些"不常做,但总会忘"的生活事项 - 少数派 人形机器人量产元年,数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台:开发历程与思考 - 少数派 五年陪伴依然不舍,DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派 新玩意 240|少数派的编辑们最近买了啥? - 少数派 一日一技|为什么你应该关闭 iOS 的键盘声音 - 少数派 我做了个插件和 Skills,一键提取任何网站的设计规范 Design.md - 少数派 住在三四线城市的你,该开始录播客了 - 少数派 甘南秘境,大白高国 - 少数派 AI的审美:谁让把我变成川内倫子 - 少数派 返工怎能不烦恼,打工人片单总有一部是你的「嘴替」 - 少数派 为了让「上厕所」更健康,我做了一个小工具 - 少数派 AI + Skill,能够让生成的文章去除 AI 味吗? - 少数派 新玩意|韶音OpenDots ONE 耳夹式耳机 - 少数派 《美满》| 在每一个春天的晚上相爱(362) - 少数派 新玩意|优篮子 PS01 MagSnap 磁吸支架 - 少数派 自我整合手记 | 我开始早睡了:用稳定规则,为自由托底 - 少数派 用龙虾(OpenClaw)两个多月,我最深的12个体会 - 少数派 听歌时间到,12 张你可能错过的 2025 华语乐坛好专辑 - 少数派 承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派 《四海为家的人》| INTJ对话INTJ(361) - 少数派 你发过的那些黑历史,是时候一次清干净了 - 少数派 新玩意:安安静静玩,越玩越专注:计客密码机 - 少数派 iPad 用户首次体验 Android 平板:vivo Pad6 Pro - 少数派 数据逻辑强 - 少数派 极北行+ | 一路向北,探访日本至北之地 | 001 - 少数派 万字剖析:千问App深度体验报告(2026) - 少数派 在2026年,如何真正防止别人抄袭你的作品 - 少数派 怎么用 50 块搭个 AI 语音助手?我踩了 3 天坑 - 少数派 YeeroAI:让 AI 对话真正成为知识管理的一部分 - 少数派 爬泰山 - 少数派 「旅图显影」 App 更新:这次,我们补上了一点「手感」 - 少数派 假期出门太折磨?我的 23 条经验帮你规划惬意旅行 - 少数派 工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱?我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派 用户侧出发——什么是AI,我要不要学习? - 少数派 找片、转存、整理、播放一条龙!让你的付费网盘值回票价 - 少数派 欢迎试用!日课一问2.0插件 - 少数派 自己做的MDeditor,原本想购买 Typora 试了两次支付不成功,干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具,让 ~/Downloads 彻底告别混乱 - 少数派 因为受不了 Mac 的风扇策略,我做了一个风扇控制工具 - 少数派 别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用?我测了一周的体验 - 少数派 AI 写代码老是出 bug?这 5 个配置我后悔没早知道 - 少数派 「新玩意」苹果出相机可能就这样:Sigma BF + 45mm F2.8 DG Contemporary - 少数派 一个面向2030年的AI操作系统是什么样子的:浅谈cola这款有灵魂的Agent - 少数派 别只看写代码 - 少数派 每天解决10个问题,还是一口气攻坚解决400个? - 少数派 AI 交易机器人怎么搭?我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online:把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用?我测了 3 个模型发现差距真大 - 少数派 Legend Talk:我做了个 AI 圆桌,让 160 位思想家围着你的问题转 - 少数派 如何找到自己的蓝方?在小县城寻找压力测试 - 少数派 语音输入与软件接口|2026年聊AI时,我们都聊些什么(上) - 少数派 混动已经卖爆,纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派 本月玩什么|朋友收藏、识质存在、沙罗周期 - 少数派 为什么要每天坚持输出? - 少数派 Claude API 挂了好几个小时,你的项目有备用方案吗? - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派 登录系统立即播放视频或者图片音乐的软件 - 少数派 我为什么创建 FlipHTML5 下载工具 - 少数派 残局没电?多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派 前往通义路的路 - 少数派 太好看了,媲美Sun的个人导航页,NAS部署星云门户 - 少数派 乌黑嘴唇“一键检测”上线了 - 少数派 派早报:Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派 【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派 记了上千条流水,还是看不懂财务?我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派 新玩意 | 一棵柠檬树(仿真版) - 少数派 Momenta的“物理AI”野望,需迈过“含摩量”这道关 - 少数派 网页直接投屏控制手机!NAS一键部署PandaScrcpy,流畅丝滑可远程。 - 少数派 众测|邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会:分享时间是真诚 参会记 - 少数派 iPad 赋能电影创作:国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美:我用 8 个大模型给 100 张旅行照片打分 - 少数派 普通人如何破圈?去参加一个本地协会 - 少数派 把极空间的图标全换了,主题DIY全攻略打造你的专属NAS桌面 - 少数派 电子便签墙,帮你实现便签自由 - 少数派 我如何用三个 CLI 工具取代文档创建需求 - 少数派 原来真的有人可以玩一辈子 - 少数派 社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW|索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9,我看重的不是堆料,而是不凑合 - 少数派 鼠须管 Squirrel 皮肤配置指北 - 少数派 从watch ultra2换到redmi watch6 - 少数派 派早报:阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派 别迷信1M - 少数派 家人们天塌了!网盘“大封杀”,多个渠道多条路,NAS部署PanHub - 少数派 AI与人勾心斗角!NAS一键部署AI狼人杀,假日休闲必备。 - 少数派 电商必备!Comfyui工作流批量生图插件,一次生成12张!支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程,0.03/张 - 少数派 OpenClaw第三方APi怎么配置?可使用Gpt-image-2模型 - 少数派 会员社区话题精选 Ep. 103 - 少数派
AutoGLM的一小步,人机交互进化的一大步 - 少数派
2024-11-29 · via 少数派

55年前,左脚刚刚踏上月球的阿姆斯特朗,说了一句简单的话:“这是个人的一小步,却是人类的一大步。”

过去几十年里,很多人曾引用过这句话,用来定格某个历史性时刻。今天,我们想把这句话套用到智谱的AutoGLM上。

11月29日的智谱Agent OpenDay上,对外公测或内测了三个产品——浏览器插件AutoGLM Web、电脑智能体大模型GLM-PC,以及一个多月前“剧透”过的AutoGLM,也是智谱第一个产品化的智能体Agent。

短短一个月的时间,AutoGLM的能力不再局限于点外卖、朋友圈点赞,带来了多个新进展:

AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨App执行任务;

AutoGLM开启“全自动”上网新体验,支持等数十个网站的无人驾驶;

像人一样操作计算机的GLM-PC启动内测,基于视觉多模态模型实现通用Agent的技术探索。

同时AutoGLM 启动了大规模内测,将尽快上线成为面向 C 端用户的产品,并宣布启动“10个亿级 APP 免费 Auto 升级”的计划。

01 AutoGLM可以做什么?

看到这里,可能不少人会疑问:什么是AutoGLM?

单从名字上看,很容易让人联想到自动驾驶,毕竟几乎每辆汽车的中控区都有一个AUTO按钮,表示该功能或设置为自动模式。

顾名思义,AutoGLM的场景正是用AI控制手机,只需要一句语音指令,AutoGLM即可模拟人类操作手机来完整任务。AI从只有对话功能的Chatbot,正在进化为“有手、有脑、有眼睛”的自主Agent。

为了方便大家理解,我们提前做了一波测试。

对于不方便看视频的小伙伴,这里大致说一下我们测试的四个场景:分别是到小红书查找周末出行攻略、给小红书博主的最新内容评论、到拼多多上买一箱涌泉蜜桔、订一张从宁波到北京的机票。

直接说结果,AutoGLM都准确完成了工作,几个涉及到购买的场景,只需要我们最后付款即可。稍有不足的是,遇到弹窗或需要人工确认的环节,目前AutoGLM还无法处理,需要人为操作后才能继续后面的流程。

由于时间的原因,我们的测试没有太深入,对于AutoGLM的能力升级,可以参考智谱Agent OpenDay上传递出的信息:

超长任务:理解超长指令,执行超长任务。例如,在采购火锅食材的例子中,AutoGLM 自主执行了 54步无打断操作。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。

跨 App :AutoGLM 支持跨 App 来执行任务。用户将习惯于 AI 自动处理,而不是在多个 APP 间来回切换。由于目前 AutoGLM 形态更像是用户和应用间的APP执行的调度层,因此跨 App 能力是里面非常关键的一步。

短口令:AutoGLM 能够支持长任务的自定义短语。今天,你不用再给AutoGLM说:“帮我买一杯瑞幸咖啡,生椰拿铁,五道口店,大杯、热、微糖” 这类超长指令,只需要说“点咖啡”。

随便模式:我们都会陷入选择恐惧,AutoGLM 今天可以主动帮你做出决策。随便模式下所有步骤都让 AI 决策,带来有抽盲盒式的惊喜。想不想尝尝AI为你点的咖啡口味?

以此类推,AutoGLM Web和GLM-PC的能力和AutoGLM相似,面向的场景分别是浏览器和电脑端,并且有一些智能手机上做不到的功能。

比如AutoGLM Web能够理解用户的指令,自动为用户在网页上站内检索、多链接总结,甚至进一步实现生成arXiv日报,搭建Github仓库,在微博超话签到等个性化功能。

再比如远程手机发指令,GLM-PC可以自主完成电脑操作,可以设定一个未来时间,在开机状态下定时执行任务。

想象一下:即使你在摸鱼、喝咖啡或者上厕所,你的电脑依然在工作,丝毫不会影响工作的进度。

02 人机交互进入AI时代

当然,让我们印象深刻的,并非是AutoGLM所实现的能力,而是对人机交互模式的巨大冲击,基于自然语言的人机交互已经是现在进行时。

小时候上“微机课”,老师经常挂在嘴边的一句话就是:“你们要学会用电脑。”

之所以会出现一个“学”字,因为操作电脑必须要学会使用键盘和鼠标、必须学会输入法、必须要去适应每一个应用的复杂界面,想要编写程序还需要从0开始学一门编程语言。尽管这些工具在不断进步,人与机器的协作依然是一件高门槛的事,特别是一些专业软件,想要完成某个任务需要很多个步骤,过程中充斥着机械性的重复劳动。

AutoGLM目前的功能还很基础,却拉开了人机交互进化的序幕:借助于大模型的强大能力,只需要一句话,AI就能自动帮我们处理复杂的任务,人机协作的门槛进一步降低。

不再是人被动适应机器,而是让机器理解人类。

试图打破人机交互僵局的,不只是国内的智谱,苹果的Apple lnteligence、Anthropic的Computer Use、谷歌的Jarvis,以及OpenAI即将发布的Operator,都在朝同样的方向进行创新。

问题来了,大模型距离重塑人机交互范式还有多远呢?

自动驾驶领域有L1—L5的能力划分,OpenAI、智谱等企业也提出了类似的技术阶段:L1是语言能力、L2是逻辑能力(多模态能力)、L3是使用工具的能力、L4是自我学习能力,最终做到像人一样理解界面、规划任务、使用工具、完成任务。

“坏消息”在于,目前大模型能力还处于初级阶段。按照智谱 CEO 张鹏的说法,“Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索。”

“好消息”则是,在智谱Agent OpenDay上,荣耀、华硕、小鹏、高通、英特尔等,分别从不同的场景出发,分享了他们对智能终端的实践及展望。

也就是说,大模型重塑人机交互范式,绝非是大模型企业的愿景,而是包含终端厂商、芯片厂商在内的产业上下游的共识。随着AutoGLM能力的提升,将能调用越来越多的应用,适配越来越多的系统,实现越来越复杂的连贯自主操作。

另一个不应该忽略的信息是:端侧算力正在持续提升,智谱顺势推出了为AI原生设备适配的模型和端云同源的协同架构,意味着Agent不仅将在应用上实现用户体验变革,还能将推广到各类智能设备上,手机+AI、PC+AI、汽车+AI等将不断涌现。

03 写在最后

在大模型的概念刚走红时,就有人将其比作是“操作系统”。

至少从AutoGLM的表现来看,即便只是在用户和应用之间增加一个智能调度层,已经有了GLM-OS(以大模型为中心的通用计算系统)的雏形。倘若能够进一步实现原生的人与机器交互,将从根本上改变人机交互模式,所有人都可以用自然语言操作手机、电脑、汽车、眼镜等等。

值得期待的是,著名调研机构Gartner已经将agentic AI列为2025年十大技术趋势之一,预测2028年至少有 15%的日常工作决策将由agentic AI自主完成。