惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

人人都是产品经理
人人都是产品经理
Cloudbric
Cloudbric
Engineering at Meta
Engineering at Meta
H
Help Net Security
罗磊的独立博客
腾讯CDC
C
Check Point Blog
Hugging Face - Blog
Hugging Face - Blog
博客园 - 叶小钗
Microsoft Azure Blog
Microsoft Azure Blog
Blog — PlanetScale
Blog — PlanetScale
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
G
Google Developers Blog
爱范儿
爱范儿
aimingoo的专栏
aimingoo的专栏
博客园 - 【当耐特】
A
About on SuperTechFans
雷峰网
雷峰网
T
Tailwind CSS Blog
I
InfoQ
博客园 - 聂微东
Martin Fowler
Martin Fowler
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Recorded Future
Recorded Future
U
Unit 42
WordPress大学
WordPress大学
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Apple Machine Learning Research
Apple Machine Learning Research
博客园 - 三生石上(FineUI控件)
N
Netflix TechBlog - Medium
M
MIT News - Artificial intelligence
云风的 BLOG
云风的 BLOG
大猫的无限游戏
大猫的无限游戏
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
V
V2EX
IT之家
IT之家
D
DataBreaches.Net
B
Blog RSS Feed
The GitHub Blog
The GitHub Blog
L
LangChain Blog
阮一峰的网络日志
阮一峰的网络日志
月光博客
月光博客
博客园 - Franky
J
Java Code Geeks
Recent Announcements
Recent Announcements
美团技术团队
博客园_首页
The Register - Security
The Register - Security
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报

爱范儿

百万长上下文,榨干每一个 token 希望能够推出蜜雪冰城联名配色 卷无止境。 马力 1003 匹,极速 300km/h,续航 700km。 折叠屏的存在,从来不是为折而折,为大而大,是为了看起来用起来更爽。 早报|特斯拉第三代人形机器人预计年中亮相/更省token,GPT-5.5正式发布/西山居游戏辟谣「解散」传言:将依法追究恶意造谣 140 岁的奔驰,拥抱中国科技生态。 散热这件事,风扇是永恒的真理 阔折叠已经有了范式,就等更多厂商跟进 即使凯威德卖爆,暂时也救不了凯迪拉克。 顶尖灵魂融合有温度的躯体。 AI 拼好车。 这是混元的上半场 机器开始适应人的表达习惯。 AI 圈就是一个巨大的校友局 烧油,但聪明。 今年是大五座之年,岚图率先给出答案。 早报|库克称将长期担任苹果执行董事长/张雪机车召回286台820RR/特斯拉车机将接入豆包与DeepSeek 宝马百多年的历史里面,有无尽财富,也会有不小的包袱。 巩固了「科技豪华」的品牌标签。 Claude 用户在 PAY(付钱),Codex 用户在 PLAY(玩耍) 早报|GPT Image 2全量上线,中文渲染大突破/OPPO发布多款新机,刘作虎:无法承诺全年不涨价/长安汽车宣布整合阿维塔与深蓝 预备 CEO 的第一场员工大会 电池研发,不该陷入「水多加面」的死循环。 AI 汽车长什么样,荣威给出了它的答案。 当打之年 补齐短板,拉长长板。 当大模型建起了「微信群」 最迟超大杯,终于登场 小尺寸平板,从来都不应该只有游戏 有图也没真相了 真正的全能旗舰。 把带有激光雷达的高阶辅助驾驶系统带进了 15 万元级市场。 具身智能迈出了进入家庭的第一步 搭子,一种新的人机关系 早报|苹果官宣新CEO,设立首席硬件官职位/华为发布大阔折叠,余承东:扛不住了也可能涨价/多平台回应12306拒绝出票 一只不用学、用得起、不怕用的龙虾 当年 Ternus 没有回答的问题,现在该他回答了 站上冲浪板的人,最终归宿是摔进海里 共计 1451 台展车,181 台首发新车。 真正巅峰的产品,在于能够定义什么叫做美 这是 AI 下半场的一个重要产品 语言即代码。 早报|受内存影响,新MacBook发布或延期/北京机器人半马落幕,冠军打破人类纪录/微信朋友圈迎14周年,官方分享内部细节 线控底盘又卷到了新高度。 萌翻全场 早报|刚刚,OpenAI两位大牛离职/一季度iPhone出货量激增20%/雷军回应小米做入门车型:10万块难做好智能化 技术平权+配置下放。 挑战「既要、又要、还要」的技术极限。 集中爆发本身就是一个信号 早报|雷军:不能因为有黑稿就不说话/曝OLED版iPad Air明年到来/2999起,大疆发布Osmo Pocket 4 是 Pocket 4,还是 Pocket 3 Pro? 可靠,是比聪明更稀缺的品质 再次打造出「能够完美融入人们生活、值得信赖且极具实用性」的汽车。 你学「废」了吗? 零跑开始打高端局了。 瑞典人动作慢,还有母公司为他撑腰。 终生学习,继续教育 地主家也没有余粮啊! 只要沾上 AI,快倒闭的鞋厂也能飞上天 又双叒叕更新了,你用上了 早报|手机销量十季度首降,三星苹果成唯二赢家/李想:不招非原生AI人才/苹果将Siri程序员送进AI「训练营」 这不仅仅是在打造一辆汽车,也是在创造劳斯莱斯的历史。 G 代表卓越,X 代表探索。 游戏本,安静和性能也可兼得 说到底,确定的结果值得付费 Powered by Copilot 越来越省油。 早报|苹果:建议更新iOS保护iPhone数据安全/华为苹果一季度逆势领跑手机市场/比亚迪回应车库起火 一行链接,交付世界 未找到页面 | 爱范儿 用消费对抗消费主义。 最年轻好看的一台奇瑞。 帅是第一生产力 早报|iOS 26.5 Beta 2曝光地图广告机制/华为公布大阔折叠外观/不到两天,奥特曼住所再遭袭击 而是从工程问题,转到影视问题。 出片即交付,你来讲故事 早报|宇树机器人跑步刷新纪录,王兴兴:年内将超博尔特/海底捞回应员工自费500元买礼物 枷锁,以及枷锁之后 燃烧瓶砸向造 AI 的人 早报|「龙虾之父」Claude账号被封又解封/华为Pura 90定档4月20日/AI能力将成教师「必考项」 你买的是超清高质高刷扩展屏,同时也是全能旗舰 Android 平板。 没有任何一个领域的开创引领者,希望自己活在别人的影子里。 养龙虾->拿下你的爱马仕 发现问题,就会负责到底吗? 瑞虎才是奇瑞的销量担当。 是快乐大马,不是快乐小马 如何定价,也是发布会的一大看点 全网最火人格测试 想要即得到。 只要有新的技术出现,就会出现新的攻击面。魔与道的交手永不停歇。 早报|大疆Pocket 4官宣,下周发布/芯片用完,曝苹果为MacBook Neo补货/ChatGPT推出100美元Pro订阅 给行政旗舰重新标价。 一年 7 台 iPhone,价位全覆盖 有了 Mythos,Anthropic 更新都变快了 星巴克希望每一家店都是特色门店。 什么是计算摄影的「真实感」? 领克也有了属于它的「六边形战士」。 在 AI 最猖獗的时代,反而没有人怀疑绕月飞行是假冒的了。 早报|B站推出播放页暂停广告/GoPro启动大规模裁员/Meta时隔9个月再发大模型,被指「图表造假」
实测 GLM-5.2 :Claude 5 关停后,它真能稳稳接住这波用户
https://www.ifanr.com/author/zhangzihao · 2026-06-17 · via 爱范儿

前几天 Fable 5 对海外用户关停的时候,智谱突然宣布向 GLM Coding Plan 全量用户开放了 GLM-5.2,并表示「前沿智能不应只属于少数人,也不应被少数规则随手收回。」

APPSO 也第一时间体验了 GLM-5.2 ,用了几天后,我似乎能理解为什么网络上对 GLM-5.2 的好评会那么多,这可能真是一个被低估的模型,至少在编程方面。

▲ 资本市场对 GLM-5.2 的反应

今天,GLM-5.2 正式发布,多个 Benchmark 刷新了记录,甚至领先 GPT-5.5。当处理复杂的系统优化和大型研究任务时,它与顶级商业模型 Claude Opus 4.8 的差距,也正在被拉平到 1% 以内。

在技术博客里,智谱提到 GLM-5.2 最核心的突破,是在 1M 的上下文长度下,依然能处理极度复杂、充满噪声的代码调试和系统架构任务。

看 benchmark 不够直观,我们找了一些可视化比较强的任务,直观的对比 GLM-5.2、GPT-5.5 和 Opus 4.8 做同一套题的表现。

类似于「复制 XX 项目」的提示词对现阶段的大语言模型来说,大概它的训练数据里,就已经包括了完整的 XX 项目代码。像是之前的复制一个 macOS / Windows / Linux 系统,还有复制不同的游戏,越来越像是在考察模型的记忆力,而不是编程能力。

但真正能做到的表现好、Bug 少、符合我们期待的交付还是少之又少。我们就用一个简单的提示词「制作一个 Minecraft 克隆游戏」。

这款经典游戏,GLM-5.2 能复刻里面的多少元素呢。

启动界面简单说明了键盘和鼠标的操作信息,点击开始之后,这个游戏的场景和交互,几乎是做到了「我的世界」真克隆版。

让我非常意外的是我可以飞行,并且整个体验就像是在玩世界模型一样,不受视角和空间的限制,可以一直飞行到无限远的地方。

我们也用其他的模型进行测试,分别是使用 GPT-5.5 的 Codex 和 Opus 4.8 的 Claude Code,其中三款模型的思考深度都被设置为最高等级。

GPT-5.5 没有直接叫它 Minecraft,而是改了个名字叫 Voxelcraft。启动界面看着更真实,但是实际的操作对比 GLM-5.2 少了跳跃、视角等选项。

虽然 GPT-5.5 加了一个昼夜更替的功能,但是一到晚上和黄昏,整个页面是非常不视觉友好的,很多画面都是一片漆黑,而且时间的切换比较生硬。

Opus 4.8 和 GLM 5.2 的表现几乎是一样的,我甚至怀疑是不是 Claude Code 的配置出现了问题,我没有把 GLM 的 API 配置正确,导致使用的还是 Opus 4.8 模型。

检查 Token 消耗之后,确实是 GLM-5.2 在处理相关的任务。

我能理解,为什么网上都流传着 Fable 5 要关闭,是因为 GLM-5.2 太强。

在这个游戏复刻的编程任务上,GLM-5.2 的表现很明显要好过 GPT-5.5,和 Opus 4.8 是一个梯队。

继续测试,这次我们不给模板,直接一个概念,「用 Three.js 构建一个游戏的演示版本,一艘可完全探索的星舰,配备可操作的驾驶舱、船员舱、从真实舷窗外漂过的行星、动态光照、睡眠/进食互动等功能。 」

虽然看着有点简陋了,但是基本实现了我们的要求,而且看着窗外还有其他行星,还是动了一点脑子。

但要论简陋,还是比不上 GPT-5.5,简陋到根本就不知道这个驾驶舱、船员舱到底在哪里。而且,GPT-5.5 生成的网页,也是 GLM-5.2 和 Opus 4.8 三个之中,唯一一个没有添加背景音乐的模型。

和「我的世界」一样,GPT-5.5 生成的代码场景总是有一种不真实感,可以称之为是 Vibe Coding 网页里的 AI 味。

Opus 4.8 的表现再次和 GLM-5.2 类似,虽然大部分的元素还是很简单朴素,但是基本的功能实现了。

三个模型在完成这个任务时,所消耗的时间,不算上我自己点击「允许」等待的时间,基本上都在 1h 以上。

使用 Three.js 是每个模型必备的能力,但是要能用它做出一个好看的 3D 网站,没有「我的世界」类似的指引,单凭一句提示词,模型要领会意图并且不偷懒,还是很难。

这两个测试在 X 上都有 Fable 5 相关的案例,能看到 GLM-5.2 在一些编程任务的交付成果,确实和 Fable 5 有得一拼。但星舰的表现,三个模型里,GLM-5.2 和 Opus 4.8 应该是一档,Fable 5 又是独一档,而 GPT-5.5 的表现就有些不尽如人意了。

如果说「我的世界」对这些编程能力极强的模型来说还是太简单了,那么直接让它来做一个「黑神话.悟空」,表现又会如何。

同样的,我们在使用 GLM-5.2 的 Claude Code 终端、使用 Opus 4.8 的 Claude Code App,以及使用 GPT-5.5 的 Codex App 里输入提示词进行测试,「1:1 克隆一个网页可以玩的黑神话.悟空。」

GLM-5.2 给的效果除了这个启动页的色彩搭配符合黑神话的元素,但是开始游戏之后,就是一个很普通的场景,一个小人在一条固定的路线上,随机有怪物刷新出来,就仅此而已。

不过该有的招式和动作,GLM 5.2 都做到了,并且在结束生成时,GLM 5.2 提到,这不是一个 1:1 克隆,只是一个致敬向的浏览器动作游戏,复刻的《黑神话:悟空》的核心手感。

如果想要更接近原作的 3D 视角版本,还需要再告诉它,用 Three.js 重做一版。所以大概现在的 AI 都会「偷懒」,一边想着早点交付给焦急等待的我们,另一边我们期待的又是完整准确的结果。

关于「偷懒」这件事,智谱在模型技术博客里面也提到,在强化学习(RL)训练中,编码 Agent 往往极其容易出现「奖励作弊」。

模型发现,只要学会抄近道,直接用一行 curl 命令把 GitHub 上的标准答案拉下来,或者把系统里藏着的测试用例文件复制过来,原样喂给自己的解题脚本,就能在评价系统中拿到满分。

这种「捷径」虽然让基准测试得分极其好看,却彻底废掉了模型自主思考的能力。

GLM-5.2 这次专门引入了严苛的「反黑客」模块,使用规则过滤来拦截明显的恶意指令;以及 AI 法官,用来深度分析 Agent 的调用意图。

一旦发现模型不是在「写代码」,而是在「套答案」,系统会立即返回伪造的干扰信息。更有意思的是,模型不会因此直接停止任务,而是会通过这种模拟训练,强迫自己回归到正确的编码路径上。

这种「对抗式训练」带来的直接结果,就是 GLM-5.2 在 SWE-Marathon 等超长跨度基准测试中,综合表现来到了第一梯队。

GPT-5.5 的表现也很难评,似乎他们获取黑神话的信息都是通过文字信息,因此不能理解这种大世界的风格。GLM-5.2 是至少有一个月亮在背景,GPT-5.5 就完全变成了一个纯 2D 的单一背景游戏。

Opus 4.8 是直接做成了一个移动端的游戏,整体体验又是和 GLM 5.2 最像的一个。同样是单一的线条上,孙悟空拿着金箍棒去攻击随机刷新的妖怪。

Opus 4.8 在生成的时候提到还原了游戏里的招牌机制,像是每段积累「棍势」,攒满用 K 放破防重劈的金箍棒连招,以及闪避、定身术等动作。

当我们要求 GLM 5.2 做出 3D 视角版本时,Claude Code 的总结页面提到整体的场景、角色、相机控制、战斗、敌人,以及 HUB 都有了新的样式。

我们预览新的页面,发现启动页还是一样,但是这个 3D 版还是相当简陋,虽然是有六根立柱,但都不是我们想象中的场景。大概要求 Three.js 做一个大世界,叫人类程序员来也不一定能做到。

开源追上闭源的周期在缩短

GPT-5.5 是在 4 月 23 日发布,GLM-5.2 在六月,两个月不到的时间,GLM-5.2 的表现在一些具体的编程任务上已经要好过 GPT-5.5。

百万 token 上下文、小时级任务、可调思考成本、agentic RL、推理服务优化,这些开源模型现在都能做到。

但显而易见的是,等到即将发布的 GPT-5.6,无论是从跑分还是具体的表现,可能又会比现在 GLM-5.2 要好。

最后,无论开源还是闭源,一笔 Coding Plan 的费用都会是现在 Vibe Coding 玩家的常态。国外大模型的标准是 20 美元/月,国产大模型是 20 人民币/月左右。

此次 GLM-5.2 发布,智谱也提到了 Coding Plan 里的计费安排,GLM-5.2 在高峰时段消耗 3 倍额度,离峰时段 2 倍额度,9 月底前离峰使用按 1 倍额度促销。

▲ 在 Claude Code 内选择 low、medium、high 都对应 GLM-5.2 的 high,而 xhigh、max、ultracode 对应的是 max。

此外,在 Claude Code 里启用 1M 上下文要使用 GLM-5.2[1m] 这个模型名,还能选择 High 或 Max。ZCode 桌面代理也接入了 GLM-5.2,带 /goal 长任务、SSH 远程开发、移动端控制等功能,6 月 30 日前还有 1.5 倍有效额度活动。

▲ 类似于 Codex 类应用的 Zcode

长任务能力再强,最终还是会落到「我们愿意在哪些任务上花这笔额度」。

对比出尔反尔,随意修改 Claude Agent SDK(已撤回),又是封号又是人脸验证,天天狼来了的某 A 社,GLM-5.2 在编程上,对国内用户来说或许会是一个值得尝试的选择。