慣性聚合 高效追讀感興趣之博客、新聞、科技資訊
閱原文 以慣性聚合開啟

推薦訂閱源

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

阮一峰的网络日志

科技爱好者周刊(第 396 期):互联网通信的替代方案 科技爱好者周刊(第 396 期):互联网通信的替代方案 - 阮一峰的网络日志 科技爱好者周刊(第 395 期):软件开发的第三种方式 科技爱好者周刊(第 395 期):软件开发的第三种方式 - 阮一峰的网络日志 科技爱好者周刊(第 393 期):脑腐状态 科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术 科技爱好者周刊(第 391 期):AI 的贫富分化 科技爱好者周刊(第 390 期):没有语料,大模型就是智障 套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云 科技爱好者周刊(第 389 期):未来如何招聘程序员 科技爱好者周刊(第 388 期):测试是新的护城河 零安装的"云养虾":ArkClaw 使用指南 科技爱好者周刊(第 387 期):你是领先的 科技爱好者周刊(第 386 期):当外卖员接入 AI 字节全家桶 Seed 2.0 + TRAE 玩转 Skill 科技爱好者周刊(第 385 期):马斯克害怕中国车企吗? 智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex 科技爱好者周刊(第 384 期):为什么软件股下跌 科技爱好者周刊(第 383 期):你是第几级 AI 编程 Kimi 的一体化,Manus 的分层 科技爱好者周刊(第 382 期):独立软件的黄昏 AI native Workspace 也许是智能体的下一阶段 科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益" 科技爱好者周刊(第 379 期):《硅谷钢铁侠》摘录 我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验 科技爱好者周刊(第 378 期):预测是新的互联网热点 科技爱好者周刊(第 377 期):14万美元的贫困线 科技爱好者周刊(第 376 期):太空数据中心的争议 科技爱好者周刊(第 375 期):一扇门的 Bug 终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了 科技爱好者周刊(第 374 期):6GHz 的问题 VS Code 使用国产大模型 MiniMax M2 教程 科技爱好者周刊(第 373 期):数据模型是新产品的核心 国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例 科技爱好者周刊(第 372 期):软件界面如何设计 大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5 科技爱好者周刊(第 371 期):一个乐观主义者的专访 科技爱好者周刊(第 370 期):正确的代码高亮 错误处理:异常好于状态码 科技爱好者周刊(第 369 期):Tim 与罗永浩的对谈 科技爱好者周刊(第 368 期):不要这样管理软件团队 科技爱好者周刊(第 367 期):Nano Banana 的几个妙用 科技爱好者周刊(第 366 期):旧金山疯狂的 AI 广告 科技爱好者周刊(第 365 期):流量变现正在崩塌 科技爱好者周刊(第 364 期):最难还原的魔方 科技爱好者周刊(第 363 期):最好懂的神经网络解释 科技爱好者周刊(第 362 期):GitHub 工程师谈系统设计 科技爱好者周刊(第 361 期):暗网 Tor 安全吗? 科技爱好者周刊(第 360 期):Dan Wang 的新书
一日之内,智谱与Anthropic皆发其强编程之模。
阮一峰 · 2025-10-01 · via 阮一峰的网络日志

一、

假日前夕,乃九月三十日,喧嚣鼎沸。

朝,Anthropic 公司布。克劳德十四行诗第四五模型

日暮,智谱公司发之。GLM 4.6 模型

吾以为,于程序员,此动态甚要。

由是也此二模型,皆当世最先进之AI编程模型也。若欲使 AI 生成代码,首当其冲者,即为此等工具也。

是故一日之内,AI编程模型复臻新境。

二、

Anthropic 发公告,首句即不谦,用"世界之最"三字。

"Claude Sonnet 4.5 乃天下最佳之编码模型。其为构建复杂代理之最强模型。其为使用计算机之最佳模型。其在推理与数学方面显显著之进步。"

智谱发公告,亦不让人。

"吾辈再破大模型之能界。

GLM-4.6 乃吾辈最强之代码 Coding 模型(较 GLM-4.5 提升廿七%)。于真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多方面,皆得全面提升。"

欲令人信服,智谱之发公告更列详实之测试结果。

上图共列八项测试基准之结果。每图蓝柱为GLM-4.6,绿柱为GLM-4.5。对照者乃前日新出之DeepSeek V3.2 Exp、Claude sonnet 4、Claude sonnet 4.5。

可见蓝柱多居前列,甚或冠首。智谱复称,GLM-4.6甚省Token(即省钱),"较GLM-4.5省三十余,为同类之最"。

故其结论云:"GLM-4.6 于部分榜单之表现,与 Claude Sonnet 4/Claude Sonnet 4.5 相合。"稳居国货之冠。"

此甚有趣也。一自称"天下最良之编码模",一自称"稳居国货模型之首"。

下,吾将试之,GLM-4.6 与 Claude sonnet 4.5孰优孰劣。

3、

须明者,此二模型之较,非徒为试,亦具实义。

Anthropic 公司虽产品精强,然限中国人用,国内用户无由得享其服务。且其为付费模型,价亦不菲,百万 token 之输入输出,计三美元十五美元。

与此形成殊异者,GLM-4.6 乃纯粹国产模型,出北京智谱公司。其取彻底开源之道(MIT 许可证),模型之码尽公于众,可任意用之。

汝欲自于家中装置,亦非不可。然其硬件之求甚高,家用设备难及,故人多用其云服务。

今,智谱之官网(BigModelZ.ai),以 Web 界面用 GLM-4.6,无费。

其 API 调用则需付费,入门之套(coding plan),若为月廿元。

复有周全之中文支持(文牍+客服),此亦 Anthropic 所无。

要之,吾试之旨,亦欲观其果若官言之强,能否代 Claude Sonnet 模型。

4、

吾之测试之法,简明也。Anthropic 公司先邀名程序员西蒙·威利森(Simon Willison),试 Claude Sonnet 4.5 模型。

西蒙·威利森已在其网站昭告之矣。试之效也

吾取其数试,施于GLM-4.6,较其运行之果,足矣。

众皆可随而为之,启之。官之门户也,题名粘贴之(宜贴英文),则感愈深切。

AI終端之器(如Claude Code、Cline、OpenCode、Crush等)亦可用,參考。官署之文牍也设之(须先通 API)。

五、

首试之。

引代码库 https://github.com/simonw/llm ,乃行下列之命以试之。

pip install -e '.[test]'

pytest

此试需联网取码,而后于幕中行之。

智谱之官网,其 Web 界与 Claude 同,供 Python 与 Node.js 之沙箱,可立生而即行其码。

吾略其间之推演,终果如下(官网查 全对 )。

二七八案通过,历十八有奇秒。

其运行之序,自引、植依、行命,与 Claude Sonnet 无异。然 Claude Sonnet 运四六六案,多百有奇,其故何哉?

六、

二案乃繁复之编业,其本示为英,吾译以华。

一、https://github.com/simonw/llm乃 AI 对话之应,存用户之示与 AI 之应于 SQLite 之库。

二、今用线性集,存单对话与应。尔试于应表中增一列,名曰 parentresponseid,以该列构对话之应若树之形。

三、撰新 Pytest 测试之例,验吾之设。

四、撰《tree_notes.md》之文,初书其设计于斯,行之际,以此为记。

诸君可览其全焉。对答录

GLM-4.6 运行数分钟,不绝吐生成之码。终,乃改脚本,增 API 与命令行调用之接口,并撰试例而运行之,无碍。

复生一tree_notes.md之文,内载本次修之详述。

诸君可较其运行之果。Claude Sonnet 之运行结果

观其果,二者相异未遽,皆能应提示之求,且代码皆可运行。所异者,惟在施行之末节耳,此则须详察其码。

7、

第三试乃西蒙·威利森所独设,使 AI 生成鹈鹕骑自行车之 SVG 图像(Generate an SVG of a pelican riding a bicycle)。

此乃现实中无有、且无参照之物之景,以验模型之想象与生成之力。

下为 GLM-4.6 开启深度思考后所生之图

下为 Claude sonnet 4.5 开启深度思考后所生之图。

二者之果,相去不远,惟Claude所生之喙,尤显,可辨其为鹈鹕也。

8、

此试至此,吾以为要之,GLM-4.6乃国产之强器,编码之能,确属卓绝,可代目前公认为最强之Claude Sonnet。

其功能周全,除编码外,他务亦能成,且响应迅捷,价廉,性价比甚著。

(完)