慣性聚合 高效追蹤和閱讀你感興趣的部落格、新聞、科技資訊
閱讀原文 在慣性聚合中打開

推薦訂閱源

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

阮一峰的网络日志

科技爱好者周刊(第 396 期):互联网通信的替代方案 科技爱好者周刊(第 396 期):互联网通信的替代方案 - 阮一峰的网络日志 科技爱好者周刊(第 395 期):软件开发的第三种方式 科技爱好者周刊(第 395 期):软件开发的第三种方式 - 阮一峰的网络日志 科技爱好者周刊(第 393 期):脑腐状态 科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术 科技爱好者周刊(第 391 期):AI 的贫富分化 科技爱好者周刊(第 390 期):没有语料,大模型就是智障 套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云 科技爱好者周刊(第 389 期):未来如何招聘程序员 科技爱好者周刊(第 388 期):测试是新的护城河 零安装的"云养虾":ArkClaw 使用指南 科技爱好者周刊(第 387 期):你是领先的 科技爱好者周刊(第 386 期):当外卖员接入 AI 字节全家桶 Seed 2.0 + TRAE 玩转 Skill 科技爱好者周刊(第 385 期):马斯克害怕中国车企吗? 智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex 科技爱好者周刊(第 384 期):为什么软件股下跌 科技爱好者周刊(第 383 期):你是第几级 AI 编程 Kimi 的一体化,Manus 的分层 科技爱好者周刊(第 382 期):独立软件的黄昏 AI native Workspace 也许是智能体的下一阶段 科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益" 科技爱好者周刊(第 379 期):《硅谷钢铁侠》摘录 我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验 科技爱好者周刊(第 378 期):预测是新的互联网热点 科技爱好者周刊(第 377 期):14万美元的贫困线 科技爱好者周刊(第 376 期):太空数据中心的争议 科技爱好者周刊(第 375 期):一扇门的 Bug 终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了 科技爱好者周刊(第 374 期):6GHz 的问题 VS Code 使用国产大模型 MiniMax M2 教程 科技爱好者周刊(第 373 期):数据模型是新产品的核心 国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例 科技爱好者周刊(第 372 期):软件界面如何设计 大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5 科技爱好者周刊(第 371 期):一个乐观主义者的专访 科技爱好者周刊(第 370 期):正确的代码高亮 错误处理:异常好于状态码 科技爱好者周刊(第 369 期):Tim 与罗永浩的对谈 科技爱好者周刊(第 368 期):不要这样管理软件团队 科技爱好者周刊(第 367 期):Nano Banana 的几个妙用 科技爱好者周刊(第 366 期):旧金山疯狂的 AI 广告 科技爱好者周刊(第 365 期):流量变现正在崩塌 科技爱好者周刊(第 364 期):最难还原的魔方 科技爱好者周刊(第 363 期):最好懂的神经网络解释 科技爱好者周刊(第 362 期):GitHub 工程师谈系统设计 科技爱好者周刊(第 361 期):暗网 Tor 安全吗? 科技爱好者周刊(第 360 期):Dan Wang 的新书
一天之內,智譜和 Anthropic 都發了最強編程模型
阮一峰 · 2025-10-01 · via 阮一峰的网络日志

1、

假期前最後一天(9月30日),熱鬧非凡。

上午,Anthropic 公司發佈了 Claude Sonnet 4.5 模型

下午,智譜公司發佈了 GLM 4.6 模型

我覺得,對於程序員,這個動態很重要。

因為這兩個模型都屬於目前最先進的 AI 編程模型。你想讓 AI 生成代碼,首選就是它們。

這就是說,一天之內,AI 編程模型又達到了新高度。

2、

Anthropic 發佈公告的第一句話,就毫不謙虛地用了三個"世界之最"。

"Claude Sonnet 4.5 是世界上最好的編碼模型。它是構建複雜代理的最強大模型。它是使用計算機的最佳模型。它在推理和數學方面表現出顯著的進步。"

智譜的發佈公告也是當仁不讓。

"我們再次突破大模型的能力邊界。

GLM-4.6是我們最強的代碼 Coding 模型(較 GLM-4.5 提升27%)。在真實編程、長上下文處理、推理能力、信息搜索、寫作能力與智能體應用等多個方面實現全面提升。"

為了讓人信服,智譜的發佈公告還給出了詳細的測試結果。

上圖一共是8個測試基準的結果圖。每個圖的藍柱是 GLM-4.6,綠柱是 GLM-4.5。對照組是前兩天剛發佈的 DeepSeek V3.2 Exp、Claude sonnet 4、Claude sonnet 4.5。

可以看到,藍柱基本上都是排名前列,甚至第一。智譜還聲稱,GLM-4.6 非常節省 Token(也就是省錢),"比 GLM-4.5 節省30%以上,為同類模型最低"。

所以,它的結論就是:"GLM-4.6 在部分榜單表現對齊 Claude Sonnet 4/Claude Sonnet 4.5,穩居國產模型首位。"

這就有意思了,一個自稱"世界上最好的編碼模型",另一個自稱"穩居國產模型首位"。

下面,我來測試,GLM-4.6 相比 Claude sonnet 4.5 到底怎麼樣。

3、

需要說明的是,這兩個模型的比較,不完全是為了測試,也有實際的意義。

Anthropic 公司雖然產品很強,但是它限制中國人使用,國內用戶正常途徑無法開通它的服務。另一方面,它是付費模型,價格也不便宜,百萬 token 的輸入輸出價格是3美元/15美元。

形成鮮明對照的是,GLM-4.6 是完完全全的國產模型,來自北京智譜公司。它採取徹底的開源路線(MIT 許可證),模型代碼完全公開,可以任意使用。

你要想自己在家裡安裝,也是可以的。但是,它的硬件要求太高,家用設備達不到,所以,一般都使用它的雲服務。

目前,智譜的官網(BigModelZ.ai),通過 Web 界面使用 GLM-4.6 是免費的。

它的 API 調用需要付費,入門套餐(coding plan)好像是一個月20元人民幣。

另外,它有完備的中文支持(文檔+客服),這也是 Anthropic 沒有的。

總之,我的測試目的,也是想看看,它是不是真如官方宣稱的那樣強大,能不能替代 Claude Sonnet 模型。

4、

我的測試方法很簡單。Anthropic 公司事先邀請了著名程序員西蒙·威利森(Simon Willison),試用 Claude Sonnet 4.5 模型。

西蒙·威利森已經在他的網站上,公佈了試用結果

我就拿他的幾個測試,用在 GLM-4.6 上面,然後比較一下運行結果就可以了。

大家可以跟著一起做,打開官網,把題目粘貼進去(最好貼英文),這樣會有更深切的感受。

AI 終端工具(比如 Claude Code、Cline、OpenCode、Crush 等)也可以用,參考官方文檔進行設置(需要先開通 API)。

5、

第一個測試。

拉取代碼倉庫 https://github.com/simonw/llm ,然後通過下面的命令運行測試用例。

pip install -e '.[test]'

pytest

這個測試需要聯網獲取代碼,然後在後臺運行。

智譜官網的 Web 界面跟 Claude 一樣,提供 Python 和 Node.js 的服務器沙箱環境,可以生成後直接執行代碼。

我省略它中間的推理步驟了,最後結果如下圖(官網查看完整對話)。

278個測試用例通過,耗時 18.31s

整個運行過程(拉取、安裝依賴、執行命令)跟 Claude Sonnet 是一樣的。奇怪的是,Claude Sonnet 運行了466個測試用例,多出來100多個,不知道為什麼。

6、

第二個測試是較複雜的編程任務,原始提示是英文,我翻譯成中文。

1、 代碼倉庫 https://github.com/simonw/llm 是一個 AI 對話應用,它將用戶的提示和 AI 的響應存儲在 SQLite 數據庫中。

2、它目前使用線性集合,保存單個對話和響應。你嘗試在響應表中添加一個 parentresponseid 列,並通過該列將對話的響應建模為樹狀結構。

3、編寫新的 pytest 測試用例,驗證你的設計。

4、編寫一個 tree_notes.md 文件,首先將你的設計寫入該文件,然後在運行過程中將該文件用作筆記。

大家可以查看完整的對話記錄

GLM-4.6 運行了幾分鐘,不停地吐出生成的代碼。最終,它修改了腳本,增加了 API 和命令行調用接口,並編寫和運行通過了測試用例。

它還生成了一個 tree_notes.md 文件,裡面是本次修改的詳細說明。

大家可以比較它的運行結果與 Claude Sonnet 的運行結果

從結果上看,它們的差異不大,都做到了提示的要求,並且代碼都是可運行的。差異主要是實現細節,這個就需要詳細閱讀代碼了。

7、

第三個測試是西蒙·威利森獨家的,就是讓 AI 生成一個鵜鶘騎自行車的 SVG 圖片(Generate an SVG of a pelican riding a bicycle)。

這是現實中不存在、且沒有參考物的景象,考察模型的想象和生成能力。

下面是 GLM-4.6 打開深度思考後生成的圖片

下面是 Claude sonnet 4.5 打開深度思考後生成的圖片。

兩者的結果相當接近,只是 Claude 生成的鳥喙更明顯,更能看出是一隻鵜鶘。

8、

測試就到這裡,我覺得總結來說,GLM-4.6 是一個非常強的國產模型,編碼能力確實很優秀,可以當作目前公認的最強模型 Claude Sonnet 的替代品。

它的功能全面,除了編碼,其他任務也能完成,而且響應速度快,價格低,性價比非常突出。

(完)