1、
假期前最後一天(9月30日),熱鬧非凡。
上午,Anthropic 公司發佈了 Claude Sonnet 4.5 模型。
下午,智譜公司發佈了 GLM 4.6 模型。

我覺得,對於程序員,這個動態很重要。
因為這兩個模型都屬於目前最先進的 AI 編程模型。你想讓 AI 生成代碼,首選就是它們。
這就是說,一天之內,AI 編程模型又達到了新高度。
2、
Anthropic 發佈公告的第一句話,就毫不謙虛地用了三個"世界之最"。

"Claude Sonnet 4.5 是世界上最好的編碼模型。它是構建複雜代理的最強大模型。它是使用計算機的最佳模型。它在推理和數學方面表現出顯著的進步。"
智譜的發佈公告也是當仁不讓。
"我們再次突破大模型的能力邊界。
GLM-4.6是我們最強的代碼 Coding 模型(較 GLM-4.5 提升27%)。在真實編程、長上下文處理、推理能力、信息搜索、寫作能力與智能體應用等多個方面實現全面提升。"
為了讓人信服,智譜的發佈公告還給出了詳細的測試結果。

上圖一共是8個測試基準的結果圖。每個圖的藍柱是 GLM-4.6,綠柱是 GLM-4.5。對照組是前兩天剛發佈的 DeepSeek V3.2 Exp、Claude sonnet 4、Claude sonnet 4.5。
可以看到,藍柱基本上都是排名前列,甚至第一。智譜還聲稱,GLM-4.6 非常節省 Token(也就是省錢),"比 GLM-4.5 節省30%以上,為同類模型最低"。
所以,它的結論就是:"GLM-4.6 在部分榜單表現對齊 Claude Sonnet 4/Claude Sonnet 4.5,穩居國產模型首位。"
這就有意思了,一個自稱"世界上最好的編碼模型",另一個自稱"穩居國產模型首位"。
下面,我來測試,GLM-4.6 相比 Claude sonnet 4.5 到底怎麼樣。
3、
需要說明的是,這兩個模型的比較,不完全是為了測試,也有實際的意義。
Anthropic 公司雖然產品很強,但是它限制中國人使用,國內用戶正常途徑無法開通它的服務。另一方面,它是付費模型,價格也不便宜,百萬 token 的輸入輸出價格是3美元/15美元。
形成鮮明對照的是,GLM-4.6 是完完全全的國產模型,來自北京智譜公司。它採取徹底的開源路線(MIT 許可證),模型代碼完全公開,可以任意使用。
你要想自己在家裡安裝,也是可以的。但是,它的硬件要求太高,家用設備達不到,所以,一般都使用它的雲服務。
目前,智譜的官網(BigModel 和 Z.ai),通過 Web 界面使用 GLM-4.6 是免費的。

它的 API 調用需要付費,入門套餐(coding plan)好像是一個月20元人民幣。
另外,它有完備的中文支持(文檔+客服),這也是 Anthropic 沒有的。
總之,我的測試目的,也是想看看,它是不是真如官方宣稱的那樣強大,能不能替代 Claude Sonnet 模型。
4、
我的測試方法很簡單。Anthropic 公司事先邀請了著名程序員西蒙·威利森(Simon Willison),試用 Claude Sonnet 4.5 模型。
西蒙·威利森已經在他的網站上,公佈了試用結果。

我就拿他的幾個測試,用在 GLM-4.6 上面,然後比較一下運行結果就可以了。
大家可以跟著一起做,打開官網,把題目粘貼進去(最好貼英文),這樣會有更深切的感受。
AI 終端工具(比如 Claude Code、Cline、OpenCode、Crush 等)也可以用,參考官方文檔進行設置(需要先開通 API)。
5、
第一個測試。
拉取代碼倉庫 https://github.com/simonw/llm ,然後通過下面的命令運行測試用例。
pip install -e '.[test]'
pytest
這個測試需要聯網獲取代碼,然後在後臺運行。
智譜官網的 Web 界面跟 Claude 一樣,提供 Python 和 Node.js 的服務器沙箱環境,可以生成後直接執行代碼。
我省略它中間的推理步驟了,最後結果如下圖(官網查看完整對話)。

278個測試用例通過,耗時 18.31s
整個運行過程(拉取、安裝依賴、執行命令)跟 Claude Sonnet 是一樣的。奇怪的是,Claude Sonnet 運行了466個測試用例,多出來100多個,不知道為什麼。
6、
第二個測試是較複雜的編程任務,原始提示是英文,我翻譯成中文。
1、 代碼倉庫 https://github.com/simonw/llm 是一個 AI 對話應用,它將用戶的提示和 AI 的響應存儲在 SQLite 數據庫中。
2、它目前使用線性集合,保存單個對話和響應。你嘗試在響應表中添加一個 parentresponseid 列,並通過該列將對話的響應建模為樹狀結構。
3、編寫新的 pytest 測試用例,驗證你的設計。
4、編寫一個 tree_notes.md 文件,首先將你的設計寫入該文件,然後在運行過程中將該文件用作筆記。
大家可以查看完整的對話記錄。
GLM-4.6 運行了幾分鐘,不停地吐出生成的代碼。最終,它修改了腳本,增加了 API 和命令行調用接口,並編寫和運行通過了測試用例。

它還生成了一個 tree_notes.md 文件,裡面是本次修改的詳細說明。

大家可以比較它的運行結果與 Claude Sonnet 的運行結果。
從結果上看,它們的差異不大,都做到了提示的要求,並且代碼都是可運行的。差異主要是實現細節,這個就需要詳細閱讀代碼了。
7、
第三個測試是西蒙·威利森獨家的,就是讓 AI 生成一個鵜鶘騎自行車的 SVG 圖片(Generate an SVG of a pelican riding a bicycle)。
這是現實中不存在、且沒有參考物的景象,考察模型的想象和生成能力。
下面是 GLM-4.6 打開深度思考後生成的圖片。

下面是 Claude sonnet 4.5 打開深度思考後生成的圖片。

兩者的結果相當接近,只是 Claude 生成的鳥喙更明顯,更能看出是一隻鵜鶘。
8、
測試就到這裡,我覺得總結來說,GLM-4.6 是一個非常強的國產模型,編碼能力確實很優秀,可以當作目前公認的最強模型 Claude Sonnet 的替代品。
它的功能全面,除了編碼,其他任務也能完成,而且響應速度快,價格低,性價比非常突出。
(完)












