一天之內，智譜和 Anthropic 都發了最強編程模型

1、

假期前最後一天（9月30日），熱鬧非凡。

上午，Anthropic 公司發佈了 Claude Sonnet 4.5 模型。

下午，智譜公司發佈了 GLM 4.6 模型。

我覺得，對於程序員，這個動態很重要。

因為這兩個模型都屬於目前最先進的 AI 編程模型。你想讓 AI 生成代碼，首選就是它們。

這就是說，一天之內，AI 編程模型又達到了新高度。

2、

Anthropic 發佈公告的第一句話，就毫不謙虛地用了三個"世界之最"。

"Claude Sonnet 4.5 是世界上最好的編碼模型。它是構建複雜代理的最強大模型。它是使用計算機的最佳模型。它在推理和數學方面表現出顯著的進步。"

智譜的發佈公告也是當仁不讓。

"我們再次突破大模型的能力邊界。

GLM-4.6是我們最強的代碼 Coding 模型（較 GLM-4.5 提升27%）。在真實編程、長上下文處理、推理能力、信息搜索、寫作能力與智能體應用等多個方面實現全面提升。"

為了讓人信服，智譜的發佈公告還給出了詳細的測試結果。

上圖一共是8個測試基準的結果圖。每個圖的藍柱是 GLM-4.6，綠柱是 GLM-4.5。對照組是前兩天剛發佈的 DeepSeek V3.2 Exp、Claude sonnet 4、Claude sonnet 4.5。

可以看到，藍柱基本上都是排名前列，甚至第一。智譜還聲稱，GLM-4.6 非常節省 Token（也就是省錢），"比 GLM-4.5 節省30%以上，為同類模型最低"。

所以，它的結論就是："GLM-4.6 在部分榜單表現對齊 Claude Sonnet 4/Claude Sonnet 4.5，穩居國產模型首位。"

這就有意思了，一個自稱"世界上最好的編碼模型"，另一個自稱"穩居國產模型首位"。

下面，我來測試，GLM-4.6 相比 Claude sonnet 4.5 到底怎麼樣。

3、

需要說明的是，這兩個模型的比較，不完全是為了測試，也有實際的意義。

Anthropic 公司雖然產品很強，但是它限制中國人使用，國內用戶正常途徑無法開通它的服務。另一方面，它是付費模型，價格也不便宜，百萬 token 的輸入輸出價格是3美元/15美元。

形成鮮明對照的是，GLM-4.6 是完完全全的國產模型，來自北京智譜公司。它採取徹底的開源路線（MIT 許可證），模型代碼完全公開，可以任意使用。

你要想自己在家裡安裝，也是可以的。但是，它的硬件要求太高，家用設備達不到，所以，一般都使用它的雲服務。

目前，智譜的官網（BigModel 和 Z.ai），通過 Web 界面使用 GLM-4.6 是免費的。

它的 API 調用需要付費，入門套餐（coding plan）好像是一個月20元人民幣。

另外，它有完備的中文支持（文檔+客服），這也是 Anthropic 沒有的。

總之，我的測試目的，也是想看看，它是不是真如官方宣稱的那樣強大，能不能替代 Claude Sonnet 模型。

4、

我的測試方法很簡單。Anthropic 公司事先邀請了著名程序員西蒙·威利森（Simon Willison），試用 Claude Sonnet 4.5 模型。

西蒙·威利森已經在他的網站上，公佈了試用結果。

我就拿他的幾個測試，用在 GLM-4.6 上面，然後比較一下運行結果就可以了。

大家可以跟著一起做，打開官網，把題目粘貼進去（最好貼英文），這樣會有更深切的感受。

AI 終端工具（比如 Claude Code、Cline、OpenCode、Crush 等）也可以用，參考官方文檔進行設置（需要先開通 API）。

5、

第一個測試。

拉取代碼倉庫 https://github.com/simonw/llm ，然後通過下面的命令運行測試用例。

pip install -e '.[test]'

pytest

這個測試需要聯網獲取代碼，然後在後臺運行。

智譜官網的 Web 界面跟 Claude 一樣，提供 Python 和 Node.js 的服務器沙箱環境，可以生成後直接執行代碼。

我省略它中間的推理步驟了，最後結果如下圖（官網查看完整對話）。

278個測試用例通過，耗時 18.31s

整個運行過程（拉取、安裝依賴、執行命令）跟 Claude Sonnet 是一樣的。奇怪的是，Claude Sonnet 運行了466個測試用例，多出來100多個，不知道為什麼。

6、

第二個測試是較複雜的編程任務，原始提示是英文，我翻譯成中文。

1、代碼倉庫 https://github.com/simonw/llm 是一個 AI 對話應用，它將用戶的提示和 AI 的響應存儲在 SQLite 數據庫中。

2、它目前使用線性集合，保存單個對話和響應。你嘗試在響應表中添加一個 parentresponseid 列，並通過該列將對話的響應建模為樹狀結構。

3、編寫新的 pytest 測試用例，驗證你的設計。

4、編寫一個 tree_notes.md 文件，首先將你的設計寫入該文件，然後在運行過程中將該文件用作筆記。

大家可以查看完整的對話記錄。

GLM-4.6 運行了幾分鐘，不停地吐出生成的代碼。最終，它修改了腳本，增加了 API 和命令行調用接口，並編寫和運行通過了測試用例。