一、引言
剛才我看到,智譜新一代的旗艦模型 GLM-5 已經正式發佈了。
真的拼啊,非要趕在長假之前,上一個版本 GLM-4.7 發佈還不到兩個月呢......

GLM-4.x 在國內外評價很高,公認是編程領域第一梯隊的模型。新的大版本就讓人很好奇,會有哪些改進。
實話實說,上個星期,他們團隊聯繫我參與內測,我已經使用這個模型好幾天了。
巧的是,也在上個星期,國外兩個旗艦模型同時發了新版本:Anthropic 公司發了 Claude Opus 4.6,OpenAI 公司發了 GPT-5.3-Codex。
這三個新模型都主打編程,我就忍不住進行了比較測試,看看它們有沒有差別,我想這也是很多人感興趣的。
下面就是真實編程任務,在這三個 AI 模型上的生成結果。
二、GLM-5 簡介
官方的發佈說明,這樣介紹 GLM-5:作為開源模型,GLM-5 完全對標頂尖閉源模型,在兩個地方做了特別強化。
(1)複雜系統工程
GLM-5 不單善於生成前端網頁,更善於處理後端任務、系統重構、深度調試,摒棄了"重前端審美、輕底層邏輯"的模式。
它具備極強的自我反思與糾錯機制,能在編譯失敗或運行報錯時,自主分析日誌、定位根因並迭代修復,直到系統跑通。
(2)長程 Agent
它能夠跑長程任務,即多階段、長步驟的複雜任務,可以自主拆分需求,自動化連續運行長達數小時,並保持上下文連貫與目標一致性。
(3)小結
GLM-5 可以完成的任務,已經超越了生成前端 UI,而是可以生成系統級大型複雜項目,比如操作系統內核、瀏覽器內核、V8 引擎之類的。
它的宣傳語是"在大模型進入 Agent、大任務的時代,GLM-5 是你可以使用的開源選擇。"
三、測試方法
我選擇的測試題目,是 HuggingFace 公司的佈道師亞歷杭德羅·奧(Alejandro AO)測試 Opus 4.6 和 GPT 5.3 的題目。

他拍了一個視頻,展示這兩個模型的表現。
我就拿同樣的題目去測 GLM-5,再跟他的結果進行對比。
一共四道題,前端和後端的都有。我已經把原始的提示詞和原始腳本,做成了一個倉庫,放到了 GitHub。
四、網頁設計測試
第一個測試是網頁設計和重構能力。
原始頁面非常簡陋。

它只是把信息做了分類,然後堆疊在一起,我們讓 AI 對這個網頁進行重新設計,讓它變得美觀易用,透露出成熟可靠的專業感。
前面說了,提示詞和原始文件都在 GitHub,這裡不重複貼了。大家可以拿來自己跑,也可以讓其他模型跑。
下面就是 GLM-5 的生成結果。





這個結果稱得上美觀又專業,所有信息組織得井井有條,而且帶有動畫效果,手機瀏覽(下圖)也沒有問題,簡直可以直接上線。

我把這個頁面發佈出來了,大家可以點擊這裡去看。
下面是 Opus 4.6 的生成結果,從視頻截圖的。



下面是 GPT-5.3 的生成結果。



這三個設計都是可用的,但是 GPT-5.3 有一個瑕疵(頁眉沒做成粘性頁眉,往下拉就沒了),而且在設計上也不如另外兩者好看。
所以,在這個測試中,GLM-5 和 Opus 4.6 表現更好,至於哪一個更出色,要看使用者的審美偏好。我個人更喜歡 GLM-5 的設計風格。
五、3D 沙盒測試
第二個測試看看 AI 模型的 3D 動畫生成能力。
要求是生成一個教育目的的網頁 3D 沙盒,用動畫展示太陽系的天體運動,並且能夠調整質量、位置、速度等動畫參數,還能手動增加新的天體。
下面是 GLM-5 的生成結果。

頁面的右側是動畫區,默認展示三個小行星圍繞中間的恆星進行軌道運動,可以用鼠標拖拽進行360度旋狀,以及放大和縮小。

頁面的左側是操控面板,做得挺不錯。


上半部分可以調節動畫和天體參數,下半部分用來增加新的天體,或者刪除現有天體。
作為比較,Opus 4.6 的生成結果。


GPT-5.3 的生成結果。


這三個生成結果,都滿足了需求,都可以順利運行。但是,GLM-5 的動畫缺了引力網格線,而 GPT-5.3 的網格線太凌亂,因此動畫效果方面 Opus 4.6 更好一些。
操控面板方面,GLM-5 和 Opus 4.6 都設計得不錯,GPT-5.3 有點簡單。
總體上,我感覺這一輪的最佳選手是 Opus 4.6,其次是 GLM-5,最後是 Codex 5.3。
六、網頁遊戲
第三個測試是生成一個網頁遊戲"憤怒的小鳥"(angry birds)。
GLM-5 的生成結果還可以,挺像原作的,可以玩,但是遊戲性不足,彈跳效果不夠好。



Opus 4.6 的還原度很高,遊戲體驗也接近原作。



GPT-5.3 的生成結果令人尷尬,小鳥根本彈不出去,遊戲不能玩。


這一輪很明顯,Opus 4.6 最佳,GLM-5 其次。
七、Laravel 轉為 Next.js
最後一個測試是,將一個基於 PHP 語言 Laravel 框架的 Web 應用,轉為 JavaScript 語言 Next.js 框架。
GLM-5 在處理時,幾乎沒有出現任何麻煩,很快就將 PHP 語言轉成了 JS 語言,並且給出了轉換後的代碼結構。

它還在轉化後,貼心地自動安裝了依賴的軟件包,做好了腳本編譯,提示用戶:你只要接入外部 API,一鍵執行npm run dev就能直接運行了。

我按照它的提示,運行很順利,沒有報錯,打開localhost:3000就能訪問應用了。

這是一個查看城市天氣的應用。因為沒有要求改變樣式,所以看上去跟 PHP 原版一模一樣。
右上角輸入框,可以查詢城市。

在查詢結果中,選中你所要的城市。

點擊進去,就是城市的詳情頁,有天氣、日出日落時間、空氣質量、地圖等信息。

Opus 4.6 和 GPT-5.3 也生成了同樣的結果,因為頁面、功能完全一樣,就不展示截圖了。
值得一提的是,GLM-5 和 GPT-5.3 的轉換時間都在5分鐘左右,Opus 4.6 似乎遇到了一點問題,花費了整整20分鐘。
這一輪單看結果,三個模型都很好,但是 GLM-5 花費的生成時間短,沒有任何報錯,全過程的用戶體驗好,我願意投它一票。
八、總結
經過這些測試,GLM-5 的編程表現可圈可點,是拿得出手的,能夠跟國外最新的旗艦模型放在一起。某些方面甚至還能贏出,即使不如人家的地方,往往也是細節問題,不是質的差別。
它聽說在訓練和運行過程中,都使用了國產的"萬卡集群"。可以想象,如果得到更多的卡、更多的算力,它的表現會更好,足以跟世界第一梯隊的大模型公司正面 PK。
另外,它這次特別強化的兩個點----"複雜系統"和"長程任務"----是有感的。
它生成的系統邏輯和後端代碼,可靠性不錯,無論是生成時還是運行時,報錯都不多。缺失的地方往往就是一些功能的缺失,後期讓 AI 再補上就可以了,不是架構出問題。另外,我有一項個人任務,它跑了足足兩個小時,最後也完成了,沒有亂掉。
我願意把官方的一段話,作為結尾。
2026年編程大模型正在從"能寫代碼"進階為"能構建系統",而 GLM-5 堪稱開源界的"系統架構師"模型,從關注"前端審美"轉向關注"Agentic深度/系統工程能力",是 Opus 4.6 與 GPT-5.3 的國產開源平替。
(完)












