慣性聚合 高效追蹤和閱讀你感興趣的部落格、新聞、科技資訊
閱讀原文 在慣性聚合中打開

推薦訂閱源

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

阮一峰的网络日志

科技爱好者周刊(第 396 期):互联网通信的替代方案 科技爱好者周刊(第 396 期):互联网通信的替代方案 - 阮一峰的网络日志 科技爱好者周刊(第 395 期):软件开发的第三种方式 科技爱好者周刊(第 395 期):软件开发的第三种方式 - 阮一峰的网络日志 科技爱好者周刊(第 393 期):脑腐状态 科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术 科技爱好者周刊(第 391 期):AI 的贫富分化 科技爱好者周刊(第 390 期):没有语料,大模型就是智障 套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云 科技爱好者周刊(第 389 期):未来如何招聘程序员 科技爱好者周刊(第 388 期):测试是新的护城河 零安装的"云养虾":ArkClaw 使用指南 科技爱好者周刊(第 387 期):你是领先的 科技爱好者周刊(第 386 期):当外卖员接入 AI 字节全家桶 Seed 2.0 + TRAE 玩转 Skill 科技爱好者周刊(第 385 期):马斯克害怕中国车企吗? 科技爱好者周刊(第 384 期):为什么软件股下跌 科技爱好者周刊(第 383 期):你是第几级 AI 编程 Kimi 的一体化,Manus 的分层 科技爱好者周刊(第 382 期):独立软件的黄昏 AI native Workspace 也许是智能体的下一阶段 科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益" 科技爱好者周刊(第 379 期):《硅谷钢铁侠》摘录 我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验 科技爱好者周刊(第 378 期):预测是新的互联网热点 科技爱好者周刊(第 377 期):14万美元的贫困线 科技爱好者周刊(第 376 期):太空数据中心的争议 科技爱好者周刊(第 375 期):一扇门的 Bug 终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了 科技爱好者周刊(第 374 期):6GHz 的问题 VS Code 使用国产大模型 MiniMax M2 教程 科技爱好者周刊(第 373 期):数据模型是新产品的核心 国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例 科技爱好者周刊(第 372 期):软件界面如何设计 大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5 科技爱好者周刊(第 371 期):一个乐观主义者的专访 科技爱好者周刊(第 370 期):正确的代码高亮 错误处理:异常好于状态码 科技爱好者周刊(第 369 期):Tim 与罗永浩的对谈 科技爱好者周刊(第 368 期):不要这样管理软件团队 一天之内,智谱和 Anthropic 都发了最强编程模型 科技爱好者周刊(第 367 期):Nano Banana 的几个妙用 科技爱好者周刊(第 366 期):旧金山疯狂的 AI 广告 科技爱好者周刊(第 365 期):流量变现正在崩塌 科技爱好者周刊(第 364 期):最难还原的魔方 科技爱好者周刊(第 363 期):最好懂的神经网络解释 科技爱好者周刊(第 362 期):GitHub 工程师谈系统设计 科技爱好者周刊(第 361 期):暗网 Tor 安全吗? 科技爱好者周刊(第 360 期):Dan Wang 的新书
智譜旗艦 GLM-5 實測:對比 Opus 4.6 和 GPT-5.3-Codex
阮一峰 · 2026-02-12 · via 阮一峰的网络日志

一、引言

剛才我看到,智譜新一代的旗艦模型 GLM-5 已經正式發佈了。

真的拼啊,非要趕在長假之前,上一個版本 GLM-4.7 發佈還不到兩個月呢......

GLM-4.x 在國內外評價很高,公認是編程領域第一梯隊的模型。新的大版本就讓人很好奇,會有哪些改進。

實話實說,上個星期,他們團隊聯繫我參與內測,我已經使用這個模型好幾天了。

巧的是,也在上個星期,國外兩個旗艦模型同時發了新版本:Anthropic 公司發了 Claude Opus 4.6,OpenAI 公司發了 GPT-5.3-Codex。

這三個新模型都主打編程,我就忍不住進行了比較測試,看看它們有沒有差別,我想這也是很多人感興趣的。

下面就是真實編程任務,在這三個 AI 模型上的生成結果。

二、GLM-5 簡介

官方的發佈說明,這樣介紹 GLM-5:作為開源模型,GLM-5 完全對標頂尖閉源模型,在兩個地方做了特別強化。

(1)複雜系統工程

GLM-5 不單善於生成前端網頁,更善於處理後端任務、系統重構、深度調試,摒棄了"重前端審美、輕底層邏輯"的模式。

它具備極強的自我反思與糾錯機制,能在編譯失敗或運行報錯時,自主分析日誌、定位根因並迭代修復,直到系統跑通。

(2)長程 Agent

它能夠跑長程任務,即多階段、長步驟的複雜任務,可以自主拆分需求,自動化連續運行長達數小時,並保持上下文連貫與目標一致性。

(3)小結

GLM-5 可以完成的任務,已經超越了生成前端 UI,而是可以生成系統級大型複雜項目,比如操作系統內核、瀏覽器內核、V8 引擎之類的。

它的宣傳語是"在大模型進入 Agent、大任務的時代,GLM-5 是你可以使用的開源選擇。"

三、測試方法

我選擇的測試題目,是 HuggingFace 公司的佈道師亞歷杭德羅·奧(Alejandro AO)測試 Opus 4.6 和 GPT 5.3 的題目。

他拍了一個視頻,展示這兩個模型的表現。

我就拿同樣的題目去測 GLM-5,再跟他的結果進行對比。

一共四道題,前端和後端的都有。我已經把原始的提示詞和原始腳本,做成了一個倉庫,放到了 GitHub

四、網頁設計測試

第一個測試是網頁設計和重構能力。

原始頁面非常簡陋。

它只是把信息做了分類,然後堆疊在一起,我們讓 AI 對這個網頁進行重新設計,讓它變得美觀易用,透露出成熟可靠的專業感。

前面說了,提示詞和原始文件都在 GitHub,這裡不重複貼了。大家可以拿來自己跑,也可以讓其他模型跑。

下面就是 GLM-5 的生成結果。

這個結果稱得上美觀又專業,所有信息組織得井井有條,而且帶有動畫效果,手機瀏覽(下圖)也沒有問題,簡直可以直接上線。

我把這個頁面發佈出來了,大家可以點擊這裡去看。

下面是 Opus 4.6 的生成結果,從視頻截圖的。

下面是 GPT-5.3 的生成結果。

這三個設計都是可用的,但是 GPT-5.3 有一個瑕疵(頁眉沒做成粘性頁眉,往下拉就沒了),而且在設計上也不如另外兩者好看。

所以,在這個測試中,GLM-5 和 Opus 4.6 表現更好,至於哪一個更出色,要看使用者的審美偏好。我個人更喜歡 GLM-5 的設計風格。

五、3D 沙盒測試

第二個測試看看 AI 模型的 3D 動畫生成能力。

要求是生成一個教育目的的網頁 3D 沙盒,用動畫展示太陽系的天體運動,並且能夠調整質量、位置、速度等動畫參數,還能手動增加新的天體。

下面是 GLM-5 的生成結果。

頁面的右側是動畫區,默認展示三個小行星圍繞中間的恆星進行軌道運動,可以用鼠標拖拽進行360度旋狀,以及放大和縮小。

頁面的左側是操控面板,做得挺不錯。

上半部分可以調節動畫和天體參數,下半部分用來增加新的天體,或者刪除現有天體。

作為比較,Opus 4.6 的生成結果。

GPT-5.3 的生成結果。

這三個生成結果,都滿足了需求,都可以順利運行。但是,GLM-5 的動畫缺了引力網格線,而 GPT-5.3 的網格線太凌亂,因此動畫效果方面 Opus 4.6 更好一些。

操控面板方面,GLM-5 和 Opus 4.6 都設計得不錯,GPT-5.3 有點簡單。

總體上,我感覺這一輪的最佳選手是 Opus 4.6,其次是 GLM-5,最後是 Codex 5.3。

六、網頁遊戲

第三個測試是生成一個網頁遊戲"憤怒的小鳥"(angry birds)。

GLM-5 的生成結果還可以,挺像原作的,可以玩,但是遊戲性不足,彈跳效果不夠好。

Opus 4.6 的還原度很高,遊戲體驗也接近原作。

GPT-5.3 的生成結果令人尷尬,小鳥根本彈不出去,遊戲不能玩。

這一輪很明顯,Opus 4.6 最佳,GLM-5 其次。

七、Laravel 轉為 Next.js

最後一個測試是,將一個基於 PHP 語言 Laravel 框架的 Web 應用,轉為 JavaScript 語言 Next.js 框架。

GLM-5 在處理時,幾乎沒有出現任何麻煩,很快就將 PHP 語言轉成了 JS 語言,並且給出了轉換後的代碼結構。

它還在轉化後,貼心地自動安裝了依賴的軟件包,做好了腳本編譯,提示用戶:你只要接入外部 API,一鍵執行npm run dev就能直接運行了。

我按照它的提示,運行很順利,沒有報錯,打開localhost:3000就能訪問應用了。

這是一個查看城市天氣的應用。因為沒有要求改變樣式,所以看上去跟 PHP 原版一模一樣。

右上角輸入框,可以查詢城市。

在查詢結果中,選中你所要的城市。

點擊進去,就是城市的詳情頁,有天氣、日出日落時間、空氣質量、地圖等信息。

Opus 4.6 和 GPT-5.3 也生成了同樣的結果,因為頁面、功能完全一樣,就不展示截圖了。

值得一提的是,GLM-5 和 GPT-5.3 的轉換時間都在5分鐘左右,Opus 4.6 似乎遇到了一點問題,花費了整整20分鐘。

這一輪單看結果,三個模型都很好,但是 GLM-5 花費的生成時間短,沒有任何報錯,全過程的用戶體驗好,我願意投它一票。

八、總結

經過這些測試,GLM-5 的編程表現可圈可點,是拿得出手的,能夠跟國外最新的旗艦模型放在一起。某些方面甚至還能贏出,即使不如人家的地方,往往也是細節問題,不是質的差別。

它聽說在訓練和運行過程中,都使用了國產的"萬卡集群"。可以想象,如果得到更多的卡、更多的算力,它的表現會更好,足以跟世界第一梯隊的大模型公司正面 PK。

另外,它這次特別強化的兩個點----"複雜系統"和"長程任務"----是有感的。

它生成的系統邏輯和後端代碼,可靠性不錯,無論是生成時還是運行時,報錯都不多。缺失的地方往往就是一些功能的缺失,後期讓 AI 再補上就可以了,不是架構出問題。另外,我有一項個人任務,它跑了足足兩個小時,最後也完成了,沒有亂掉。

我願意把官方的一段話,作為結尾。

2026年編程大模型正在從"能寫代碼"進階為"能構建系統",而 GLM-5 堪稱開源界的"系統架構師"模型,從關注"前端審美"轉向關注"Agentic深度/系統工程能力",是 Opus 4.6 與 GPT-5.3 的國產開源平替。

(完)