一、
假日前夕,乃九月三十日,喧嚣鼎沸。
朝,Anthropic 公司布。克劳德十四行诗第四五模型。
日暮,智谱公司发之。GLM 4.6 模型。

吾以为,于程序员,此动态甚要。
由是也此二模型,皆当世最先进之AI编程模型也。若欲使 AI 生成代码,首当其冲者,即为此等工具也。
是故一日之内,AI编程模型复臻新境。
二、
Anthropic 发公告,首句即不谦,用"世界之最"三字。

"Claude Sonnet 4.5 乃天下最佳之编码模型。其为构建复杂代理之最强模型。其为使用计算机之最佳模型。其在推理与数学方面显显著之进步。"
智谱发公告,亦不让人。
"吾辈再破大模型之能界。
GLM-4.6 乃吾辈最强之代码 Coding 模型(较 GLM-4.5 提升廿七%)。于真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多方面,皆得全面提升。"
欲令人信服,智谱之发公告更列详实之测试结果。

上图共列八项测试基准之结果。每图蓝柱为GLM-4.6,绿柱为GLM-4.5。对照者乃前日新出之DeepSeek V3.2 Exp、Claude sonnet 4、Claude sonnet 4.5。
可见蓝柱多居前列,甚或冠首。智谱复称,GLM-4.6甚省Token(即省钱),"较GLM-4.5省三十余,为同类之最"。
故其结论云:"GLM-4.6 于部分榜单之表现,与 Claude Sonnet 4/Claude Sonnet 4.5 相合。"稳居国货之冠。"
此甚有趣也。一自称"天下最良之编码模",一自称"稳居国货模型之首"。
下,吾将试之,GLM-4.6 与 Claude sonnet 4.5孰优孰劣。
3、
须明者,此二模型之较,非徒为试,亦具实义。
Anthropic 公司虽产品精强,然限中国人用,国内用户无由得享其服务。且其为付费模型,价亦不菲,百万 token 之输入输出,计三美元十五美元。
与此形成殊异者,GLM-4.6 乃纯粹国产模型,出北京智谱公司。其取彻底开源之道(MIT 许可证),模型之码尽公于众,可任意用之。
汝欲自于家中装置,亦非不可。然其硬件之求甚高,家用设备难及,故人多用其云服务。
今,智谱之官网(BigModel 与 Z.ai),以 Web 界面用 GLM-4.6,无费。

其 API 调用则需付费,入门之套(coding plan),若为月廿元。
复有周全之中文支持(文牍+客服),此亦 Anthropic 所无。
要之,吾试之旨,亦欲观其果若官言之强,能否代 Claude Sonnet 模型。
4、
吾之测试之法,简明也。Anthropic 公司先邀名程序员西蒙·威利森(Simon Willison),试 Claude Sonnet 4.5 模型。
西蒙·威利森已在其网站昭告之矣。试之效也。

吾取其数试,施于GLM-4.6,较其运行之果,足矣。
众皆可随而为之,启之。官之门户也,题名粘贴之(宜贴英文),则感愈深切。
AI終端之器(如Claude Code、Cline、OpenCode、Crush等)亦可用,參考。官署之文牍也设之(须先通 API)。
五、
首试之。
引代码库 https://github.com/simonw/llm ,乃行下列之命以试之。
pip install -e '.[test]'
pytest
此试需联网取码,而后于幕中行之。
智谱之官网,其 Web 界与 Claude 同,供 Python 与 Node.js 之沙箱,可立生而即行其码。
吾略其间之推演,终果如下(官网查 全对 )。

二七八案通过,历十八有奇秒。
其运行之序,自引、植依、行命,与 Claude Sonnet 无异。然 Claude Sonnet 运四六六案,多百有奇,其故何哉?
六、
二案乃繁复之编业,其本示为英,吾译以华。
一、https://github.com/simonw/llm乃 AI 对话之应,存用户之示与 AI 之应于 SQLite 之库。
二、今用线性集,存单对话与应。尔试于应表中增一列,名曰 parentresponseid,以该列构对话之应若树之形。
三、撰新 Pytest 测试之例,验吾之设。
四、撰《tree_notes.md》之文,初书其设计于斯,行之际,以此为记。
诸君可览其全焉。对答录。
GLM-4.6 运行数分钟,不绝吐生成之码。终,乃改脚本,增 API 与命令行调用之接口,并撰试例而运行之,无碍。

复生一tree_notes.md之文,内载本次修之详述。

诸君可较其运行之果。Claude Sonnet 之运行结果。
观其果,二者相异未遽,皆能应提示之求,且代码皆可运行。所异者,惟在施行之末节耳,此则须详察其码。
7、
第三试乃西蒙·威利森所独设,使 AI 生成鹈鹕骑自行车之 SVG 图像(Generate an SVG of a pelican riding a bicycle)。
此乃现实中无有、且无参照之物之景,以验模型之想象与生成之力。
下为 GLM-4.6 开启深度思考后所生之图。

下为 Claude sonnet 4.5 开启深度思考后所生之图。

二者之果,相去不远,惟Claude所生之喙,尤显,可辨其为鹈鹕也。
8、
此试至此,吾以为要之,GLM-4.6乃国产之强器,编码之能,确属卓绝,可代目前公认为最强之Claude Sonnet。
其功能周全,除编码外,他务亦能成,且响应迅捷,价廉,性价比甚著。
(完)












