一日之内，智谱与Anthropic皆发其强编程之模。

一、

假日前夕，乃九月三十日，喧嚣鼎沸。

朝，Anthropic 公司布。克劳德十四行诗第四五模型。

日暮，智谱公司发之。GLM 4.6 模型。

吾以为，于程序员，此动态甚要。

由是也此二模型，皆当世最先进之AI编程模型也。若欲使 AI 生成代码，首当其冲者，即为此等工具也。

是故一日之内，AI编程模型复臻新境。

二、

Anthropic 发公告，首句即不谦，用"世界之最"三字。

"Claude Sonnet 4.5 乃天下最佳之编码模型。其为构建复杂代理之最强模型。其为使用计算机之最佳模型。其在推理与数学方面显显著之进步。"

智谱发公告，亦不让人。

"吾辈再破大模型之能界。

GLM-4.6 乃吾辈最强之代码 Coding 模型（较 GLM-4.5 提升廿七%）。于真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多方面，皆得全面提升。"

欲令人信服，智谱之发公告更列详实之测试结果。

上图共列八项测试基准之结果。每图蓝柱为GLM-4.6，绿柱为GLM-4.5。对照者乃前日新出之DeepSeek V3.2 Exp、Claude sonnet 4、Claude sonnet 4.5。

可见蓝柱多居前列，甚或冠首。智谱复称，GLM-4.6甚省Token（即省钱），"较GLM-4.5省三十余，为同类之最"。

故其结论云："GLM-4.6 于部分榜单之表现，与 Claude Sonnet 4/Claude Sonnet 4.5 相合。"稳居国货之冠。"

此甚有趣也。一自称"天下最良之编码模"，一自称"稳居国货模型之首"。

下，吾将试之，GLM-4.6 与 Claude sonnet 4.5孰优孰劣。

3、

须明者，此二模型之较，非徒为试，亦具实义。

Anthropic 公司虽产品精强，然限中国人用，国内用户无由得享其服务。且其为付费模型，价亦不菲，百万 token 之输入输出，计三美元十五美元。

与此形成殊异者，GLM-4.6 乃纯粹国产模型，出北京智谱公司。其取彻底开源之道（MIT 许可证），模型之码尽公于众，可任意用之。

汝欲自于家中装置，亦非不可。然其硬件之求甚高，家用设备难及，故人多用其云服务。

今，智谱之官网（BigModel 与 Z.ai），以 Web 界面用 GLM-4.6，无费。

其 API 调用则需付费，入门之套（coding plan），若为月廿元。

复有周全之中文支持（文牍+客服），此亦 Anthropic 所无。

要之，吾试之旨，亦欲观其果若官言之强，能否代 Claude Sonnet 模型。

4、

吾之测试之法，简明也。Anthropic 公司先邀名程序员西蒙·威利森（Simon Willison），试 Claude Sonnet 4.5 模型。

西蒙·威利森已在其网站昭告之矣。试之效也。

吾取其数试，施于GLM-4.6，较其运行之果，足矣。

众皆可随而为之，启之。官之门户也，题名粘贴之（宜贴英文），则感愈深切。

AI終端之器（如Claude Code、Cline、OpenCode、Crush等）亦可用，參考。官署之文牍也设之（须先通 API）。

五、

首试之。

引代码库 https://github.com/simonw/llm ，乃行下列之命以试之。

pip install -e '.[test]'

pytest

此试需联网取码，而后于幕中行之。

智谱之官网，其 Web 界与 Claude 同，供 Python 与 Node.js 之沙箱，可立生而即行其码。

吾略其间之推演，终果如下（官网查全对）。

二七八案通过，历十八有奇秒。

其运行之序，自引、植依、行命，与 Claude Sonnet 无异。然 Claude Sonnet 运四六六案，多百有奇，其故何哉？

六、

二案乃繁复之编业，其本示为英，吾译以华。

一、https://github.com/simonw/llm乃 AI 对话之应，存用户之示与 AI 之应于 SQLite 之库。

二、今用线性集，存单对话与应。尔试于应表中增一列，名曰 parentresponseid，以该列构对话之应若树之形。

三、撰新 Pytest 测试之例，验吾之设。

四、撰《tree_notes.md》之文，初书其设计于斯，行之际，以此为记。

诸君可览其全焉。对答录。

GLM-4.6 运行数分钟，不绝吐生成之码。终，乃改脚本，增 API 与命令行调用之接口，并撰试例而运行之，无碍。