1、
休暇の最終日(9月30日)、賑やかで賑やかだった。
午前、Anthropic社はClaude Sonnet 4.5モデルを発表した。
午後、智譜社はGLM 4.6モデルを発表した。

私は、プログラマーにとって、この動向は重要だと思う。
なぜならこれらのモデルは、現在最も先進的なAIプログラミングモデルだからである。AIがコードを生成するには、これらが首选である。
つまり、一日でAIプログラミングモデルが新たな高度に達したということだ。
2、
Anthropicが発表した声明の最初の一文で、「世界一」「世界一」「世界一」と自信満々に挙げた。

「Claude Sonnet 4.5は世界で最も優れたコーディングモデルです。複雑なエージェントを構築するための最も強力なモデルです。コンピューターを使用するための最も優れたモデルです。推論と数学において顕著な進歩を示しています。」
智譜の発表もそれに匹敵する。
「私たちは再び大規模モデルの能力の境界を押し広げました。
GLM-4.6は私たちの最強のコーディングモデル(GLM-4.5比27%向上)です。実際のプログラミング、長いコンテキスト処理、推論能力、情報検索、文章作成能力、エージェントの応用など、多方面に全面的な向上を実現しました。」
説得力を示すために、智譜の発表では詳細なテスト結果も提示した。

上のグラフは合計8つのテストベンチの結果です。各グラフの青い棒はGLM-4.6で、緑い棒はGLM-4.5です。対照グループは前日発表のDeepSeek V3.2 Exp、Claude sonnet 4、Claude sonnet 4.5です。
青い棒は基本的に上位にあり、場合によっては1位です。智譜はまた、GLM-4.6は非常にTokenを節約する(つまりお金を節約する)と主張しており、「GLM-4.5よりも30%以上節約し、同類モデルで最も低い」としています。
したがって、その結論は「GLM-4.6は一部のランキングでClaude Sonnet 4/Claude Sonnet 4.5と一致し、中国製モデルの首位を確保しています。」
これには面白い点があります。「世界で最も優れたコーディングモデル」と自称する一方で、「中国製モデルの首位を確保している」と自称するものです。
では、私がテストします。GLM-4.6はClaude sonnet 4.5とどの程度違うでしょうか。
3、
ここで言うことは、この2つのモデルの比較は、単なるテストではなく、実際の意味もあります。
Anthropic社は製品が非常に強力ですが、中国人の使用を制限しており、国内のユーザーは通常の方法でそのサービスを利用できません。一方で、有料モデルであり、価格も高く、百万トークンの入力出力コストは3ドル/15ドルです。
対照的に、GLM-4.6は完全に国産のモデルで、北京智譜社から来ています。このモデルは徹底的なオープンソース路線を採用しており(MITライセンス)、モデルコード完全に公開されており、自由に使用できます。
自宅でインストールしたい場合も可能ですが、そのハードウェア要件が非常に高く、家庭用デバイスでは満たせず、一般的にはそのクラウドサービスを使用します。
現在、Zhipuの公式ウェブサイト(BigModel と Z.ai)でGLM-4.6を使用するのは無料です。

そのAPIコールには有料です。初心者向けプラン(coding plan)は月に20元人民元ぐらいかかるとのことです。
また、中国語に十分なサポート(ドキュメント+カスタマーサポート)があるのも、Anthropicにはない点です。
要するに、私のテストの目的は、それが本当に公式の主張通りに強力なのか、Claude Sonnetモデルに取って代われることができるのかを見ることです。
4、
私のテスト方法はとても簡単です。Anthropic 社は事前に有名なプログラマーのシーモン・ウィリソン(Simon Willison)を招き、Claude Sonnet 4.5 モデルのテストを依頼しました。
シーモン・ウィリソンはすでに自身のウェブサイトで、テスト結果を公開しています。

私は彼のいくつかのテストを GLM-4.6 に適用し、実行結果を比較すれば良いです。
皆さんも一緒に試してみてください。公式ウェブサイトを開いて、問題文を貼り付けます(英語で貼り付けるのがより深い感覚になります)。
AI ターミナルツール(例えば Claude Code、Cline、OpenCode、Crush など)も使えます。公式ドキュメントを参照してください。を設定します(APIを先に利用開始する必要があります)。
5、
最初のテストを行います。
コードリポジトリhttps://github.com/simonw/llmを取得し、以下のコマンドでテスト用例を実行します。
pip install -e '.[test]'
pytest
このテストはインターネット接続でコードを取得し、バックグラウンドで実行する必要があります。
智譜の公式ウェブサイトのWebインターフェースはClaudeと同じく、PythonとNode.jsのサーバーサンドボックス環境を提供し、生成したコードを直接実行できます。
中間の推論手順は省略し、最終結果は以下の図の通りです(公式サイトで完全な会話を確認)。

278つのテストケースが通過し、所要時間は18.31秒でした
全体の実行プロセス(プル、依存関係のインストール、コマンドの実行)はClaude Sonnetと同じです。不思議なことに、Claude Sonnetは466つのテストケースを実行し、100を超える多くのテストケースが追加され、どうしてという感じです
6、
2番目のテストは複雑なプログラミングタスクで、元のヒントは英語で、私はそれを中国語に翻訳しました
1、コードリポジトリhttps://github.com/simonw/llmはAI対話アプリケーションで、ユーザーのヒントとAIの応答をSQLiteデータベースに保存します
2、現在は線形集合を使用しており、個々の対話と応答を保存しています。あなたは応答テーブルにparentresponseid列を追加し、この列を通じて対話の応答を木構造としてモデル化しようとしました
新しい pytest テストケースを作成し、あなたの設計を検証します。
tree_notes.md ファイルを作成し、まずはあなたの設計をそのファイルに書き込み、その後実行中にそのファイルをメモとして使用します。
皆さんは完全な会話記録を確認できます。
GLM-4.6 は数分間実行され、継続的に生成コードを出力しました。最終的に、スクリプトを修正し、API とコマンドライン呼び出しインターフェースを追加し、テストケースを書き込み実行しました。

また、tree_notes.md ファイルを生成し、今回の修正の詳細な説明が含まれています。

皆さんはその実行結果とClaude Sonnet の実行結果を比較できます。
結果として見ると、それらの差はそれほど大きくなく、どちらもヒントの要求を満たし、コードはすべて実行可能です。差は主に実装の詳細で、これはコードを詳細に読むことで理解する必要があります。
7、
3番目のテストはシーモン・ウェリソンが独占的に行ったものです。それはAIがペリカンが自転車に乗っているSVG画像を生成することです(ペリカンが自転車に乗っているSVGを生成)。
これは現実には存在しない、かつ参照物のない光景で、モデルの想像力と生成能力を試します。
以下はGLM-4.6が深層思考をオープン後に生成した画像です。

以下はClaude sonnet 4.5が深層思考をオープン後に生成した画像です。

両者の結果は非常に似ており、Claudeが生成した嘴の方がより明確で、カモメであることがよくわかります。
8、
ここまでテストを終了します。要約すると、GLM-4.6は非常に強力な国産モデルであり、コーディング能力が実際に優れており、現在公認されている最強のモデルであるClaude Sonnetの代替品として機能できるでしょう。
その機能は幅広く、コーディング以外のタスクもこなせ、応答速度も速く、価格も、コストパフォーマンスが非常に高いです。
(完)












