一、はじめに
さっき、私は智譜の新しい旗艦モデルGLM-5が正式にリリースされたのを見ました。
本当に頑張ったね、連休の前に、前のバージョンであるGLM-4.7のリリースからまだ2ヶ月も経っていないのに......

GLM-4.xは国内外で高い評価を受けており、プログラミング分野のトップクラスのモデルと認められています。新しいメジャーバージョンがどのような改善がされるのか、とても気になります。
率直に言うと、先週、彼らのチームから内検に参加するよう連絡があり、すでにこのモデルを使って数日間いました。
偶然にも、先週、海外の2つの旗艦モデルが同時に新バージョンをリリースしました:Anthropic社がClaude Opus 4.6を、OpenAI社がGPT-5.3-Codexを。
これらの新しいモデルはプログラミングに特化しており、私はそれらの違いを確認するために比較テストをしました。これは多くの人に興味を引くことだと思います。
次に、実際のプログラミングタスクにおけるこれらのAIモデルの生成結果を示します。
二、GLM-5の紹介
公式のリリースノートでは、GLM-5について以下のように紹介されています: オープンソースモデルとして、GLM-5はトップクラスの闭鎖型モデルと完全に比較可能です、そして2つの点で特に強化されています。
(1)複雑なシステム工学
GLM-5はフロントエンドのウェブページを生成するだけでなく、バックエンドタスク、システムの再構築、深いデバッグにも長けており、「フロントエンドの美的感覚を重視し、バックエンドのロジックを軽視する」モデルを放棄しています。
それには非常に強力な自己反省と修正メカニズムがあり、コンパイル失敗や実行時エラーが発生した場合、ログを分析し、根本原因を特定し、反復的に修正し、システムが正常に動作するまで続けます。
(2)ロングレンジエージェント
長距離タスクを実行できるため、複数の段階や長いステップを含む複雑なタスクを処理できます。要求を自律的に分割し、数時間にわたって連続して自動実行し、文脈の連続性と目標の整合性を維持します。
(3)まとめ
GLM-5 が実行できるタスクは、フロントエンド UI の生成を超え、システムレベルの大規模複雑プロジェクトを生成たとえばオペレーティングシステムカーネル、ブラウザカーネル、V8エンジンなどのことです。
そのキャッチコピーは「大規模モデルがエージェント、大規模タスクの時代に入った今、GLM-5はあなたが選べるオープンソースの選択です。」
3. テスト方法
私が選んだテスト問題は、HuggingFace 社の布道師であるアレハンドロ・オ(Alejandro AO)が Opus 4.6 と GPT 5.3 をテストした問題です。

が動画を撮影し、これらのモデルの性能を展示しました。
私は同じ問題でGLM-5をテストし、彼の結果と比較しました。
合計四つの問題があり、フロントエンドとバックエンドの問題が含まれています。私は元のプロンプトと元のスクリプトを組み合わせてリポジトリを作成し、GitHubにアップロードしました。
四、ウェブデザインテスト
最初のテストはウェブデザインとリファクタリング能力です。
元のページは非常に简素でした。

それは情報を分類し、積み重ねただけでした。私たちはAIにこのウェブページを再設計させ、美しく使いやすく、成熟した信頼性のある専門的な感じを表現させました。
で前述したように、プロンプトとオリジナルファイルはGitHubにあります。ここでは繰り返し貼りません。皆さんは自分で実行したり、他のモデルで実行したりできます。
以下はGLM-5の生成結果です。





この結果は見栄えが良く専門的で、すべての情報が整然と整理されており、アニメーション効果もあり、携帯電話で閲覧(下図)しても問題なく、ほぼすぐに本番環境に投入できるほどです。

私はこのページを公開しました。皆さんはここをクリックして見てください。
以下はOpus 4.6の生成結果で、動画のスクリーンショットからです。



以下はGPT-5.3の生成結果です。



これらのデザインはすべて利用可能ですが、GPT-5.3には欠陥があります(ヘッダーが粘性ヘッダーになっておらず、下にスクロールすると消えてしまう)。また、デザイン的にも他の2つほど魅力的ではありません。
そのため、このテストではGLM-5とOpus 4.6の性能がより優れており、どちらがより良いかはユーザーの美的好みによって異なります。私はGLM-5のデザインスタイルをより好みます。
五、3Dサンドボックステスト
次のテストでは、AIモデルの3Dアニメーション生成能力を見てみます。
教育的な目的で、太陽系の天体の運動をアニメーションで表現する3Dサンドボックスを生成することが求められています。質量、位置、速度などのアニメーションパラメータを調整でき、新しい天体を手動で追加することも可能です。
以下はGLM-5の生成結果です。

ページの右側にはアニメーションエリアがあり、デフォルトでは3つの小惑星が中央の恒星を周回する軌道運動を表示しています。マウスでドラッグすると360度回転させることができ、ズームイン・アウトも可能です。

ページの左側には操作パネルがあり、とても良くできています。


上部ではアニメーションと天体のパラメータを調整でき、下部では新しい天体を追加したり、既存の天体を削除したりできます。
比較として、Opus 4.6 の生成結果。


GPT-5.3 の生成結果。


これら三つの生成結果はすべて要件を満たし、順調に動作します。しかし、GLM-5 のアニメーションには引力のグリッドラインが欠けており、GPT-5.3 のグリッドラインは散らかったため、アニメーション効果的には Opus 4.6 の方が少し良いです。
操作パネルに関しては、GLM-5 と Opus 4.6 はどちらも良く設計されており、GPT-5.3 は少しシンプルです。
全体として、今回の最優秀候補は Opus 4.6、次に GLM-5、最後に Codex 5.3 だと思います。
六、ウェブゲーム
三番目のテストは、ウェブゲーム「アングリーバード」(Angry Birds)を作成することです。
GLM-5の生成結果はまあまあで、元作に似ていて楽しめるが、ゲーム性は不足しており、ジャンプのエフェクトが十分ではない。



Opus 4.6 の復元度は非常に高く、ゲーム体験も原作に近い。



GPT-5.3の生成結果は恥ずかしく、鳥が全く飛び出せず、ゲームがプレイできません。


このラウンドでは明らかにOpus 4.6が最も優れており、GLM-5が次に優れています。
七、Laravel から Next.js へ
最後のテストは、PHP言語ベースのLaravel フレームワークの Web アプリケーション、JavaScript 言語の Next.js フレームワークに変換します。
GLM-5 は処理中にほとんど問題なく、すぐに PHP 言語を JS 言語に変換し、変換後のコード構造を提供しました。

また、変換後、親切にも依存するソフトウェアパッケージを自動的にインストールし、スクリプトのコンパイルを行い、ユーザーに「外部 API を接続するだけで、一つで実行npm run devできる」と案内しました。

私はその案内に従って実行しましたが、エラーはなく、localhost:3000 を開くだけでアプリにアクセスできました。

これは都市の天気を確認するアプリです。スタイルを変更する要求がなかったため、PHP 元版と全く同じに見えます。
右上の入力ボックスで都市を検索できます。

検索結果から、選択したい都市を選んでください。

クリックすると、都市の詳細ページが表示され、天気、日出日落時間、空気質、地図などの情報が含まれます。

Opus 4.6 と GPT-5.3 も同じ結果を生成しました。ページや機能が完全に同じなので、スクリーンショットを表示しません。
注目すべきは、GLM-5 と GPT-5.3 の変換時間が約5分で、Opus 4.6 は何らかの問題で20分かかりました。
今回の結果を見ると、3つのモデルはすべて優れていますが、GLM-5 は生成時間が短く、エラーもなく、全体的なユーザー体験が良いため、私の投票を得ました。
八、まとめ
これらのテストを通じて、GLM-5 のプログラミング能力は評価できるものであり、海外の最新のフラッグシップモデルと並べても差し支えありません。一部の面ではそれ以上に優れており、劣る点もあれば、それは細部の問題ではなく、本質的な差ではありません。
トレーニングと実行の過程で、国産の「万卡クラスタ」を使用していると聞きました。もっと多くのカードや計算資源があれば、その性能はさらに向上し、世界トップクラスの大規模モデル会社と正面から競争できるでしょう。
また、今回特に強化した二つのポイント----「複雑なシステム」と「長期的なタスク」----は実感できる。
生成したシステムロジックとバックエンドコードは、信頼性が高い。生成時や実行時に関わらず、エラーが少ない。欠けている部分は主に機能の不足で、後でAIが補うだけでよい。アーキテクチャの問題ではない。また、私には個人用のタスクがあり、それを実行するのに2時間もかかり、最終的には完了し、混乱することもなかった。
公式の一文を、結びとして引用したい。
2026年、プログラミング大モデルは「コードを書ける」から「システムを構築できる」へと進化しており、GLM-5はオープンソース業界の「システムアーキテクチャー」モデルとなり、从前端の「美的感覚」から「エージェントの深さ/システム工学能力」に注目を移し、Opus 4.6とGPT-5.3の国産オープンソースの代替品となっている。
(完)












