慣性聚合 関心のあるブログ、ニュース、テクノロジーを効率的に追跡
原文を読む 慣性聚合で開く

おすすめ購読元

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

阮一峰的网络日志

科技爱好者周刊(第 396 期):互联网通信的替代方案 科技爱好者周刊(第 396 期):互联网通信的替代方案 - 阮一峰的网络日志 科技爱好者周刊(第 395 期):软件开发的第三种方式 科技爱好者周刊(第 395 期):软件开发的第三种方式 - 阮一峰的网络日志 科技爱好者周刊(第 393 期):脑腐状态 科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术 科技爱好者周刊(第 391 期):AI 的贫富分化 科技爱好者周刊(第 390 期):没有语料,大模型就是智障 套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云 科技爱好者周刊(第 389 期):未来如何招聘程序员 科技爱好者周刊(第 388 期):测试是新的护城河 零安装的"云养虾":ArkClaw 使用指南 科技爱好者周刊(第 387 期):你是领先的 科技爱好者周刊(第 386 期):当外卖员接入 AI 字节全家桶 Seed 2.0 + TRAE 玩转 Skill 科技爱好者周刊(第 385 期):马斯克害怕中国车企吗? 科技爱好者周刊(第 384 期):为什么软件股下跌 科技爱好者周刊(第 383 期):你是第几级 AI 编程 Kimi 的一体化,Manus 的分层 科技爱好者周刊(第 382 期):独立软件的黄昏 AI native Workspace 也许是智能体的下一阶段 科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益" 科技爱好者周刊(第 379 期):《硅谷钢铁侠》摘录 我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验 科技爱好者周刊(第 378 期):预测是新的互联网热点 科技爱好者周刊(第 377 期):14万美元的贫困线 科技爱好者周刊(第 376 期):太空数据中心的争议 科技爱好者周刊(第 375 期):一扇门的 Bug 终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了 科技爱好者周刊(第 374 期):6GHz 的问题 VS Code 使用国产大模型 MiniMax M2 教程 科技爱好者周刊(第 373 期):数据模型是新产品的核心 国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例 科技爱好者周刊(第 372 期):软件界面如何设计 大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5 科技爱好者周刊(第 371 期):一个乐观主义者的专访 科技爱好者周刊(第 370 期):正确的代码高亮 错误处理:异常好于状态码 科技爱好者周刊(第 369 期):Tim 与罗永浩的对谈 科技爱好者周刊(第 368 期):不要这样管理软件团队 一天之内,智谱和 Anthropic 都发了最强编程模型 科技爱好者周刊(第 367 期):Nano Banana 的几个妙用 科技爱好者周刊(第 366 期):旧金山疯狂的 AI 广告 科技爱好者周刊(第 365 期):流量变现正在崩塌 科技爱好者周刊(第 364 期):最难还原的魔方 科技爱好者周刊(第 363 期):最好懂的神经网络解释 科技爱好者周刊(第 362 期):GitHub 工程师谈系统设计 科技爱好者周刊(第 361 期):暗网 Tor 安全吗? 科技爱好者周刊(第 360 期):Dan Wang 的新书
智谱旗艦GLM-5の実測:Opus 4.6とGPT-5.3-Codexの比較
阮一峰 · 2026-02-12 · via 阮一峰的网络日志

一、はじめに

さっき、私は智譜の新しい旗艦モデルGLM-5が正式にリリースされたのを見ました。

本当に頑張ったね、連休の前に、前のバージョンであるGLM-4.7のリリースからまだ2ヶ月も経っていないのに......

GLM-4.xは国内外で高い評価を受けており、プログラミング分野のトップクラスのモデルと認められています。新しいメジャーバージョンがどのような改善がされるのか、とても気になります。

率直に言うと、先週、彼らのチームから内検に参加するよう連絡があり、すでにこのモデルを使って数日間いました。

偶然にも、先週、海外の2つの旗艦モデルが同時に新バージョンをリリースしました:Anthropic社がClaude Opus 4.6を、OpenAI社がGPT-5.3-Codexを。

これらの新しいモデルはプログラミングに特化しており、私はそれらの違いを確認するために比較テストをしました。これは多くの人に興味を引くことだと思います。

次に、実際のプログラミングタスクにおけるこれらのAIモデルの生成結果を示します。

二、GLM-5の紹介

公式のリリースノートでは、GLM-5について以下のように紹介されています: オープンソースモデルとして、GLM-5はトップクラスの闭鎖型モデルと完全に比較可能です、そして2つの点で特に強化されています。

(1)複雑なシステム工学

GLM-5はフロントエンドのウェブページを生成するだけでなく、バックエンドタスク、システムの再構築、深いデバッグにも長けており、「フロントエンドの美的感覚を重視し、バックエンドのロジックを軽視する」モデルを放棄しています。

それには非常に強力な自己反省と修正メカニズムがあり、コンパイル失敗や実行時エラーが発生した場合、ログを分析し、根本原因を特定し、反復的に修正し、システムが正常に動作するまで続けます。

(2)ロングレンジエージェント

長距離タスクを実行できるため、複数の段階や長いステップを含む複雑なタスクを処理できます。要求を自律的に分割し、数時間にわたって連続して自動実行し、文脈の連続性と目標の整合性を維持します。

(3)まとめ

GLM-5 が実行できるタスクは、フロントエンド UI の生成を超え、システムレベルの大規模複雑プロジェクトを生成たとえばオペレーティングシステムカーネル、ブラウザカーネル、V8エンジンなどのことです。

そのキャッチコピーは「大規模モデルがエージェント、大規模タスクの時代に入った今、GLM-5はあなたが選べるオープンソースの選択です。」

3. テスト方法

私が選んだテスト問題は、HuggingFace 社の布道師であるアレハンドロ・オ(Alejandro AO)が Opus 4.6 と GPT 5.3 をテストした問題です。

動画を撮影し、これらのモデルの性能を展示しました。

私は同じ問題でGLM-5をテストし、彼の結果と比較しました。

合計四つの問題があり、フロントエンドとバックエンドの問題が含まれています。私は元のプロンプトと元のスクリプトを組み合わせてリポジトリを作成し、GitHubにアップロードしました。

四、ウェブデザインテスト

最初のテストはウェブデザインとリファクタリング能力です。

元のページは非常に简素でした。

それは情報を分類し、積み重ねただけでした。私たちはAIにこのウェブページを再設計させ、美しく使いやすく、成熟した信頼性のある専門的な感じを表現させました。

で前述したように、プロンプトとオリジナルファイルはGitHubにあります。ここでは繰り返し貼りません。皆さんは自分で実行したり、他のモデルで実行したりできます。

以下はGLM-5の生成結果です。

この結果は見栄えが良く専門的で、すべての情報が整然と整理されており、アニメーション効果もあり、携帯電話で閲覧(下図)しても問題なく、ほぼすぐに本番環境に投入できるほどです。

私はこのページを公開しました。皆さんはここをクリックして見てください。

以下はOpus 4.6の生成結果で、動画のスクリーンショットからです。

以下はGPT-5.3の生成結果です。

これらのデザインはすべて利用可能ですが、GPT-5.3には欠陥があります(ヘッダーが粘性ヘッダーになっておらず、下にスクロールすると消えてしまう)。また、デザイン的にも他の2つほど魅力的ではありません。

そのため、このテストではGLM-5とOpus 4.6の性能がより優れており、どちらがより良いかはユーザーの美的好みによって異なります。私はGLM-5のデザインスタイルをより好みます。

五、3Dサンドボックステスト

次のテストでは、AIモデルの3Dアニメーション生成能力を見てみます。

教育的な目的で、太陽系の天体の運動をアニメーションで表現する3Dサンドボックスを生成することが求められています。質量、位置、速度などのアニメーションパラメータを調整でき、新しい天体を手動で追加することも可能です。

以下はGLM-5の生成結果です。

ページの右側にはアニメーションエリアがあり、デフォルトでは3つの小惑星が中央の恒星を周回する軌道運動を表示しています。マウスでドラッグすると360度回転させることができ、ズームイン・アウトも可能です。

ページの左側には操作パネルがあり、とても良くできています。

上部ではアニメーションと天体のパラメータを調整でき、下部では新しい天体を追加したり、既存の天体を削除したりできます。

比較として、Opus 4.6 の生成結果。

GPT-5.3 の生成結果。

これら三つの生成結果はすべて要件を満たし、順調に動作します。しかし、GLM-5 のアニメーションには引力のグリッドラインが欠けており、GPT-5.3 のグリッドラインは散らかったため、アニメーション効果的には Opus 4.6 の方が少し良いです。

操作パネルに関しては、GLM-5 と Opus 4.6 はどちらも良く設計されており、GPT-5.3 は少しシンプルです。

全体として、今回の最優秀候補は Opus 4.6、次に GLM-5、最後に Codex 5.3 だと思います。

六、ウェブゲーム

三番目のテストは、ウェブゲーム「アングリーバード」(Angry Birds)を作成することです。

GLM-5の生成結果はまあまあで、元作に似ていて楽しめるが、ゲーム性は不足しており、ジャンプのエフェクトが十分ではない。

Opus 4.6 の復元度は非常に高く、ゲーム体験も原作に近い。

GPT-5.3の生成結果は恥ずかしく、鳥が全く飛び出せず、ゲームがプレイできません。

このラウンドでは明らかにOpus 4.6が最も優れており、GLM-5が次に優れています。

七、Laravel から Next.js へ

最後のテストは、PHP言語ベースのLaravel フレームワークの Web アプリケーション、JavaScript 言語の Next.js フレームワークに変換します。

GLM-5 は処理中にほとんど問題なく、すぐに PHP 言語を JS 言語に変換し、変換後のコード構造を提供しました。

また、変換後、親切にも依存するソフトウェアパッケージを自動的にインストールし、スクリプトのコンパイルを行い、ユーザーに「外部 API を接続するだけで、一つで実行npm run devできる」と案内しました。

私はその案内に従って実行しましたが、エラーはなく、localhost:3000 を開くだけでアプリにアクセスできました。

これは都市の天気を確認するアプリです。スタイルを変更する要求がなかったため、PHP 元版と全く同じに見えます。

右上の入力ボックスで都市を検索できます。

検索結果から、選択したい都市を選んでください。

クリックすると、都市の詳細ページが表示され、天気、日出日落時間、空気質、地図などの情報が含まれます。

Opus 4.6 と GPT-5.3 も同じ結果を生成しました。ページや機能が完全に同じなので、スクリーンショットを表示しません。

注目すべきは、GLM-5 と GPT-5.3 の変換時間が約5分で、Opus 4.6 は何らかの問題で20分かかりました。

今回の結果を見ると、3つのモデルはすべて優れていますが、GLM-5 は生成時間が短く、エラーもなく、全体的なユーザー体験が良いため、私の投票を得ました。

八、まとめ

これらのテストを通じて、GLM-5 のプログラミング能力は評価できるものであり、海外の最新のフラッグシップモデルと並べても差し支えありません。一部の面ではそれ以上に優れており、劣る点もあれば、それは細部の問題ではなく、本質的な差ではありません。

トレーニングと実行の過程で、国産の「万卡クラスタ」を使用していると聞きました。もっと多くのカードや計算資源があれば、その性能はさらに向上し、世界トップクラスの大規模モデル会社と正面から競争できるでしょう。

また、今回特に強化した二つのポイント----「複雑なシステム」と「長期的なタスク」----は実感できる。

生成したシステムロジックとバックエンドコードは、信頼性が高い。生成時や実行時に関わらず、エラーが少ない。欠けている部分は主に機能の不足で、後でAIが補うだけでよい。アーキテクチャの問題ではない。また、私には個人用のタスクがあり、それを実行するのに2時間もかかり、最終的には完了し、混乱することもなかった。

公式の一文を、結びとして引用したい。

2026年、プログラミング大モデルは「コードを書ける」から「システムを構築できる」へと進化しており、GLM-5はオープンソース業界の「システムアーキテクチャー」モデルとなり、从前端の「美的感覚」から「エージェントの深さ/システム工学能力」に注目を移し、Opus 4.6とGPT-5.3の国産オープンソースの代替品となっている。

(完)