慣性聚合 関心のあるブログ、ニュース、テクノロジーを効率的に追跡
原文を読む 慣性聚合で開く

おすすめ購読元

OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
C
CERT Recently Published Vulnerability Notes
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Latest news
Latest news
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
The Hacker News
The Hacker News
Malwarebytes
Malwarebytes
G
GRAHAM CLULEY
P
Privacy International News Feed
Spread Privacy
Spread Privacy
S
Schneier on Security
V
V2EX
V
Vulnerabilities – Threatpost
Project Zero
Project Zero
Cisco Talos Blog
Cisco Talos Blog
T
Threat Research - Cisco Blogs
罗磊的独立博客
B
Blog RSS Feed
Stack Overflow Blog
Stack Overflow Blog
F
Fortinet All Blogs
Recent Announcements
Recent Announcements
S
Securelist
阮一峰的网络日志
阮一峰的网络日志
SecWiki News
SecWiki News
aimingoo的专栏
aimingoo的专栏
宝玉的分享
宝玉的分享
C
Cybersecurity and Infrastructure Security Agency CISA
IT之家
IT之家
Schneier on Security
Schneier on Security
MyScale Blog
MyScale Blog
李成银的技术随笔
Know Your Adversary
Know Your Adversary
人人都是产品经理
人人都是产品经理
I
Intezer
Vercel News
Vercel News
有赞技术团队
有赞技术团队
博客园 - 三生石上(FineUI控件)
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
F
Fox-IT International blog
V
Visual Studio Blog
Simon Willison's Weblog
Simon Willison's Weblog
Cyberwarzone
Cyberwarzone
博客园 - Franky
S
Secure Thoughts
L
LINUX DO - 热门话题
The Cloudflare Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
The Register - Security
The Register - Security
T
Threatpost
博客园 - 司徒正美

阮一峰的网络日志

科技爱好者周刊(第 397 期):财富正在向 AI 集中 科技爱好者周刊(第 397 期):财富正在向 AI 集中 科技爱好者周刊(第 396 期):互联网通信的替代方案 科技爱好者周刊(第 396 期):互联网通信的替代方案 - 阮一峰的网络日志 科技爱好者周刊(第 395 期):软件开发的第三种方式 科技爱好者周刊(第 395 期):软件开发的第三种方式 - 阮一峰的网络日志 科技爱好者周刊(第 394 期):第二次 API 开放浪潮 科技爱好者周刊(第 393 期):脑腐状态 科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术 科技爱好者周刊(第 391 期):AI 的贫富分化 科技爱好者周刊(第 390 期):没有语料,大模型就是智障 套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云 科技爱好者周刊(第 389 期):未来如何招聘程序员 科技爱好者周刊(第 388 期):测试是新的护城河 零安装的"云养虾":ArkClaw 使用指南 科技爱好者周刊(第 387 期):你是领先的 科技爱好者周刊(第 386 期):当外卖员接入 AI 字节全家桶 Seed 2.0 + TRAE 玩转 Skill 科技爱好者周刊(第 385 期):马斯克害怕中国车企吗? 智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex 科技爱好者周刊(第 384 期):为什么软件股下跌 科技爱好者周刊(第 383 期):你是第几级 AI 编程 Kimi 的一体化,Manus 的分层 科技爱好者周刊(第 382 期):独立软件的黄昏 AI native Workspace 也许是智能体的下一阶段 科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益" 科技爱好者周刊(第 379 期):《硅谷钢铁侠》摘录 我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验 科技爱好者周刊(第 378 期):预测是新的互联网热点 科技爱好者周刊(第 377 期):14万美元的贫困线 科技爱好者周刊(第 376 期):太空数据中心的争议 科技爱好者周刊(第 375 期):一扇门的 Bug 终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了 科技爱好者周刊(第 374 期):6GHz 的问题 VS Code 使用国产大模型 MiniMax M2 教程 科技爱好者周刊(第 373 期):数据模型是新产品的核心 国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例 科技爱好者周刊(第 372 期):软件界面如何设计 科技爱好者周刊(第 371 期):一个乐观主义者的专访 科技爱好者周刊(第 370 期):正确的代码高亮 错误处理:异常好于状态码 科技爱好者周刊(第 369 期):Tim 与罗永浩的对谈 科技爱好者周刊(第 368 期):不要这样管理软件团队 一天之内,智谱和 Anthropic 都发了最强编程模型 科技爱好者周刊(第 367 期):Nano Banana 的几个妙用 科技爱好者周刊(第 366 期):旧金山疯狂的 AI 广告 科技爱好者周刊(第 365 期):流量变现正在崩塌 科技爱好者周刊(第 364 期):最难还原的魔方 科技爱好者周刊(第 363 期):最好懂的神经网络解释
大規模モデルの比較:MiniMax M2 と GLM 4.6 と Claude Sonnet 4.5
阮一峰 · 2025-11-04 · via 阮一峰的网络日志

一、

先月、私は一つの記事を書きました

、二つの大規模モデルを比較しました

。__JHSNS_SEG_46f812ce_4__で、二人のモデルはあまり多くないとコメントがあり、他のモデルを加えることができるかどうか尋ねられました__JHSNS_SEG_46f812ce_5__。ちょうど先週(10月27日)、MiniMax 社__JHSNS_SEG_46f812ce_6__は M2 モデルを発表し__JHSNS_SEG_46f812ce_7__、国産の大規模モデルの最新レベルを代表しています

。__JHSNS_SEG_46f812ce_8__私は思いました__JHSNS_SEG_46f812ce_8__、その実戦的な効果を測定し__JHSNS_SEG_46f812ce_8__、智譜社の GLM 4.6 と Anthropic 社の Claude Sonnet 4.5 と比較してみる価値があるかもしれません

。__JHSNS_SEG_46f812ce_9__少なくともそれらは現在最も先進的なプログラミング大規模モデルに属しており__JHSNS_SEG_46f812ce_9__、私たち開発者にとって直接的に関連しています

。__JHSNS_SEG_46f812ce_10__二、

まず説明する必要があります__JHSNS_SEG_46f812ce_11__、実は私はあまり慣れていませんMiniMax 会社は比較的控えめです。

私はこの会社が大規模なモデルを専門に開発しており、テキストモデル、ビデオモデル、オーディオモデルなどを製品化していることを知っていますが、どれも非常に人気がありません。特に注目していません。

先週、私はTwitterを閲覧していたら、いくつかの外国人が(123)議論しているのを見かけ、MiniMaxが新しいフラッグシップモデルM2をリリースしたことを知りました。

上記で話しているこの人はHuggingFace大規模モデルコミュニティの責任者で、M2モデルがArtificial Analysisの性能比較で世界第5位、オープンソースモデル第1位だと述べました。

その日のHuggingFaceの人気ランキングでも、それが1位でした。

OpenRouterの大規模モデルのグローバル利用ランキングで、今週は3位でした。

興味を持ち、しっかり試してみる準備をした。

三、

MiniMax会社の説明によるとM2モデルのプログラミング能力は特に強い、現在最優れたプログラミングモデルの一つです。

皆知、国際的に最も人気のあるプログラミングモデルは現在Claude Sonnet 4.5であり、国内のGLM 4.6モデルも強力です。それらを三つまとめて比較します。

簡単にするため、公式のウェブ版に直接書きます国内版海外版)でテストを実行し、皆さんも一緒に手を動かして試してみてください。

ウェブ版は実は公式のAI製品ですMiniMaxエージェント、下位でM2モデルを使用しています。

ウェブサイトの利用は無料で、APIコールも現在は無料です無料期間2週間。後の価格は100万tokens入力/出力2.1元/8.4元人民元で、公式の宣伝によるとクロードの価格の8%しかない。

他のもう他のリンクもリストアップします。ドキュメントレポジトリはGitHubにあり、APIコールガイド(OpenAIとAnthropicフォーマットに対応)は公式ドキュメントを参照してください。モデルダウンロードはHuggingFaceで、ダウンロードした後は条件が許す限りローカルでデプロイして使用できます。

四、

私のテスト問題は有名なプログラマーのサイモン・ウィリソン(Simon Willison)から来ており、彼のウェブサイトにはCluase Sonnet 4.5のテスト結果があります。

以前、私はこれらの問題を使って知識谱社のGLM 4.6モデルをテストし、皆さんは参考にしてください。

本稿は主にMiniMax M2のテスト結果です。

五、

第一問、テストモデルのコードの理解と実行能力をテストします。

コードリポジトリhttps://github.com/simonw/llmを取得し、以下のコマンドでテスト用例を実行します。

pip install -e '.[test]'
pytest

上記のヒントは、モデルがPythonリポジトリを取得し、その中のテスト用例を実行して結果を返すことを要求しています。

ウェブページの表示から見て、Minimax Agentには明らかにサンドボックスが組み込まれており、隔離された環境のコンソールでコードを実行します(下図)。

は全体の実行時間が約3分で、結果として「466のテストケースが実行されました」と表示されました。この結果は完全に正確でした。

驚いたことに、実行結果だけでなく、カバレッジ分析(下図)も提供され、テストケースがどの機能をカバーしているかが指摘されていました。他のモデルでは主动的にカバレッジを提供したものは見たことがありません。

完全な会話はこちらで確認できます

六、

第二問、最も気になるコード生成能力をテストし、要求通りアプリケーションを生成できるか見てみます。

私は今までのリポジトリを使い、M2に機能を追加するように要求しました。これはコードの修正だけでなく、データベース構造の変更と、対応するテストケースの追加が必要です。

1、コードリポジトリ https://github.com/simonw/llm はAI対話アプリケーションで、ユーザーのヒントとAIの応答をSQLiteデータベースに保存します。

2、現在は線形集合を使用しており、個々の対話と応答を保存しています。あなたは応答テーブルにparentresponseid列を追加し、この列を通じて対話の応答を木構造としてモデル化しようとしています。

3、新しいpytestテストケースを書き、あなたの設計を検証します。

4、tree_notes.mdファイルを書き、まずはあなたの設計をそのファイルに書き込み、その後実行中にそのファイルをメモとして使用します。

このタスクは比較的複雑で、実行時間が少し長くなるかもしれません。

ここにエピソードがあります。実行中に、突然GitHubリポジトリの読み込みに失敗したとメッセージが表示され、予期せぬ光景に出会いました。

それが自動的にサードパーティのdeepwiki.comに切り替えてリポジトリを取得しようとしていた。その後、データベース構造を分析する際には、datasette.ioに切り替えてSQLiteデータベースを分析した。このサードパーティのクラウドサービスの自動切り替えは、初めて見たが、残念ながらスクリーンショットを撮る暇がなかった。

タスクが完了した後、それが要約を表示した(下図参照),その中で、どのようなことを行ったかを詳細に説明している,データベースの変更やテスト用例の追加などが含まれている。

それがさらにサンプルファイルを追加した(下図参照),新しい機能の使い方を示すデモンストレーションを含め,変更された対話構造のデモンストレーション図も含まれている,プロンプトにはそのような指示はなかったにも関わらず。

完全な対話はこちらで見ることができる

また,公式サイトのギャラリーには,それが生成した多くのアプリケーションがあり,見る価値があると思う。

七、

第三問はシーモン・ウェリソンが発明した「ペリカンが自転車に乗る」シナリオで、その理解と推論能力をテストします。

ペリカンが自転車に乗るSVG画像を生成します。(Generate an SVG of a pelican riding a bicycle)

これは現実には存在しない状況で、モデル自身の推論に依存しています。理解能力が高いほど、生成される画像はよりリアルになります。

以下にそれが生成した結果を示します。完全な会話はこちらで確認できます

比較として、他の2つのモデルの結果も示します。

GLM 4.6

Claude Sonnet 4.5

私たちは、MiniMax M2 の結果(最初の画像)に注目すべき2つの点があると思います。まず、道路を追加した点です。次に、自転車の構造が比較的完整で、ハンドルが欠けている点です。また、そのペンギンのポーズがもっと「乗っている」状態だったら良いのにと思います。

八、

テストはここまでで、GLM 4.6Claude Sonnet 4.5 の結果の比較については、それぞれのリンクを参照して自分で比較してください。

正直に言わなければならないのは、MiniMax M2 の性能が私の期待を超えていた

私が最も魅了された点は、実行結果そのものではなく、問題を処理する方法で、ユーザーフレンドリーで、理解を助ける補助結果を追加するので、とても使いやすく(accessible)かつ理解しやすいと感じ、これも結果の信頼性を側面から高めている。

私は様々な評価結果が実際にM2の本物の実力であると信じる傾向がある。APIの価格(現在は無料期間中)を考慮すると、今後の仕事で使用するだろうし、皆さんにも試してみることをお勧めする。

(完)