一、
先月、私は一つの記事を書きました
、二つの大規模モデルを比較しました
。__JHSNS_SEG_46f812ce_4__で、二人のモデルはあまり多くないとコメントがあり、他のモデルを加えることができるかどうか尋ねられました__JHSNS_SEG_46f812ce_5__。ちょうど先週(10月27日)、MiniMax 社__JHSNS_SEG_46f812ce_6__は M2 モデルを発表し__JHSNS_SEG_46f812ce_7__、国産の大規模モデルの最新レベルを代表しています

。__JHSNS_SEG_46f812ce_8__私は思いました__JHSNS_SEG_46f812ce_8__、その実戦的な効果を測定し__JHSNS_SEG_46f812ce_8__、智譜社の GLM 4.6 と Anthropic 社の Claude Sonnet 4.5 と比較してみる価値があるかもしれません
。__JHSNS_SEG_46f812ce_9__少なくともそれらは現在最も先進的なプログラミング大規模モデルに属しており__JHSNS_SEG_46f812ce_9__、私たち開発者にとって直接的に関連しています
。__JHSNS_SEG_46f812ce_10__二、
まず説明する必要があります__JHSNS_SEG_46f812ce_11__、実は私はあまり慣れていませんMiniMax 会社は比較的控えめです。
私はこの会社が大規模なモデルを専門に開発しており、テキストモデル、ビデオモデル、オーディオモデルなどを製品化していることを知っていますが、どれも非常に人気がありません。特に注目していません。
先週、私はTwitterを閲覧していたら、いくつかの外国人が(1、2、3)議論しているのを見かけ、MiniMaxが新しいフラッグシップモデルM2をリリースしたことを知りました。

上記で話しているこの人はHuggingFace大規模モデルコミュニティの責任者で、M2モデルがArtificial Analysisの性能比較で世界第5位、オープンソースモデル第1位だと述べました。
その日のHuggingFaceの人気ランキングでも、それが1位でした。

OpenRouterの大規模モデルのグローバル利用ランキングで、今週は3位でした。

興味を持ち、しっかり試してみる準備をした。
三、
MiniMax会社の説明によるとM2モデルのプログラミング能力は特に強い、現在最優れたプログラミングモデルの一つです。
皆知、国際的に最も人気のあるプログラミングモデルは現在Claude Sonnet 4.5であり、国内のGLM 4.6モデルも強力です。それらを三つまとめて比較します。
簡単にするため、公式のウェブ版に直接書きます国内版、海外版)でテストを実行し、皆さんも一緒に手を動かして試してみてください。

ウェブ版は実は公式のAI製品ですMiniMaxエージェント、下位でM2モデルを使用しています。
ウェブサイトの利用は無料で、APIコールも現在は無料です無料期間2週間。後の価格は100万tokens入力/出力2.1元/8.4元人民元で、公式の宣伝によるとクロードの価格の8%しかない。
他のもう他のリンクもリストアップします。ドキュメントレポジトリはGitHubにあり、APIコールガイド(OpenAIとAnthropicフォーマットに対応)は公式ドキュメントを参照してください。モデルダウンロードはHuggingFaceで、ダウンロードした後は条件が許す限りローカルでデプロイして使用できます。
四、
私のテスト問題は有名なプログラマーのサイモン・ウィリソン(Simon Willison)から来ており、彼のウェブサイトにはCluase Sonnet 4.5のテスト結果があります。
以前、私はこれらの問題を使って知識谱社のGLM 4.6モデルをテストし、皆さんは参考にしてください。。
本稿は主にMiniMax M2のテスト結果です。
五、
第一問、テストモデルのコードの理解と実行能力をテストします。
コードリポジトリhttps://github.com/simonw/llmを取得し、以下のコマンドでテスト用例を実行します。
pip install -e '.[test]'
pytest
上記のヒントは、モデルがPythonリポジトリを取得し、その中のテスト用例を実行して結果を返すことを要求しています。
ウェブページの表示から見て、Minimax Agentには明らかにサンドボックスが組み込まれており、隔離された環境のコンソールでコードを実行します(下図)。

は全体の実行時間が約3分で、結果として「466のテストケースが実行されました」と表示されました。この結果は完全に正確でした。

驚いたことに、実行結果だけでなく、カバレッジ分析(下図)も提供され、テストケースがどの機能をカバーしているかが指摘されていました。他のモデルでは主动的にカバレッジを提供したものは見たことがありません。

完全な会話はこちらで確認できます。
六、
第二問、最も気になるコード生成能力をテストし、要求通りアプリケーションを生成できるか見てみます。
私は今までのリポジトリを使い、M2に機能を追加するように要求しました。これはコードの修正だけでなく、データベース構造の変更と、対応するテストケースの追加が必要です。
1、コードリポジトリ https://github.com/simonw/llm はAI対話アプリケーションで、ユーザーのヒントとAIの応答をSQLiteデータベースに保存します。
2、現在は線形集合を使用しており、個々の対話と応答を保存しています。あなたは応答テーブルにparentresponseid列を追加し、この列を通じて対話の応答を木構造としてモデル化しようとしています。
3、新しいpytestテストケースを書き、あなたの設計を検証します。
4、tree_notes.mdファイルを書き、まずはあなたの設計をそのファイルに書き込み、その後実行中にそのファイルをメモとして使用します。
このタスクは比較的複雑で、実行時間が少し長くなるかもしれません。
ここにエピソードがあります。実行中に、突然GitHubリポジトリの読み込みに失敗したとメッセージが表示され、予期せぬ光景に出会いました。
それが自動的にサードパーティのdeepwiki.comに切り替えてリポジトリを取得しようとしていた。その後、データベース構造を分析する際には、datasette.ioに切り替えてSQLiteデータベースを分析した。このサードパーティのクラウドサービスの自動切り替えは、初めて見たが、残念ながらスクリーンショットを撮る暇がなかった。
タスクが完了した後、それが要約を表示した(下図参照),その中で、どのようなことを行ったかを詳細に説明している,データベースの変更やテスト用例の追加などが含まれている。

それがさらにサンプルファイルを追加した(下図参照),新しい機能の使い方を示すデモンストレーションを含め,変更された対話構造のデモンストレーション図も含まれている,プロンプトにはそのような指示はなかったにも関わらず。

完全な対話はこちらで見ることができる。
また,公式サイトのギャラリーには,それが生成した多くのアプリケーションがあり,見る価値があると思う。
七、
第三問はシーモン・ウェリソンが発明した「ペリカンが自転車に乗る」シナリオで、その理解と推論能力をテストします。
ペリカンが自転車に乗るSVG画像を生成します。(Generate an SVG of a pelican riding a bicycle)
これは現実には存在しない状況で、モデル自身の推論に依存しています。理解能力が高いほど、生成される画像はよりリアルになります。
以下にそれが生成した結果を示します。完全な会話はこちらで確認できます。

比較として、他の2つのモデルの結果も示します。
GLM 4.6

Claude Sonnet 4.5

私たちは、MiniMax M2 の結果(最初の画像)に注目すべき2つの点があると思います。まず、道路を追加した点です。次に、自転車の構造が比較的完整で、ハンドルが欠けている点です。また、そのペンギンのポーズがもっと「乗っている」状態だったら良いのにと思います。
八、
テストはここまでで、GLM 4.6 と Claude Sonnet 4.5 の結果の比較については、それぞれのリンクを参照して自分で比較してください。
正直に言わなければならないのは、MiniMax M2 の性能が私の期待を超えていた。
私が最も魅了された点は、実行結果そのものではなく、問題を処理する方法で、ユーザーフレンドリーで、理解を助ける補助結果を追加するので、とても使いやすく(accessible)かつ理解しやすいと感じ、これも結果の信頼性を側面から高めている。
私は様々な評価結果が実際にM2の本物の実力であると信じる傾向がある。APIの価格(現在は無料期間中)を考慮すると、今後の仕事で使用するだろうし、皆さんにも試してみることをお勧めする。
(完)


























