大模型比拼：MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5

一、

上個月，我寫了一篇文章，比較了兩個大模型。

就有人留言，兩個模型太少了，能不能加入其他模型？

正好上週（10月27日），MiniMax 公司發佈了 M2 模型，代表了國產大模型的最新水平。

我就想，可以測測它的實戰效果，跟智譜公司的 GLM 4.6 和 Anthropic 公司的 Claude Sonnet 4.5 對比一下。

畢竟它們都屬於目前最先進的編程大模型，跟我們開發者切身相關。

二、

先要說明，其實我不太熟悉 MiniMax 公司，它比較低調。

我只知道，這家公司專門研發大模型，產品有文本模型、視頻模型、音頻模型等等，但都不是非常熱門。我就沒有特別關注。

上週，我在滑推特的時候，看到一些老外在議論（1、2、3），這才知道 MiniMax 發佈了新的旗艦模型 M2。

上面說話的這個人是 HuggingFace 大模型社區的負責人，提到了 M2 模型在 Artificial Analysis 性能評比之中排名世界第五，開源模型第一。

當天的 HuggingFace 熱度榜上，它也是第一名。

OpenRouter 的大模型全球調用量排名，它這周排在第三。

我就來了興趣，準備好好試用一下。

三、

根據 MiniMax 公司的說明，M2 模型的編程能力特別強，是目前最優秀的編程模型之一。

大家知道，國際上最流行的編程模型現在是 Claude Sonnet 4.5，國內的 GLM 4.6 模型也很強，我就把它們三個放在一起對比。

簡單起見，我就直接在官方的網頁版（國內版，國外版）上運行測試，大家可以跟著一起動手試試看。

網頁版實際是官方的智能體產品 MiniMax Agent，底層用的就是 M2 模型。

網頁使用是免費的，API 調用現在也是免費期，為期兩週。後面定價是百萬 tokens 輸入/輸出 2.1元/8.4元人民幣，官方宣傳只有 Claude 價格的8%。

它的其他鏈接，我也列一下，文檔倉庫在 GitHub，API 調用指南（兼容 OpenAI 和 Anthopic 格式）看官方文檔，模型下載在 HuggingFace，下載以後可以本地部署使用（如果條件允許）。

四、

我的測試題來自著名程序員西蒙·威利森（Simon Willison），他的網站有 Cluase Sonnet 4.5 的測試結果。

此前，我用這些題目測過智譜公司的 GLM 4.6 模型，大家可以參考。

本文主要是 MiniMax M2 的測試表現。

五、

第一題，測試模型理解和運行代碼的能力。

拉取代碼倉庫 https://github.com/simonw/llm ，然後通過下面的命令運行測試用例。

pip install -e '.[test]'
pytest

上面的提示詞要求模型抓取一個 Python 倉庫，運行裡面的測試用例，並返回結果。

從網頁的顯示來看，Minimax Agent 顯然內置了沙盒，會在隔離環境的命令行下運行代碼（下圖）。

整個運行過程大約三分鐘，然後它給出了結果：運行通過了466個測試用例。這個結果完全正確。

令我驚喜的是，除了運行結果，它還給出了覆蓋率分析（下圖），指出測試用例覆蓋了代碼的哪些功能。我還沒在其他模型見過主動提供覆蓋率的。

完整的對話看這裡。

六、

第二題，測試大家最關心的代碼生成能力，看看它能不能按照要求生成應用程序。

我還是使用上面的倉庫，要求 M2 為其增加一個功能，不僅需要修改代碼，還需要修改數據庫結構，並增加配套的測試用例。

1、代碼倉庫 https://github.com/simonw/llm 是一個 AI 對話應用，它將用戶的提示和 AI 的響應存儲在 SQLite 數據庫中。

2、它目前使用線性集合，保存單個對話和響應。你嘗試在響應表中添加一個 parentresponseid 列，並通過該列將對話的響應建模為樹狀結構。

3、編寫新的 pytest 測試用例，驗證你的設計。

4、編寫一個 tree_notes.md 文件，首先將你的設計寫入該文件，然後在運行過程中將該文件用作筆記。

這個任務比較複雜，運行時間稍微長一點。

這裡有一個插曲。在運行過程中，它突然提示讀取 GitHub 倉庫沒有成功，這時出現了我意外不到的一幕。

它竟自動切換到第三方的 deepwiki.com 去獲取倉庫。後面，分析數據庫結構時，它又切換到 datasette.io 去分析 SQLite 數據庫。這種第三方雲服務的自動切換，我也是第一次見，可惜沒來得及截圖。

任務完成後，它給出了一段總結（下圖），詳細描述了它做了哪些事情，包括修改數據庫、新增測試用例等等。