慣性聚合 高效追蹤和閱讀你感興趣的部落格、新聞、科技資訊
閱讀原文 在慣性聚合中打開

推薦訂閱源

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

阮一峰的网络日志

暫無文章

大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5
阮一峰 · 2025-11-04 · via 阮一峰的网络日志

一、

上個月,我寫了一篇文章,比較了兩個大模型。

就有人留言,兩個模型太少了,能不能加入其他模型?

正好上週(10月27日),MiniMax 公司發佈了 M2 模型,代表了國產大模型的最新水平。

我就想,可以測測它的實戰效果,跟智譜公司的 GLM 4.6 和 Anthropic 公司的 Claude Sonnet 4.5 對比一下。

畢竟它們都屬於目前最先進的編程大模型,跟我們開發者切身相關。

二、

先要說明,其實我不太熟悉 MiniMax 公司,它比較低調。

我只知道,這家公司專門研發大模型,產品有文本模型、視頻模型、音頻模型等等,但都不是非常熱門。我就沒有特別關注。

上週,我在滑推特的時候,看到一些老外在議論(123),這才知道 MiniMax 發佈了新的旗艦模型 M2。

上面說話的這個人是 HuggingFace 大模型社區的負責人,提到了 M2 模型在 Artificial Analysis 性能評比之中排名世界第五,開源模型第一。

當天的 HuggingFace 熱度榜上,它也是第一名。

OpenRouter 的大模型全球調用量排名,它這周排在第三。

我就來了興趣,準備好好試用一下。

三、

根據 MiniMax 公司的說明,M2 模型的編程能力特別強,是目前最優秀的編程模型之一。

大家知道,國際上最流行的編程模型現在是 Claude Sonnet 4.5,國內的 GLM 4.6 模型也很強,我就把它們三個放在一起對比。

簡單起見,我就直接在官方的網頁版(國內版國外版)上運行測試,大家可以跟著一起動手試試看。

網頁版實際是官方的智能體產品 MiniMax Agent,底層用的就是 M2 模型。

網頁使用是免費的,API 調用現在也是免費期,為期兩週。後面定價是百萬 tokens 輸入/輸出 2.1元/8.4元人民幣,官方宣傳只有 Claude 價格的8%。

它的其他鏈接,我也列一下,文檔倉庫在 GitHub,API 調用指南(兼容 OpenAI 和 Anthopic 格式)看官方文檔,模型下載在 HuggingFace,下載以後可以本地部署使用(如果條件允許)。

四、

我的測試題來自著名程序員西蒙·威利森(Simon Willison),他的網站有 Cluase Sonnet 4.5 的測試結果

此前,我用這些題目測過智譜公司的 GLM 4.6 模型,大家可以參考

本文主要是 MiniMax M2 的測試表現。

五、

第一題,測試模型理解和運行代碼的能力。

拉取代碼倉庫 https://github.com/simonw/llm ,然後通過下面的命令運行測試用例。

pip install -e '.[test]'
pytest

上面的提示詞要求模型抓取一個 Python 倉庫,運行裡面的測試用例,並返回結果。

從網頁的顯示來看,Minimax Agent 顯然內置了沙盒,會在隔離環境的命令行下運行代碼(下圖)。

整個運行過程大約三分鐘,然後它給出了結果:運行通過了466個測試用例。這個結果完全正確。

令我驚喜的是,除了運行結果,它還給出了覆蓋率分析(下圖),指出測試用例覆蓋了代碼的哪些功能。我還沒在其他模型見過主動提供覆蓋率的。

完整的對話看這裡

六、

第二題,測試大家最關心的代碼生成能力,看看它能不能按照要求生成應用程序。

我還是使用上面的倉庫,要求 M2 為其增加一個功能,不僅需要修改代碼,還需要修改數據庫結構,並增加配套的測試用例。

1、代碼倉庫 https://github.com/simonw/llm 是一個 AI 對話應用,它將用戶的提示和 AI 的響應存儲在 SQLite 數據庫中。

2、它目前使用線性集合,保存單個對話和響應。你嘗試在響應表中添加一個 parentresponseid 列,並通過該列將對話的響應建模為樹狀結構。

3、編寫新的 pytest 測試用例,驗證你的設計。

4、編寫一個 tree_notes.md 文件,首先將你的設計寫入該文件,然後在運行過程中將該文件用作筆記。

這個任務比較複雜,運行時間稍微長一點。

這裡有一個插曲。在運行過程中,它突然提示讀取 GitHub 倉庫沒有成功,這時出現了我意外不到的一幕。

它竟自動切換到第三方的 deepwiki.com 去獲取倉庫。後面,分析數據庫結構時,它又切換到 datasette.io 去分析 SQLite 數據庫。這種第三方雲服務的自動切換,我也是第一次見,可惜沒來得及截圖。

任務完成後,它給出了一段總結(下圖),詳細描述了它做了哪些事情,包括修改數據庫、新增測試用例等等。

它甚至增加了一個示例文件(下圖),演示新增的功能怎麼用,還有一個示例圖,演示修改後的對話結構,提示詞裡面可沒要求它這麼做。

完整的對話看這裡

另外,官網的畫廊有很多它生成的應用,我覺得也值得看一下。

七、

第三題就是西蒙·威利森發明的"鵜鶘騎自行車"場景,測試它的理解和推理能力。

生成鵜鶘騎自行車的 SVG 圖片。(Generate an SVG of a pelican riding a bicycle)

這是現實中不存在的情景,全靠模型自己推理出來。理解能力越強,生成的圖像就越逼真。

下面就是它生成的結果,完整的對話看這裡

作為比較,我把另外兩個模型的結果也貼出來。

GLM 4.6

Claude Sonnet 4.5

我覺得,MiniMax M2 的結果(第一張圖片)有兩個值得注意的地方。首先,它添加了道路;其次,它的自行車結構相對更完整,只是缺了握把。另外,要是那隻鵜鶘的姿勢更像"騎車"就好了。

八、

測試就到這裡,至於 GLM 4.6Claude Sonnet 4.5 的結果對比,大家可以看它們各自的鏈接,自行比較。

我必須誠實地說,MiniMax M2 的表現超出了我的預期

最吸引我的地方,還不是運行結果本身,而是它處理問題的方式,對用戶很友好,會添加一些幫助理解的輔助結果,讓你覺得很易用(accessible)也很易懂,這也從側面增強了生成結果的可靠性。

我傾向於相信,各種評測結果確實是 M2 的真實實力。再考慮到它的 API 價格(現在還是免費期),我會在接下來的工作中使用它,也推薦大家試試看。

(完)