大模型比拼：MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5

一、

上个月，我写了一篇文章，比较了两个大模型。

就有人留言，两个模型太少了，能不能加入其他模型？

正好上周（10月27日），MiniMax 公司发布了 M2 模型，代表了国产大模型的最新水平。

我就想，可以测测它的实战效果，跟智谱公司的 GLM 4.6 和 Anthropic 公司的 Claude Sonnet 4.5 对比一下。

毕竟它们都属于目前最先进的编程大模型，跟我们开发者切身相关。

二、

先要说明，其实我不太熟悉 MiniMax 公司，它比较低调。

我只知道，这家公司专门研发大模型，产品有文本模型、视频模型、音频模型等等，但都不是非常热门。我就没有特别关注。

上周，我在滑推特的时候，看到一些老外在议论（1、2、3），这才知道 MiniMax 发布了新的旗舰模型 M2。

上面说话的这个人是 HuggingFace 大模型社区的负责人，提到了 M2 模型在 Artificial Analysis 性能评比之中排名世界第五，开源模型第一。

当天的 HuggingFace 热度榜上，它也是第一名。

OpenRouter 的大模型全球调用量排名，它这周排在第三。

我就来了兴趣，准备好好试用一下。

三、

根据 MiniMax 公司的说明，M2 模型的编程能力特别强，是目前最优秀的编程模型之一。

大家知道，国际上最流行的编程模型现在是 Claude Sonnet 4.5，国内的 GLM 4.6 模型也很强，我就把它们三个放在一起对比。

简单起见，我就直接在官方的网页版（国内版，国外版）上运行测试，大家可以跟着一起动手试试看。

网页版实际是官方的智能体产品 MiniMax Agent，底层用的就是 M2 模型。

网页使用是免费的，API 调用现在也是免费期，为期两周。后面定价是百万 tokens 输入/输出 2.1元/8.4元人民币，官方宣传只有 Claude 价格的8%。

它的其他链接，我也列一下，文档仓库在 GitHub，API 调用指南（兼容 OpenAI 和 Anthopic 格式）看官方文档，模型下载在 HuggingFace，下载以后可以本地部署使用（如果条件允许）。

四、

我的测试题来自著名程序员西蒙·威利森（Simon Willison），他的网站有 Cluase Sonnet 4.5 的测试结果。

此前，我用这些题目测过智谱公司的 GLM 4.6 模型，大家可以参考。

本文主要是 MiniMax M2 的测试表现。

五、

第一题，测试模型理解和运行代码的能力。

拉取代码仓库 https://github.com/simonw/llm ，然后通过下面的命令运行测试用例。

pip install -e '.[test]'
pytest

上面的提示词要求模型抓取一个 Python 仓库，运行里面的测试用例，并返回结果。

从网页的显示来看，Minimax Agent 显然内置了沙盒，会在隔离环境的命令行下运行代码（下图）。

整个运行过程大约三分钟，然后它给出了结果：运行通过了466个测试用例。这个结果完全正确。

令我惊喜的是，除了运行结果，它还给出了覆盖率分析（下图），指出测试用例覆盖了代码的哪些功能。我还没在其他模型见过主动提供覆盖率的。

完整的对话看这里。

六、

第二题，测试大家最关心的代码生成能力，看看它能不能按照要求生成应用程序。

我还是使用上面的仓库，要求 M2 为其增加一个功能，不仅需要修改代码，还需要修改数据库结构，并增加配套的测试用例。

1、代码仓库 https://github.com/simonw/llm 是一个 AI 对话应用，它将用户的提示和 AI 的响应存储在 SQLite 数据库中。

2、它目前使用线性集合，保存单个对话和响应。你尝试在响应表中添加一个 parentresponseid 列，并通过该列将对话的响应建模为树状结构。

3、编写新的 pytest 测试用例，验证你的设计。

4、编写一个 tree_notes.md 文件，首先将你的设计写入该文件，然后在运行过程中将该文件用作笔记。

这个任务比较复杂，运行时间稍微长一点。

这里有一个插曲。在运行过程中，它突然提示读取 GitHub 仓库没有成功，这时出现了我意外不到的一幕。

它竟自动切换到第三方的 deepwiki.com 去获取仓库。后面，分析数据库结构时，它又切换到 datasette.io 去分析 SQLite 数据库。这种第三方云服务的自动切换，我也是第一次见，可惜没来得及截图。

任务完成后，它给出了一段总结（下图），详细描述了它做了哪些事情，包括修改数据库、新增测试用例等等。