慣性聚合 高效追讀感興趣之博客、新聞、科技資訊
閱原文 以慣性聚合開啟

推薦訂閱源

OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
C
CERT Recently Published Vulnerability Notes
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Latest news
Latest news
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
The Hacker News
The Hacker News
Malwarebytes
Malwarebytes
G
GRAHAM CLULEY
P
Privacy International News Feed
Spread Privacy
Spread Privacy
S
Schneier on Security
V
V2EX
V
Vulnerabilities – Threatpost
Project Zero
Project Zero
Cisco Talos Blog
Cisco Talos Blog
T
Threat Research - Cisco Blogs
罗磊的独立博客
B
Blog RSS Feed
Stack Overflow Blog
Stack Overflow Blog
F
Fortinet All Blogs
Recent Announcements
Recent Announcements
S
Securelist
阮一峰的网络日志
阮一峰的网络日志
SecWiki News
SecWiki News
aimingoo的专栏
aimingoo的专栏
宝玉的分享
宝玉的分享
C
Cybersecurity and Infrastructure Security Agency CISA
IT之家
IT之家
Schneier on Security
Schneier on Security
MyScale Blog
MyScale Blog
李成银的技术随笔
Know Your Adversary
Know Your Adversary
人人都是产品经理
人人都是产品经理
I
Intezer
Vercel News
Vercel News
有赞技术团队
有赞技术团队
博客园 - 三生石上(FineUI控件)
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
F
Fox-IT International blog
V
Visual Studio Blog
Simon Willison's Weblog
Simon Willison's Weblog
Cyberwarzone
Cyberwarzone
博客园 - Franky
S
Secure Thoughts
L
LINUX DO - 热门话题
The Cloudflare Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
The Register - Security
The Register - Security
T
Threatpost
博客园 - 司徒正美

阮一峰的网络日志

科技爱好者周刊(第 397 期):财富正在向 AI 集中 科技爱好者周刊(第 397 期):财富正在向 AI 集中 科技爱好者周刊(第 396 期):互联网通信的替代方案 科技爱好者周刊(第 396 期):互联网通信的替代方案 - 阮一峰的网络日志 科技爱好者周刊(第 395 期):软件开发的第三种方式 科技爱好者周刊(第 395 期):软件开发的第三种方式 - 阮一峰的网络日志 科技爱好者周刊(第 394 期):第二次 API 开放浪潮 科技爱好者周刊(第 393 期):脑腐状态 科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术 科技爱好者周刊(第 391 期):AI 的贫富分化 科技爱好者周刊(第 390 期):没有语料,大模型就是智障 套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云 科技爱好者周刊(第 389 期):未来如何招聘程序员 科技爱好者周刊(第 388 期):测试是新的护城河 零安装的"云养虾":ArkClaw 使用指南 科技爱好者周刊(第 387 期):你是领先的 科技爱好者周刊(第 386 期):当外卖员接入 AI 字节全家桶 Seed 2.0 + TRAE 玩转 Skill 科技爱好者周刊(第 385 期):马斯克害怕中国车企吗? 智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex 科技爱好者周刊(第 384 期):为什么软件股下跌 科技爱好者周刊(第 383 期):你是第几级 AI 编程 Kimi 的一体化,Manus 的分层 科技爱好者周刊(第 382 期):独立软件的黄昏 AI native Workspace 也许是智能体的下一阶段 科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益" 科技爱好者周刊(第 379 期):《硅谷钢铁侠》摘录 我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验 科技爱好者周刊(第 378 期):预测是新的互联网热点 科技爱好者周刊(第 377 期):14万美元的贫困线 科技爱好者周刊(第 376 期):太空数据中心的争议 科技爱好者周刊(第 375 期):一扇门的 Bug 终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了 科技爱好者周刊(第 374 期):6GHz 的问题 VS Code 使用国产大模型 MiniMax M2 教程 科技爱好者周刊(第 373 期):数据模型是新产品的核心 国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例 科技爱好者周刊(第 372 期):软件界面如何设计 科技爱好者周刊(第 371 期):一个乐观主义者的专访 科技爱好者周刊(第 370 期):正确的代码高亮 错误处理:异常好于状态码 科技爱好者周刊(第 369 期):Tim 与罗永浩的对谈 科技爱好者周刊(第 368 期):不要这样管理软件团队 一天之内,智谱和 Anthropic 都发了最强编程模型 科技爱好者周刊(第 367 期):Nano Banana 的几个妙用 科技爱好者周刊(第 366 期):旧金山疯狂的 AI 广告 科技爱好者周刊(第 365 期):流量变现正在崩塌 科技爱好者周刊(第 364 期):最难还原的魔方 科技爱好者周刊(第 363 期):最好懂的神经网络解释
大模型较技:MiniMax M2 对比 GLM 4.6 对比 Claude Sonnet 4.5
阮一峰 · 2025-11-04 · via 阮一峰的网络日志

一、

曩月,吾撰文一篇,较二大模型。

遂有留言,谓二模型甚寡,可增他模型否?

适值上周(十月廿七日),MiniMax 公司 M2 模型,代表国产大模型之新境。

吾思之,可试其实战之效,较智谱公司之 GLM 4.6 与 Anthropic 公司之 Claude Sonnet 4.5。

盖其皆属今世最先进之编程大模型,与吾辈开发者息息相关。

二、

先须明言,实吾于__JHSNS_SEG_aad658e4_11__颇生疏MiniMax公司(MiniMax)其性沉静。

吾知此公司专研大模,产有文模、视模、音模等,然皆非盛名,故吾未甚留意。

上周,余游于推特,睹有老外议之。),方知 MiniMax 释新旗舰 M2。

上方言者者,HuggingFace大模型社区之主也,言M2模型于Artificial Analysis之能试,列世界第五,开源模型独冠。

是日,HuggingFace之热榜,亦居首焉。

OpenRouter之大模型全球调用,本周亦列第三。

余闻之,甚感兴趣,欲试之。

三、

MiniMax公司言,M2模型之编程之能,尤为卓绝,乃当今最优之编程模型者。

世人所知,国际流行之编程模型,今为Claude Sonnet 4.5,国内GLM 4.6模型亦强,余遂并此三者而较之。

为简明计,吾直于官之网页版(国版海外版)于上试之,众皆可随而为之。

网页版实乃官方之智能体产品也。极小极大代理,其下所用者,M2模型也。

网页使用无费,API调用今亦然。免期为期两周。其后定价为百万 tokens 输入/输出,计人民币二点一元/八点四元,官方称此价仅及 Claude 之八。

其佚事,吾亦列之。文档仓库于 GitHub,API 调用指南(兼容 OpenAI 与 Anthropic 格式)可阅官方之文,模型下载于 HuggingFace,下载既可于本地部署(若条件允)。

四、

吾之测试题,源自名程序员西蒙·威利森(Simon Willison),其网站有 Cluase Sonnet 4.5 之测试结果

曩者,吾以是题测智谱公司之 GLM 4.6 模型,诸君可资参考

是论 MiniMax M2 之试演。

五、

首题,试模型之解行代码。

引代码之库 https://github.com/simonw/llm ,乃以下命运行试例。

pip install -e '.[test]'
pytest

上之提示,令模型取一 Python 之库,行其中试例,并返其果。

观网页所示,Minimax Agent 必具沙盒,于隔离之命令行中运行代码(下图)。

其运行约三刻,乃示结果:通试四百六十六案。此果无谬。

吾惊喜者,非惟运行之果,复呈覆析之图(下图),明试案所覆代码之功能。未尝见他模主动示此。

全对之语观此间

六、

次题,试众所重之码生之能,观其能否依求生应用之程。

吾仍用前所仓,求M2增一功能,非惟易码,亦须改库之构,并增相配之试案。

一、代码仓库https://github.com/simonw/llm乃AI对话之应用,能存用户之提示与AI之应于SQLite数据库中。

二、今以线性集合存单对话与应答。尔试于应答表中增一列,名曰 parentresponseid,以该列构对话应答为树状之形。

三、撰新 Pytest 测试之例,以验吾之设计。

四、撰《tree_notes.md》之文,初书其设计于斯,继以之为笔记,用诸运行之际。

此任较繁,运行稍久。

此处有段插曲。行进之际,忽报读取 GitHub 仓库不果,遂现吾意料之外之景。

竟自切换至第三方之deepwiki.com,以取其库。其后,析数据库结构时,复切换至datasette.io,以析SQLite之数据库。此第三方云服务之自切换,吾亦初见,惜未及截图。

任务既成,乃给出一段总结(下图),详述所为之事,如改数据库、增测试用例等。

其甚至增一示例文件(下图),示新增功能之用法,复有一示例图,示修改后之对话结构,而提示词中未尝要求其如此。

完整对话观

复有,官网之画廊多其所生之应用,吾以为亦堪一看。

第三题乃西蒙·威利森所创"鹈鹕骑自行车"之境,以验其识解推度之能。

生成鹈鹕骑自行车的 SVG 图像。

此乃现实中未尝有之景,全赖模型自推理而成。理解之力愈强,所生之象愈逼真。

此乃其生成之果,全貌对话观之。此地

为较之,余亦附二模型之果于下。

GLM 四点六

克劳德十四行诗第四五

吾以为,MiniMax M2之果(第一图)有二事堪注。首者,增道路焉;次者,其自行车之构较全,惟缺握柄耳。复者,若鹈鹕之姿更肖"骑车"之态,则愈善矣。

测试止此,至于GLM 四点六克劳德十四行诗第四五其结果之较,诸君可察其各自之链,自行参详。

吾必直言也。MiniMax M2 之表现,胜乎吾之预期。

吾所慕者,非其运行之果,乃其处事之道也。待人以和,辅以明示,使人易用(accessible)而易晓,此亦增其成事之信也。

吾信诸评实为 M2 之真力。况其 API 之价(今犹免费),吾将用之於后,亦荐诸君一试。

(竟)