一、
曩月,吾撰文一篇,较二大模型。
遂有留言,谓二模型甚寡,可增他模型否?
适值上周(十月廿七日),MiniMax 公司揭 M2 模型,代表国产大模型之新境。

吾思之,可试其实战之效,较智谱公司之 GLM 4.6 与 Anthropic 公司之 Claude Sonnet 4.5。
盖其皆属今世最先进之编程大模型,与吾辈开发者息息相关。
二、
先须明言,实吾于__JHSNS_SEG_aad658e4_11__颇生疏MiniMax公司(MiniMax)其性沉静。
吾知此公司专研大模,产有文模、视模、音模等,然皆非盛名,故吾未甚留意。
上周,余游于推特,睹有老外议之。一、二、三),方知 MiniMax 释新旗舰 M2。

上方言者者,HuggingFace大模型社区之主也,言M2模型于Artificial Analysis之能试,列世界第五,开源模型独冠。
是日,HuggingFace之热榜,亦居首焉。

OpenRouter之大模型全球调用,本周亦列第三。

余闻之,甚感兴趣,欲试之。
三、
MiniMax公司言,M2模型之编程之能,尤为卓绝,乃当今最优之编程模型者。
世人所知,国际流行之编程模型,今为Claude Sonnet 4.5,国内GLM 4.6模型亦强,余遂并此三者而较之。
为简明计,吾直于官之网页版(国版。海外版)于上试之,众皆可随而为之。

网页版实乃官方之智能体产品也。极小极大代理,其下所用者,M2模型也。
网页使用无费,API调用今亦然。免期为期两周。其后定价为百万 tokens 输入/输出,计人民币二点一元/八点四元,官方称此价仅及 Claude 之八。
其佚事,吾亦列之。文档仓库于 GitHub,API 调用指南(兼容 OpenAI 与 Anthropic 格式)可阅官方之文,模型下载于 HuggingFace,下载既可于本地部署(若条件允)。
四、
吾之测试题,源自名程序员西蒙·威利森(Simon Willison),其网站有 Cluase Sonnet 4.5 之测试结果。
曩者,吾以是题测智谱公司之 GLM 4.6 模型,诸君可资参考。。
是论 MiniMax M2 之试演。
五、
首题,试模型之解行代码。
引代码之库 https://github.com/simonw/llm ,乃以下命运行试例。
pip install -e '.[test]'
pytest
上之提示,令模型取一 Python 之库,行其中试例,并返其果。
观网页所示,Minimax Agent 必具沙盒,于隔离之命令行中运行代码(下图)。

其运行约三刻,乃示结果:通试四百六十六案。此果无谬。

吾惊喜者,非惟运行之果,复呈覆析之图(下图),明试案所覆代码之功能。未尝见他模主动示此。

全对之语观此间。
六、
次题,试众所重之码生之能,观其能否依求生应用之程。
吾仍用前所仓,求M2增一功能,非惟易码,亦须改库之构,并增相配之试案。
一、代码仓库https://github.com/simonw/llm乃AI对话之应用,能存用户之提示与AI之应于SQLite数据库中。
二、今以线性集合存单对话与应答。尔试于应答表中增一列,名曰 parentresponseid,以该列构对话应答为树状之形。
三、撰新 Pytest 测试之例,以验吾之设计。
四、撰《tree_notes.md》之文,初书其设计于斯,继以之为笔记,用诸运行之际。
此任较繁,运行稍久。
此处有段插曲。行进之际,忽报读取 GitHub 仓库不果,遂现吾意料之外之景。
竟自切换至第三方之deepwiki.com,以取其库。其后,析数据库结构时,复切换至datasette.io,以析SQLite之数据库。此第三方云服务之自切换,吾亦初见,惜未及截图。
任务既成,乃给出一段总结(下图),详述所为之事,如改数据库、增测试用例等。

其甚至增一示例文件(下图),示新增功能之用法,复有一示例图,示修改后之对话结构,而提示词中未尝要求其如此。

完整对话观此。
复有,官网之画廊多其所生之应用,吾以为亦堪一看。
七
第三题乃西蒙·威利森所创"鹈鹕骑自行车"之境,以验其识解推度之能。
生成鹈鹕骑自行车的 SVG 图像。
此乃现实中未尝有之景,全赖模型自推理而成。理解之力愈强,所生之象愈逼真。
此乃其生成之果,全貌对话观之。此地。

为较之,余亦附二模型之果于下。
GLM 四点六

克劳德十四行诗第四五

吾以为,MiniMax M2之果(第一图)有二事堪注。首者,增道路焉;次者,其自行车之构较全,惟缺握柄耳。复者,若鹈鹕之姿更肖"骑车"之态,则愈善矣。
八
测试止此,至于GLM 四点六与克劳德十四行诗第四五其结果之较,诸君可察其各自之链,自行参详。
吾必直言也。MiniMax M2 之表现,胜乎吾之预期。。
吾所慕者,非其运行之果,乃其处事之道也。待人以和,辅以明示,使人易用(accessible)而易晓,此亦增其成事之信也。
吾信诸评实为 M2 之真力。况其 API 之价(今犹免费),吾将用之於后,亦荐诸君一试。
(竟)


























