인셔셔RSS 관심 있는 블로그, 뉴스, 기술 정보를 효율적으로 추적하고 읽으세요
원문 읽기 InertiaRSS에서 열기

추천 피드

OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
C
CERT Recently Published Vulnerability Notes
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Latest news
Latest news
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
The Hacker News
The Hacker News
Malwarebytes
Malwarebytes
G
GRAHAM CLULEY
P
Privacy International News Feed
Spread Privacy
Spread Privacy
S
Schneier on Security
V
V2EX
V
Vulnerabilities – Threatpost
Project Zero
Project Zero
Cisco Talos Blog
Cisco Talos Blog
T
Threat Research - Cisco Blogs
罗磊的独立博客
B
Blog RSS Feed
Stack Overflow Blog
Stack Overflow Blog
F
Fortinet All Blogs
Recent Announcements
Recent Announcements
S
Securelist
阮一峰的网络日志
阮一峰的网络日志
SecWiki News
SecWiki News
aimingoo的专栏
aimingoo的专栏
宝玉的分享
宝玉的分享
C
Cybersecurity and Infrastructure Security Agency CISA
IT之家
IT之家
Schneier on Security
Schneier on Security
MyScale Blog
MyScale Blog
李成银的技术随笔
Know Your Adversary
Know Your Adversary
人人都是产品经理
人人都是产品经理
I
Intezer
Vercel News
Vercel News
有赞技术团队
有赞技术团队
博客园 - 三生石上(FineUI控件)
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
F
Fox-IT International blog
V
Visual Studio Blog
Simon Willison's Weblog
Simon Willison's Weblog
Cyberwarzone
Cyberwarzone
博客园 - Franky
S
Secure Thoughts
L
LINUX DO - 热门话题
The Cloudflare Blog
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
The Register - Security
The Register - Security
T
Threatpost
博客园 - 司徒正美

阮一峰的网络日志

科技爱好者周刊(第 397 期):财富正在向 AI 集中 科技爱好者周刊(第 397 期):财富正在向 AI 集中 科技爱好者周刊(第 396 期):互联网通信的替代方案 科技爱好者周刊(第 396 期):互联网通信的替代方案 - 阮一峰的网络日志 科技爱好者周刊(第 395 期):软件开发的第三种方式 科技爱好者周刊(第 395 期):软件开发的第三种方式 - 阮一峰的网络日志 科技爱好者周刊(第 394 期):第二次 API 开放浪潮 科技爱好者周刊(第 393 期):脑腐状态 科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术 科技爱好者周刊(第 391 期):AI 的贫富分化 科技爱好者周刊(第 390 期):没有语料,大模型就是智障 套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云 科技爱好者周刊(第 389 期):未来如何招聘程序员 科技爱好者周刊(第 388 期):测试是新的护城河 零安装的"云养虾":ArkClaw 使用指南 科技爱好者周刊(第 387 期):你是领先的 科技爱好者周刊(第 386 期):当外卖员接入 AI 字节全家桶 Seed 2.0 + TRAE 玩转 Skill 科技爱好者周刊(第 385 期):马斯克害怕中国车企吗? 智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex 科技爱好者周刊(第 384 期):为什么软件股下跌 科技爱好者周刊(第 383 期):你是第几级 AI 编程 Kimi 的一体化,Manus 的分层 科技爱好者周刊(第 382 期):独立软件的黄昏 AI native Workspace 也许是智能体的下一阶段 科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益" 科技爱好者周刊(第 379 期):《硅谷钢铁侠》摘录 我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验 科技爱好者周刊(第 378 期):预测是新的互联网热点 科技爱好者周刊(第 377 期):14万美元的贫困线 科技爱好者周刊(第 376 期):太空数据中心的争议 科技爱好者周刊(第 375 期):一扇门的 Bug 终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了 科技爱好者周刊(第 374 期):6GHz 的问题 VS Code 使用国产大模型 MiniMax M2 教程 科技爱好者周刊(第 373 期):数据模型是新产品的核心 国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例 科技爱好者周刊(第 372 期):软件界面如何设计 科技爱好者周刊(第 371 期):一个乐观主义者的专访 科技爱好者周刊(第 370 期):正确的代码高亮 错误处理:异常好于状态码 科技爱好者周刊(第 369 期):Tim 与罗永浩的对谈 科技爱好者周刊(第 368 期):不要这样管理软件团队 一天之内,智谱和 Anthropic 都发了最强编程模型 科技爱好者周刊(第 367 期):Nano Banana 的几个妙用 科技爱好者周刊(第 366 期):旧金山疯狂的 AI 广告 科技爱好者周刊(第 365 期):流量变现正在崩塌 科技爱好者周刊(第 364 期):最难还原的魔方 科技爱好者周刊(第 363 期):最好懂的神经网络解释
대형 모델 경쟁: MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5
阮一峰 · 2025-11-04 · via 阮一峰的网络日志

하나.

지난 달에 저는 썼습니다.기사 한편두 대형 모델을 비교했습니다.

누군가 댓글을 남기며, 두 모델이 너무 적다고 하며 다른 모델을 추가할 수 있을까요?

정확히 지난 주(10월 27일), MiniMax 회사발행되었습니다M2 모델은 국산 대형 모델의 최신 수준을 대표합니다.

저는 그것의 실전 효과를 측정하고, 지프쿡 회사의 GLM 4.6과 애너트릭 회사의 Claude Sonnet 4.5와 비교해보고 싶어요.

결국 그들은 현재 가장 선진적인 프로그래밍 대형 모델에 속해 있으며, 우리 개발자들과 직접적으로 관련이 있습니다.

2.

먼저 말씀드리자면, 사실 저는 그렇게 잘 알지 못해요.MiniMax 회사()는 비교적 조용합니다.

저는 이 회사가 대형 모델을 전문으로 개발하며, 텍스트 모델, 비디오 모델, 오디오 모델 등의 제품이 있지만, 모두 매우 인기가 많지 않다고만 알고 있습니다. 따라서 저는 특별히 주의를 기울이지 않았습니다.

지난 주, 저는 트위터를 사용하면서 몇몇 외국인이(123) 이야기하고 있다는 것을 보고, MiniMax가 새로운 정점 모델 M2를 출시했다는 것을 알게 되었습니다.

그 위에서 말하는 사람는 HuggingFace 대형 모델 커뮤니티의 책임자로, M2 모델이 Artificial Analysis 성능 평가에서 세계 5위, 오픈소스 모델 1위를 기록했다고 언급했습니다.

당일 HuggingFace 인기 순위에서도 1위를 차지했습니다.

OpenRouter의 대형 모델 글로벌 호출량 순위에서는 이번 주 3위에 올랐습니다.

저도 관심이 생겨서 잘 사용해보기로 했습니다.

三、

MiniMax 회사의 설명에 따르면, M2 모델은 프로그래밍 능력이 특히 뛰어나며 현재 최고의 프로그래밍 모델 중 하나입니다.

사람들은 국제적으로 가장 인기 있는 프로그래밍 모델이 현재 Claude Sonnet 4.5이며, 국내의 GLM 4.6 모델도 강력하다는 것을 알고 있습니다. 저는 이 세 가지를 함께 비교해보았습니다.

쉽게 말해, 저는 공식 웹사이트(국내 버전에서해외 버전)에서 직접 테스트를 실행했고, 여러분도 함께 시도해 보세요.

웹사이트는 실제로 공식 인공지능 제품인 MiniMax Agent이며, 하드웨어는 M2 모델을 사용합니다.

웹사이트 사용은 무료이며, API 호출도 현재 무료 기간(무료 기간)으로, 두 주 동안입니다. 이후 가격은 백만 tokens 입력/출력에 2.1위안/8.4위안 중국 위안입니다. 공식 홍보에 따르면 클라우드 가격의 8%에 불과합니다.

그의 다른 링크도 나열해 드리겠습니다.문서 저장소는 GitHub에 있으며, API 호출 가이드(OpenAI와 Anthropic 형식과 호환됨)은 공식 문서를 참조하세요. 모델 다운로드는 HuggingFace에 있으며, 다운로드 후 로컬에서 배포하여 사용할 수 있습니다(조건이 허용되면)。

4.

제 테스트 문제는 유명 프로그래머 시몬 윌리슨(Simon Willison)에서 제공하며, 그의 웹사이트에는 Cluase Sonnet 4.5의 테스트 결과가 있습니다.

이전에 저는 이 문제들을 사용하여 지혜사의 GLM 4.6 모델을 테스트했으며, 여러분도 참고할 수 있습니다.입니다.

본 글은 주로 MiniMax M2의 테스트 성능에 대해 다루고 있습니다.

5.

첫 번째 문제는 모델이 코드를 이해하고 실행하는 능력을 테스트합니다.

코드 리포지토리를 https://github.com/simonw/llm에서 가져오고, 다음 명령어로 테스트 케이스를 실행합니다.

pip install -e '.[test]'
pytest

위의 명령어는 모델이 파이썬 리포지토리를 가져와서 그 안의 테스트 케이스를 실행하고 결과를 반환하도록 요구합니다.

웹 페이지의 표시를 보면, Minimax Agent는 명백히 사보이(Sandbox)를 내장하고 있으며, 분리된 환경의 명령 프롬프트에서 코드를 실행합니다(아래 그림).

전체 실행 과정은 약 세 분 정도였고, 그 결과를 보니 466개의 테스트 케이스가 통과했다고 나왔다. 이 결과는 완벽하게 정확했다.

놀랍게도 실행 결과 외에도 커버리지 분석(아래 그림)을 제공해주어 테스트 케이스가 코드의 어떤 기능을 커버했는지 보여주었다. 다른 모델에서는 처음으로 이렇게 커버리지를 능동적으로 제공하는 것을 봤다.

전체 대화는 에서 확인할 수 있다.

6.

두 번째 문제로, 가장 신경 쓰는 코드 생성 능력을 테스트해보고, 요구사항에 따라 애플리케이션을 생성할 수 있는지 확인했다.

여전히 이전에 사용했던 저장소를 사용했고, M2에게 기능을 추가하도록 요청했다. 이는 코드를 수정하는 것 외에도 데이터베이스 구조를 변경하고, 관련 테스트 케이스를 추가해야 하는 작업이었다.

1. 코드 저장소 https://github.com/simonw/llm는 AI 대화 애플리케이션으로, 사용자의 입력과 AI의 응답을 SQLite 데이터베이스에 저장합니다.

2. 현재는 선형 집합을 사용하여 개별 대화와 응답을 저장하고 있습니다. 응답 테이블에 parentresponseid 열을 추가하여 대화의 응답을 트리 구조로 모델링하려고 시도했습니다.

3. 새로운 pytest 테스트 케이스를 작성하여 설계를 검증하세요.

4. tree_notes.md 파일을 작성하고, 먼저 설계를 파일에 기록한 다음, 실행 중에 노트로 사용하세요.

이 작업은 상대적으로 복잡하여 실행 시간이 조금 더 길 수 있습니다.

여기서는 예상치 못한 사건이 발생했습니다. 실행 중에 GitHub 저장소 읽기가 성공하지 않았다는 메시지가 표시되었고, 이때 예상치 못한 장면이 나타났습니다.

그것이 자동으로 세 번째의 deepwiki.com으로 전환하여 저장소를 가져갔습니다. 이후, 데이터베이스 구조를 분석할 때는 datasette.io로 전환하여 SQLite 데이터베이스를 분석했습니다. 이러한 세 번째 쪽云 서비스의 자동 전환은 처음 보는 일이었지만, 스크린샷을 찍기 전에 시간이 없었습니다.

작업이 완료되었을 때, 그것은 요약(아래 그림)을 제공했으며, 어떤 일을 했는지 상세히 설명했습니다. 이는 데이터베이스를 수정하고 테스트 사례를 추가하는 등의 작업을 포함합니다.

그것은 심지어 예제 파일(아래 그림)을 추가하여 새로운 기능을 어떻게 사용하는지 보여주었고, 수정된 대화 구조를 보여주는 예제 그림도 있었는데, 힌트 단어에는 그런 것을 요구하지 않았습니다.

완전한 대화는 여기서 확인할 수 있습니다.

또한, 공식 웹사이트의 갤러리 에는 그것이 생성한 많은 애플리케이션이 있는데, 이것도 한번 보는 것이 좋다고 생각합니다.

칠,

세 번째 문제는 시몬·와일리슨이 발명한 "오리가 자전거를 타는" 장면으로, 그의 이해와 추론 능력을 테스트합니다.

오리가 자전거를 타는 SVG 이미지를 생성합니다. (Generate an SVG of a pelican riding a bicycle)

이는 현실에 존재하지 않는 상황으로, 모델이 스스로 추론해 내야 합니다. 이해 능력이 클수록 생성된 이미지가 더 사실적입니다.

아래는 그가 생성한 결과입니다. 전체 대화는 에서 확인할 수 있습니다. .

비교를 위해 나머지 두 모델의 결과도 함께 올립니다.

GLM 4.6

Claude Sonnet 4.5

나는, MiniMax M2의 결과(첫 번째 이미지)가 두 가지 흥미로운 점이 있다고 생각합니다. 첫째, 도로를 추가했고, 둘째, 자전거 구조가 상대적으로 더 완전하지만, 핸들을 빼먹은 것뿐입니다. 또한, 그 새우의 자세가 좀 더 '달리는 것처럼' 보였으면 좋았을 것입니다.

8.

테스트는 여기까지입니다. GLM 4.6Claude Sonnet 4.5의 결과 비교는 각자의 링크를 참고하여 직접 비교해 보세요.

솔직히 말해야 하지만, MiniMax M2의 성과는 제 예상을 뛰어넘었습니다.

제가 가장 매력을 느끼는 부분은 실행 결과 자체가 아니라 문제를 처리하는 방식이며, 사용자에게 매우 친절해서 이해를 돕는 보조 결과를 추가해주어 사용하기 쉽고(접근성 있고) 이해하기 쉽게 만들어줍니다. 이는 결과의 신뢰성을 부각시키는 측면에서도 기여합니다.

저는 다양한 평가 결과들이 실제로 M2의 진정한 실력임을 믿을 경향이 있습니다. API 가격(현재는 무료 기간)을 고려할 때, 앞으로의 작업에서 이를 사용할 것이며, 다들 시도해보길 추천합니다.

(완)