하나.
지난 달에 저는 썼습니다.기사 한편두 대형 모델을 비교했습니다.
누군가 댓글을 남기며, 두 모델이 너무 적다고 하며 다른 모델을 추가할 수 있을까요?
정확히 지난 주(10월 27일), MiniMax 회사발행되었습니다M2 모델은 국산 대형 모델의 최신 수준을 대표합니다.

저는 그것의 실전 효과를 측정하고, 지프쿡 회사의 GLM 4.6과 애너트릭 회사의 Claude Sonnet 4.5와 비교해보고 싶어요.
결국 그들은 현재 가장 선진적인 프로그래밍 대형 모델에 속해 있으며, 우리 개발자들과 직접적으로 관련이 있습니다.
2.
먼저 말씀드리자면, 사실 저는 그렇게 잘 알지 못해요.MiniMax 회사()는 비교적 조용합니다.
저는 이 회사가 대형 모델을 전문으로 개발하며, 텍스트 모델, 비디오 모델, 오디오 모델 등의 제품이 있지만, 모두 매우 인기가 많지 않다고만 알고 있습니다. 따라서 저는 특별히 주의를 기울이지 않았습니다.
지난 주, 저는 트위터를 사용하면서 몇몇 외국인이(1、2、3) 이야기하고 있다는 것을 보고, MiniMax가 새로운 정점 모델 M2를 출시했다는 것을 알게 되었습니다.

그 위에서 말하는 사람는 HuggingFace 대형 모델 커뮤니티의 책임자로, M2 모델이 Artificial Analysis 성능 평가에서 세계 5위, 오픈소스 모델 1위를 기록했다고 언급했습니다.
당일 HuggingFace 인기 순위에서도 1위를 차지했습니다.

OpenRouter의 대형 모델 글로벌 호출량 순위에서는 이번 주 3위에 올랐습니다.

저도 관심이 생겨서 잘 사용해보기로 했습니다.
三、
MiniMax 회사의 설명에 따르면, M2 모델은 프로그래밍 능력이 특히 뛰어나며 현재 최고의 프로그래밍 모델 중 하나입니다.
사람들은 국제적으로 가장 인기 있는 프로그래밍 모델이 현재 Claude Sonnet 4.5이며, 국내의 GLM 4.6 모델도 강력하다는 것을 알고 있습니다. 저는 이 세 가지를 함께 비교해보았습니다.
쉽게 말해, 저는 공식 웹사이트(국내 버전에서해외 버전)에서 직접 테스트를 실행했고, 여러분도 함께 시도해 보세요.

웹사이트는 실제로 공식 인공지능 제품인 MiniMax Agent이며, 하드웨어는 M2 모델을 사용합니다.
웹사이트 사용은 무료이며, API 호출도 현재 무료 기간(무료 기간)으로, 두 주 동안입니다. 이후 가격은 백만 tokens 입력/출력에 2.1위안/8.4위안 중국 위안입니다. 공식 홍보에 따르면 클라우드 가격의 8%에 불과합니다.
그의 다른 링크도 나열해 드리겠습니다.문서 저장소는 GitHub에 있으며, API 호출 가이드(OpenAI와 Anthropic 형식과 호환됨)은 공식 문서를 참조하세요. 모델 다운로드는 HuggingFace에 있으며, 다운로드 후 로컬에서 배포하여 사용할 수 있습니다(조건이 허용되면)。
4.
제 테스트 문제는 유명 프로그래머 시몬 윌리슨(Simon Willison)에서 제공하며, 그의 웹사이트에는 Cluase Sonnet 4.5의 테스트 결과가 있습니다.
이전에 저는 이 문제들을 사용하여 지혜사의 GLM 4.6 모델을 테스트했으며, 여러분도 참고할 수 있습니다.입니다.
본 글은 주로 MiniMax M2의 테스트 성능에 대해 다루고 있습니다.
5.
첫 번째 문제는 모델이 코드를 이해하고 실행하는 능력을 테스트합니다.
코드 리포지토리를 https://github.com/simonw/llm에서 가져오고, 다음 명령어로 테스트 케이스를 실행합니다.
pip install -e '.[test]'
pytest
위의 명령어는 모델이 파이썬 리포지토리를 가져와서 그 안의 테스트 케이스를 실행하고 결과를 반환하도록 요구합니다.
웹 페이지의 표시를 보면, Minimax Agent는 명백히 사보이(Sandbox)를 내장하고 있으며, 분리된 환경의 명령 프롬프트에서 코드를 실행합니다(아래 그림).

전체 실행 과정은 약 세 분 정도였고, 그 결과를 보니 466개의 테스트 케이스가 통과했다고 나왔다. 이 결과는 완벽하게 정확했다.

놀랍게도 실행 결과 외에도 커버리지 분석(아래 그림)을 제공해주어 테스트 케이스가 코드의 어떤 기능을 커버했는지 보여주었다. 다른 모델에서는 처음으로 이렇게 커버리지를 능동적으로 제공하는 것을 봤다.

전체 대화는 에서 확인할 수 있다.
6.
두 번째 문제로, 가장 신경 쓰는 코드 생성 능력을 테스트해보고, 요구사항에 따라 애플리케이션을 생성할 수 있는지 확인했다.
여전히 이전에 사용했던 저장소를 사용했고, M2에게 기능을 추가하도록 요청했다. 이는 코드를 수정하는 것 외에도 데이터베이스 구조를 변경하고, 관련 테스트 케이스를 추가해야 하는 작업이었다.
1. 코드 저장소 https://github.com/simonw/llm는 AI 대화 애플리케이션으로, 사용자의 입력과 AI의 응답을 SQLite 데이터베이스에 저장합니다.
2. 현재는 선형 집합을 사용하여 개별 대화와 응답을 저장하고 있습니다. 응답 테이블에 parentresponseid 열을 추가하여 대화의 응답을 트리 구조로 모델링하려고 시도했습니다.
3. 새로운 pytest 테스트 케이스를 작성하여 설계를 검증하세요.
4. tree_notes.md 파일을 작성하고, 먼저 설계를 파일에 기록한 다음, 실행 중에 노트로 사용하세요.
이 작업은 상대적으로 복잡하여 실행 시간이 조금 더 길 수 있습니다.
여기서는 예상치 못한 사건이 발생했습니다. 실행 중에 GitHub 저장소 읽기가 성공하지 않았다는 메시지가 표시되었고, 이때 예상치 못한 장면이 나타났습니다.
그것이 자동으로 세 번째의 deepwiki.com으로 전환하여 저장소를 가져갔습니다. 이후, 데이터베이스 구조를 분석할 때는 datasette.io로 전환하여 SQLite 데이터베이스를 분석했습니다. 이러한 세 번째 쪽云 서비스의 자동 전환은 처음 보는 일이었지만, 스크린샷을 찍기 전에 시간이 없었습니다.
작업이 완료되었을 때, 그것은 요약(아래 그림)을 제공했으며, 어떤 일을 했는지 상세히 설명했습니다. 이는 데이터베이스를 수정하고 테스트 사례를 추가하는 등의 작업을 포함합니다.

그것은 심지어 예제 파일(아래 그림)을 추가하여 새로운 기능을 어떻게 사용하는지 보여주었고, 수정된 대화 구조를 보여주는 예제 그림도 있었는데, 힌트 단어에는 그런 것을 요구하지 않았습니다.

완전한 대화는 여기서 확인할 수 있습니다.
또한, 공식 웹사이트의 갤러리 에는 그것이 생성한 많은 애플리케이션이 있는데, 이것도 한번 보는 것이 좋다고 생각합니다.
칠,
세 번째 문제는 시몬·와일리슨이 발명한 "오리가 자전거를 타는" 장면으로, 그의 이해와 추론 능력을 테스트합니다.
오리가 자전거를 타는 SVG 이미지를 생성합니다. (Generate an SVG of a pelican riding a bicycle)
이는 현실에 존재하지 않는 상황으로, 모델이 스스로 추론해 내야 합니다. 이해 능력이 클수록 생성된 이미지가 더 사실적입니다.
아래는 그가 생성한 결과입니다. 전체 대화는 에서 확인할 수 있습니다. .

비교를 위해 나머지 두 모델의 결과도 함께 올립니다.
GLM 4.6

Claude Sonnet 4.5

나는, MiniMax M2의 결과(첫 번째 이미지)가 두 가지 흥미로운 점이 있다고 생각합니다. 첫째, 도로를 추가했고, 둘째, 자전거 구조가 상대적으로 더 완전하지만, 핸들을 빼먹은 것뿐입니다. 또한, 그 새우의 자세가 좀 더 '달리는 것처럼' 보였으면 좋았을 것입니다.
8.
테스트는 여기까지입니다. GLM 4.6 와 Claude Sonnet 4.5의 결과 비교는 각자의 링크를 참고하여 직접 비교해 보세요.
솔직히 말해야 하지만, MiniMax M2의 성과는 제 예상을 뛰어넘었습니다.
제가 가장 매력을 느끼는 부분은 실행 결과 자체가 아니라 문제를 처리하는 방식이며, 사용자에게 매우 친절해서 이해를 돕는 보조 결과를 추가해주어 사용하기 쉽고(접근성 있고) 이해하기 쉽게 만들어줍니다. 이는 결과의 신뢰성을 부각시키는 측면에서도 기여합니다.
저는 다양한 평가 결과들이 실제로 M2의 진정한 실력임을 믿을 경향이 있습니다. API 가격(현재는 무료 기간)을 고려할 때, 앞으로의 작업에서 이를 사용할 것이며, 다들 시도해보길 추천합니다.
(완)


























