인셔셔RSS 관심 있는 블로그, 뉴스, 기술 정보를 효율적으로 추적하고 읽으세요
원문 읽기 InertiaRSS에서 열기

추천 피드

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

阮一峰的网络日志

科技爱好者周刊(第 396 期):互联网通信的替代方案 科技爱好者周刊(第 396 期):互联网通信的替代方案 - 阮一峰的网络日志 科技爱好者周刊(第 395 期):软件开发的第三种方式 科技爱好者周刊(第 395 期):软件开发的第三种方式 - 阮一峰的网络日志 科技爱好者周刊(第 393 期):脑腐状态 科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术 科技爱好者周刊(第 391 期):AI 的贫富分化 科技爱好者周刊(第 390 期):没有语料,大模型就是智障 套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云 科技爱好者周刊(第 389 期):未来如何招聘程序员 科技爱好者周刊(第 388 期):测试是新的护城河 零安装的"云养虾":ArkClaw 使用指南 科技爱好者周刊(第 387 期):你是领先的 科技爱好者周刊(第 386 期):当外卖员接入 AI 字节全家桶 Seed 2.0 + TRAE 玩转 Skill 科技爱好者周刊(第 385 期):马斯克害怕中国车企吗? 智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex 科技爱好者周刊(第 384 期):为什么软件股下跌 科技爱好者周刊(第 383 期):你是第几级 AI 编程 Kimi 的一体化,Manus 的分层 科技爱好者周刊(第 382 期):独立软件的黄昏 AI native Workspace 也许是智能体的下一阶段 科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益" 科技爱好者周刊(第 379 期):《硅谷钢铁侠》摘录 我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验 科技爱好者周刊(第 378 期):预测是新的互联网热点 科技爱好者周刊(第 377 期):14万美元的贫困线 科技爱好者周刊(第 376 期):太空数据中心的争议 科技爱好者周刊(第 375 期):一扇门的 Bug 终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了 科技爱好者周刊(第 374 期):6GHz 的问题 VS Code 使用国产大模型 MiniMax M2 教程 科技爱好者周刊(第 373 期):数据模型是新产品的核心 国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例 科技爱好者周刊(第 372 期):软件界面如何设计 大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5 科技爱好者周刊(第 371 期):一个乐观主义者的专访 科技爱好者周刊(第 370 期):正确的代码高亮 错误处理:异常好于状态码 科技爱好者周刊(第 369 期):Tim 与罗永浩的对谈 科技爱好者周刊(第 368 期):不要这样管理软件团队 科技爱好者周刊(第 367 期):Nano Banana 的几个妙用 科技爱好者周刊(第 366 期):旧金山疯狂的 AI 广告 科技爱好者周刊(第 365 期):流量变现正在崩塌 科技爱好者周刊(第 364 期):最难还原的魔方 科技爱好者周刊(第 363 期):最好懂的神经网络解释 科技爱好者周刊(第 362 期):GitHub 工程师谈系统设计 科技爱好者周刊(第 361 期):暗网 Tor 安全吗? 科技爱好者周刊(第 360 期):Dan Wang 的新书
하루 안에 지포스와 Anthropic 모두 최고의 프로그래밍 모델을 발표했습니다.
阮一峰 · 2025-10-01 · via 阮一峰的网络日志

1,

휴가 전 마지막 날(9월 30일), 정말 붐빌었다.

오전에 Anthropic 회사는 Claude Sonnet 4.5 모델을 발표했다.

오후에는 지혜사회 회사가 GLM 4.6 모델을 발표했다.

내가 생각하기에, 개발자들에게 이 동향은 중요하다.

왜냐하면 이 두 모델은 현재 가장 최첨단 AI 프로그래밍 모델에 속하기 때문이다. AI가 코드를 생성하고 싶다면 이것들이 최우선이다.

즉, 하루 안에 AI 프로그래밍 모델이 다시 한 번 새로운 높이에 도달했다는 의미다.

2,

Anthropic이 발표를 내리자마자 첫 문장에서 "세계 최고"라는 말을 세 번 사용하며 겸손하지 않았습니다.

"Claude Sonnet 4.5는 세계에서 가장 좋은 코드 모델입니다. 복잡한 에이전트를 구축하는 데 가장 강력한 모델입니다. 컴퓨터를 사용하는 데 가장 좋은 모델입니다. 추론과 수학 분야에서 두드러진 발전을 보여줍니다."

지푸는 발표도 자신감을 보이지 않습니다.

"우리는 다시 대형 모델의 능력 경계를 극복했습니다.

GLM-4.6은 우리가 가장 강력한 코드 Coding 모델입니다 (GLM-4.5 대비 27% 향상). 실제 프로그래밍, 긴 컨텍스트 처리, 추론 능력, 정보 검색, 작성 능력 및 에이전트 적용 등 여러 면에서 전반적인 향상을 이루었습니다."

인정받게 하기 위해 지푸는 발표를 한 번 더 제시했습니다.

위 그림은 총 8개의 테스트 기준 결과 그래프입니다. 각 그래프의 파란색 막대는 GLM-4.6이고, 녹색 막대는 GLM-4.5입니다. 대조군은 어제 발표한 DeepSeek V3.2 Exp, Claude sonnet 4, Claude sonnet 4.5입니다.

보아서는, 파란색 막대가 대부분 1위를 차지했으며, 심지어 1위를 기록했습니다. 지푸라기는 또한 GLM-4.6이 토큰을 아주 절약한다고 주장하며, "GLM-4.5보다 30% 이상 절약하여 동급 모델 중 가장 저렴합니다"라고 말합니다.

따라서 그 결론은 다음과 같습니다: "GLM-4.6은 일부 목록에서 Claude Sonnet 4/Claude Sonnet 4.5와 일치하며, 국산 모델 1위를 차지합니다."

이것은 흥미로운데, 하나는 "세계에서 가장 좋은 코드 모델"이라고 자처하고, 다른 하나는 "국산 모델 1위를 차지하고 있다"고 말합니다.

아래에서 저는 테스트를 진행하겠습니다. GLM-4.6이 Claude sonnet 4.5보다 어떤지 비교해 보겠습니다.

3.

설명해야 할 점은, 이 두 모델의 비교가 완전히 테스트를 위한 것은 아니며 실질적인 의미도 있습니다.

Anthropic 회사는 제품이 매우 강력하지만, 중국인 사용을 제한하고 있어 국내 사용자는 정상적인 경로로 서비스를 개통할 수 없습니다. 또한, 이는 유료 모델이며 가격도 비쌉니다. 백만 토큰의 입력/출력 비용은 3달러/15달러입니다.

명백한 대조는 GLM-4.6이 완전히 국산 모델이며, 베이징 지혜회사에서 제작되었습니다. 이는 극단적인 오픈소스로 접근(MIT 라이선스)을 취하고 있으며, 모델 코드는 완전히 공개되어 자유롭게 사용할 수 있습니다.

집에서 직접 설치하고 싶다면 가능하지만, 하드웨어 요구 사항이 너무 높아 일반적인 가정 장비에서는 달성하기 어렵기 때문에, 보통 클라우드 서비스를 사용합니다.

현재, 지푸는의 공식 웹사이트(BigModelZ.ai)를 통해 웹 인터페이스를 사용하여 GLM-4.6을 무료로 사용할 수 있습니다.

그 API 호출은 유료이며, 입문 패키지(coding plan)는 한 달에 20위안 위안입니다.

또한, 완벽한 중국어 지원(문서+고객센터)도 제공하며, 이는 Anthropic이 없는 점입니다.

결론적으로, 제 테스트 목적은 공식 발표처럼 정말 강력한 것인지, Claude Sonnet 모델을 대체할 수 있는지 확인하는 것입니다.

4,

제 테스트 방법은 간단합니다. Anthropic 회사는 사전에 유명 프로그래머 시모어 윌리슨(Simon Willison)을 초청하여 Claude Sonnet 4.5 모델을 사용해 보게 했습니다.

사이먼·와일리슨은 이미 그의 웹사이트에 공개했습니다.테스트 결과

저는 그의 몇 가지 테스트를 GLM-4.6 위에서 사용하고, 그 결과를 비교하면 되는 거야.

모두가 함께 따라 해 보세요, 열어요웹사이트, 문제를 붙여넣으시면(가장 좋으면 영어로 붙여넣으시면), 더 깊은 감수를 할 수 있습니다.

AI 터미널 도구(예: Claude Code, Cline, OpenCode, Crush 등)도 사용할 수 있으며 참고하세요공식 문서 설정을 합니다(먼저 API를 열어야 합니다).

5.

첫 번째 테스트를 합니다.

코드 리포지토리 https://github.com/simonw/llm을 가져오고, 다음 명령어로 테스트 케이스를 실행합니다.

pip install -e '.[test]'

pytest

이 테스트는 인터넷을 통해 코드를 가져오고 백그라운드에서 실행해야 합니다.

지혜대상 웹 인터페이스는 Claude와 같이 Python과 Node.js 서버 셰도잉 환경을 제공하며, 코드를 생성하고 바로 실행할 수 있습니다.

중간 추론 단계는 생략했으며, 최종 결과는 다음 그림과 같습니다(공식 웹사이트에서 완전한 대화 를 확인하세요).

278개 테스트 케이스 통과, 소요 시간 18.31초

전체 실행 과정(푸시, 의존성 설치, 명령 실행)은 Claude Sonnet과 동일합니다. 이상하게도 Claude Sonnet은 466개의 테스트 케이스를 실행했고, 100개 이상이 더 많았는데, 왜 그런지 모르겠습니다.

6、

두 번째 테스트는 복잡한 프로그래밍 작업으로, 원본 힌트는 영어로 되어 있었고, 저는 그것을 중국어로 번역했습니다.

1、 코드 저장소 https://github.com/simonw/llm는 AI 대화 애플리케이션으로, 사용자의 힌트와 AI의 응답을 SQLite 데이터베이스에 저장합니다.

2、 현재는 선형 컬렉션을 사용하여 개별 대화와 응답을 저장합니다. 당신은 응답 테이블에 parentresponseid 열을 추가하고, 이 열을 통해 대화의 응답을 트리 구조로 모델링하려고 시도했습니다.

새로운 pytest 테스트 케이스를 작성하여 설계를 검증하세요.

tree_notes.md 파일을 작성하고, 먼저 설계를 이 파일에 작성한 다음, 실행 중에 이 파일을 메모로 사용하세요.

모두가 완전한 대화 기록을 확인할 수 있습니다. .

GLM-4.6은 몇 분 동안 계속 코드를 생성했습니다. 마지막으로 스크립트를 수정하여 API와 명령줄 호출 인터페이스를 추가하고, 테스트 케이스를 작성하고 실행했습니다.

또한 tree_notes.md 파일을 생성했으며, 이 파일에는 이번 변경 사항에 대한 상세 설명이 포함되어 있습니다.

모두가 그의 실행 결과와 Claude Sonnet의 실행 결과를 비교할 수 있습니다.

결과적으로 그들의 차이는 크지 않으며, 모두 피드백 요구사항을 충족시키고 코드는 모두 실행 가능했습니다. 차이는 주로 구현 세부 사항이며, 이는 코드를 자세히 읽어야 합니다.

7.

세 번째 테스트는 시몬 웰리슨의 독점적인 것이며, AI가 낙타가 자전거를 타는 SVG 이미지를 생성하도록 하는 것입니다(Generate an SVG of a pelican riding a bicycle).

이는 현실에 존재하지 않고 참고물이 없는 장면이며, 모델의 상상력과 생성 능력을 평가합니다.

아래는 GLM-4.6이 깊은 생각을 열고 생성한 이미지 입니다.

아래는 Claude sonnet 4.5이 깊은 생각을 열고 생성한 이미지입니다.

두 결과는 매우 유사하며, Claude가 생성한 부리는 더 두드러져 있어 조그마한 새로 보입니다.

8、

테스트는 여기까지로 하고, GLM-4.6은 매우 강력한 국산 모델이라고 생각합니다. 인코딩 능력이 실제로 뛰어나며, 현재 합의된 최고 모델인 Claude Sonnet의 대체품으로 사용될 수 있습니다.

그 기능은 다양하며, 인코딩 외 다른 작업도 수행할 수 있고, 반응 속도가 빠르며, 가격도 저렴하여 가성비가 매우 높습니다.

(완)