인셔셔RSS 관심 있는 블로그, 뉴스, 기술 정보를 효율적으로 추적하고 읽으세요
원문 읽기 InertiaRSS에서 열기

추천 피드

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

阮一峰的网络日志

科技爱好者周刊(第 396 期):互联网通信的替代方案 科技爱好者周刊(第 396 期):互联网通信的替代方案 - 阮一峰的网络日志 科技爱好者周刊(第 395 期):软件开发的第三种方式 科技爱好者周刊(第 395 期):软件开发的第三种方式 - 阮一峰的网络日志 科技爱好者周刊(第 393 期):脑腐状态 科技爱好者周刊(第 392 期):axios 投毒与好莱坞式骗术 科技爱好者周刊(第 391 期):AI 的贫富分化 科技爱好者周刊(第 390 期):没有语料,大模型就是智障 套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云 科技爱好者周刊(第 389 期):未来如何招聘程序员 科技爱好者周刊(第 388 期):测试是新的护城河 零安装的"云养虾":ArkClaw 使用指南 科技爱好者周刊(第 387 期):你是领先的 科技爱好者周刊(第 386 期):当外卖员接入 AI 字节全家桶 Seed 2.0 + TRAE 玩转 Skill 科技爱好者周刊(第 385 期):马斯克害怕中国车企吗? 科技爱好者周刊(第 384 期):为什么软件股下跌 科技爱好者周刊(第 383 期):你是第几级 AI 编程 Kimi 的一体化,Manus 的分层 科技爱好者周刊(第 382 期):独立软件的黄昏 AI native Workspace 也许是智能体的下一阶段 科技爱好者周刊(第 381 期):中国 AI 大模型领导者在想什么 科技爱好者周刊(第 380 期):为什么人们拥抱"不对称收益" 科技爱好者周刊(第 379 期):《硅谷钢铁侠》摘录 我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验 科技爱好者周刊(第 378 期):预测是新的互联网热点 科技爱好者周刊(第 377 期):14万美元的贫困线 科技爱好者周刊(第 376 期):太空数据中心的争议 科技爱好者周刊(第 375 期):一扇门的 Bug 终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了 科技爱好者周刊(第 374 期):6GHz 的问题 VS Code 使用国产大模型 MiniMax M2 教程 科技爱好者周刊(第 373 期):数据模型是新产品的核心 国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例 科技爱好者周刊(第 372 期):软件界面如何设计 大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5 科技爱好者周刊(第 371 期):一个乐观主义者的专访 科技爱好者周刊(第 370 期):正确的代码高亮 错误处理:异常好于状态码 科技爱好者周刊(第 369 期):Tim 与罗永浩的对谈 科技爱好者周刊(第 368 期):不要这样管理软件团队 一天之内,智谱和 Anthropic 都发了最强编程模型 科技爱好者周刊(第 367 期):Nano Banana 的几个妙用 科技爱好者周刊(第 366 期):旧金山疯狂的 AI 广告 科技爱好者周刊(第 365 期):流量变现正在崩塌 科技爱好者周刊(第 364 期):最难还原的魔方 科技爱好者周刊(第 363 期):最好懂的神经网络解释 科技爱好者周刊(第 362 期):GitHub 工程师谈系统设计 科技爱好者周刊(第 361 期):暗网 Tor 安全吗? 科技爱好者周刊(第 360 期):Dan Wang 的新书
지혜그램 최상위 GLM-5 실사: Opus 4.6과 GPT-5.3-Codex 비교
阮一峰 · 2026-02-12 · via 阮一峰的网络日志

제1장 서론

방금 전에 저는 지혜대의 새로운 정점 모델 GLM-5 이 공식적으로 출시되었음을 보았습니다.

정말 열심히 했네요, 공휴일 전에 반드시 출시해야 했는데요, 이전 버전인 GLM-4.7 출시가 두 달도 채 되지 않았는데요...

GLM-4.x는 국내외에서 높은 평가를 받으며 프로그래밍 분야의 최상위 모델로 공인받았습니다. 새로운 대 버전은 어떤 개선이 있을지 매우 궁금합니다.

솔직히 말하면, 지난 주에 그 팀이 내부 테스트에 참여하도록 연락했고, 이미 이 모델을 며칠 동안 사용하고 있습니다.

우연히도, 지난 주에 해외 두 개의 정점 모델이 동시에 새로운 버전을 발표했습니다: Anthropic 회사가 Claude Opus 4.6을, OpenAI 회사가 GPT-5.3-Codex를.

이 세 가지 새로운 모델은 모두 프로그래밍을 주력으로 하여 비교 테스트를 하고 말았습니다. 그 차이가 있는지 확인하고 싶었고, 이것도 많은 사람들이 관심을 가질 만한 부분입니다.

이제 실제 프로그래밍 작업을 통해 이 세 가지 AI 모델에서의 생성 결과를 살펴보겠습니다.

이이. GLM-5 소개

공식 발표 설명서에서 GLM-5는 이렇게 소개됩니다: 오픈 소스 모델로서 GLM-5는 최고의 폐쇄형 모델과 완전히 대비됩니다. 두 가지 부분에서 특별히 강화되었습니다.

(1) 복잡한 시스템 엔지니어링

GLM-5는 단순히 프론트엔드 웹 페이지를 생성하는 것을 넘어, 백엔드 작업, 시스템 리팩토링, 심층 디버깅을 잘 처리합니다. '프론트엔드 미학을 중시하고 레이어드 로직을 경시하는' 모드를 버렸습니다.

이는 매우 강력한 자기 성찰 및 수정 메커니즘을 갖추고 있어 컴파일 실패 또는 실행 오류 발생 시 로그를 분석하고 원인을 파악하여 반복적으로 수정하며 시스템이 정상 작동할 때까지 진행합니다.

(2) 장거리 에이전트

그는 장거리 작업을 수행할 수 있으며, 여러 단계와 긴 단계의 복잡한 작업을 자동으로 분할할 수 있으며, 수시간 동안 자동으로 연속적으로 실행하며, 맥락의 일관성과 목표의 일관성을 유지할 수 있습니다.

(3) 요약

GLM-5가 수행할 수 있는 작업은 이미 생성 프론트엔드 UI를 넘어섰으며,시스템 레벨의 대규모 복잡한 프로젝트 생성예를 들어 운영체제 핵심부、브라우저 핵심부、V8 엔진 같은 것들입니다.

그의 홍보 문구는 "대형 모델이 에이전트와 대작 시대에 들어, GLM-5는 당신이 사용할 수 있는 오픈 소스 선택입니다."입니다.

3. 테스트 방법

나가 선택한 테스트 문제는 HuggingFace 회사의 선전사亚历杭德罗·奥(Alejandro AO)가 Opus 4.6과 GPT 5.3을 테스트한 문제입니다.

영상을 촬영하여 두 모델의 성능을 보여주었습니다.

나는 동일한 문제로 GLM-5를 테스트하고 그 결과와 비교했습니다.

총 네 개의 문제로, 프론트엔드와 백엔드 모두 포함되어 있습니다. 이미 원본 프롬프트와 원본 스크립트를 저장소로 만들어 GitHub에 업로드했습니다.

네、웹 디자인 테스트

첫 번째 테스트는 웹 디자인 및 리팩토링 능력입니다.

원본 페이지는 매우 간단했습니다.

그것은 정보를 분류하고 그 위에 쌓아 올렸을 뿐이었으며, 우리는 AI가 이 웹페이지를 다시 디자인하여 아름답고 사용하기 쉽게 만들고, 성숙하고 신뢰할 수 있는 전문적인 느낌을 줄 것을 요청했습니다.

앞서 말했듯이, 프롬프트와 원본 파일은 GitHub에 있습니다. 여기서 다시 게시하지는 않습니다. 여러분은 이를 가져와 직접 실행할 수도 있고, 다른 모델로 실행할 수도 있습니다.

그 다음은 GLM-5의 생성 결과입니다.

이 결과는 아름답고 전문적이며, 모든 정보가 매우 조직적으로 배열되어 있고 애니메이션 효과도 있어, 모바일 브라우징(아래 그림)도 문제없어서 거의 바로 온라인으로 런칭할 수 있습니다.

저는 이 페이지를 발행했으니, 여러분은 여기를 클릭해서 보실 수 있습니다.

그 다음은 Opus 4.6의 생성 결과로, 영상 스크린샷에서 가져온 것입니다.

그 다음은 GPT-5.3의 생성 결과입니다.

이 세 가지 디자인은 모두 사용 가능하지만, GPT-5.3는 하나의 결점(페이지 머리가 붙은 머리가 아니라, 아래로 드래그하면 사라짐)이 있으며, 디자인 측면에서도 다른 두 가지보다 보기 나쁜 편이다.

따라서 이 테스트에서는 GLM-5와 Opus 4.6이 더 나은 성능을 보였으며, 어느 것이 더 뛰어나지는 사용자의 미적 취향에 따라 달라진다. 개인적으로는 GLM-5의 디자인 스타일을 더 선호한다.

5. 3D 챔피언 테스트

두 번째 테스트는 AI 모델의 3D 애니메이션 생성 능력을 확인하는 것이다.

요구사항은 교육 목적의 웹사이트 3D 챔피언을 생성하는 것이며, 애니메이션으로 태양계의 행성 운동을 보여주고, 질량, 위치, 속도 등 애니메이션 파라미터를 조정할 수 있으며, 새로운 행성을 수동으로 추가할 수 있어야 한다.

아래는 GLM-5의 생성 결과이다.

페이지 오른쪽은 애니메이션 영역으로, 기본적으로 중앙의 별을 둘러싼 세 개의 작은 행성이 궤도를 도는 것을 보여준다. 마우스로 드래그하여 360도 회전하고, 확대 및 축소할 수 있다.

페이지 왼쪽에는 제어 패널이 있으며, 꽤 잘 만들어졌습니다.

상단은 애니메이션과 천체 매개변수를 조절할 수 있고, 하단은 새로운 천체를 추가하거나 기존 천체를 삭제하는 데 사용됩니다.

비교를 위해 Opus 4.6의 생성 결과입니다.

GPT-5.3의 생성 결과입니다.

이 세 가지 생성 결과 모두 요구사항을 만족하고 원활하게 실행됩니다. 하지만, GLM-5의 애니메이션에는 중력 그리드 라인이 빠져 있고, GPT-5.3의 그리드 라인이 너무 혼란스러워 애니메이션 효과 면에서는 Opus 4.6이 더 나은 것 같습니다.

제어 패널 면에서는 GLM-5와 Opus 4.6이 잘 디자인되었고, GPT-5.3은 약간 단순합니다.

전반적으로, 저는 이 라운드에서 최고의 후보가 Opus 4.6이며, 그 다음은 GLM-5, 마지막은 Codex 5.3입니다.

육、웹 게임

세 번째 테스트는 웹 게임 "분노의 질주 오리"(angry birds)를 생성하는 것입니다.

GLM-5의 생성 결과는 괜찮았고 원작과 비슷해서 플레이할 수 있지만, 게임성이 부족하고 점프 효과가 좋지 않습니다.

Opus 4.6의 복원도가 매우 높고 게임 경험도 원작에 가깝습니다.

GPT-5.3의 생성 결과는 실망스러웠습니다. 오리가 전혀 점프하지 못해서 게임을 할 수 없습니다.

이 라운드에서는 분명히 Opus 4.6이 최고이고 GLM-5가 그 다음입니다.

칠、Laravel을 Next.js로 전환

마지막 테스트는 PHP 언어Laravel 프레임워크를 기반으로 한 웹 애플리케이션을 JavaScript 언어 Next.js 프레임워크로 전환하는 것입니다.

GLM-5는 처리 중 거의 어려움 없이 빠르게 PHP 언어를 JS 언어로 변환하고 변환된 코드 구조를 제공했습니다.

변환 후에는 센스있게 의존성 있는 소프트웨어 패키지를 자동으로 설치하고 스크립트 컴파일을 완료하며 사용자에게 알렸습니다: 외부 API를 연결하면 한 번 클릭으로 npm run dev 바로 실행할 수 있습니다.

제가 그의 안내대로 실행했고, 오류 없이 매우 원활하게 진행되었습니다. localhost:3000를 엽니다. 애플리케이션에 접근할 수 있습니다.

이것은 도시 날씨를 확인하는 애플리케이션입니다. 스타일 변경 요구가 없어서 PHP 원본과 완전히 똑같이 보입니다.

오른쪽 상단 입력란에서 도시를 검색할 수 있습니다.

검색 결과에서 원하는 도시를 선택합니다.

클릭하면 도시의 상세 페이지로 이동하며, 날씨, 일출 일몰 시간, 공기질, 지도 등의 정보가 있습니다.

Opus 4.6와 GPT-5.3도 동일한 결과를 생성했습니다. 페이지와 기능이 완전히 동일하기 때문에 스크린샷을 공개하지 않습니다.

GLM-5와 GPT-5.3의 변환 시간은 모두 약 5분 정도였지만, Opus 4.6는 문제를 겪어서 전체적으로 20분이 걸렸습니다.

이 라운드에서 결과만 보면 세 모델 모두 우수하지만, GLM-5는 생성 시간이 짧고 오류가 없었으며 전체적인 사용자 경험도 좋아서 저는 GLM-5를 지지합니다.

8. 결론

이러한 테스트를 통해 GLM-5의 프로그래밍 성능은 인정할 만하며, 해외 최신 플래그셋 모델과 함께 놓을 수 있습니다. 일부 면에서는 더 우수할 수 있으며, 비교되지 않는 부분은 대부분 세부 사항이며 질적인 차이는 아닙니다.

GLM-5는 학습 및 실행 과정에서 국산 "만카 클러스터"를 사용했다고 들었습니다. 더 많은 카드와 더 많은 컴퓨팅 자원을 얻을 경우, 성능이 더 향상되어 세계 최고 수준의 대형 모델 회사와 직접 경쟁할 수 있을 것으로 예상됩니다.

또한 이번에 특별히 강화된 두 가지 요소----"복잡한 시스템"과 "장거리 작업"----은 느껴집니다.

그것이 생성하는 시스템 로직과 백엔드 코드는 신뢰성이 좋습니다. 생성 중이든 실행 중이든 오류가 많지 않습니다. 부족한 부분은 종종 기능의 부족일 뿐이며, 후반에 AI가 다시 보충해주면 되므로 아키텍처 문제는 아닙니다. 또한, 저는 개인적인 작업이 하나 있는데, 이게 꽤 오래 걸렸지만 마침내 완료되었고 혼란스럽지 않았습니다.

저는 공식적인 한 구절을 마무리로 삼고 싶습니다.

2026년 프로그래밍 대형 모델은 "코드를 작성할 수 있음"에서 "시스템을 구축할 수 있음"으로 발전하고 있으며, GLM-5는 오픈 소스계의 "시스템 아키텍트 모델"로 평가받습니다. "프론트엔드 thẩm미"에 주목하는 것에서 "Agentic 깊이/系统工程 능력"에 주목하는 것으로 전환되어 Opus 4.6과 GPT-5.3의 국산 오픈 소스 대안입니다.

(끝)