1,
휴가 전 마지막 날(9월 30일), 정말 붐빌었다.
오전에 Anthropic 회사는 Claude Sonnet 4.5 모델을 발표했다.
오후에는 지혜사회 회사가 GLM 4.6 모델을 발표했다.

내가 생각하기에, 개발자들에게 이 동향은 중요하다.
왜냐하면 이 두 모델은 현재 가장 최첨단 AI 프로그래밍 모델에 속하기 때문이다. AI가 코드를 생성하고 싶다면 이것들이 최우선이다.
즉, 하루 안에 AI 프로그래밍 모델이 다시 한 번 새로운 높이에 도달했다는 의미다.
2,
Anthropic이 발표를 내리자마자 첫 문장에서 "세계 최고"라는 말을 세 번 사용하며 겸손하지 않았습니다.

"Claude Sonnet 4.5는 세계에서 가장 좋은 코드 모델입니다. 복잡한 에이전트를 구축하는 데 가장 강력한 모델입니다. 컴퓨터를 사용하는 데 가장 좋은 모델입니다. 추론과 수학 분야에서 두드러진 발전을 보여줍니다."
지푸는 발표도 자신감을 보이지 않습니다.
"우리는 다시 대형 모델의 능력 경계를 극복했습니다.
GLM-4.6은 우리가 가장 강력한 코드 Coding 모델입니다 (GLM-4.5 대비 27% 향상). 실제 프로그래밍, 긴 컨텍스트 처리, 추론 능력, 정보 검색, 작성 능력 및 에이전트 적용 등 여러 면에서 전반적인 향상을 이루었습니다."
인정받게 하기 위해 지푸는 발표를 한 번 더 제시했습니다.

위 그림은 총 8개의 테스트 기준 결과 그래프입니다. 각 그래프의 파란색 막대는 GLM-4.6이고, 녹색 막대는 GLM-4.5입니다. 대조군은 어제 발표한 DeepSeek V3.2 Exp, Claude sonnet 4, Claude sonnet 4.5입니다.
보아서는, 파란색 막대가 대부분 1위를 차지했으며, 심지어 1위를 기록했습니다. 지푸라기는 또한 GLM-4.6이 토큰을 아주 절약한다고 주장하며, "GLM-4.5보다 30% 이상 절약하여 동급 모델 중 가장 저렴합니다"라고 말합니다.
따라서 그 결론은 다음과 같습니다: "GLM-4.6은 일부 목록에서 Claude Sonnet 4/Claude Sonnet 4.5와 일치하며, 국산 모델 1위를 차지합니다."
이것은 흥미로운데, 하나는 "세계에서 가장 좋은 코드 모델"이라고 자처하고, 다른 하나는 "국산 모델 1위를 차지하고 있다"고 말합니다.
아래에서 저는 테스트를 진행하겠습니다. GLM-4.6이 Claude sonnet 4.5보다 어떤지 비교해 보겠습니다.
3.
설명해야 할 점은, 이 두 모델의 비교가 완전히 테스트를 위한 것은 아니며 실질적인 의미도 있습니다.
Anthropic 회사는 제품이 매우 강력하지만, 중국인 사용을 제한하고 있어 국내 사용자는 정상적인 경로로 서비스를 개통할 수 없습니다. 또한, 이는 유료 모델이며 가격도 비쌉니다. 백만 토큰의 입력/출력 비용은 3달러/15달러입니다.
명백한 대조는 GLM-4.6이 완전히 국산 모델이며, 베이징 지혜회사에서 제작되었습니다. 이는 극단적인 오픈소스로 접근(MIT 라이선스)을 취하고 있으며, 모델 코드는 완전히 공개되어 자유롭게 사용할 수 있습니다.
집에서 직접 설치하고 싶다면 가능하지만, 하드웨어 요구 사항이 너무 높아 일반적인 가정 장비에서는 달성하기 어렵기 때문에, 보통 클라우드 서비스를 사용합니다.
현재, 지푸는의 공식 웹사이트(BigModel 와 Z.ai)를 통해 웹 인터페이스를 사용하여 GLM-4.6을 무료로 사용할 수 있습니다.

그 API 호출은 유료이며, 입문 패키지(coding plan)는 한 달에 20위안 위안입니다.
또한, 완벽한 중국어 지원(문서+고객센터)도 제공하며, 이는 Anthropic이 없는 점입니다.
결론적으로, 제 테스트 목적은 공식 발표처럼 정말 강력한 것인지, Claude Sonnet 모델을 대체할 수 있는지 확인하는 것입니다.
4,
제 테스트 방법은 간단합니다. Anthropic 회사는 사전에 유명 프로그래머 시모어 윌리슨(Simon Willison)을 초청하여 Claude Sonnet 4.5 모델을 사용해 보게 했습니다.
사이먼·와일리슨은 이미 그의 웹사이트에 공개했습니다.테스트 결과。

저는 그의 몇 가지 테스트를 GLM-4.6 위에서 사용하고, 그 결과를 비교하면 되는 거야.
모두가 함께 따라 해 보세요, 열어요웹사이트, 문제를 붙여넣으시면(가장 좋으면 영어로 붙여넣으시면), 더 깊은 감수를 할 수 있습니다.
AI 터미널 도구(예: Claude Code, Cline, OpenCode, Crush 등)도 사용할 수 있으며 참고하세요공식 문서 설정을 합니다(먼저 API를 열어야 합니다).
5.
첫 번째 테스트를 합니다.
코드 리포지토리 https://github.com/simonw/llm을 가져오고, 다음 명령어로 테스트 케이스를 실행합니다.
pip install -e '.[test]'
pytest
이 테스트는 인터넷을 통해 코드를 가져오고 백그라운드에서 실행해야 합니다.
지혜대상 웹 인터페이스는 Claude와 같이 Python과 Node.js 서버 셰도잉 환경을 제공하며, 코드를 생성하고 바로 실행할 수 있습니다.
중간 추론 단계는 생략했으며, 최종 결과는 다음 그림과 같습니다(공식 웹사이트에서 완전한 대화 를 확인하세요).

278개 테스트 케이스 통과, 소요 시간 18.31초
전체 실행 과정(푸시, 의존성 설치, 명령 실행)은 Claude Sonnet과 동일합니다. 이상하게도 Claude Sonnet은 466개의 테스트 케이스를 실행했고, 100개 이상이 더 많았는데, 왜 그런지 모르겠습니다.
6、
두 번째 테스트는 복잡한 프로그래밍 작업으로, 원본 힌트는 영어로 되어 있었고, 저는 그것을 중국어로 번역했습니다.
1、 코드 저장소 https://github.com/simonw/llm는 AI 대화 애플리케이션으로, 사용자의 힌트와 AI의 응답을 SQLite 데이터베이스에 저장합니다.
2、 현재는 선형 컬렉션을 사용하여 개별 대화와 응답을 저장합니다. 당신은 응답 테이블에 parentresponseid 열을 추가하고, 이 열을 통해 대화의 응답을 트리 구조로 모델링하려고 시도했습니다.
새로운 pytest 테스트 케이스를 작성하여 설계를 검증하세요.
tree_notes.md 파일을 작성하고, 먼저 설계를 이 파일에 작성한 다음, 실행 중에 이 파일을 메모로 사용하세요.
모두가 완전한 대화 기록을 확인할 수 있습니다. .
GLM-4.6은 몇 분 동안 계속 코드를 생성했습니다. 마지막으로 스크립트를 수정하여 API와 명령줄 호출 인터페이스를 추가하고, 테스트 케이스를 작성하고 실행했습니다.

또한 tree_notes.md 파일을 생성했으며, 이 파일에는 이번 변경 사항에 대한 상세 설명이 포함되어 있습니다.

모두가 그의 실행 결과와 Claude Sonnet의 실행 결과를 비교할 수 있습니다.
결과적으로 그들의 차이는 크지 않으며, 모두 피드백 요구사항을 충족시키고 코드는 모두 실행 가능했습니다. 차이는 주로 구현 세부 사항이며, 이는 코드를 자세히 읽어야 합니다.
7.
세 번째 테스트는 시몬 웰리슨의 독점적인 것이며, AI가 낙타가 자전거를 타는 SVG 이미지를 생성하도록 하는 것입니다(Generate an SVG of a pelican riding a bicycle).
이는 현실에 존재하지 않고 참고물이 없는 장면이며, 모델의 상상력과 생성 능력을 평가합니다.
아래는 GLM-4.6이 깊은 생각을 열고 생성한 이미지 입니다.

아래는 Claude sonnet 4.5이 깊은 생각을 열고 생성한 이미지입니다.

두 결과는 매우 유사하며, Claude가 생성한 부리는 더 두드러져 있어 조그마한 새로 보입니다.
8、
테스트는 여기까지로 하고, GLM-4.6은 매우 강력한 국산 모델이라고 생각합니다. 인코딩 능력이 실제로 뛰어나며, 현재 합의된 최고 모델인 Claude Sonnet의 대체품으로 사용될 수 있습니다.
그 기능은 다양하며, 인코딩 외 다른 작업도 수행할 수 있고, 반응 속도가 빠르며, 가격도 저렴하여 가성비가 매우 높습니다.
(완)












