惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

GbyAI
GbyAI
博客园_首页
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
阮一峰的网络日志
阮一峰的网络日志
酷 壳 – CoolShell
酷 壳 – CoolShell
博客园 - 司徒正美
V
V2EX
Cloudbric
Cloudbric
Hugging Face - Blog
Hugging Face - Blog
腾讯CDC
量子位
博客园 - 三生石上(FineUI控件)
博客园 - 叶小钗
K
Kaspersky official blog
博客园 - 【当耐特】
T
Tenable Blog
L
Lohrmann on Cybersecurity
The Cloudflare Blog
S
Schneier on Security
A
Arctic Wolf
Latest news
Latest news
C
Cyber Attacks, Cyber Crime and Cyber Security
罗磊的独立博客
T
The Exploit Database - CXSecurity.com
Cisco Talos Blog
Cisco Talos Blog
小众软件
小众软件
P
Privacy & Cybersecurity Law Blog
WordPress大学
WordPress大学
Simon Willison's Weblog
Simon Willison's Weblog
雷峰网
雷峰网
NISL@THU
NISL@THU
人人都是产品经理
人人都是产品经理
月光博客
月光博客
J
Java Code Geeks
V
Visual Studio Blog
S
Security Affairs
博客园 - Franky
T
Tailwind CSS Blog
Apple Machine Learning Research
Apple Machine Learning Research
H
Heimdal Security Blog
有赞技术团队
有赞技术团队
V2EX - 技术
V2EX - 技术
AWS News Blog
AWS News Blog
G
GRAHAM CLULEY
T
Troy Hunt's Blog
SecWiki News
SecWiki News
Spread Privacy
Spread Privacy
宝玉的分享
宝玉的分享
www.infosecurity-magazine.com
www.infosecurity-magazine.com
博客园 - 聂微东

BlogFinder

日常漫步 Vol.24 之漫步前山河 - 雅余 周报 #1-聊聊本周的收获 - Edwin's Blog 我的OpenCode必装插件与Skill Write Something 掌中之物未必在掌握之中 · CRIVU PiliNara,一个更顺手的 PiliPlus 分支 「NekoEcho」:做一个必有回响的猫娘主题博客 2026-05 书影音总结 简化博客主题 - 安迪 你要加油呐 我第一次发布 npm 包 拾花小记#45:中考前的二三事 – 小改学习志 黛西花园5月游 #18 枇杷又熟了的五月月报 一些奇奇怪怪的需求?word仿方正书版的几个小操作 - Xiobb's Blog 0419 御温泉之旅 修复了一些bug,网站基本上趋于稳定了 - 新锐博客 又回到四十年前 如何定义成功 迷鹿屋2026已重新上线 科技冰火两重天+一周回顾 ${title} 热度退了,我反而用得更深了-咕咚同学 我到底该不该换个域名? 随身WIFI折腾记 - 安迪 博客撰写体验提升——hexo pro插件 为什么不用相机把屏幕上的接关密码拍下来? 国清寺与天台山 – Ouroboros ★★★★☆《挽救计划》——久违的经济上行感 - Davidの3号基地 删除右键“打开方式”里多余选项 第三周刊_No.53|一切都会被支付两次 安卓APP通话记录与录音上传踩坑记录 - 子舒的博客 天量下跌 inBox 笔记 2.3.8,把工具栏交给了你-咕咚同学 我把小龙虾搬到了微信-咕咚同学 安好 - 响石潭 Compound Engineering Plugin:让每个工程单元都比上一个更容易 MOSS-TTS Family:开源高质量语音与声音生成模型家族深度解析 Crawl4AI:专为 LLM 设计的开源 Web 爬虫与数据抓取工具 Build Your Own X:从零实现你最喜欢的技术——程序员进阶的终极资源清单 Anthropic Skills:用文件夹教 Claude 专业技能的开源框架 1年的去月球(下) - 梅之夏 欢迎回来。 简单讲讲 ASN.1 与 OID DTV - 直播聚合客户端 5.22-5.27 – 不兴江 还没去过鸭川 – 不兴江 张晶晶同学三刷林志颖 关于我 – 不兴江 爱与嫉妒 – 不兴江 港股被持续做空 备案码花了四百块-咕咚同学 一句话生成封面:我给公众号做了4种风格的AI封面生成技能 「官」方認證 再谈费曼学习法 2026-05-28T00:34:11+08:00 2026-05-28T00:28:45+08:00 离谱的英语学习指南:基于AI的英语进阶系统方法论 iii:零集成架构的后端统一运行时 Claude Code Harness:让 Claude Code 工作有迹可循的工程化框架 Heretic:全自动移除大语言模型审查机制的开源工具 MarkItDown:微软开源的万能文档转 Markdown 利器 Harness:让 Claude Code 秒变多智能体协作工厂 这段时间尽折腾AI Agent了,确实极大地提高了效率 近期动态:两个新站点正式上线啦 误判解除!zhouayuan.com 腾讯安全申诉成功 - 周阿源|玩具设计・插画日常・生活随笔 Ralph:让 AI 编码工具自主循环跑完所有 PRD 任务的量产神器 全都违法 – 个人工作记录 关于zhouayuan.com被误判 “含违规信息” 的说明与申诉记录 - 周阿源|玩具设计・插画日常・生活随笔 小米 MiMo v2.5 Pro 白嫖 最大的人间清醒,兜里有钱,但是不花。 夜晚靓歌(12):于文文现场solo - 王志勇的Blog 今日插画:风扬起的倔强 - 周阿源|玩具设计・插画日常・生活随笔 回门习俗 独立网卡 - 忘记了回忆 500亿入股人工智能企业 从命令行到桌面智能体-咕咚同学 第一性原理读书笔记 行者微评论223-加班の守株待兔-博客|政治与时事-风雨行者 ZOZO开源物理接触求解器:GPU加速的可扩展仿真引擎 OpenStock:开源股票市场交易平台技术深度解析 MoneyPrinterTurbo:基于AI的全自动短视频生成工具深度解析 Claude-Mem:为 Claude Code 构建的持久化记忆压缩系统 Twenty:可代码化定制的企业级开源 CRM 平台技术深度解析 2026-05-26T22:59:17+08:00 企业级开源大模型部署平台 GPUStack 实战教程 1年的去月球(上) - 梅之夏 Sevalla - 静态网站托管服务 不用翻墙、不用注册、不用月费,普通人也能用上 Claude Code 装修灯具要注意⚠️ 黄梅天先锋 - 游子微博 公安备案顺利办结,站点备案全部完成 - 周阿源|玩具设计・插画日常・生活随笔 第三次兑换天猫超市卡了宗宗酱-三维狐少儿编程 Don't think, feel. - Rolen's Blog 人这一辈子,到底图个什么 博客迁移 - Edwin's Blog 情感赛道写作模板 再现本轮行情的典型特征 裁员与平常心-咕咚同学 别让“偷懒”,成为隐私泄露的破绽
GLM-5 系列深度解析:从 Vibe Coding 到 Agentic Engineering 的开源旗舰模型
Cheman · 2026-06-18 · via BlogFinder

今天在 GitHub Trending 上看到一个有意思的项目:GLM-5(zai-org/GLM-5),这是智谱 AI 最新开源的旗舰大模型系列,定位从“Vibe Coding”一路覆盖到长程 Agentic Engineering。

一、项目概述

GLM-5 系列目前包含三个版本:

  • GLM-5:基础旗舰,744B 总参数 / 40B 激活参数的 MoE 架构,预训练数据 28.5T tokens,引入 DeepSeek Sparse Attention(DSA)降低部署成本。
  • GLM-5.1:面向 Agentic Engineering,在 SWE-Bench Pro、NL2Repo 和 Terminal-Bench 2.0 上取得 SOTA 或大幅领先,擅长在数百轮、数千次工具调用的长程会话中持续优化。
  • GLM-5.2:最新旗舰,首次在 1M token 上下文 上实现稳定的长程任务能力,在 Terminal-Bench 2.1 上达到 81.0,逼近 Claude Opus 4.8。

该项目提供 BF16 与 FP8 权重,支持 Hugging Face 和 ModelScope 下载,并可在 SGLang、vLLM、Transformers、KTransformers 以及昇腾 NPU 生态上本地部署。

GitHub: https://github.com/zai-org/GLM-5

二、技术原理

2.1 MoE + 稀疏注意力降低推理成本

GLM-5 采用 Mixture-of-Experts(MoE) 架构,总参数 744B,每次前向激活 40B。通过集成 DeepSeek Sparse Attention(DSA),模型在保持长上下文能力的同时显著降低部署成本,为长文档理解、代码库级推理和 Agentic 多轮交互提供基础。

2.2 IndexShare:让 1M 上下文更便宜

GLM-5.2 提出 IndexShare,在每四层稀疏注意力之间共享同一个索引器,使 1M 上下文长度下的每 token FLOPs 降低 2.9×。同时改进的 MTP(Multi-Token Prediction)层用于投机解码,接受长度提升最高 20%,在长文本生成场景下显著降低延迟。

2.3 slime:异步 RL 训练基础设施

后训练阶段,GLM-5 引入了自研的 slime 异步强化学习基础设施,解决大规模 LLM RL 训练效率低的问题。通过更细粒度的后训练迭代,模型在推理、代码和 Agentic 任务上持续逼近闭源前沿。

2.4 可控制的推理深度

GLM-5 系列支持 reasoning_effort 参数:

  • max(默认):用于大多数基准复现与高质量生成;
  • high:显式设置后进入更轻量推理模式;
  • enable_thinking=false:完全关闭思考过程,适合低延迟场景。

这种设计让开发者可以在性能、成本与延迟之间做显式权衡。

2.5 项目依赖结构

从仓库顶层文件可以看出,GLM-5 的 Python 示例依赖 Hugging Face 生态:

# 来自 requirements.txt 的核心依赖
transformers>=5.12.0
pre-commit>=4.6.0
accelerate>=1.14.0

这意味着本地部署时主要依赖 transformers + accelerate 组合,配合 vLLM/SGLang 可获得更高吞吐。

三、安装与快速开始

3.1 环境要求

  • Python 3.9+
  • 至少一张支持 FP8/BF16 推理的高端 GPU(消费级卡建议配合量化或 KTransformers)
  • 推荐 CUDA 12.1+ 或昇腾 NPU 环境

3.2 使用 vLLM 本地服务

pip install vllm==0.23.0
python -m vllm.entrypoints.openai.api_server   --model zai-org/GLM-5.2   --tensor-parallel-size 8   --max-model-len 128000

3.3 使用 Transformers 直接加载

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "zai-org/GLM-5.2",
    torch_dtype="auto",
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("zai-org/GLM-5.2")

inputs = tokenizer("请帮我写一个 Python 贪吃蛇游戏", return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

3.4 启用低延迟推理

# 关闭思考,适合简单问答或代码补全
outputs = model.generate(
    **inputs,
    max_new_tokens=512,
    enable_thinking=False,
)

# 或显式使用 high 推理级别
outputs = model.generate(
    **inputs,
    max_new_tokens=1024,
    reasoning_effort="high",
)

四、使用方法与实战

4.1 长文档分析

得益于稳定的 1M token 上下文,GLM-5.2 可以直接处理整本技术手册、大型代码库或长时间会议记录。配合 IndexShare 的 FLOPs 优化,长文档推理的成本比同规模稠密模型低一个数量级。

4.2 代码与 Agentic 任务

GLM-5.1/5.2 在 SWE-Bench Pro、Terminal-Bench 2.1 等代码智能基准上表现突出,适合作为:

  • AI 编程助手:端到端代码生成、重构、调试;
  • 自动化 Agent 核心模型:在数百轮工具调用中保持目标一致;
  • 复杂系统工程助手:前后端设计、代码库迁移、文档生成。

4.3 推荐部署选型

场景推荐框架说明
生产级高并发SGLang / vLLM支持 FP8、投机解码、张量并行
快速原型Transformers上手最快,适合小批量调试
本地低显存KTransformers支持 offloading,单卡可跑大模型
昇腾/NPUvLLM-Ascend / xLLM / SGLang国产芯片原生支持

五、常见问题与解决方案

5.1 显存不足 / OOM

  • 改用 FP8 权重版本(如 GLM-5.2-FP8);
  • 使用 KTransformers 或类似 offloading 框架;
  • 减小 --max-model-len 和 batch size。

5.2 1M 上下文无法跑满

1M 上下文需要充足显存与高效注意力实现。优先使用支持稀疏注意力的 vLLM/SGLang 版本,并确保模型配置中开启 DSA/IndexShare。

5.3 生成结果与官方报告差距较大

  • 检查是否使用了 reasoning_effort 的默认 max 级别;
  • 关闭思考(enable_thinking=false)会显著影响复杂推理结果;
  • 确认使用的是 BF16 而非量化版本,以复现最佳学术基准。

5.4 国内下载权重较慢

项目同时提供 Hugging Face 与 ModelScope 镜像,国内用户可直接从 ModelScope 拉取:

pip install modelscope
modelscope download --model ZhipuAI/GLM-5.2

六、总结

GLM-5 系列是智谱 AI 在开源大模型领域的一次重要升级:

  • GLM-5 奠定了 MoE + 稀疏注意力的基础;
  • GLM-5.1 把重心放到长程 Agentic Engineering;
  • GLM-5.2 则用 1M 上下文、IndexShare 和增强的投机解码,把长程能力推向可用。

如果你正在寻找一个能在复杂代码任务和长文档理解上与闭源模型掰手腕的开源方案,GLM-5 系列值得优先尝试。

🔗 项目地址:https://github.com/zai-org/GLM-5 📚 技术报告:https://arxiv.org/abs/2602.15763