






















今天在 GitHub Trending 上看到一个有意思的项目:GLM-5(zai-org/GLM-5),这是智谱 AI 最新开源的旗舰大模型系列,定位从“Vibe Coding”一路覆盖到长程 Agentic Engineering。
GLM-5 系列目前包含三个版本:
该项目提供 BF16 与 FP8 权重,支持 Hugging Face 和 ModelScope 下载,并可在 SGLang、vLLM、Transformers、KTransformers 以及昇腾 NPU 生态上本地部署。
GitHub: https://github.com/zai-org/GLM-5
GLM-5 采用 Mixture-of-Experts(MoE) 架构,总参数 744B,每次前向激活 40B。通过集成 DeepSeek Sparse Attention(DSA),模型在保持长上下文能力的同时显著降低部署成本,为长文档理解、代码库级推理和 Agentic 多轮交互提供基础。
GLM-5.2 提出 IndexShare,在每四层稀疏注意力之间共享同一个索引器,使 1M 上下文长度下的每 token FLOPs 降低 2.9×。同时改进的 MTP(Multi-Token Prediction)层用于投机解码,接受长度提升最高 20%,在长文本生成场景下显著降低延迟。
后训练阶段,GLM-5 引入了自研的 slime 异步强化学习基础设施,解决大规模 LLM RL 训练效率低的问题。通过更细粒度的后训练迭代,模型在推理、代码和 Agentic 任务上持续逼近闭源前沿。
GLM-5 系列支持 reasoning_effort 参数:
max(默认):用于大多数基准复现与高质量生成;high:显式设置后进入更轻量推理模式;enable_thinking=false:完全关闭思考过程,适合低延迟场景。这种设计让开发者可以在性能、成本与延迟之间做显式权衡。
从仓库顶层文件可以看出,GLM-5 的 Python 示例依赖 Hugging Face 生态:
# 来自 requirements.txt 的核心依赖
transformers>=5.12.0
pre-commit>=4.6.0
accelerate>=1.14.0
这意味着本地部署时主要依赖 transformers + accelerate 组合,配合 vLLM/SGLang 可获得更高吞吐。
pip install vllm==0.23.0
python -m vllm.entrypoints.openai.api_server --model zai-org/GLM-5.2 --tensor-parallel-size 8 --max-model-len 128000
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"zai-org/GLM-5.2",
torch_dtype="auto",
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("zai-org/GLM-5.2")
inputs = tokenizer("请帮我写一个 Python 贪吃蛇游戏", return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
# 关闭思考,适合简单问答或代码补全
outputs = model.generate(
**inputs,
max_new_tokens=512,
enable_thinking=False,
)
# 或显式使用 high 推理级别
outputs = model.generate(
**inputs,
max_new_tokens=1024,
reasoning_effort="high",
)
得益于稳定的 1M token 上下文,GLM-5.2 可以直接处理整本技术手册、大型代码库或长时间会议记录。配合 IndexShare 的 FLOPs 优化,长文档推理的成本比同规模稠密模型低一个数量级。
GLM-5.1/5.2 在 SWE-Bench Pro、Terminal-Bench 2.1 等代码智能基准上表现突出,适合作为:
| 场景 | 推荐框架 | 说明 |
|---|---|---|
| 生产级高并发 | SGLang / vLLM | 支持 FP8、投机解码、张量并行 |
| 快速原型 | Transformers | 上手最快,适合小批量调试 |
| 本地低显存 | KTransformers | 支持 offloading,单卡可跑大模型 |
| 昇腾/NPU | vLLM-Ascend / xLLM / SGLang | 国产芯片原生支持 |
GLM-5.2-FP8);--max-model-len 和 batch size。1M 上下文需要充足显存与高效注意力实现。优先使用支持稀疏注意力的 vLLM/SGLang 版本,并确保模型配置中开启 DSA/IndexShare。
reasoning_effort 的默认 max 级别;enable_thinking=false)会显著影响复杂推理结果;项目同时提供 Hugging Face 与 ModelScope 镜像,国内用户可直接从 ModelScope 拉取:
pip install modelscope
modelscope download --model ZhipuAI/GLM-5.2
GLM-5 系列是智谱 AI 在开源大模型领域的一次重要升级:
如果你正在寻找一个能在复杂代码任务和长文档理解上与闭源模型掰手腕的开源方案,GLM-5 系列值得优先尝试。
🔗 项目地址:https://github.com/zai-org/GLM-5 📚 技术报告:https://arxiv.org/abs/2602.15763
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。