惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Vercel News
Vercel News
SecWiki News
SecWiki News
WordPress大学
WordPress大学
小众软件
小众软件
博客园 - 司徒正美
酷 壳 – CoolShell
酷 壳 – CoolShell
V
Visual Studio Blog
Y
Y Combinator Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
云风的 BLOG
云风的 BLOG
MyScale Blog
MyScale Blog
K
Kaspersky official blog
T
The Exploit Database - CXSecurity.com
腾讯CDC
Scott Helme
Scott Helme
I
InfoQ
Cyberwarzone
Cyberwarzone
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Security Latest
Security Latest
The Register - Security
The Register - Security
Project Zero
Project Zero
F
Fortinet All Blogs
C
CERT Recently Published Vulnerability Notes
A
Arctic Wolf
C
Cisco Blogs
L
LINUX DO - 热门话题
P
Privacy International News Feed
IT之家
IT之家
U
Unit 42
P
Privacy & Cybersecurity Law Blog
H
Help Net Security
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
C
Cyber Attacks, Cyber Crime and Cyber Security
P
Palo Alto Networks Blog
F
Full Disclosure
宝玉的分享
宝玉的分享
Simon Willison's Weblog
Simon Willison's Weblog
L
Lohrmann on Cybersecurity
Google DeepMind News
Google DeepMind News
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
H
Hacker News: Front Page
Know Your Adversary
Know Your Adversary
PCI Perspectives
PCI Perspectives
Hugging Face - Blog
Hugging Face - Blog
AWS News Blog
AWS News Blog
MongoDB | Blog
MongoDB | Blog
S
Schneier on Security
Recent Announcements
Recent Announcements
Forbes - Security
Forbes - Security
Cisco Talos Blog
Cisco Talos Blog

Local LLM

开源了一个 LLM 推理服务监控面板 - V2EX 大模型小白推荐一下本地模型 - V2EX GLM5.2 个人感觉有点被吹大了 - V2EX 有支持 6000 Ada 使用 deepseek v4 flash 推理 的框架吗 - V2EX 分享个自己在用的玩具 - V2EX 配置 kiro 的问题 - V2EX 买 macbook pro 笔记本,跑本地模型,怎么配置性价比比较高? - V2EX lama.cpp 目前有重大性能 bug: checkpoint 的巡回逻辑对于混合模型(比如 qwen3.6-27B)无效,从而导致大概率每次对话都要 prefill 全文,严重拖慢速度 GPU 跑 LLM 也会超频吗? DiffusionGemma Gemma4 12b 居然比 Qwen3.5 9b 还快,意料不到 什么? Apple Watch 也能本地跑 Qwen 了? 关于低算力 gpu 推理时 prefill 在总时长中的占比问题 现在大模型主流都用哪些 nVidia GPU? Mac book air M5 32G+1TB 能跑本地大模型? 需要购买国产显卡本地部署大模型,哪家的比较好 mac mini 跑本地模型,需要什么配置? Gemma4 12B 如何跑在 16G 显存上? mac 64g 能部署哪个本地大模型 消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都比这两个框架快,并且占用显存低 本地大模型最佳 Mac 配置选择 关于 5070ti 模型推理的速度和本地部署思考 有没有能够兼容 Win7 的离线模型工具 想折腾一个 AI 主机,请行家出手 锤子找钉子的项目分享:假想企业本地部署后不用人工洗库接入 llm 的中间层。 gemma4:31b-coding-mtp-bf16 有适合本地跑训练 AI 的电脑配置吗? - V2EX 都 2026 年了,为什么还有人觉得 AMD 比 Nvidia 更适合部署本地大模型? LiteChat 轻量级本地大模型聊天 WebUI,支持 vLLM DGX Spark、ASUS GX10、MSI EdgeXpert 看起来都像是一个母胎的产品,用起来有差别吗? 推荐一个 GPU 推理速度计算器, 可能方便买配件自建本地大模型的人用上 github 看到一个项目, 3090 跑 27B, 129tps,最高 207tps 请问各位大神,在隔离环境中,有本地 qwen 大模型,有没什么解决方案,做本地的知识库的方案,类似谷歌那个 notebooklm ,也勉强可以? 有一台 16 寸 m1max 64g+1T 满 GPU 的 MacBook Pro 适合部署哪个本地模型 - V2EX 私有化部署大模型的“终点”是 Mac 还是 Nvidia? 我自己的电脑是 5070Ti,总感觉跑一些模型算力不够 能一起给本地部署的开源模型做个适配的 coding agent 吗?我憋了口气 用 antirez 的 llama.cpp fork 把 DeepSeek v4 Flash 在本地跑起来了 全球本地部署开发者们一起,打造一个真正属于开源社区的 Coding Agent 了 自己做了一款在线 GPU 推理速度计算器 · TPS Calculator qwen3.6 27b 本地编码测试 xllm 真的比 vllm+plugin 性能好么? 各位推荐一个 32G Macbook air M5 可以跑的 moe 模型 我的开源项目,欢迎大家使用和批评,本地无字典字符型模型训练架构代码完全开源,可形成语义结构 请教一个关于模型训练主机配置的问题 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现 大伙有想过二次训练吗? 用 DGX Spark 做这些事情,是否能力合适/足够,有佬能解答吗?(估算也行) - V2EX 多台 GPU 之间怎么组网互联? 部署本地模型 token 输出万能公式 有没有简单版的 new-api 项目 想在本地部署 OCR 服务,解析美团的外卖订单截图,求推荐一个好用的 OCR 模型 本地部署靠不靠谱? - V2EX 为什么你该停止使用 Ollama - V2EX 本地大模型多大显存够用? 求可靠本地 vibe coding,有八卡的 L20 服务器 - V2EX 想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题,有人测试过速度吗? - V2EX 32B 本地 vibe coding 有能用的模型吗 - V2EX Gemma4 + LiteRT-LM 真得有点的东西, e2b 内存仅 2G 左右占用, 在 天玑 的安卓机上跑的飞快. - V2EX 闲置 16GB M1 Pro MBP 跑大模型 - V2EX 有人用 mac studio 测试过 gemma4 31b 16 吗 - V2EX gemma4:e4b 的效果出乎意料, 1050ti 也能很好的生成文章 - V2EX 谷歌的 Gemma 4 怎么样,有必须要本地弄一下吗 - V2EX 2 年以后的硬件和本地大模型 - V2EX 为什么 Qwen 吹这么牛,但是用起来体验这么拉啊,它的真实能力究竟怎么样 - V2EX Gemma 4 31B 大概什么水平,本地部署是不是又成为现实了 - V2EX qwen 本地大模型的问题 - V2EX 好奇有没有人用本地模型写代码? macbook 32G 内存, M5 芯片本地跑大模型有推荐的吗? - V2EX 本地部署 deepseek 70B,回答乱码 - V2EX 3090 跑文本向量模型可以么? 3090 是不是有点过剩? 家用机带宽太小玩不转 local llm 啊 想部署本地大模型来分析股票趋势,有没有专门针对股票的大模型? - V2EX minimax 挂了?? qwen3.5 过度思考的问题 [求助] DGX Spark 上 Ollama 推理极慢,改用 llama.cpp 部署是否更合适? 如何在 vs code 上应用自建的 ollama 模型 现在能本地部署最好的 TTS 是哪套, 太多了,没法都去试 本地 8G RTX4060 破卡,可以产多少 tokens? 如何在内网使用 opencode Qwen3.5-35B-A3B microgpt.py 30B 尺寸哪个小模型编码能力会好一些 ClawdBot 保姆级安装指南:从零搭建你的 24/7 私人 AI 助手 [求助] 求成本可控,性能过关的本地 vibe coding 方案 个人玩 ai,显卡最低起步是 5080 嘛? intel b60 48G 可以买吗 - V2EX 现在还有类似 nextchat 这样的 web 工具可以用自定义 api 使用的吗? 3070RTX 32GB i9 内存 1TB 的游戏本 推荐用来跑什么 AI 工具呢? - V2EX 本地大模型目前意义大吗? 寻找本地搭建方案有偿 讨论下自建内网 RAG 知识库和 AGENT 平台 使用 Nexa 提供的 SDK 在手机上运行端侧大模型 想问问大家有没有搭建本地的 LLM,我对应用场景挺困惑的 想学习下大模型,有什么论文网站推荐吗 Q: 关于读大部头 PDF 和 Mac Mini M4 能做的事情有些问题? 目前开源可以本地部署的模型有哪些? V 友们,有没有推荐的本地台式机文生图的方案?
本地部署 GLM-5.2 的门槛太高了,根本玩不起! - V2EX
beginor · 2026-06-28 · via Local LLM

智谱最近发布的 GLM-5.2 口碑很好,于是想在算力服务器上试一下,结果发现,门槛太高了,根本玩不起!

前后尝试了两个版本,分别是:

1. unsloth 的[UD-Q4_K_XL 量化版本]( https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL) <https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL>
2. 智谱官方的[FP8 量化版本]( https://huggingface.co/zai-org/GLM-5.2-FP8) <https://huggingface.co/zai-org/GLM-5.2-FP8>

先说一下 UD-Q4_K_XL 量化版本,下载下来的 gguf 文件共 436G ,4 张 H20 (共 560G 显存),编译最新的 llama.cpp 来运行,结果发现只有 20 ~ 30tokens/秒,更别说并发访问了,基本没法用;

然后是 FP8 量化版本,权重文件共 704G ,8 张 H20 (共 1.1T 显存),下载最新的 vllm 来运行,结果如下:

1. 在上下文类型也是 fp8 的情况下,8 张 H20 ,1.1TB 显存,居然无法开启 1m 上下文;
2. 将上下文长度设置为 384k 之后,vllm 启动提示 1.3 个并发,将上下文长度设置为 256k ,vllm 启动提示 2.5 个并发;
3. 输出大概有 50tokens/秒,吐字速度算还可以;
4. 3 个 claude code 同时连接使用,就能感觉到明显卡顿;

从 vllm 的启动日志看,glm-5.2 的缓存架构还是基于 deepseek 3.2 的,显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多!

以上只是对本地部署测试 glm-5.2 的初步印象,劝大家如果没有 h200/b300 级别的装备的话,还是算了吧!😂