
























yeahhe (Mozi)
1
自部署满血的GLM 5.2应该需要1.5T的显存,是FP8的两倍
adamsmith (Sam Altman) 2
opencode go 貌似直接接的官方 api ![]()
yeahhe (Mozi) 3
那比官方便宜还是贵呢?我说的是比较国内的Coding plan
Zhongyao_Wang (Divergence) 5
FP8 量化应该是基本不太影响精度的,影响精度的是再往下接着量化。
yeahhe (Mozi) 6
如果不影响精度,那影响什么呢
为什么输出效果会差这么多呢
adamsmith (Sam Altman) 7
佬友已经发额度分析了,其实现在第三方 glm5.2 套餐好像只有 opencode go 和 ollama 是能用的,其他几乎都是
,但我听说 ollama 就是量化版本
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。