

























也就是个玩具的水平 mac studio m3 ultra, 512g 内存/显存,671b q4_k_m ,gpu 和内存都跑满了,10 几个 tokens/s
32b ,内存不算多,8%,但是 gpu 总是跑满,20 多个 tokens/s
如果在一台里加上嵌入和 rerank 模型(知识库标配),基本上都很卡
跑 obsidian 和 dify 的知识库,速度和我的 amd + 64g 内存+ 4060ti 16g 跑 14b 差不多。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。