小龙虾本地算力RTX 4090 (24G) 四卡本地SGLang框架跑qwen3.5-35B模型
yi-sheng
·
2026-03-18
·
via 博客园 - yi-sheng
SGLang与vLLM对比: vLLM:大模型推理领域的行业标准。其核心优势在于基于 PagedAttention 实现极高的显存利用率,配合连续批处理(Continuous Batching),在通用单轮问答场景下…
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。