开源 × AI · 开发者生态社区
2026-04-20
·
via OSCHINA 社区最新新闻
Moonshot AI 与清华大学的研究团队最近推出了一种新架构 —— 预填充即服务(PrfaaS),旨在打破大型语言模型服务中对数据中心和计算机资源的限制。 目前,大型语言模型的推理过程通常分为预填充和解码两个阶段。预填充阶段是模型处理输入并生成键值缓存(KVCache)的高计算密集型过程,而解码阶段则是模型逐个生成输出的...
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。