惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

S
Schneier on Security
腾讯CDC
N
Netflix TechBlog - Medium
GbyAI
GbyAI
Stack Overflow Blog
Stack Overflow Blog
博客园 - 三生石上(FineUI控件)
Y
Y Combinator Blog
Jina AI
Jina AI
The GitHub Blog
The GitHub Blog
云风的 BLOG
云风的 BLOG
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
U
Unit 42
Vercel News
Vercel News
Recorded Future
Recorded Future
Microsoft Security Blog
Microsoft Security Blog
aimingoo的专栏
aimingoo的专栏
博客园 - 司徒正美
IT之家
IT之家
S
Securelist
T
Tenable Blog
P
Palo Alto Networks Blog
MyScale Blog
MyScale Blog
The Cloudflare Blog
G
Google Developers Blog
Scott Helme
Scott Helme
大猫的无限游戏
大猫的无限游戏
T
Threatpost
L
LINUX DO - 最新话题
雷峰网
雷峰网
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Hugging Face - Blog
Hugging Face - Blog
Recent Announcements
Recent Announcements
The Hacker News
The Hacker News
C
Cyber Attacks, Cyber Crime and Cyber Security
人人都是产品经理
人人都是产品经理
H
Hackread – Cybersecurity News, Data Breaches, AI and More
博客园 - 聂微东
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Know Your Adversary
Know Your Adversary
P
Privacy International News Feed
Security Latest
Security Latest
Cyberwarzone
Cyberwarzone
F
Fortinet All Blogs
L
LangChain Blog
G
GRAHAM CLULEY
K
Kaspersky official blog
爱范儿
爱范儿
I
Intezer
罗磊的独立博客
B
Blog RSS Feed

博客园 - marsggbo

Eurosys26 | FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局 LoRA fine-tune吞吐量提升1.96倍!LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉 - marsggbo Fast26 | LLM 推理启动慢?华为用一个「可编程 Page Cache」把模型加载砍了 79% KV Cache 的两层存储到底卡在哪?FAST'26 这篇论文给出了答案 NeurIPS24 | 把Dense LLM变身MoE还提速 ICML25 | EPIC:KV Cache 复用的「编译-链接」范式(附可运行代码复现) KV Cache 复用的第三条路:FAST 2026 CacheSlide 是怎么解决 Agent 推理的位置漂移问题的 MoE 推理的内存墙,被一块多芯粒芯片打穿了? KVCOMM:让多 Agent 系统的 KV Cache 真正“通起来”,TTFT 直接砍掉 7.8 倍 TokenDance 解决多 Agent LLM 推理的 KV Cache 冗余问题 当 AI 开始学会"记住":LLM Agent 记忆系统的统一视角 【转载】ACM MM 投稿论文模板修改成投稿模式 尝试从源头理解 SVD 原理和计算 LLM 场景下的强化学习技术扫盲 解决 Overleaf 中插入 PDF 图片失败的问题:排查与修复 Tmux ctrl+B快捷键失效处理办法 对抗训练综述学习笔记 【转知乎回答】一文看懂 LLaMA 中的旋转式位置编码(Rotary Position Embedding) 二进制中为什么负数是正数取反再加一 leetcode 常见题型代码总结 Prompt-Tuning、P-Tuning和Prefix-Tuning区别和代码实现【转】 Deepspeed ZeRO系列算法原理+通信开销详解 NSCC集群使用笔记 Huggingface Transformers实现张量并行的小坑 set/get_output_embeddings Pytorch 如何使用 storage 实现参数 offload? TACC 集群使用笔记 图解 vLLM 的推理调度策略 大模型推理框架 vLLM 源码解析(二):Block 模块分配和管理 OpenAI 的视频生成大模型Sora的核心技术详解(一):Diffusion模型原理和代码详解 大模型推理框架 vLLM 源码解析(一)
NSDI26 | DroidSpeak让不同 LLM 之间共享 KV Cache
marsggbo · 2026-04-26 · via 博客园 - marsggbo
原文:DroidSpeak: KV Cache Sharing for Cross-LLM Communication and Multi-LLM Serving 1. 前言:一个很自然但从没人解决过的问题 KV Ca…