NeurIPS24 | 把Dense LLM变身MoE还提速 - 惯性聚合

推荐订阅源

Schneier on Security

Netflix TechBlog - Medium

Stack Overflow Blog

博客园 - 三生石上(FineUI控件)

Y Combinator Blog

The GitHub Blog

钛媒体：引领未来商业与生活新知

Recorded Future

Microsoft Security Blog

aimingoo的专栏

博客园 - 司徒正美

Palo Alto Networks Blog

The Cloudflare Blog

Google Developers Blog

大猫的无限游戏

LINUX DO - 最新话题

Cyber Security Advisories - MS-ISAC

Hugging Face - Blog

Recent Announcements

The Hacker News

Cyber Attacks, Cyber Crime and Cyber Security

人人都是产品经理

Hackread – Cybersecurity News, Data Breaches, AI and More

博客园 - 聂微东

Threat Intelligence Blog | Flashpoint

Know Your Adversary

Privacy International News Feed

Security Latest

Fortinet All Blogs

Kaspersky official blog

罗磊的独立博客

博客园 - marsggbo

Eurosys26 | FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局 LoRA fine-tune吞吐量提升1.96倍！LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉 - marsggbo Fast26 | LLM 推理启动慢？华为用一个「可编程 Page Cache」把模型加载砍了 79% KV Cache 的两层存储到底卡在哪？FAST'26 这篇论文给出了答案 ICML25 | EPIC：KV Cache 复用的「编译-链接」范式（附可运行代码复现） KV Cache 复用的第三条路：FAST 2026 CacheSlide 是怎么解决 Agent 推理的位置漂移问题的 MoE 推理的内存墙，被一块多芯粒芯片打穿了？ KVCOMM：让多 Agent 系统的 KV Cache 真正“通起来”，TTFT 直接砍掉 7.8 倍 NSDI26 | DroidSpeak让不同 LLM 之间共享 KV Cache TokenDance 解决多 Agent LLM 推理的 KV Cache 冗余问题当 AI 开始学会"记住"：LLM Agent 记忆系统的统一视角【转载】ACM MM 投稿论文模板修改成投稿模式尝试从源头理解 SVD 原理和计算 LLM 场景下的强化学习技术扫盲解决 Overleaf 中插入 PDF 图片失败的问题：排查与修复 Tmux ctrl+B快捷键失效处理办法对抗训练综述学习笔记【转知乎回答】一文看懂 LLaMA 中的旋转式位置编码（Rotary Position Embedding）二进制中为什么负数是正数取反再加一 leetcode 常见题型代码总结 Prompt-Tuning、P-Tuning和Prefix-Tuning区别和代码实现【转】 Deepspeed ZeRO系列算法原理+通信开销详解 NSCC集群使用笔记 Huggingface Transformers实现张量并行的小坑 set/get_output_embeddings Pytorch 如何使用 storage 实现参数 offload？ TACC 集群使用笔记图解 vLLM 的推理调度策略大模型推理框架 vLLM 源码解析（二）：Block 模块分配和管理 OpenAI 的视频生成大模型Sora的核心技术详解（一）：Diffusion模型原理和代码详解大模型推理框架 vLLM 源码解析（一）

NeurIPS24 | 把Dense LLM变身MoE还提速

marsggbo · 2026-05-10 · via 博客园 - marsggbo

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。