MoE 推理的内存墙，被一块多芯粒芯片打穿了？ - 惯性聚合

推荐订阅源

宝玉的分享

Exploit-DB.com RSS Feed

LINUX DO - 热门话题

Lohrmann on Cybersecurity

Kaspersky official blog

Cisco Talos Blog

The Exploit Database - CXSecurity.com

Palo Alto Networks Blog

CXSECURITY Database RSS Feed - CXSecurity.com

Schneier on Security

The Hacker News

Threat Research - Cisco Blogs

Threat Intelligence Blog | Flashpoint

Privacy & Cybersecurity Law Blog

Cyber Attacks, Cyber Crime and Cyber Security

CERT Recently Published Vulnerability Notes

Tor Project blog

Simon Willison's Weblog

cs.CL updates on arXiv.org

Privacy International News Feed

Proofpoint News Feed

Google Developers Blog

The Last Watchdog

Google Online Security Blog

美团技术团队

Fortinet All Blogs

Recorded Future

Visual Studio Blog

Help Net Security

CTFtime.org: upcoming CTF events

Google DeepMind News

Blog — PlanetScale

博客园 - 聂微东

Stack Overflow Blog

Heimdal Security Blog

博客园 - marsggbo

Eurosys26 | FineMoE如何用「细粒度」打破MoE推理的显存-延迟死局 LoRA fine-tune吞吐量提升1.96倍！LoRAFusion如何把内存带宽浪费和pipeline bubble一起干掉 Fast26 | LLM 推理启动慢？华为用一个「可编程 Page Cache」把模型加载砍了 79% KV Cache 的两层存储到底卡在哪？FAST'26 这篇论文给出了答案 NeurIPS24 | 把Dense LLM变身MoE还提速 ICML25 | EPIC：KV Cache 复用的「编译-链接」范式（附可运行代码复现） KV Cache 复用的第三条路：FAST 2026 CacheSlide 是怎么解决 Agent 推理的位置漂移问题的 KVCOMM：让多 Agent 系统的 KV Cache 真正“通起来”，TTFT 直接砍掉 7.8 倍 NSDI26 | DroidSpeak让不同 LLM 之间共享 KV Cache TokenDance 解决多 Agent LLM 推理的 KV Cache 冗余问题当 AI 开始学会"记住"：LLM Agent 记忆系统的统一视角【转载】ACM MM 投稿论文模板修改成投稿模式尝试从源头理解 SVD 原理和计算 LLM 场景下的强化学习技术扫盲解决 Overleaf 中插入 PDF 图片失败的问题：排查与修复 Tmux ctrl+B快捷键失效处理办法对抗训练综述学习笔记【转知乎回答】一文看懂 LLaMA 中的旋转式位置编码（Rotary Position Embedding）二进制中为什么负数是正数取反再加一 leetcode 常见题型代码总结 Prompt-Tuning、P-Tuning和Prefix-Tuning区别和代码实现【转】 Deepspeed ZeRO系列算法原理+通信开销详解 NSCC集群使用笔记 Huggingface Transformers实现张量并行的小坑 set/get_output_embeddings Pytorch 如何使用 storage 实现参数 offload？ TACC 集群使用笔记图解 vLLM 的推理调度策略大模型推理框架 vLLM 源码解析（二）：Block 模块分配和管理 OpenAI 的视频生成大模型Sora的核心技术详解（一）：Diffusion模型原理和代码详解大模型推理框架 vLLM 源码解析（一）

MoE 推理的内存墙，被一块多芯粒芯片打穿了？

marsggbo · 2026-04-29 · via 博客园 - marsggbo

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。