惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Engineering at Meta
Engineering at Meta
P
Privacy International News Feed
S
Schneier on Security
L
LINUX DO - 热门话题
爱范儿
爱范儿
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Blog — PlanetScale
Blog — PlanetScale
The GitHub Blog
The GitHub Blog
J
Java Code Geeks
月光博客
月光博客
T
Tenable Blog
Martin Fowler
Martin Fowler
Scott Helme
Scott Helme
C
Comments on: Blog
MyScale Blog
MyScale Blog
C
CXSECURITY Database RSS Feed - CXSecurity.com
H
Hackread – Cybersecurity News, Data Breaches, AI and More
S
Securelist
Google DeepMind News
Google DeepMind News
The Last Watchdog
The Last Watchdog
V
V2EX
Simon Willison's Weblog
Simon Willison's Weblog
V
Vulnerabilities – Threatpost
S
Security Archives - TechRepublic
T
Troy Hunt's Blog
宝玉的分享
宝玉的分享
博客园_首页
Hacker News: Ask HN
Hacker News: Ask HN
Vercel News
Vercel News
量子位
V
V2EX - 技术
P
Privacy & Cybersecurity Law Blog
I
InfoQ
T
The Blog of Author Tim Ferriss
T
The Exploit Database - CXSecurity.com
SecWiki News
SecWiki News
C
Cisco Blogs
Jina AI
Jina AI
Cyberwarzone
Cyberwarzone
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Webroot Blog
Webroot Blog
Latest news
Latest news
大猫的无限游戏
大猫的无限游戏
G
Google Developers Blog
博客园 - 叶小钗
P
Proofpoint News Feed
Microsoft Security Blog
Microsoft Security Blog
T
Threat Research - Cisco Blogs
腾讯CDC
Recent Announcements
Recent Announcements

博客园 - -银光-

从 305 GB 到 7.4 GB:大模型 KVCache 架构演进全景 大模型推理引擎中的 Beam Search:工程挑战、主流实现与 SGLang 深度优化 从词向量到大模型:NLP 技术演进浅记 基于 mini-sglang 学习大模型推理关键功能 【短文】大模型推理加速:从面向对象到面向数据设计 大模型推理加速:Overlap Scheduling 的深入剖析与性能权衡艺术 vLLM 权重加载机制全解析:从挑战到理想架构 - -银光- 基于 nano-vLLM 学习大模型推理关键功能 SGLang 的 DP Attention 模式浅析 SGLang 的 PP 模式浅析 SGLang 分布式集群模式概览 了解英伟达和黄仁勋——基于《英伟达之道》和《英伟达之芯》 C++ lambda 引用捕获临时对象引发 coredump 的案例 GCC8 编译优化 BUG 导致的内存泄漏 C++小练习:字符串分割的高性能实现 B+树的Copy-on-Write设计 so库链接和运行时选择哪个路径下的库? Xapian索引-文档检索过程分析之匹配百分比 Xapian索引-文档检索过程分析 Xapian的内存索引-添加文档 Xapian的内存索引 Xapian使用入门
SGLang 的 TP 模式浅析
-银光- · 2025-12-07 · via 博客园 - -银光-
本文已于 2025.09.21 发表于知乎和公众号。 1. 简介 在前序笔记中总结了SGLang 的各种分布式集群模式,本文将进一步总结 TP 模式。TP 模式将模型中的权重张量按行或者列拆分到单机或者多机的多个 GP…