惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Stack Overflow Blog
Stack Overflow Blog
WordPress大学
WordPress大学
罗磊的独立博客
S
Secure Thoughts
Schneier on Security
Schneier on Security
博客园 - Franky
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
爱范儿
爱范儿
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Hacker News: Ask HN
Hacker News: Ask HN
PCI Perspectives
PCI Perspectives
Google DeepMind News
Google DeepMind News
S
Security Affairs
SecWiki News
SecWiki News
博客园 - 聂微东
Security Archives - TechRepublic
Security Archives - TechRepublic
Google Online Security Blog
Google Online Security Blog
H
Heimdal Security Blog
S
Security @ Cisco Blogs
Engineering at Meta
Engineering at Meta
C
CXSECURITY Database RSS Feed - CXSecurity.com
Cloudbric
Cloudbric
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
V
Visual Studio Blog
P
Proofpoint News Feed
Project Zero
Project Zero
T
Threat Research - Cisco Blogs
Webroot Blog
Webroot Blog
Blog — PlanetScale
Blog — PlanetScale
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
W
WeLiveSecurity
Last Week in AI
Last Week in AI
月光博客
月光博客
Microsoft Azure Blog
Microsoft Azure Blog
M
MIT News - Artificial intelligence
有赞技术团队
有赞技术团队
S
Securelist
GbyAI
GbyAI
Application and Cybersecurity Blog
Application and Cybersecurity Blog
C
CERT Recently Published Vulnerability Notes
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Cyberwarzone
Cyberwarzone
B
Blog RSS Feed
P
Palo Alto Networks Blog
H
Hacker News: Front Page
D
Docker
雷峰网
雷峰网
Latest news
Latest news
Microsoft Security Blog
Microsoft Security Blog

少数派

派早报:Google 发布 Fitbit Air 等 - 少数派 「新人报到」確認需求,再開始 - 少数派 从 SOLO 独立开发者社区,我看到了越来越多开发者开始做自己的产品 - 少数派 我怎么管理那些"不常做,但总会忘"的生活事项 - 少数派 人形机器人量产元年,数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台:开发历程与思考 - 少数派 五年陪伴依然不舍,DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派 新玩意 240|少数派的编辑们最近买了啥? - 少数派 一日一技|为什么你应该关闭 iOS 的键盘声音 - 少数派 我做了个插件和 Skills,一键提取任何网站的设计规范 Design.md - 少数派 住在三四线城市的你,该开始录播客了 - 少数派 甘南秘境,大白高国 - 少数派 AI的审美:谁让把我变成川内倫子 - 少数派 返工怎能不烦恼,打工人片单总有一部是你的「嘴替」 - 少数派 为了让「上厕所」更健康,我做了一个小工具 - 少数派 AI + Skill,能够让生成的文章去除 AI 味吗? - 少数派 新玩意|韶音OpenDots ONE 耳夹式耳机 - 少数派 《美满》| 在每一个春天的晚上相爱(362) - 少数派 新玩意|优篮子 PS01 MagSnap 磁吸支架 - 少数派 自我整合手记 | 我开始早睡了:用稳定规则,为自由托底 - 少数派 用龙虾(OpenClaw)两个多月,我最深的12个体会 - 少数派 听歌时间到,12 张你可能错过的 2025 华语乐坛好专辑 - 少数派 承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派 《四海为家的人》| INTJ对话INTJ(361) - 少数派 你发过的那些黑历史,是时候一次清干净了 - 少数派 新玩意:安安静静玩,越玩越专注:计客密码机 - 少数派 iPad 用户首次体验 Android 平板:vivo Pad6 Pro - 少数派 数据逻辑强 - 少数派 极北行+ | 一路向北,探访日本至北之地 | 001 - 少数派 万字剖析:千问App深度体验报告(2026) - 少数派 在2026年,如何真正防止别人抄袭你的作品 - 少数派 怎么用 50 块搭个 AI 语音助手?我踩了 3 天坑 - 少数派 YeeroAI:让 AI 对话真正成为知识管理的一部分 - 少数派 爬泰山 - 少数派 「旅图显影」 App 更新:这次,我们补上了一点「手感」 - 少数派 假期出门太折磨?我的 23 条经验帮你规划惬意旅行 - 少数派 工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱?我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派 用户侧出发——什么是AI,我要不要学习? - 少数派 找片、转存、整理、播放一条龙!让你的付费网盘值回票价 - 少数派 欢迎试用!日课一问2.0插件 - 少数派 自己做的MDeditor,原本想购买 Typora 试了两次支付不成功,干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具,让 ~/Downloads 彻底告别混乱 - 少数派 因为受不了 Mac 的风扇策略,我做了一个风扇控制工具 - 少数派 别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用?我测了一周的体验 - 少数派 AI 写代码老是出 bug?这 5 个配置我后悔没早知道 - 少数派 「新玩意」苹果出相机可能就这样:Sigma BF + 45mm F2.8 DG Contemporary - 少数派 一个面向2030年的AI操作系统是什么样子的:浅谈cola这款有灵魂的Agent - 少数派 别只看写代码 - 少数派 每天解决10个问题,还是一口气攻坚解决400个? - 少数派 AI 交易机器人怎么搭?我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online:把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用?我测了 3 个模型发现差距真大 - 少数派 Legend Talk:我做了个 AI 圆桌,让 160 位思想家围着你的问题转 - 少数派 如何找到自己的蓝方?在小县城寻找压力测试 - 少数派 语音输入与软件接口|2026年聊AI时,我们都聊些什么(上) - 少数派 混动已经卖爆,纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派 本月玩什么|朋友收藏、识质存在、沙罗周期 - 少数派 为什么要每天坚持输出? - 少数派 Claude API 挂了好几个小时,你的项目有备用方案吗? - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派 登录系统立即播放视频或者图片音乐的软件 - 少数派 我为什么创建 FlipHTML5 下载工具 - 少数派 残局没电?多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派 前往通义路的路 - 少数派 太好看了,媲美Sun的个人导航页,NAS部署星云门户 - 少数派 乌黑嘴唇“一键检测”上线了 - 少数派 派早报:Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派 【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派 记了上千条流水,还是看不懂财务?我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派 新玩意 | 一棵柠檬树(仿真版) - 少数派 Momenta的“物理AI”野望,需迈过“含摩量”这道关 - 少数派 网页直接投屏控制手机!NAS一键部署PandaScrcpy,流畅丝滑可远程。 - 少数派 众测|邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会:分享时间是真诚 参会记 - 少数派 iPad 赋能电影创作:国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美:我用 8 个大模型给 100 张旅行照片打分 - 少数派 普通人如何破圈?去参加一个本地协会 - 少数派 把极空间的图标全换了,主题DIY全攻略打造你的专属NAS桌面 - 少数派 电子便签墙,帮你实现便签自由 - 少数派 我如何用三个 CLI 工具取代文档创建需求 - 少数派 原来真的有人可以玩一辈子 - 少数派 社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW|索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9,我看重的不是堆料,而是不凑合 - 少数派 鼠须管 Squirrel 皮肤配置指北 - 少数派 从watch ultra2换到redmi watch6 - 少数派 派早报:阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派 别迷信1M - 少数派 家人们天塌了!网盘“大封杀”,多个渠道多条路,NAS部署PanHub - 少数派 AI与人勾心斗角!NAS一键部署AI狼人杀,假日休闲必备。 - 少数派 电商必备!Comfyui工作流批量生图插件,一次生成12张!支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程,0.03/张 - 少数派 OpenClaw第三方APi怎么配置?可使用Gpt-image-2模型 - 少数派 会员社区话题精选 Ep. 103 - 少数派
除了显卡,玩转大模型的门槛还在哪? - 少数派
2024-06-26 · via 少数派

大语言模型(Large Language Model, LLM, 下称大模型)可谓是当下最火的科技。纵使它这么火爆,能够入局的玩家却不多。究其原因,还是玩转大模型的门槛太高了。「拥有」一个专属大模型并不难。参照论文、开源代码、数据集,改一改,总能搓出来一个大模型。但是想要玩转,就难了。

怎样才算玩转?当然是玩着,还把钱挣了。本文尝试从学术界和工业界的双重视角来解释:为了玩转大模型,需要克服哪些门槛?

如何将一个大模型运行起来?

GPUs, lots of GPUs.

现在,所有人都知道,跑大语言模型的关键在于显卡(GPU)。谁拥有最多的显卡,谁就有机会发展出更大的模型,提供更好的服务。但是只要有显卡就够了吗?

答案是:不够。

目前流行的大语言模型,通常是 Transformer 架构模型,是一类深度神经网络模型。这类模型需要经历训练和推理两个阶段。就像人脑一样,先学习知识,再运用到新的问题上,所谓举一反三。对于企业来说,就需要先拥有一个训练好的模型,再将用户的问题输入到模型中,进行推理,并返回结果。

理想情况下,如果一块 GPU 训练一个模型要一天,那么两块 GPU 训练相同的模型就只用半天。现实会给你狠狠的一巴掌——钞能力在这不管用。正如《人月神话》讨论工作效率随人数增加,非线性增加的问题,随着 GPU 数量的增加,模型训练的效率也不是成比例增加的。业界通常使用加速比(多卡训练下的单卡吞吐量平均指标除以单卡训练下的吞吐量平均指标)来衡量多卡训练的效率,越接近 1 越好。

以双卡加速比 0.8 为例。这代表着,如果一张卡单独训练时的吞吐率为每秒钟 600 条序列(即每秒钟,显卡可以接收 600 条序列的文字并更新模型参数),那么两张卡时,每张卡每秒钟只能处理 600*0.8 = 480 条序列了,两张卡也才处理 960 条序列。相比较理想情况下,双卡 600*2=1200 条序列,是不是感觉两张卡带来的效率提升也没那么大了?

GPU 越多,GPU 的吞吐率越小,GPU 吞吐率越小,GPU 越少。所以,GPU 越多,GPU 越少。

一个「GPU 大厂」是如何运转的?

假设 GPU 已经不是门槛,厂商就会把这些 GPU 全部放在一起,搭建一个专门的 AI 集群处理 LLM 相关服务流量,称为「GPU 大厂」。大厂员工往往干活的时间不多,更多的时间花费在拉通对齐,GPU 大厂也不例外。

GPU 拉通对齐什么呢?

回答上面的问题,首先要解释一下多卡训练时,每个 GPU 在干嘛。模型训练阶段主要涉及两个部分:数据集和模型参数。随着数据集和模型参数的增加,多卡训练也可以分为数据并行和模型并行。数据并行就是将一整个数据集分成几个小数据集,每个 GPU 负责训练一个小数据集。模型并行就是将模型划分为好几个子模型(按照划分的方式不同,分为张量并行和流水线并行),每个 GPU 负责训练一个子模型。由于训练的过程需要迭代好多轮,所以每一轮结束这些 GPU 都需要进行同步,向别的 GPU 汇报这一轮的工作结果(训练结果)。

  • 流水线并行:一个 LLM 模型通常包含很多层,每一层需要依次接收上一层的结果作为输入,并将计算结果输出到下一层,涉及到 Send/Recv 通信操作。这类操作通信量不多,是 GPU 所负责的模型层的计算结果,但是由于依赖关系,每一层需要等待上一层的计算结果才可以继续训练,引入了很多等待时间,学术界称为 Bubble 。
  • 张量并行:LLM 模型的一层也可以由几个 GPU 负责训练。这时候拉通对齐的成本就大大增加了。因为单层模型训练涉及到的是矩阵乘法,这里每个元素的计算结果都有赖于周围的元素,所以这里的通信关系就由链式的变成了网状的,一般称为 All-to-All 通信,即每个 GPU 都要和其他 GPU 都通信一次,且每次通信的内容都有所不同。张量并行的通信量是多卡训练中最多的环节,也是最容易产生瓶颈的地方。如果流水线并行看作部门间和部门间的交流,那么张量并行就是部门内部小组成员高强度频繁的交流。
  • 数据并行:当数据集很庞大的时候,可以用多个 GPU 同时训练一个模型,每个模型使用一部分子数据集作为输入,最终每一轮的训练成果汇总到其中一个 GPU,或者同步到全部 GPU 上,通过这种方式能够降低数据集的训练时间。不可避免的需要在训练一段时间后同步一下进度 (Allreduce 操作),否则每个 GPU 上的模型只包含自己训练的数据信息。数据并行的频率和通信量介于流水线并行和张量并行之间。
流水线并行示意图(图源:GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism)
数据并行和模型并行示意图(图源:https://www.paddlepaddle.org.cn/support/news?action=detail&id=2913)

上述三种并行方式发展的很成熟,并被应用于现在流行的训练框架中(DeepSpeedMegatron-LM)。除了以上最典型的三种并行方式,随着对大模型训练的研究更加深入,一些训练框架应用了如序列并行(Colossal-AI)以及专家并行(DeepSpeed-MoE)等手段。这些手段通常针对特定场景或模型,因此不再赘述。

现在的 GPU 性能越来越强,单卡训练的速度越来越快,但是想让这些 GPU 一起高效的干活越来越困难了。研究结果表明1,AI 集群的瓶颈往往在 GPU 间的通信上。在学术界,有一个专门的指标来衡量 GPU 的利用率:MFU。字节跳动最新的研究成果2,在多达一万显卡的集群进行优化,将 MFU 提高至55%,也就是说 AI 集群有大约一半的时间,GPU 都在「摸鱼」。

GPU 也要降本增效

不是 GPU 想摸鱼,是工作内容不得不摸鱼。为了不让 GPU 摸鱼,学界和业界可谓是挖空心思降本增效,试图用更少的 GPU 干更多的活:

  • 流水线编排优化:GPU 也要做好任务管理。如果每个 GPU 在流水线中都傻傻地等待其他 GPU 完成任务再开始自己的工作,不就可以「摸鱼」了吗,那怎么行!一些工作(GPipePipeDream)通过发掘不同 GPU 间可以独立完成的工作,尽可能小的减少 GPU 间的工作依赖,让每个 GPU 忙完手里的活就赶紧发给下一个 GPU,而不是等所有工作全部忙完再汇报,大大降低 GPU 的摸鱼时间。
  • 梯度压缩技术:一个合格的打工人,不会不加处理地将工作结果汇报给他人,而是整理出有价值的信息汇报,GPU 也不例外。GPU 的每一轮训练结果不一定全部有用,有很多零值,别的 GPU 不关心。因此,一些工作(OmniReduce)通过各种手段,例如让 GPU 只发送必要的信息,降低 GPU 发送的数据量,避免时间浪费在收发数据上。
  • 网络辅助计算:大厂员工通常会配备实习生干一些杂活,现在可以招募可编程交换机作为 GPU 的实习生了。不同于传统网络设备只负责转发数据,可编程交换机可以从事简单的计算操作。一些工作(ATPSwitchML)基于此特点,在转发 GPU 的数据时提前使用可编程交换机进行计算,从而让 GPU 轻松一点。

除了直接解决 GPU 使用效率不高的问题,业界还会思考一些其他更现实的问题:

  • 异构 GPU 集群增效:鸡蛋不能放在一个篮子里,公司采购的 GPU 也不能是一个厂商的(现在最流行的如 NVIDIA 和华为昇腾)。不同厂商的 GPU 性能指标会有所不同,一些工作提出管理和调度接口,用于统一管理和分配异构 GPU 资源,保证不同型号 GPU 的性能差异不会影响集群整体性能。
  • 提高 GPU 集群弹性:人会生病,GPU 也会。在真实场景下,在 1000 个 GPU 上同时运行程序,很大概率会出现一些 GPU 无法使用。为了让训练进度不被失效的 GPU 拖慢,一些工作(GeminiHoplite)考虑快速地恢复失效 GPU 负责的程序或者重新规划现有 GPU 的训练内容。
  • 提高 GPU 碎片利用率:现在的 GPU 单个算力性能往往过剩,如果一个 GPU 只负责一个任务,算力很难被压榨干净。为了赚更多钱,集群中的 GPU 会同时负责多个模型训练任务 。好钢要用在刀刃上。一些工作(FGDGMLake)考虑如何将这些碎片 GPU 资源分配至不同的训练任务,从而刚好满足每个训练任务的需求,不过度分配资源。

从训练到推理

模型训练和推理的关系就像是人类学习和学以致用的关系。我们花了大量时间学习,最终是为了将学习的知识应用到实际。

学习的时候,关注点在学习内容。学以致用时,关注点在反应时间。面对询问,一个人能够很快地做出反应并给出正确答案,我们会夸这个人聪明。大模型也不例外。这就导致模型训练和推理时,业界的关注目标不一样。作为用户,在各个平台和大模型对话,背后都是一个个推理请求,对应了大模型的推理任务。对于推理任务,无论是用户还是业界,都希望大模型反应速度越快越好,对应的指标就是「推理时延」

从技术的角度,推理任务和训练任务也有所不同,直接给出结论就是:推理任务对内存访问速度的要求更高。所以学界和业界开始意识到,针对推理任务,需要从新的角度进行优化。这些优化近期被提出来,思路简单,却能够取得很好的效果:

  • 解耦处理模型推理中的关键阶段:大模型推理包含两个阶段(Prefill 和 Decoding 阶段),如果不区分这两个阶段,会造成任务的性能干扰。一些工作(SarathiDistServe)在调度推理任务时将这两个阶段分开考虑,交错不同阶段的请求或分配不同的 GPU 避免干扰,均能达到好几倍的加速效果
  • 利用局部性原理优化大模型推理系统:局部性原理可以看成计算机的就近原则。通过将「局部性原理」应用到大模型推理系统中的模型重载、模型迁移、资源分配,ServerlessLLM(OSDI 24)实现了10~200 倍的推理速度提升
  • 使用小模型去代替大模型:大模型在通用任务上的效果卓越,但是在特定场景下的性能能胜过专用小模型吗?Tabi (Eurosys 23)企图分析用户的请求和小模型的性能,优先使用合适的小模型服务用户请求,在必要时才使用大模型。通过这种方式降低平均推理时延 21%-40%

后记

这篇文章的写作契机是刷 5 月 6 日 的派早报,看到其中分享了阿里云在 Eurosys 24 上发表的学术成果。虽然阿里云的这篇论文成果不属于我的研究领域,但是我会阅读 Eurosys 这类系统会议中的其他论文。我着实有点惊讶,少数派对学术会议的关注,也开始考虑,是不是我也可以介绍一些学术成果

曾经有评论问我的研究内容是什么?不太好说清楚,这篇文章可以作为一部分回答。多亏了 OpenAI ,大模型被广为人知,我的研究内容看上去也有了一点价值。除了产生一点学术价值或工业价值,我更希望产生一些社会价值。希望一些「小白」看到这篇文章,对大模型有更深的理解。尚不清楚这篇文章带来的具体价值,或许在吹水时来一句:你知道玩大模型不是卡越多越好吗?能让同伴对你刮目相看——搁这装逼来了。

为了增强可读性,尽可能避免将本文写成文献综述或技术文档,因此想到将 AI 集群类比科技大厂,尝试以较为简单易懂的方式去介绍大模型技术落地过程中面临的挑战。展开来说,这些内容三天三夜都说不完,本文权当抛砖引玉。如果读者想要获取更加专业的内容,可以去 Arxiv 、知乎等平台阅读更加专业的材料,也可以直接和我交流。

> 关注 少数派小红书,感受精彩数字生活 🍃

> 特惠、好用的硬件产品,尽在 少数派 sspai 官方店铺 🛒