





















这是一个创建于 53 天前的主题,其中的信息可能已经有所发展或是发生改变。
比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器
好奇问一下,想学习学习
第 1 条附言 · 4 月 21 日
为什么想了解这个,GPU太贵了,单节点可能都要几十上百万,集群才考虑组网,实践的机会更少了。
现在招人都要求有经验的,不像以前能从初级开始干,有机会从实践中学习。
1 makictos 4 月 21 日每台机器插八个 cx7 400g 网卡,然后三台机器走 48 口交换机做互联 |
2 minami 4 月 21 日 via Android关键字:NvLink 、NvSwitch 、InfiniBand |
3 ptstone 4 月 21 日网卡互联根本行不通,pcie5 的速度都不够,至少 1Tb/s 这种才能考虑 |
7 geekvcn 4 月 21 日目前都是 IB 网卡或者雷电网桥,总之带宽越高越好,以太网也行但是效率堪忧 |
8 thevita 4 月 21 日单台机内 nvlink 网络并不是对等的, nvlink 带宽和延迟肯定都要好于网络, 所以尽量把 all-to-all 的通信放单个 node 内(比如 TP ) 不是搞这个的,仅仅是个人粗浅的理解 |
9 mingtdlb 4 月 21 日 |
10 roygong 4 月 21 日 via iPhoneInfiniband 是一个专门的硬件,有了就可以跨机跑模型 |
12 neteroster 4 月 21 日除了硬件还要考虑并行,dp, ep, tp 啥的,各种调优,infra 没那么简单的 |
16 COOOOOOde 4 月 21 日未来的方案都是上光信号 铜缆都不行了, 你炒股的话 就知道现在的 CPO 题材有多火了 |
18 coefu 4 月 22 日LLM 多机多卡分布式并行推理的话,infra 上的优化总是有限度的,还得是 架构优化,kvcache 量化,pd 分离,虽然都是老生常谈,但是真的必须得用。 要是 pipeline 串行推理,那非常简单明了,10G 以太网都能搞。 |
19 coefu 4 月 22 日glm5.1 Q8-k-xl,811G ,2 个 m3 mac studio ultra 512G 通过 雷电口串起来跑 pipeline ,也是能跑的。就是慢罢了。 amd 2023 年出的 mi300x,单卡都 192G hbm3 ,一机 8 卡,也有 1.5T ,现在开源的量化都能单机塞进去。 所以,多机多卡分布式并行推理,在这些大船靠岸的时候,都是过去时了。只是,当下,对于市面上的穷人来说,还是有用的。或许,工程学术上还能水一点文章。 |
20 makictos 4 月 22 日@coefu 多机器组全局 nvl 不是为了推理的,如果你需要强推理,有很多其他高性价比选择,比如说你说的 mi325x ,或者 intel 的 gaudi3 。全局 nvl 的核心主要在于多集群的训练,这个是 nv 独有的优势。 |
21 makictos 4 月 22 日@mingtdlb 你想看哪些技术细节?目前想要做多机组网,对于小规模客户来说,其实 ib 就是成本最低的。因为有集群组网经验的技术年薪。。大概率高于一台 H200 整机。而且就算集群组网,也无法实现你把模型拖进去就能用,程序并不是原生就能做 nvl 多卡拆分的。 |
22 coefu 4 月 23 日@makictos #20 训练多大参数的模型呢?有这个训练需求的,单卡早超过了 128G 。全世界不会超过 10 家,这 10 家的 infra 技术,和,你,我,他,有什么关系?你,我,他,会不会,懂不懂,又有什么关系? 你的观点是工程学术理论极限,但是学界也没有条件搞这个级别的集群的工程技术创新,普罗大众也接触不到。能研究这个极限的,也就大厂的那些个有条件接触超大集群 infra 的工程师。理论极限,我当然懂。我每天都看最新研究论文。 我的观点是,多机多卡分布式并行推理,就算是攒了一些低端卡,凑个 40G 网络的普通玩家来说,也是个鸡肋技术。不要说训练,多机多卡分布式并行训练,虽然起码理论上来说,我懂,但是我也没实践过,没条件。但是,并不是说,每个人从理论上都懂的。 |
24 makictos 4 月 25 日@coefu 其次,懂这些是相当有必要的,在目前 tesla v100 sxm2 这种入门级卡片只要 600 元的市场下,如果个人购买百卡组小规模集群进行学习实践,可以有效提高你进入大厂的可能性。在目前的组内需求中,我们仍缺乏有经验的百卡/千卡工程师。 |
25 mingtdlb 4 月 25 日@makictos #21 你讲的对我来说有点高深,什么 nvl ,什么多卡拆分,我不太了解这些,我知道你有东西,第一条回复就能看出来😁 这么说吧,比如我想在企业内网跑一个大模型,供内部使用,要企业级的方案,最开始肯定是确认需求算力、并发、吞吐量、显存大小,再选型 GPU ,硬件到货了再给他组起来。 假设吧,比如是有 8 台 SXM 版的 GPU 服务器,每台是 8 卡 H200 ,那首先要把硬件连接起来,怎么连呢,然后再部署 ds v4 的大模型,提供 api 接口给业务用。 我想了解下怎么开展这项工作,有没有文章可以看的,想学习了解一下,我个人是做云计算方面的,未来 GPU 价格如果下来了,企业内网有需求的都会这么玩吧 软件层面可能企业中有 GPU 云平台这种东西,能直接纳管 GPU 服务器,然后平台能直接部署大模型,还带监控、运维管理啥的(我按云计算的的思想,猜的,就像 esxi 这种厂家,到时部署大模型给业务用就像发个虚拟机一样简单),先不考虑这种的 |
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。