惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
T
Troy Hunt's Blog
Schneier on Security
Schneier on Security
N
News | PayPal Newsroom
Hacker News: Ask HN
Hacker News: Ask HN
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Google DeepMind News
Google DeepMind News
www.infosecurity-magazine.com
www.infosecurity-magazine.com
N
News and Events Feed by Topic
V
Vulnerabilities – Threatpost
Cyberwarzone
Cyberwarzone
K
Kaspersky official blog
P
Privacy & Cybersecurity Law Blog
P
Privacy International News Feed
WordPress大学
WordPress大学
U
Unit 42
PCI Perspectives
PCI Perspectives
S
Schneier on Security
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
V
Visual Studio Blog
Engineering at Meta
Engineering at Meta
The Cloudflare Blog
I
Intezer
宝玉的分享
宝玉的分享
N
News and Events Feed by Topic
Martin Fowler
Martin Fowler
B
Blog
美团技术团队
T
The Blog of Author Tim Ferriss
C
Cisco Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
酷 壳 – CoolShell
酷 壳 – CoolShell
The Last Watchdog
The Last Watchdog
J
Java Code Geeks
博客园_首页
A
About on SuperTechFans
Vercel News
Vercel News
Attack and Defense Labs
Attack and Defense Labs
H
Heimdal Security Blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
IT之家
IT之家
小众软件
小众软件
H
Help Net Security
D
Darknet – Hacking Tools, Hacker News & Cyber Security
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
T
The Exploit Database - CXSecurity.com
Y
Y Combinator Blog
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Webroot Blog
Webroot Blog
T
Tenable Blog

Local LLM

本地部署 GLM-5.2 的门槛太高了,根本玩不起! - V2EX 开源了一个 LLM 推理服务监控面板 - V2EX 大模型小白推荐一下本地模型 - V2EX GLM5.2 个人感觉有点被吹大了 - V2EX 有支持 6000 Ada 使用 deepseek v4 flash 推理 的框架吗 - V2EX 分享个自己在用的玩具 - V2EX 配置 kiro 的问题 - V2EX 买 macbook pro 笔记本,跑本地模型,怎么配置性价比比较高? - V2EX lama.cpp 目前有重大性能 bug: checkpoint 的巡回逻辑对于混合模型(比如 qwen3.6-27B)无效,从而导致大概率每次对话都要 prefill 全文,严重拖慢速度 GPU 跑 LLM 也会超频吗? DiffusionGemma Gemma4 12b 居然比 Qwen3.5 9b 还快,意料不到 什么? Apple Watch 也能本地跑 Qwen 了? 关于低算力 gpu 推理时 prefill 在总时长中的占比问题 现在大模型主流都用哪些 nVidia GPU? Mac book air M5 32G+1TB 能跑本地大模型? 需要购买国产显卡本地部署大模型,哪家的比较好 mac mini 跑本地模型,需要什么配置? Gemma4 12B 如何跑在 16G 显存上? mac 64g 能部署哪个本地大模型 消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都比这两个框架快,并且占用显存低 本地大模型最佳 Mac 配置选择 关于 5070ti 模型推理的速度和本地部署思考 有没有能够兼容 Win7 的离线模型工具 想折腾一个 AI 主机,请行家出手 锤子找钉子的项目分享:假想企业本地部署后不用人工洗库接入 llm 的中间层。 gemma4:31b-coding-mtp-bf16 有适合本地跑训练 AI 的电脑配置吗? - V2EX 都 2026 年了,为什么还有人觉得 AMD 比 Nvidia 更适合部署本地大模型? LiteChat 轻量级本地大模型聊天 WebUI,支持 vLLM DGX Spark、ASUS GX10、MSI EdgeXpert 看起来都像是一个母胎的产品,用起来有差别吗? 推荐一个 GPU 推理速度计算器, 可能方便买配件自建本地大模型的人用上 github 看到一个项目, 3090 跑 27B, 129tps,最高 207tps 请问各位大神,在隔离环境中,有本地 qwen 大模型,有没什么解决方案,做本地的知识库的方案,类似谷歌那个 notebooklm ,也勉强可以? 有一台 16 寸 m1max 64g+1T 满 GPU 的 MacBook Pro 适合部署哪个本地模型 - V2EX 私有化部署大模型的“终点”是 Mac 还是 Nvidia? 我自己的电脑是 5070Ti,总感觉跑一些模型算力不够 能一起给本地部署的开源模型做个适配的 coding agent 吗?我憋了口气 用 antirez 的 llama.cpp fork 把 DeepSeek v4 Flash 在本地跑起来了 全球本地部署开发者们一起,打造一个真正属于开源社区的 Coding Agent 了 自己做了一款在线 GPU 推理速度计算器 · TPS Calculator qwen3.6 27b 本地编码测试 xllm 真的比 vllm+plugin 性能好么? 各位推荐一个 32G Macbook air M5 可以跑的 moe 模型 我的开源项目,欢迎大家使用和批评,本地无字典字符型模型训练架构代码完全开源,可形成语义结构 请教一个关于模型训练主机配置的问题 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s,记录一下技术发现 大伙有想过二次训练吗? 用 DGX Spark 做这些事情,是否能力合适/足够,有佬能解答吗?(估算也行) - V2EX 部署本地模型 token 输出万能公式 有没有简单版的 new-api 项目 想在本地部署 OCR 服务,解析美团的外卖订单截图,求推荐一个好用的 OCR 模型 本地部署靠不靠谱? - V2EX 为什么你该停止使用 Ollama - V2EX 本地大模型多大显存够用? 求可靠本地 vibe coding,有八卡的 L20 服务器 - V2EX 想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题,有人测试过速度吗? - V2EX 32B 本地 vibe coding 有能用的模型吗 - V2EX Gemma4 + LiteRT-LM 真得有点的东西, e2b 内存仅 2G 左右占用, 在 天玑 的安卓机上跑的飞快. - V2EX 闲置 16GB M1 Pro MBP 跑大模型 - V2EX 有人用 mac studio 测试过 gemma4 31b 16 吗 - V2EX gemma4:e4b 的效果出乎意料, 1050ti 也能很好的生成文章 - V2EX 谷歌的 Gemma 4 怎么样,有必须要本地弄一下吗 - V2EX 2 年以后的硬件和本地大模型 - V2EX 为什么 Qwen 吹这么牛,但是用起来体验这么拉啊,它的真实能力究竟怎么样 - V2EX Gemma 4 31B 大概什么水平,本地部署是不是又成为现实了 - V2EX qwen 本地大模型的问题 - V2EX 好奇有没有人用本地模型写代码? macbook 32G 内存, M5 芯片本地跑大模型有推荐的吗? - V2EX 本地部署 deepseek 70B,回答乱码 - V2EX 3090 跑文本向量模型可以么? 3090 是不是有点过剩? 家用机带宽太小玩不转 local llm 啊 想部署本地大模型来分析股票趋势,有没有专门针对股票的大模型? - V2EX minimax 挂了?? qwen3.5 过度思考的问题 [求助] DGX Spark 上 Ollama 推理极慢,改用 llama.cpp 部署是否更合适? 如何在 vs code 上应用自建的 ollama 模型 现在能本地部署最好的 TTS 是哪套, 太多了,没法都去试 本地 8G RTX4060 破卡,可以产多少 tokens? 如何在内网使用 opencode Qwen3.5-35B-A3B microgpt.py 30B 尺寸哪个小模型编码能力会好一些 ClawdBot 保姆级安装指南:从零搭建你的 24/7 私人 AI 助手 [求助] 求成本可控,性能过关的本地 vibe coding 方案 个人玩 ai,显卡最低起步是 5080 嘛? intel b60 48G 可以买吗 - V2EX 现在还有类似 nextchat 这样的 web 工具可以用自定义 api 使用的吗? 3070RTX 32GB i9 内存 1TB 的游戏本 推荐用来跑什么 AI 工具呢? - V2EX 本地大模型目前意义大吗? 寻找本地搭建方案有偿 讨论下自建内网 RAG 知识库和 AGENT 平台 使用 Nexa 提供的 SDK 在手机上运行端侧大模型 想问问大家有没有搭建本地的 LLM,我对应用场景挺困惑的 想学习下大模型,有什么论文网站推荐吗 Q: 关于读大部头 PDF 和 Mac Mini M4 能做的事情有些问题? 目前开源可以本地部署的模型有哪些? V 友们,有没有推荐的本地台式机文生图的方案?
多台 GPU 之间怎么组网互联?
mingtdlb · 2026-04-21 · via Local LLM

这是一个创建于 53 天前的主题,其中的信息可能已经有所发展或是发生改变。

比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器

好奇问一下,想学习学习

第 1 条附言  ·  4 月 21 日

为什么想了解这个,GPU太贵了,单节点可能都要几十上百万,集群才考虑组网,实践的机会更少了。

现在招人都要求有经验的,不像以前能从初级开始干,有机会从实践中学习。

  • GPU
  • 互联
  • 部署

    30 条回复    2026-04-26 17:26:19 +08:00

    makictos

    1

    makictos      4 月 21 日   ❤️ 3

    每台机器插八个 cx7 400g 网卡,然后三台机器走 48 口交换机做互联

    minami

    2

    minami      4 月 21 日 via Android

    关键字:NvLink 、NvSwitch 、InfiniBand

    ptstone

    3

    ptstone      4 月 21 日

    网卡互联根本行不通,pcie5 的速度都不够,至少 1Tb/s 这种才能考虑

    geekvcn

    7

    geekvcn      4 月 21 日

    目前都是 IB 网卡或者雷电网桥,总之带宽越高越好,以太网也行但是效率堪忧

    thevita

    8

    thevita      4 月 21 日

    单台机内 nvlink
    跨机器 RDMA 呗

    网络并不是对等的, nvlink 带宽和延迟肯定都要好于网络, 所以尽量把 all-to-all 的通信放单个 node 内(比如 TP )
    跨 node 通信也需要深度的优化,通过各种 pipeline overlapped 来隐藏延迟

    不是搞这个的,仅仅是个人粗浅的理解

    mingtdlb

    9

    mingtdlb      4 月 21 日

    @ptstone #3 gpu 是 smx 的,单节点内 nvlink 没问题,但集群的话,按 1 楼哥 @makictos 说的那样 那个是专用卡?然后走 rdma ( ib 或 rocev2 )。

    刚问了下 Gemini ,大概意思服务器安装网卡驱动
    ib 的话:需要在一个节点上运行 Subnet Manager (OpenSM) 来管理网络拓扑和分配 LID ,就没了
    RoCEv2 的话:配上 ip ,还要优化网络,然后是主机这边 rdma 相关的配置

    这么看下来,加上现在有 AI 的辅助,gpu 服务器的集群的部署也没很难?😂

    roygong

    10

    roygong      4 月 21 日 via iPhone

    Infiniband 是一个专门的硬件,有了就可以跨机跑模型

    geekvcn

    11

    geekvcn      4 月 21 日

    @mingtdlb 连接不要用光缆,用铜缆直通,有专门的直连铜缆,缺点是长度受限仅适用于机器都在单机柜里。不用光缆是因为光电转换会引入额外的开销和延时

    neteroster

    12

    neteroster      4 月 21 日

    除了硬件还要考虑并行,dp, ep, tp 啥的,各种调优,infra 没那么简单的

    COOOOOOde

    16

    COOOOOOde      4 月 21 日

    未来的方案都是上光信号 铜缆都不行了, 你炒股的话 就知道现在的 CPO 题材有多火了

    mingtdlb

    17

    mingtdlb      4 月 21 日

    @stoneabc #14 搜了一些文章,比较同意,用 roce ,ib 成本太高了。但具体怎么组网还没搜到。。。想看具体的方案细节

    coefu

    18

    coefu      4 月 22 日

    LLM 多机多卡分布式并行推理的话,infra 上的优化总是有限度的,还得是 架构优化,kvcache 量化,pd 分离,虽然都是老生常谈,但是真的必须得用。

    要是 pipeline 串行推理,那非常简单明了,10G 以太网都能搞。

    coefu

    19

    coefu      4 月 22 日

    glm5.1 Q8-k-xl,811G ,2 个 m3 mac studio ultra 512G 通过 雷电口串起来跑 pipeline ,也是能跑的。就是慢罢了。

    amd 2023 年出的 mi300x,单卡都 192G hbm3 ,一机 8 卡,也有 1.5T ,现在开源的量化都能单机塞进去。
    就不用说 2024 年出的 mi325x ,单卡 256G hbm3e ,一机 8 卡,2T ,开源的 BF16 都能塞进去,还有 context 空间。

    所以,多机多卡分布式并行推理,在这些大船靠岸的时候,都是过去时了。只是,当下,对于市面上的穷人来说,还是有用的。或许,工程学术上还能水一点文章。

    makictos

    20

    makictos      4 月 22 日

    @coefu 多机器组全局 nvl 不是为了推理的,如果你需要强推理,有很多其他高性价比选择,比如说你说的 mi325x ,或者 intel 的 gaudi3 。全局 nvl 的核心主要在于多集群的训练,这个是 nv 独有的优势。

    makictos

    21

    makictos      4 月 22 日

    @mingtdlb 你想看哪些技术细节?目前想要做多机组网,对于小规模客户来说,其实 ib 就是成本最低的。因为有集群组网经验的技术年薪。。大概率高于一台 H200 整机。而且就算集群组网,也无法实现你把模型拖进去就能用,程序并不是原生就能做 nvl 多卡拆分的。

    coefu

    22

    coefu      4 月 23 日

    @makictos #20 训练多大参数的模型呢?有这个训练需求的,单卡早超过了 128G 。全世界不会超过 10 家,这 10 家的 infra 技术,和,你,我,他,有什么关系?你,我,他,会不会,懂不懂,又有什么关系?

    你的观点是工程学术理论极限,但是学界也没有条件搞这个级别的集群的工程技术创新,普罗大众也接触不到。能研究这个极限的,也就大厂的那些个有条件接触超大集群 infra 的工程师。理论极限,我当然懂。我每天都看最新研究论文。

    我的观点是,多机多卡分布式并行推理,就算是攒了一些低端卡,凑个 40G 网络的普通玩家来说,也是个鸡肋技术。不要说训练,多机多卡分布式并行训练,虽然起码理论上来说,我懂,但是我也没实践过,没条件。但是,并不是说,每个人从理论上都懂的。

    makictos

    23

    makictos      4 月 25 日

    @coefu 无意冒犯,我目前就职于你所说的大厂,也确实是 v2 少数能完整直接控制超大集群的工程师。回复此贴只是做技术解答。

    makictos

    24

    makictos      4 月 25 日

    @coefu 其次,懂这些是相当有必要的,在目前 tesla v100 sxm2 这种入门级卡片只要 600 元的市场下,如果个人购买百卡组小规模集群进行学习实践,可以有效提高你进入大厂的可能性。在目前的组内需求中,我们仍缺乏有经验的百卡/千卡工程师。

    mingtdlb

    25

    mingtdlb      4 月 25 日

    @makictos #21 你讲的对我来说有点高深,什么 nvl ,什么多卡拆分,我不太了解这些,我知道你有东西,第一条回复就能看出来😁

    这么说吧,比如我想在企业内网跑一个大模型,供内部使用,要企业级的方案,最开始肯定是确认需求算力、并发、吞吐量、显存大小,再选型 GPU ,硬件到货了再给他组起来。

    假设吧,比如是有 8 台 SXM 版的 GPU 服务器,每台是 8 卡 H200 ,那首先要把硬件连接起来,怎么连呢,然后再部署 ds v4 的大模型,提供 api 接口给业务用。

    我想了解下怎么开展这项工作,有没有文章可以看的,想学习了解一下,我个人是做云计算方面的,未来 GPU 价格如果下来了,企业内网有需求的都会这么玩吧

    软件层面可能企业中有 GPU 云平台这种东西,能直接纳管 GPU 服务器,然后平台能直接部署大模型,还带监控、运维管理啥的(我按云计算的的思想,猜的,就像 esxi 这种厂家,到时部署大模型给业务用就像发个虚拟机一样简单),先不考虑这种的

    coefu

    26

    coefu      4 月 25 日

    @makictos #24 味儿太浓,你要是能不这么端着交流,我还能高看你一眼。但是你这装的,处处感觉自己屌人一筹。讲真,LLM 这波还能走多远都是个问题,行家都知道 LLM 根本没有什么搞头。你也就是在这波泡沫里游荡一回罢了。底层这点工程技术,早就没什么新鲜东西。而且我都没问你,你解答个什么?你给 OP 回复就行了,并且你回复的也不是我不懂的东西嘛。讲了和没讲一样,谁不知道 nvlink?

    一开始是无所谓冒犯不冒犯的,但是你后面这两个回复,确实味儿太冲,熏到哥们儿了。但是我理解你孤芳自赏的内心,我原谅你。

    makictos

    30

    makictos      4 月 26 日

    @coefu 多远不重要,但是对普通人来说,这是目前来钱最快的一条路之一。我也只是赚点钱的普通人。