惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

D
Docker
Microsoft Azure Blog
Microsoft Azure Blog
云风的 BLOG
云风的 BLOG
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
L
LangChain Blog
P
Privacy & Cybersecurity Law Blog
Hugging Face - Blog
Hugging Face - Blog
C
CXSECURITY Database RSS Feed - CXSecurity.com
大猫的无限游戏
大猫的无限游戏
Cyberwarzone
Cyberwarzone
The Register - Security
The Register - Security
Stack Overflow Blog
Stack Overflow Blog
A
Arctic Wolf
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
T
Threatpost
The GitHub Blog
The GitHub Blog
P
Privacy International News Feed
WordPress大学
WordPress大学
U
Unit 42
S
Securelist
T
The Exploit Database - CXSecurity.com
C
Cyber Attacks, Cyber Crime and Cyber Security
P
Proofpoint News Feed
Latest news
Latest news
Hacker News: Ask HN
Hacker News: Ask HN
小众软件
小众软件
Know Your Adversary
Know Your Adversary
The Cloudflare Blog
V
Vulnerabilities – Threatpost
The Hacker News
The Hacker News
Scott Helme
Scott Helme
有赞技术团队
有赞技术团队
Security Latest
Security Latest
Google DeepMind News
Google DeepMind News
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Simon Willison's Weblog
Simon Willison's Weblog
博客园 - Franky
Y
Y Combinator Blog
博客园 - 叶小钗
Security Archives - TechRepublic
Security Archives - TechRepublic
Google DeepMind News
Google DeepMind News
N
Netflix TechBlog - Medium
S
Secure Thoughts
T
Threat Research - Cisco Blogs
aimingoo的专栏
aimingoo的专栏
S
SegmentFault 最新的问题
Microsoft Security Blog
Microsoft Security Blog
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
博客园 - 司徒正美
M
MIT News - Artificial intelligence

少数派

派早报:Google 发布 Fitbit Air 等 - 少数派 「新人报到」確認需求,再開始 - 少数派 从 SOLO 独立开发者社区,我看到了越来越多开发者开始做自己的产品 - 少数派 我怎么管理那些"不常做,但总会忘"的生活事项 - 少数派 人形机器人量产元年,数据才是具身智能的“生死线” - 少数派 BuhoLaunchpad 高度还原 Mac 启动台:开发历程与思考 - 少数派 五年陪伴依然不舍,DIY 换壳后让罗技 MX Master 3 继续服役 - 少数派 新玩意 240|少数派的编辑们最近买了啥? - 少数派 一日一技|为什么你应该关闭 iOS 的键盘声音 - 少数派 我做了个插件和 Skills,一键提取任何网站的设计规范 Design.md - 少数派 住在三四线城市的你,该开始录播客了 - 少数派 甘南秘境,大白高国 - 少数派 AI的审美:谁让把我变成川内倫子 - 少数派 返工怎能不烦恼,打工人片单总有一部是你的「嘴替」 - 少数派 为了让「上厕所」更健康,我做了一个小工具 - 少数派 AI + Skill,能够让生成的文章去除 AI 味吗? - 少数派 新玩意|韶音OpenDots ONE 耳夹式耳机 - 少数派 《美满》| 在每一个春天的晚上相爱(362) - 少数派 新玩意|优篮子 PS01 MagSnap 磁吸支架 - 少数派 自我整合手记 | 我开始早睡了:用稳定规则,为自由托底 - 少数派 用龙虾(OpenClaw)两个多月,我最深的12个体会 - 少数派 听歌时间到,12 张你可能错过的 2025 华语乐坛好专辑 - 少数派 承诺能追吗 - 少数派 macOS 26启动台没了? 我做了个不一样的App启动器 - Keboard - 少数派 《四海为家的人》| INTJ对话INTJ(361) - 少数派 你发过的那些黑历史,是时候一次清干净了 - 少数派 新玩意:安安静静玩,越玩越专注:计客密码机 - 少数派 iPad 用户首次体验 Android 平板:vivo Pad6 Pro - 少数派 数据逻辑强 - 少数派 极北行+ | 一路向北,探访日本至北之地 | 001 - 少数派 万字剖析:千问App深度体验报告(2026) - 少数派 在2026年,如何真正防止别人抄袭你的作品 - 少数派 怎么用 50 块搭个 AI 语音助手?我踩了 3 天坑 - 少数派 YeeroAI:让 AI 对话真正成为知识管理的一部分 - 少数派 爬泰山 - 少数派 「旅图显影」 App 更新:这次,我们补上了一点「手感」 - 少数派 假期出门太折磨?我的 23 条经验帮你规划惬意旅行 - 少数派 工作流会变吗 - 少数派 Claude Opus 4.6 怎么用最省钱?我测了 5 种方案 - 少数派 GPT Image 2 让图文并茂不再稀罕 - 少数派 用户侧出发——什么是AI,我要不要学习? - 少数派 找片、转存、整理、播放一条龙!让你的付费网盘值回票价 - 少数派 欢迎试用!日课一问2.0插件 - 少数派 自己做的MDeditor,原本想购买 Typora 试了两次支付不成功,干脆自己做一个 - 少数派 vibe coding了一个 3MB 的小工具,让 ~/Downloads 彻底告别混乱 - 少数派 因为受不了 Mac 的风扇策略,我做了一个风扇控制工具 - 少数派 别只怪模型 - 少数派 Warp 终端的 AI 功能怎么用?我测了一周的体验 - 少数派 AI 写代码老是出 bug?这 5 个配置我后悔没早知道 - 少数派 「新玩意」苹果出相机可能就这样:Sigma BF + 45mm F2.8 DG Contemporary - 少数派 一个面向2030年的AI操作系统是什么样子的:浅谈cola这款有灵魂的Agent - 少数派 别只看写代码 - 少数派 每天解决10个问题,还是一口气攻坚解决400个? - 少数派 AI 交易机器人怎么搭?我用 Claude 跑了一周实盘 - 少数派 Maptoposter Online:把你爱的城市画成艺术海报 - 少数派 Function Calling 怎么用?我测了 3 个模型发现差距真大 - 少数派 Legend Talk:我做了个 AI 圆桌,让 160 位思想家围着你的问题转 - 少数派 如何找到自己的蓝方?在小县城寻找压力测试 - 少数派 语音输入与软件接口|2026年聊AI时,我们都聊些什么(上) - 少数派 混动已经卖爆,纯电又来补刀——钛7闪充版简直“不讲武德” - 少数派 本月玩什么|朋友收藏、识质存在、沙罗周期 - 少数派 为什么要每天坚持输出? - 少数派 Claude API 挂了好几个小时,你的项目有备用方案吗? - 少数派 Function Calling 没你想的复杂——我用它做了个有点用的工具 - 少数派 登录系统立即播放视频或者图片音乐的软件 - 少数派 我为什么创建 FlipHTML5 下载工具 - 少数派 残局没电?多品牌外设电量统一管理软件EasyBluetooth已支持RTSS游戏内显示以及AIDA64 - 少数派 前往通义路的路 - 少数派 太好看了,媲美Sun的个人导航页,NAS部署星云门户 - 少数派 乌黑嘴唇“一键检测”上线了 - 少数派 派早报:Claude AI 接入多个创意软件生态、FILCO 生产方接手品牌等 - 少数派 【更新】BearCLI、Claude 连接器与 MCP 服务器 - 少数派 记了上千条流水,还是看不懂财务?我做了一个让 AI 读懂账本的工作台 - 少数派 MINI R56 升级原厂 Sport 模式 - 少数派 新玩意 | 一棵柠檬树(仿真版) - 少数派 Momenta的“物理AI”野望,需迈过“含摩量”这道关 - 少数派 网页直接投屏控制手机!NAS一键部署PandaScrcpy,流畅丝滑可远程。 - 少数派 众测|邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE - 少数派 2050大会:分享时间是真诚 参会记 - 少数派 iPad 赋能电影创作:国内首部宣纸手绘长片《燃比娃》的幕后故事 - 少数派 AI的审美:我用 8 个大模型给 100 张旅行照片打分 - 少数派 普通人如何破圈?去参加一个本地协会 - 少数派 把极空间的图标全换了,主题DIY全攻略打造你的专属NAS桌面 - 少数派 电子便签墙,帮你实现便签自由 - 少数派 我如何用三个 CLI 工具取代文档创建需求 - 少数派 原来真的有人可以玩一辈子 - 少数派 社区速递 139 | 派友热议三月买了啥、复古单反尼康 Df 体验 - 少数派 06 作品的赏析与评价 - 少数派 TDS REVIEW|索尼 WF-1000XM6 降噪真无线耳机体验 - 少数派 35.98万起售的第二代腾势D9,我看重的不是堆料,而是不凑合 - 少数派 鼠须管 Squirrel 皮肤配置指北 - 少数派 从watch ultra2换到redmi watch6 - 少数派 派早报:阿里巴巴发布视频生成模型 HappyHorse 1.0 等 - 少数派 别迷信1M - 少数派 家人们天塌了!网盘“大封杀”,多个渠道多条路,NAS部署PanHub - 少数派 AI与人勾心斗角!NAS一键部署AI狼人杀,假日休闲必备。 - 少数派 电商必备!Comfyui工作流批量生图插件,一次生成12张!支持Nano banana pro模型 - 少数派 Comfyui工作流配置Gpt-image-2模型教程,0.03/张 - 少数派 OpenClaw第三方APi怎么配置?可使用Gpt-image-2模型 - 少数派 会员社区话题精选 Ep. 103 - 少数派
DeepSeek 开源技术周:AI 基础架构的全链条创新与行业影响 - 少数派
2025-03-02 · via 少数派

在 2025 年 2 月的最后一周,中国人工智能初创团队 DeepSeek 搞了一场为期六天的开源活动,向全球 AI 社区贡献了六项关键的技术项目。这场技术盛宴几乎覆盖了 AI 技术链条上的每一个重要环节,从大模型推理加速、分布式训练优化,到高效存储和系统架构,一应俱全。简单来说,这次活动就是 DeepSeek 在秀肌肉,但同时也在用一种非常开放、透明的方式推动整个行业往前迈了一大步。

通过这篇综述,我想带你一起深入了解这些技术的背景、原理,以及它们到底能给普通用户和行业带来哪些实际的好处。别担心,即使你是刚入门的小白,我也会用轻松的方式和你聊聊这些「看起来很复杂」的技术。

开源的文化基础:从理念到行动

提到 DeepSeek,你可能第一个想到的就是他们火遍全球的大语言模型 R1。这个模型不仅性能堪比西方最顶尖的系统,而且训练成本还更低。当时连外媒 Reuters 都惊叹,直接用了「震动全球 AI 行业」来形容它的出现。DeepSeek 的创始人梁文峰在采访中坦言,他们并没有急着把这些技术换成钱,而是更看重通过开源获得的影响力。他的原话是这样:「被别人追随我们的创新,是一件让人很有成就感的事。开源更像是一种文化行为,通过贡献开源,我们能赢得尊重。」正是因为这种「透明至上」的开源理念,DeepSeek 在 2 月 21 日宣布启动了「开源周」活动。他们承诺一周内每天都公开一个代码库,用他们自己的话说,是用「小而真诚的进步」回馈社区。

要知道,很多中美 AI 公司习惯于对核心技术严格保密,而 DeepSeek 偏偏反其道而行之,把推理加速、分布式通信、矩阵运算、并行策略、文件系统,甚至大规模推理架构这些「压箱底」的技术全都毫无保留地拿出来分享了。

也许你会问,这些技术跟普通人有啥关系呢?其实关系还挺大的,比如更快的推理系统能让你的聊天机器人回复消息变得「秒回」,高效的存储方案则能帮助企业降低成本,最终让你用 AI 服务的价格也跟着下降。更重要的是,全球开发者现在都可以免费获取这些开源的「技术积木」,自己搭建 AI 系统。这就像乐高积木一样,更多人参与进来,整个行业的创新速度就能大大加快。

FlashMLA:大模型推理的高效突破

开源周的第一天,DeepSeek 发布了一个让很多开发者激动的项目:FlashMLA。它是专为 NVIDIA Hopper 架构的 GPU 设计的高效解码内核,核心技术叫做「多潜注意力」(Multi-head Latent Attention,简称 MLA)。

简单来说,FlashMLA 就是为了让大模型在生成文字时速度更快。你用过 ChatGPT 吧?当你输入问题后,模型逐字逐句地给你回复,这种「逐字生成」的过程学名叫做「自回归解码」。而 FlashMLA 就能让这个过程变得更快,几乎能做到实时响应。

那么,FlashMLA 是怎么做到这一点的呢?我们一步一步来看:

大语言模型背后通常都有一个叫「Transformer」的架构,它用「多头注意力」(Multi-Head Attention,简称 MHA)机制,让模型在理解句子时更全面。然而随着处理文本越来越长,模型需要储存大量的键值缓存(K/V cache),这样模型才能记住上下文信息。问题来了:缓存太大会拖慢速度。

过去研究者提出了一些方法,比如「多查询注意力」(MQA),让所有注意力头共享一组键值缓存,这样虽然性能会略微下降,但好处是节省了不少内存空间。

而 DeepSeek 的 MLA 采用了另一种更高级的方法。他们把键值信息压缩成更紧凑的「潜在」向量,大幅减少了缓存体积。FlashMLA 更是在 MLA 的基础上进一步优化,专门针对 Hopper 架构 GPU,使用了定制的 CUDA 内核,把计算效率提升到了极致。比如它支持半精度 BF16 运算,采用分页缓存技术,能够完美利用 GPU 显存,在 H800 GPU 上甚至能实现每秒 3000GB 的内存带宽和 580 TFLOPS 的计算速度。

对你来说,这意味着什么呢?举个例子,当你用聊天机器人、翻译软件时,如果背后的模型用了 FlashMLA,回复速度就会大幅提升,体验会顺滑许多。不信你想想,每次提问都能迅速得到回复,是不是感觉特别爽?

对企业开发者来说,开源 FlashMLA 等于帮他们省了不少事。不用再从头开发底层的加速代码,可以直接使用 DeepSeek 已经优化好的工具,更专注于创新应用。

而对整个社区来说,FlashMLA 开源带来的透明度也树立了新标杆。不少公司像 Meta、xAI 也开始开源类似工具,整个行业的技术标准和效率都会因此受益。

总的来说,FlashMLA 给我们展示了 AI 优化的新思路:通过共享和压缩注意力信息,不仅让模型效果保持优秀,更让处理速度有了突破性的提升。这就是技术的魅力所在:一小步的优化,也许就能给你的生活带来巨大的改变。

DeepEP:专家模型的高效通信框架

第二天,DeepSeek 推出了一个名为 DeepEP 的项目。这可是全球首个专门针对「混合专家(Mixture-of-Experts,简称 MoE)」模型的开源专家并行通信库。 你可能好奇什么是 MoE 模型,其实很简单:就像一家公司里,每个员工各有所长,MoE 模型也是把任务分配给不同「专家」子模型来分别处理不同类型的任务。这样做的好处,就是模型虽然规模巨大,但每次只需要用到一小部分专家,既精准高效,又省资源。

不过,这样的设计也有个麻烦,就是专家之间需要频繁沟通、交换数据。想象一下,你的公司里每个人坐在不同的办公室里,每次任务来了,还得跨办公室传送文件,这个过程不仅麻烦,而且很耗时间,尤其是在多个 GPU 之间来回通信,数据交换很快就成了整个系统的瓶颈。谷歌的 GShard 和 Switch Transformer 已经证明 MoE 模型非常强大,但也明确提出,要提升效率,必须先解决通信成本和专家负载不均衡这两个大问题。

DeepEP 就是为了解决这些麻烦而诞生的。它提供了一系列高度优化的 GPU 通信内核,目标就是让专家之间沟通得更顺畅、更高效。具体来说,它针对 GPU 内部的高速通信(通过 NVLink)以及跨节点通信(通过 RDMA 网络)分别做了精细的优化。举个实际例子吧,在 H800 GPU 集群上,DeepEP 可以充分利用 NVLink 的 160 GB/s 带宽和 RDMA 网络的 50 GB/s 带宽,这相当于让专家之间从「发邮件」变成了「直接打电话」,沟通效率大幅提升。

更有趣的是,DeepEP 还支持一种超低精度通信格式 FP8,这有点像把文件压缩后再传输,数据量大幅缩减,传输自然就更快了。而且,为了满足不同场景的需求,DeepEP 提供了两套内核:一种追求高吞吐量,适合训练和推理初始阶段;另一种强调低延迟,适合推理解码阶段的快速响应。它还能边通信边计算,让 GPU 的资源利用率达到最佳状态。

DeepEP 还特别针对 DeepSeek 自己的 MoE 算法进行了优化,尤其是在数据传输的非对称场景,比如从高速 NVLink 到较慢的 RDMA 网络时,它会自动使用特别定制的内核进行调整,确保效率最大化。

对做大模型开发的企业来说,DeepEP 的开源意义重大。以往你要构建一个高效的 MoE 系统,除了需要顶级工程师,还得投入巨大的成本;而现在有了 DeepEP,门槛大幅降低。研究人员可以轻松地在多机多卡的环境里训练数千亿参数的模型,甚至扩展到几百个 GPU 都不会出现效率瓶颈。

而对普通用户而言,你可能感受到的变化是:将来聊天机器人、推荐系统等 AI 应用的响应速度会更快、更平滑,因为后台专家之间的沟通不再拖后腿。DeepEP 的开源,就好比在 AI 世界修了一条快速通道,让更多企业和开发者轻松上路。这不仅让更多团队可以尝试开发大规模稀疏模型,更可能推动整个行业走向模型更大、计算资源消耗却更低的时代。

就在 DeepEP 发布当天,已经有不少公司按捺不住,纷纷宣布了自己的大模型开发计划,这足以说明 DeepEP 带来的震动效应。未来,像 DeepEP 这样的工具可能会逐渐成为标准配置,推动更多 MoE 模型进入主流应用。

DeepGEMM:矩阵运算的性能突破

第三天,DeepSeek 又带来了一个新宝贝:DeepGEMM,一个高度优化的矩阵乘法库。你可能还不知道,矩阵乘法(General Matrix Multiplication,简称 GEMM)可以说是 AI 计算中最基础也最重要的操作,大部分的模型训练和推理都离不开它。

你或许会问,为什么矩阵乘法这么重要?其实,像 Transformer 模型里那些关键的「全连接层」和「注意力机制」投影层,背后全靠大量的矩阵运算支撑着。

过去,英伟达开发了 cuBLAS,Google 为 TPU 打造了专用矩阵单元,还有学术界的 GotoBLAS 等项目,大家都想方设法加速这个基础运算。最近几年,GPU 硬件升级带来了张量核心(Tensor Core),利用 FP16、BF16,甚至 FP8 这种低精度运算,速度有了明显提升。不过,市面上的通用库有时候并不够灵活,没办法完美匹配特定模型的需求,于是 DeepSeek 自己出手了,针对自家 V3 和 R1 模型的常见矩阵规模量身定制了 DeepGEMM。

DeepGEMM 最值得一提的是它在 FP8 精度下的超高性能。比如在英伟达 Hopper 系列芯片(比如 H100 和 H800)上,它每秒可以执行超过 1350 万亿次 FP8 运算(TFLOPS),比常规 FP16 快了好几倍,轻松实现性能飞跃。你可能想不到,它最核心的逻辑代码只有短短约 300 行,简洁到极致,同时又高效到极致,很方便开发者阅读和修改。

而且,它还支持即时编译(JIT),也就是说,不需要提前编译,根据实际的矩阵尺寸,随时动态生成最适合的代码。此外,DeepGEMM 除了支持常规密集矩阵布局外,还特别支持两种 MoE 专用的矩阵布局方式,能直接加速专家模型的计算。在大部分情况下,它甚至比专业优化过的 cuBLAS 更快,堪称免费的顶级替代方案。

那么具体到你我身边的应用,DeepGEMM 能带来什么呢?比如,你在开发 AI 模型训练时,用 PyTorch 或 TensorFlow 时换用 DeepGEMM,就能显著缩短训练时间,特别是在资源有限的环境下也能跑得更快。

推理阶段,它能让你的服务器同时处理更多请求,实时翻译、对话系统等场景的用户体验会更加顺畅、丝滑。甚至科学计算、图像处理领域也能搭便车,矩阵分解、物理仿真都能因此加速不少。

DeepGEMM 的开源不仅意味着开发者再也不用花钱购买昂贵的商业库,甚至小团队也能用上世界一流的矩阵优化工具,平等地享受高性能计算的便利。而且,社区可以继续在这个基础上优化,比如扩展到其他硬件平台、增加稀疏矩阵支持等等,推动整个 AI 基础设施不断进步。低精度运算,如 FP8,也可能逐渐成为未来训练推理的主流,带动行业降低资源消耗,提高效率。

所以说,DeepGEMM 的出现,不仅是 DeepSeek 自己的一次技术飞跃,也给全行业带来了低成本、高性能计算的福音。

DualPipe 与 EPLB:并行训练的系统优化

第四天,DeepSeek 一口气发布了两个很实用的并行优化工具:「DualPipe」和「EPLB」。虽然名字看起来有点技术范儿,但其实都是 DeepSeek 在超大模型训练过程中踩坑无数后,精心打磨出来的实战工具,一个针对流水线并行的效率,另一个解决专家并行的负载均衡问题。

我们先来看 DualPipe 。当模型的参数规模大到单个 GPU 装不下的时候,就需要用「流水线并行」技术,把模型切成几个阶段,每个阶段分给不同的 GPU,就像工厂里的流水线,每个环节做自己的工作。但流水线并行有个天然缺陷,就是经常会出现「等待现象」:比如前一个阶段还没做完,后面的阶段只能闲着干等,尤其在反向传播的时候特别明显,GPU 就白白浪费了不少时间。

DualPipe 就是专门为解决这个问题而设计的。它的核心思想很聪明:在 GPU 做反向计算的同时,提前启动下一个批次的前向计算,这样前后两个过程就可以并行起来,不再「排队等候」。举个简单例子,就像你在洗衣服时,晾晒一批衣服的同时,下一批衣服也已经放进洗衣机开始清洗了,整个流程效率一下提高不少。DualPipe 还能做到计算与数据通信同步执行,大幅减少等待时间,实测 GPU 的利用率能提升 30% 以上。

再说说另一个工具 EPLB 。它专注于专家并行场景的负载均衡问题。我们前面说过,在 MoE 架构中,每个 GPU 上运行多个专家模型。但专家之间的工作量往往不均衡,就像公司里有些部门总是加班忙到飞起,另一些部门却轻松得多,这就浪费了整体资源。

EPLB 就好比一个智能的任务分配经理,当它发现某个专家「加班严重」时,就会快速复制一个这个专家的副本到其他 GPU 上,分担压力。这种做法相当于突然调动更多人力去支援最忙碌的部门。同时,EPLB 还会聪明地选择专家副本的部署位置,尽量把相关的专家放到同一节点上,减少跨节点的数据通信成本。值得一提的是,EPLB 核心算法文件 eplb.py 已经开源出来,开发者只需要输入专家负载的信息,它就能自动输出一个最优的负载分配方案,简单好用又透明。

对开发者来说,这两个工具的开源意味着你再也不用从零开始设计复杂的调度机制了。尤其是中小型团队,之前不敢碰超大规模模型,现在有了 DualPipe 和 EPLB,可以放心大胆地尝试了。

未来,这些工具或许会成为主流 AI 框架的一部分,甚至可能演变为云服务中的调度功能,成为开发者标准的工具箱。

对普通用户而言,这些优化带来的直接感受,就是训练速度和效率的大幅提升,AI 应用迭代更快,服务响应更流畅。节省下来的资源还可以用在其他创新上,最终你享受到的服务性价比也会更高。

DeepSeek 这次提供的 DualPipe 和 EPLB,就像是一次大模型训练技术的经验公开课,帮助全行业一起提高效率,真正把大规模 AI 训练的门槛降了下来。

3FS:AI 专用高性能存储系统

第五天,DeepSeek 又拿出了一个实打实的技术:「3FS(Fire-Flyer File System)」,一个专门针对 AI 工作负载设计的高性能分布式文件系统。同时,他们还额外提供了一个轻量级的数据处理框架,叫做 Smallpond。

你可能会觉得,文件系统这种东西听起来离你很遥远。但其实,它就像 AI 模型训练背后的「数据高速公路」。在训练大模型的时候,数据的读写速度往往容易被忽视,可它却非常关键。比如,你手头有上百个 GPU,但如果你的存储系统不给力,数据喂不够快,GPU 就只能干等着浪费算力,这就像赛车手遇到堵车一样,无论技术多好也跑不起来。

传统的分布式文件系统,像 HDFS 和 Ceph,在一般的大数据场景中表现不错,但 AI 场景对文件系统有着更高、更特别的要求,比如超高的吞吐量、小文件随机读取,以及多个 GPU 并发访问等特殊需求。3FS 就是专门为这些需求量身定制的。

我们来看几个具体的数据表现:在一个由 180 个节点组成的集群上,3FS 可以达到每秒 6.6 TiB 的读取吞吐量,这个速度相当于每秒能读取几千部高清电影,真正的速度怪兽。而在单个节点上,它进行 KV 缓存查找的速度峰值也能超过 40 GiB/s,这意味着它不仅能高速「跑大路」,还能在复杂数据中快速找到你想要的信息。

在传统的数据任务基准测试 GraySort 中,3FS 仅用了 25 个节点就实现了每分钟 3.66 TiB 的排序速度,说明即使在传统场景,它也能大展身手。此外,3FS 的架构采用去中心化设计,没有单点故障风险,并且还能保证强一致性。换句话说,就是它又快又稳定,关键时刻还能扛得住压力。

DeepSeek 在开发他们的 V3 和 R1 模型时,全程都用了这个 3FS 文件系统,从数据预处理到训练,再到推理缓存,整个流程下来非常顺畅。而搭配它的 Smallpond 框架更是提供了 PB 级数据的高效处理能力,简单易用,特别适合大量数据的快速处理任务。

对开发者和企业来说,3FS 的开源意味着什么呢?意味着你不用再花重金去买商业存储设备了,直接用 3FS 就能搭建出一个媲美甚至超越商业系统的高性能基础设施。

而对普通用户来说,这带来的好处就是 AI 产品的迭代速度更快,搜索系统、聊天机器人等服务几乎能做到实时响应。

3FS 的出现,不仅让行业注意到数据存储对 AI 性能的重要性,也鼓励更多公司去做端到端的优化,把整个 AI 系统的瓶颈彻底解决掉。这次 DeepSeek 的开源,不仅是一次技术共享,更是给行业树立了一个新的标准,推动 AI 专用基础软件的发展。

DeepSeek-V3/R1 推理系统:技术与商业价值的结合

到了第六天,也就是活动的最后一天,DeepSeek 并没有像前几天一样发布新的代码库,而是为大家带来了一个特殊的「压轴环节」。他们详细介绍了自己用于 DeepSeek-V3 和 R1 大模型的高性能推理系统架构,并首次公开了一些具体的运营数据。

你可能会问,推理系统到底是什么?简单来说,训练好的模型要为用户提供服务,比如聊天机器人回答你的问题,这个过程就叫推理。推理系统的好坏决定了 AI 服务的响应速度和稳定性。这次 DeepSeek 展示的系统专门针对超大规模的 MoE 模型设计,目标就是高吞吐量和低延迟。

在架构设计方面,他们采用了跨节点的专家并行方式,把模型的参数分布到多个节点上。举个例子,当模型刚接收数据(预填充阶段)时,使用 4 个节点进行专家并行(EP32),但到了解码阶段(逐字生成内容)时,就扩展到 18 个节点(EP144),随着节点数增加,吞吐量几乎线性地增长。

为了进一步提高效率,这个系统还用了一个特别的技巧叫「双批次重叠」。具体来说,就是两个批次的数据计算和传输交替进行,避免了数据通信给整体带来的延迟。再加上精妙的负载均衡设计,数百个 GPU 可以无缝协同工作,整体性能表现非常稳定。

性能方面的数据也很直观:每个配备英伟达 H800 GPU 的节点,每秒可以处理 73,700 个输入 token,并生成 14,800 个输出 token。这意味着每天能处理数百亿个字词,服务百万级用户。

更直观一点,DeepSeek 还公布了一些商业数据。比如,按照他们 R1 模型的标准计费方式计算,这套系统每天的理论收入可以达到 56.2 万美元,而成本只有 8.7 万美元,算下来毛利率高达 545%。当然实际运营会有折扣,真实收入可能没那么夸张,但依然非常具有商业吸引力。

这些数据的公开,其实给整个行业带来了两个重要信号:第一,证明了开源的大模型架构,也能实现高效的商业落地,甚至比闭源服务更具性价比;第二,表明了优秀的架构设计对 AI 服务成本和收益的巨大影响。这很可能在业界掀起一股系统优化的浪潮。

对于普通用户来说,这种高效的推理架构带来的直接体验就是服务更加流畅、反应更迅速;而对于开发者和企业来说,这种架构意味着低成本、高性能的规模化运营变得更容易实现。

总的来说,这个压轴环节不仅仅是 DeepSeek 的一次技术秀,更是通过真实的数据告诉大家,开放透明的 AI 技术生态,不仅可行而且能带来实实在在的好处。这种开放的理念,也可能在未来催生出更多创新的商业模式,甚至推动整个 AI 行业的技术变革和标准化发展。

开源驱动创新:技术共享带来的多重价值

回顾一下 DeepSeek 这六天的开源技术周,他们一次性公开了六个重量级的核心技术,几乎覆盖了 AI 技术全链条的每个关键环节。这些技术的开源,对于你这样的普通用户而言,最直观的好处就是使用 AI 服务时能体验到更快的响应速度、更流畅的交互体验,同时还能享受更低的费用。

如果你是一名开发者,这些开源项目对你来说就是现成的「乐高积木」,你可以快速利用这些技术组件进行自己的产品创新和迭代。你再也不用重复造轮子,从头设计底层技术架构,而是能站在巨人的肩膀上迅速出成果。

对整个 AI 行业来说,DeepSeek 的开源举措意义更大。他们不仅带来了先进的技术,也在鼓励其他公司效仿,形成一种开放技术生态的氛围。想象一下,这就像一次「开源军备竞赛」,每家公司都愿意把自家压箱底的技术共享出来,全行业的创新速度就会大大提高。

当然,这并不是说未来没有挑战。技术开源会带来更多竞争、也可能带来更多问题。但毫无疑问的是,这场技术的盛宴已经为 2025 年的人工智能发展注入了新的活力和方向。我们完全有理由期待,接下来几年会出现更多高性能、低成本、更加亲民的 AI 模型,真正进入到每个人的日常生活中去。

可以说,这不仅仅是 DeepSeek 自己的一场技术盛宴,而是整个人工智能行业共同的胜利。他们通过实际行动告诉我们:开放协作、共享成果,才是推动科技持续进步最好的方式。

如果你觉得本文有用,请充电

如果本文可能对你的朋友有帮助,请转发给他们。

欢迎关注我的专栏「科研利器」,以便及时收到后续的更新内容。

点击这个链接加入少数派会员,立享 9 折优惠!获得专属会员内容、会员播客以及会员定制周边。在更多的领域和方向帮你打开脑洞,找到新的兴趣点。与少数派一起洞悉当下,探索新知。

延伸阅读