惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

V
Vulnerabilities – Threatpost
P
Proofpoint News Feed
The Hacker News
The Hacker News
Know Your Adversary
Know Your Adversary
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
T
Tenable Blog
AWS News Blog
AWS News Blog
S
Securelist
T
Threatpost
C
Cybersecurity and Infrastructure Security Agency CISA
IT之家
IT之家
腾讯CDC
WordPress大学
WordPress大学
Spread Privacy
Spread Privacy
C
Check Point Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Engineering at Meta
Engineering at Meta
Latest news
Latest news
A
About on SuperTechFans
The Register - Security
The Register - Security
L
LINUX DO - 热门话题
T
The Exploit Database - CXSecurity.com
C
Cisco Blogs
T
Tailwind CSS Blog
Simon Willison's Weblog
Simon Willison's Weblog
阮一峰的网络日志
阮一峰的网络日志
MyScale Blog
MyScale Blog
大猫的无限游戏
大猫的无限游戏
T
Tor Project blog
L
Lohrmann on Cybersecurity
G
GRAHAM CLULEY
B
Blog RSS Feed
Scott Helme
Scott Helme
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
NISL@THU
NISL@THU
P
Privacy International News Feed
Security Latest
Security Latest
Recorded Future
Recorded Future
L
LangChain Blog
Cyberwarzone
Cyberwarzone
C
Cyber Attacks, Cyber Crime and Cyber Security
C
CXSECURITY Database RSS Feed - CXSecurity.com
博客园 - 聂微东
Google DeepMind News
Google DeepMind News
Last Week in AI
Last Week in AI
Apple Machine Learning Research
Apple Machine Learning Research
F
Fortinet All Blogs
O
OpenAI News
T
Threat Research - Cisco Blogs
Blog — PlanetScale
Blog — PlanetScale

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
Deepseek新论文稀疏注意力机制NSA与Grok3
贝琳_belin · 2025-02-21 · via 人人都是产品经理

DeepSeek团队在推特上发布了一篇新的论文,是解决模型在处理长上下文窗口的能力。马斯克的Grok3模型也在前几天发布了;这篇文章,我们就来看看作者对论文的分析,以及对几个产品的分析与见解。

最近(2025 年 2 月)DeepSeek团队在推特上发布了一篇新的论文,这个论文解决的是模型在处理长上下文窗口的能力。曾经谷歌发布过一个论文叫做 《Attention is all you need 》这个Attention 叫做注意力机制,在大模型的处理中,是一个非常关键的技术,就像你读一本书,你需要全都读下来,每个字都要看一遍,之前的注意力机制叫做 full attention 就是你需要关注到每个字和每个字之间的相互关系。但是这次deepseek 的NSA 原生稀疏注意力机制,它会想一些办法去略读,它不需要关注这篇文章所有词之间的相关关系,而是只要把其中重要的一些,把它看到就好了。

下面让我们仔细来看看这篇论文

一、论文的核心观点

论文提出了一种原生稀疏注意力机制(NSA),它将算法创新与硬件对齐优化相结合,以实现高效的长上下文模型。

1、NSA 采用动态分层稀疏策略,结合粗粒度标记压缩和细粒度标记选择,以保持全局上下文意识和局部精度。这样既有对全局的理解也能减少冗余的计算。

2、对 GPU 的 Tensor Core 特性设计高效的计算内核,让NSA 在 64k 长度序列的解码、正向传播和反向传播方面相对于全注意力( full attention)实现了显著的加速,验证了其在整个模型生命周期中的效率。

3、实现了端到端训练,在不牺牲模型性能的情况下减少了预训练的计算。实验表明,使用 NSA 预训练的模型在通用理解、长上下文任务和基于指令的推理方面保持了或超过了全注意力( full attention)模型。同时,大幅降低算力成本。

二、研究方法

NSA 的核心在于其动态层次化的稀疏策略,具体包括以下几个方面:

1、令牌压缩(Token Compression):通过将连续的键(key)或值(value)序列聚合为块级表示,减少计算负担。压缩后的键和值能够捕获整个块的信息,从而实现粗粒度的语义信息捕获。(简单来说就是:它把所有的token都切成块,每块提炼出一些关键信息,相当于做了一个摘要)

2、令牌选择(Token Selection):在压缩的基础上,选择性地保留一些关键的键和值,以保留重要的细粒度信息。这一过程通过块级选择策略实现,即对键和值序列进行空间连续的块划分,并根据块的重要性分数选择最重要的块。(简单来说就是:选择这些块里面,这些关键信息里,一些重要的词的意思。就像这些块里面的内容,我并不是都需要,所以我会选择一些关键词,或者是跳过一些不太重要的词)

3、滑动窗口(Sliding Window):为了处理局部上下文信息,NSA 引入了滑动窗口机制,专门处理局部模式,使模型能够更有效地学习全局和局部特征。(简单来说就是:刚才切的这些块之间可能还会有一些关联)

大概就是通过这样一个算法,让大模型产生一个稀疏注意力,这样的话,它不需要关注全局所有词之间的相关关系,而是只要把其中重要的一些找到就好了。

deepseek团队用这样的方法去做了测评,甚至评测出的结果甚至比全注意力( full attention)还要好,而且它的计算的能耗压缩是非常显著的,在这个全流程的过程当中,节省的成本不只是一点半点

同时他们不但在算法上有优化,还在硬件上也有优化,硬件也能让效能有所提升。当然硬件也不是说在英伟达的卡上面做优化。

三、实验

1、实验设置

  • 预训练:使用 27B 参数的 Transformer 模型,预训练 260B 个 token。
  • 长文本适应:在 32k 长度文本上进行持续训练和监督微调 (SFT),以实现长文本适应。
  • 基线模型:Full Attention 模型,以及其他稀疏注意力方法,例如 H2O、infLLM、Quest 和 Exact-Top。

2、评估指标

  • 通用语言评估 (例如,MMLU)
  • 长文本评估 (例如,LongBench)
  • Chain-of-thought 推理评估 (例如,AIME)

3、实验结果

  • NSA 在预训练过程中表现出稳定的收敛性,并且在损失值上优于全注意力模型。
  • 通用评估:在多个基准测试中,NSA 在知识、推理和编码任务上均表现出色,甚至在某些指标上超过了全注意力模型。例如,在 DROP 和 GSM8K 测试中,NSA 分别提高了 0.042 和 0.034 的准确率。
  • 长文本评估:NSA 在 64k 上下文的 Needle-in-a-Haystack 测试中,NSA 实现了完美的检索准确率。在 LongBench 测试中,NSA 的平均得分超过了所有基线方法,包括全注意力模型。
  • 推理评估:在 AIME 基准测试中,NSA 在 8k 和 16k 序列长度上均优于全注意力模型,显示出其在复杂推理任务中的优势。
  • 效率分析:NSA 在训练和解码速度上均优于全注意力模型:训练速度:在 64k 序列长度下,NSA 实现了高达 9.0× 的前向速度提升和 6.0× 的反向速度提升。解码速度:由于减少了 KV 缓存的加载量,NSA 在解码过程中实现了高达 11.6× 的速度提升。

四、关键结论

NSA 通过其层次化的稀疏注意力设计,在保持全注意力模型性能的同时,实现了显著的计算效率提升。具体来说:

  • 性能:NSA 在多个基准测试中表现出色,尤其是在需要长序列理解和复杂推理的任务中。
  • 效率:NSA 在训练和推理过程中均实现了显著的速度提升,特别是在处理长序列时,其优势更加明显。
  • 可训练性:NSA 支持端到端的训练,减少了预训练计算成本,同时保持了模型性能。

五、Grok3 是什么

Grok3是由埃隆·马斯克旗下的xAI公司开发的第三代大语言模型,于2025年2月17日正式发布。Grok3 目前有最大的算力集群,它是用20万块H100来训练出来的大模型,它的进展速度是非常快的,在非常的时间内,就提升到了鼻尖 OpenAI 01 03等等这些模型的水平,甚至在这个数学,编程能力方面是有超越的。

但是 Grok3 在算力的消耗方面、成本方面都是是非常巨大的,是deepseek v1的 263倍。所以巨大的算力是Grok3的一个典型的特征,在发布会中,也提到了多模态的能力,也结合了应用作了一些优化,目前Grok3最大的这个模型还在训练中。接下来还会有更多的测评出来。

以下是其主要特点和功能:

1、训练与硬件

  • 超强算力:Grok3的训练得益于xAI公司的Colossus超级计算机,该系统配备了10万个NVIDIA H100 GPU,提供了超过2亿个GPU小时的计算资源,计算能力是上一代Grok2的十倍。
  • 合成数据训练:Grok3在合成数据的基础上进行训练,能够通过重读数据来反思所犯的错误,从而达到逻辑上的一致性。

2、核心功能

  • 思维链推理能力:Grok3引入了“思维链”(Chain of Thought)推理机制,模仿人类的认知过程,使其在面对复杂查询时能够以更连贯和有逻辑的方式反应。
  • 多模态能力:Grok3具备强大的多模态能力,能够同时处理图像、视频和3D动画数据,展示了其强大的创作能力。
  • DeepSearch模式:该模式能够搜索互联网和X平台(前Twitter)的内容,用AI进行深度研究,分析这些信息,并为用户提供精确的搜索结果和详细答案。
  • Big Brain模式:此模式使用更高的计算资源和更深入的推理过程,旨在处理和解决更复杂的问题。

3、性能表现

  • 多项任务领先性能:在数学推理、科学逻辑推理和代码编写等多个基准测试中,Grok3超过了竞争对手,如DeepSeek-v3、GPT-4o和Gemini-2 pro。
  • 高分评测:在LMSYS大模型竞技场中,Grok3以1400分的高分遥遥领先,超越了GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Pro等主流模型。

Grok3以其强大的推理能力、多模态处理能力和卓越的性能表现,展现了在人工智能领域的巨大潜力和创新。

六、DeepSeek VS Grok3

DeepSeek和Grok3在多个方面存在显著差异。

  1. DeepSeek采用MoE(Mixture of Experts)架构,计算效率高,适合数学、代码推理任务,而Grok3采用扩展的Transformer架构并结合指令优化,擅长社交数据分析和多轮问答。
  2. 在数学推理方面,Grok3在AIME 2025评测中取得最高分,表现优于DeepSeek。
  3. DeepSeek完全开源,支持企业私有化部署,适用于本地AI计算方案,而Grok3则深度集成了特斯拉生态,如Optimus机器人和FSD自动驾驶系统。
  4. 在应用场景上,DeepSeek更适合企业级服务和本土化应用,如微信AI搜索和政务系统流程优化,而Grok3则在科研与复杂推理、创意编程和深度信息检索方面表现出色。

此外,DeepSeek在中文语义理解准确率上超过Grok3,而Grok3则在多模态处理方面更具优势,支持图像、视频和3D建模分析。

两个对比过后,Grok3靠大算力产生更好的智能,而deepseek 仍然在开源这条路上探索,所以究竟哪个更好,我想每个人心中都会有自己的答案吧。

本文由 @贝琳_belin 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务