惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

钛媒体:引领未来商业与生活新知

储能“熄火”,钙钛矿“吞金”,杭州柯林3亿豪赌亏损机器人标的 | 并购一线-钛媒体官方网站 The Token Do-or-Die Line: Financial AI Companies Scramble to Cut Costs-钛媒体官方网站 618打了这么多年,今年京东终于换了张底牌-钛媒体官方网站 7000万揽入资不抵债标的,达瑞电子7倍溢价切入热管理赛道 | 并购一线-钛媒体官方网站 富足的腾讯与饥饿的百度:BT的AI远虑近忧-钛媒体官方网站 瓶装咖啡暗战汹涌:东鹏、瑞幸环伺,星巴克守擂-钛媒体官方网站 阿里云能否重写自己?-钛媒体官方网站 字节凭什么又牛了?-钛媒体官方网站 卧底GEO完结:别骂了,问题不在技术,在人心-钛媒体官方网站 GEO行业数据造假手册:一个卧底交付员的自述-钛媒体官方网站 传统媒体,被低估的重资产-钛媒体官方网站 2026Q1 BD交易爆发,单季交易额614亿美元已超2024全年-钛媒体官方网站 抢不到的体制内酒店,被年轻人住成“顶流”-钛媒体官方网站 外行10天手搓AI短片火遍全球?这是一个十年审美沉淀出爆款的故事-钛媒体官方网站 花3万块“泡”一年,这届年轻人把澡堂子玩成了社交顶配-钛媒体官方网站 AI孵化器语生科学正式亮相:11位“大佬”导师成为超强外挂-钛媒体官方网站 六倍牛股一字跌停,杨子家族套现28亿元,巨力索具终遭立案 云平台重新夺回AI“议价权”-钛媒体官方网站 频准激光:资金充裕却大举募资补流,高毛利难掩研发短板|IPO观察-钛媒体官方网站 从Meta被裁到46亿美金联创:田渊栋官宣前的最后一次独家对话-钛媒体官方网站 Claude Code产品负责人:AI时代最稀缺的人什么样?-钛媒体官方网站 美元、油价与通胀夹击下,非洲开始押注多元融资-钛媒体官方网站 华盛雷达:未上市先业绩变脸,全时研发仅3人,科创成色待解|IPO观察-钛媒体官方网站 安克没有大疆命,得了大疆病-钛媒体官方网站 a16z风投大佬:硅谷AI创业者,正变身“超级网红”?-钛媒体官方网站 大唐发电十日翻倍,算电风口还是炒作泡沫-钛媒体官方网站 不是“特斯拉的学徒”:Figure AI如何成为机器人的新范本?-钛媒体官方网站 日赚3亿,长鑫科技重启IPO,掀起存储涨停潮-钛媒体官方网站 刚刚,Google给网站判了死刑-钛媒体官方网站 谷歌最新发布会:没发最强模型,开卷Agent全家桶-钛媒体官方网站 对话Andrew Dai:谷歌AI的14年、Gemini翻身之战,与视觉理解模型-钛媒体官方网站 2030年,大厂已经没有“同事”了 关于俞浩,我要打一万块钱的赌-钛媒体官方网站 AI进入万亿Token时代,国产芯片如何构建行业壁垒?-钛媒体官方网站 海尔的“金字招牌”卡萨帝,含金量正在走低-钛媒体官方网站 和AI男友聊了一个月,我发现AI在给亲密关系埋雷-钛媒体官方网站 《给阿嬷的情书》到底有何不同-钛媒体官方网站 “文胸大王”汇洁股份:高分红、吃老本-钛媒体官方网站 静默冰面之下:阿里、抖音、京东618 AI暗战-钛媒体官方网站 谷歌不想再追赶ChatGPT-钛媒体官方网站 为什么这些品牌成了外国游客追捧的「新特产」-钛媒体官方网站 骂完预制菜,年轻人还是不想进厨房-钛媒体官方网站 舱驾一体,为什么在2026年成为了热门技术趋势?-钛媒体官方网站 A股暴跌近12%,单日市值蒸发约20亿元,CRO龙头泰格医药为何业绩崩盘?-钛媒体官方网站 抹茶正在成为超级原料-钛媒体官方网站 基金市场概况与资产配置观点(2026.05.11—2026.05.17)-钛媒体官方网站 上市公司TOP5济安评估(5月11日至5月17日)|上市公司观察-钛媒体官方网站 价值判断:涨停板的投资机会和风险提示(5月19日)|证券市场观察-钛媒体官方网站 B站赚钱了,但陈睿又有了新烦恼-钛媒体官方网站 X-Energy在IPO后陷入低迷,为何分析师称这只核能股仍有望大涨-钛媒体官方网站 分析师称CrowdStrike涨势还未结束,AI威胁可能提供上行空-钛媒体官方网站 当年拼尽全力“润”出去的人,开始打包行李回国了-钛媒体官方网站 “AI泔水”降效增本,1154条开发者讨论,指向游戏行业新问题-钛媒体官方网站 中国品牌,突然的全球化 VLA已死,WAM当立:机器人的GPT时刻到了吗?-钛媒体官方网站 疫苗这次真的“起风了”-钛媒体官方网站 Coding的本质=强化学习+合成数据+万卡算力?-钛媒体官方网站 “杭州六小龙”云深处IPO,“具身智能第一股”来了? 谷歌I/O大会的10个新东西,用Gemini接管一切-钛媒体官方网站 万店餐饮巨头,集体围剿瑞幸-钛媒体官方网站 港股史上最疯狂认购:3700倍,赢家居然是一家机床厂-钛媒体官方网站 硅谷最有权势的男人迭代了-钛媒体官方网站 起底机器人“数据采集中心”:左手倒右手的畸形繁荣-钛媒体官方网站 雀巢求变:冰激凌业务被“踢出群聊”,脆脆鲨游进了冰柜-钛媒体官方网站 前端铺开智能体,后端猛砸TPU:直击谷歌I/O大会-钛媒体官方网站 恒瑞的百亿美元大单,市场为何意兴阑珊? 全球门店超7200家的美国汉堡巨头,要来中国“抢”生意了?-钛媒体官方网站 莫干山大洗牌:多家民宿0元“转让费”,连锁酒店进山-钛媒体官方网站 玩家嫌弃,资本抢着要,500万爆款开发商的魔幻生存之道-钛媒体官方网站 每个火箭背后都有一座想转型的城市-钛媒体官方网站 海澜之家一季报:主品牌稳了,变量来了-钛媒体官方网站 年轻人开始“打飞的”逛小城?-钛媒体官方网站 一年赚一万亿人民币,他,赌出亚洲最疯狂的科技公司-钛媒体官方网站 瑞士工程科技企业ZuriQ研发新型彭宁离子阱处理器-钛媒体官方网站 才涨一个月就撑不住了,为什么苹果华为小米集体降价-钛媒体官方网站 5亿票房的“情书”:小成本方言电影如何改写中国电影游戏规则?-钛媒体官方网站 腾讯抖音“情断”,剧宣江湖变天-钛媒体官方网站 马斯克又在吹牛?还是我们低估了自动驾驶?-钛媒体官方网站 拆掉Token暴利墙,云厂商下场造芯 | 企服国际观察-钛媒体官方网站 CAR-T迎接新时代-钛媒体官方网站 国际巨头再加码,国内高端服务式公寓,狼来了?-钛媒体官方网站 Token生死线:金融AI企业的降本狂奔-钛媒体官方网站 碧桂园错失了几百亿-钛媒体官方网站 卖11万辆亏3.9亿,零跑年赚50亿“悬”了?-钛媒体官方网站 跟宇树一比,云深处太贵了?-钛媒体官方网站 国民节目齐换金主:综艺冠名的“精算时代”-钛媒体官方网站 禾赛:割肉死守,“龙一”压力山大?-钛媒体官方网站 外卖降温,京东该打具身智能牌了-钛媒体官方网站 九木杂物社越亏越开,晨光别无选择-钛媒体官方网站 近20部国产恐怖片扎堆来袭-钛媒体官方网站 玩家跑光、巨额减值,Bungie 长篇道歉:马拉松真的走错路了-钛媒体官方网站 勇闯缅甸40天,一场提前结束的出海-钛媒体官方网站 拆解追觅宇宙:955家公司背后的四层架构-钛媒体官方网站 特高压玻璃绝缘子龙头拟收购中科西光82.5%股权,跨界商业航天;“高尔夫球车”第一股拟1.2亿元收购诚瑞科技不低于51%股权;【并购一线】-钛媒体官方网站 AI正在“杀死”评价-钛媒体官方网站 极兔颠覆不了通达系的江湖-钛媒体官方网站 李开复 VS 苏姿丰:企业AI转型,不要只听你们CIO的-钛媒体官方网站 上市紧要关头,大神卡帕西加盟Anthropic-钛媒体官方网站 特斯拉Optimus核心中国团队回国创业,首款人形机器人58万开售|具身动态-钛媒体官方网站 Google I/O 2026炸场:世界模型、AI数字水印来了,Gemini正式进入“Agent时代-钛媒体官方网站
涨价潮里,DeepSeek选择了清场-钛媒体官方网站
硅基星芒 · 2026-04-28 · via 钛媒体:引领未来商业与生活新知

文 | 硅基星芒

发现没有,上周五DeepSeek V4发布后不到48小时,人们甚至还没来得及用它跑完一个完整项目,官方就甩出了另一枚炸弹。

Pro版本API价格限时2.5折,优惠期持续到5月5日。紧接着,Pro和Flash的输入缓存命中价格一步到位,打到原价的十分之一。

第一反应是困惑。

3月以来,无论海外的OpenAI、Anthropic,还是国内的智谱、阿里、腾讯,AI产品与“降价”二字彻底绝缘。模型越做越大,API价格水涨船高,跑分结果一路往上,用户对着账单无话可说。行业在短短一个月内形成了惊人的默契:AI就该越来越贵,想体验到更好的智能,就得付更高的价格。而DeepSeek V4 Pro的价格已经逼近国内AI产品的下限,Flash版本比旧模型还便宜。此时继续降价,逻辑上无法解释。

第二反应是震惊。

输入缓存命中价格降到0.025元,在智能体时代说“接近免费”没有夸张成分。而且缓存命中的降价是永久的,不是限时活动。一个自然的质疑随之而来:这是不是文字游戏?必须缓存命中才能享受这个价格,实际使用中命中率能有多少?实测结果给出了答案:不是噱头,是真的便宜。

当国内外同行还在为几块钱的定价调整反复权衡时,DeepSeek直接把价格表里的小数点往左挪了一位。开发者眼里,这是慈善。竞争对手眼里,这是价格战。但两者都没有触及本质。

这是在清场。是一场早已分出胜负的成本斩杀。

DeepSeek之所以能在算力紧缺、人才流动的环境下敢于如此激进地调价,原因藏在那份58页的技术报告中。它早已不需要烧钱换市场。它是在用一套从头重构的底层架构,把大模型的推理成本推向了人们从未想象过的数量级。

记忆的工业化

读技术报告时,一个数字跳了出来:在百万token上下文场景下,V4的KV Cache占用仅仅是前代V3.2的10%。十分之一的定价,源头就在这里。

要讲清楚这件事,得从KV Cache说起。今天人们与大模型的对话远比几年前复杂,附上几十页的文档作为参考资料已经司空见惯。模型必须把这些冗长的内容记住,才能正确回答问题。这种记忆就是KV Cache。

问题在于,长篇大论带来的记忆既复杂又臃肿。一本百万字的书看起来轻薄,模型却需要占用十几张昂贵显卡的显存来保存记忆。实现长上下文窗口的成本,一直居高不下。

有人选择接受现实,DeepSeek选择了另一种路径:掀翻传统的记忆方式。

第一种新方法叫压缩稀疏注意力。传统注意力机制中,一个token对应一组KV向量。压缩稀疏注意力的做法是,通过可学习的线性投影和Softmax函数计算出压缩权重,将连续多个token的KV状态在序列维度上融合成一个单一条目。

翻译成直觉能理解的话:以前模型需要逐字逐句记住用户发来的内容,现在它学会段落总结,把每几十个词的核心意义浓缩成一句话。在V4 Pro中,压缩率设为4,仅这一步,缓存体积在序列长度上直接缩减75%。

第二种方法更加激进,叫重度压缩注意力。它试图把远大于常规压缩窗口的token记忆压进一个条目,不做稀疏检索,而是全局密集注意力计算。代价是计算开销增加,回报是压缩率惊人。在V4 Pro中,这一层的压缩率是128。段落总结还够,直接做篇章提炼,一整页内容浓缩成几个关键词。

但激进压缩必付代价。局部细粒度信息和严格的因果关系,都会被这种暴力压缩破坏。DeepSeek的解法是,在注意力机制中增加一个独立分支:窗口大小为128的滑动窗口。最近128个token不被压缩,以此保证模型对近期上下文的精确感知。缓存管理上,异构KV Cache架构将未压缩token作为一种状态独立管理,让高压缩比下的回答质量得以维持。

还有一步不能忽略:混合精度存储与磁盘复用。KV Cache中的特征维度,只有用于旋转位置编码的最后64维保留BF16精度,其余全部量化为FP8格式。物理存储又砍掉一半。

在这些层层削减之后,缓存体积已被压缩90%以上,因此V4可以将这些高度压缩的KV条目直接放到廉价的固态硬盘中。用户发起长文本请求时,系统从硬盘直接拉取已压缩的缓存,跳过了昂贵的GPU预填充计算,同时极大节省了HBM显存。

成本降到十分之一,顺理成章。

这是一种记忆的工业化。过去,记忆是手工作坊,每个细节都要原样保存。现在,记忆变成了流水线,有标准化工序、有压缩算法、有分级存储。冗余被剔除,本质被保留

算力的结构性瘦身

除了显存占用,推理计算时的浮点运算次数,是衡量算力消耗最主要的标准。在1M长上下文下,V4 Pro的单token推理FLOPs只有前代V3.2的27%。

下降的核心,是一套动态稀疏选择机制。即使有了压缩缓存,查询向量和前面几万个压缩后的KV向量计算注意力分数,计算量仍然庞大。DeepSeek的做法是:对于当前查询向量,模型通过下采样和上采样矩阵将其映射到低维隐空间,生成一个用于检索的索引Query向量。这个索引向量与历史缓存的压缩块计算粗略得分,每次生成token时只检索得分最高的1024个压缩KV条目,再进行后续的核心注意力计算。

传统注意力机制中,解码计算复杂度随上下文长度线性增长。压缩稀疏注意力将复杂度强制截断为常数级运算。当上下文长度达到一百万时,常数级的计算量几乎可以忽略不计。这是27%这个数字的结构性来源。

与此同步推进的,是精度的系统性妥协。V4不仅将混合专家架构的专家权重量化为FP4精度,还首次将FP4深入注意力计算的核心。Query和Key向量的激活值缓存、加载、矩阵乘法,全部在FP4精度下运行。量化感知训练期间,索引得分也从FP32降到BF16。硬件层面,FP4精度的吞吐量是FP8的两倍。这种极低精度计算让长上下文的注意力计算速度加倍,同时维持了99.7%的KV检索召回率。

99.7%的召回率值得品味。这意味着,算力下降了,精度几乎没有损失。过去人们本能地认为,更便宜意味着更差。DeepSeek用数据证明,这个等式不总是成立。在工程的世界里,冗余和裕度并不天然等于更好的结果。

底层的极致压榨

自顶向下看完整套算法优化,再往下一层,是DeepSeek一贯的看家本领:对底层基础设施的彻底压榨。这种优化已经到了“抠门”的地步,却构成了集群吞吐量提升和降价护城河的真实来源。

V4 Pro参数量达到1.6万亿,在国内仅次于Kimi系列模型。但这也是问题所在。混合专家架构中,专家并行的跨节点通信,随着参数膨胀成为瓶颈。DeepSeek团队用自研的TileLang语言编写底层融合算子,将MoE层的计算按波次划分。一波专家的通信一旦完成,GPU立刻开始计算,网络层同时开始并行传输下一波专家的token。这种流水线式的重叠调度,将推理阶段的常规工作负载加速了1.50到1.73倍,硬件利用率逼近极限。均摊到每个请求上的算力折旧成本,被进一步压低。

还有一个针对智能体应用场景的独特优化。AI模型在执行复杂任务时,往往需要先运行一个额外的小模型进行意图识别或工具调用的判断。V4的解法更巧妙:在输入序列后附加专用的特殊token进行标记。由于模型原生支持多级思考和长短期记忆管理,可以直接复用主模型的KV Cache来并行执行这些辅助任务。额外模型的维护成本和重复预填充的计算开销,被一并消除。

这一步的意义,不是省了几台服务器。它指向一种哲学层面的分工:工具和意图之间的界限被模型内部化了。过去需要外部辅助系统完成的功能,现在被模型本身的结构所吸收。这是压缩,也是统一。

定价权的转移

混合压缩注意力叠加硬盘低成本缓存,等于十分之一的缓存命中价格。稀疏注意力加上FP4精度再加上底层极致榨取,等于2.5折的推理价格。理解了这些技术,就能看明白这次突如其来的降价,本质不在慈善,也不在价格战。这是利用技术代差发动的降维打击。

说来有些讽刺。在国内AI市场涨价的主旋律中,行业在一个月内形成了心照不宣的默契:AI就该越来越贵。然后DeepSeek一言不发,让这种默契化为泡影。自研的千亿MoE架构、把单token成本打骨折的混合注意力机制,使得API价格降到对手不想、也不敢跟进的水平。

这已经不是同一个维度的竞争。

DeepSeek从未想过烧钱换市场,它背后是自研的整套推理框架,从底层算子到上层服务的全链路掌控。降价,只是因为成本真的降下来了。

而那些选择涨价的企业,无论是主动还是被动,无意中暴露了一个更残酷的事实:它们的技术栈和成本结构,根本不在自己手里。

这轮洗牌过后,大模型市场的定价权将发生转移。

过去,价格由“我能买到的最优模型成本”来定义。现在,价格由DeepSeek的自研模型成本来定义。当锚点已被砸到地板价,涨价的厂商会突然发现,手里的牌一张都打不出了。

百万级token上下文的廉价处理能力,让过去因成本悬置而无法落地的长文本分析、复杂Agent任务、横跨多轮的记忆与规划,都获得了经济可行性。这不是一个模型能力的突破,这是应用层即将大爆发的底层许可。

DeepSeek平台及时打消了外界传言“降价以应对竞争”的说法。“此次调整正是技术与规模效应形成正循环后,我们向市场自然传导成本优势。”这种表述,比任何反击都更有力。

最后的话

回顾整件事,有一条更深的线索。

价格从来不只是数字,它是权力结构的物质外衣。当一个技术的定价权从供给方转移到效率方手中,它意味着旧格局开始瓦解。

20世纪初,福特用流水线把汽车价格从富人玩具打到工人阶层可承受的范围,背后的力量不是慈善,是生产效率的代际跃迁。今天DeepSeek把大模型API价格打到同行的十分之一,性质是一样的。谁掌握了最底层的效率,谁就掌握了定价权。谁掌握了定价权,谁就定义了下一个时代的基础设施。

硅谷有一种广为流传的叙事:AGI将在某个实验室被秘密诞生,然后单方面重塑世界。DeepSeek的实践提供了一种更安静的叙事:真正的权力转移,不需要一次惊艳的跑分或一篇石破天惊的论文。它只需要让技术报告里藏着一行小字,把成本打到所有人无法跟进的位置。然后用一个普通的周末,轻描淡写地把价格表更新。

Token终将变为水电一样的基础资源。这句话说了好几年,一直像愿景。直到这个周末,它突然变成了可以用0.025元买到的东西。