惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google DeepMind News
Google DeepMind News
F
Fortinet All Blogs
阮一峰的网络日志
阮一峰的网络日志
Apple Machine Learning Research
Apple Machine Learning Research
爱范儿
爱范儿
WordPress大学
WordPress大学
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
J
Java Code Geeks
罗磊的独立博客
S
SegmentFault 最新的问题
V
V2EX
V
Visual Studio Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
美团技术团队
博客园 - 三生石上(FineUI控件)
Stack Overflow Blog
Stack Overflow Blog
Y
Y Combinator Blog
MyScale Blog
MyScale Blog
D
Docker
Google DeepMind News
Google DeepMind News
Blog — PlanetScale
Blog — PlanetScale
M
Microsoft Research Blog - Microsoft Research
Martin Fowler
Martin Fowler
S
Secure Thoughts
B
Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Recent Announcements
Recent Announcements
MongoDB | Blog
MongoDB | Blog
C
Cisco Blogs
C
CERT Recently Published Vulnerability Notes
T
True Tiger Recordings
GbyAI
GbyAI
P
Proofpoint News Feed
P
Privacy International News Feed
Jina AI
Jina AI
The Cloudflare Blog
I
Intezer
AWS News Blog
AWS News Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
S
Security Archives - TechRepublic
NISL@THU
NISL@THU
The Register - Security
The Register - Security
Recent Commits to openclaw:main
Recent Commits to openclaw:main
P
Palo Alto Networks Blog
S
Schneier on Security
L
LINUX DO - 热门话题
C
CXSECURITY Database RSS Feed - CXSecurity.com
Security Latest
Security Latest
C
Cybersecurity and Infrastructure Security Agency CISA

36氪

海科新源:拟出售不超过85.11万股已回购股份-36氪 热门中概股美股盘前普跌,富途控股跌超37%-36氪 美股大型科技股盘前普涨,英特尔涨超1%-36氪 老虎国际:内地客户资产占比约10%-36氪 国城矿业:拟23.68亿元购买国城实业40%股权 东芯股份:筹划发行H股股票并在香港联交所主板上市-36氪 *ST闻泰:起诉安世控股等侵权案获受理,涉案金额暂计80亿元-36氪 京东618将用AI数字人打造全网首档AI购物直播晚会-36氪 中国核建:拟定增募资不超40亿元-36氪 *ST岩石:上交所决定终止公司股票上市-36氪 新鲜零食品牌「金粒门」加速全国化:粤鄂6店同装|最前线-36氪 荣耀内部回应IPO问题:上市没有终止,开放员工减持通道-36氪 氪星晚报|优步与印度JSW集团达成协议,合作在印度开发及部署电动汽车;英伟达、AMD、英特尔参投,AI初创公司Hark完成7亿美元融资;神舟二十三号发射在即,各系统准备就绪-36氪 三星电子工会就临时薪资协议启动投票-36氪 一汽解放:部分董事、全体高管拟合计不低于120万元增持公司股份-36氪 在muShanghai,一位中国顶级科学家面向全球极客的分享|Bonus现场笔记-36氪 观想科技:拟约10亿元投资建设巴里坤AI科技成果转化总部基地项目-36氪 炬坤机器人发布全球首款工业级五指灵巧手 澜起科技:股东拟询价转让公司约1%股份-36氪 喜力公布CEO选拔进展:现任CEO本月底离职,暂不任命临时CEO-36氪 歌尔股份:目前未涉及光模块相关业务-36氪 中微公司:巽鑫投资拟减持公司不超2%股份-36氪 翱捷科技:阿里网络拟减持公司不超3%股份-36氪 深交所:本周共对229起证券异常交易行为采取了自律监管措施-36氪 赞宇科技:拟1亿元—2亿元回购公司股份 小菜园:截至4月30日,88vip付费会员的数量超过79.3万-36氪 慕尼黑再保险任命Gavin Maistry担任亚太、中东及非洲寿险与健康险首席执行官-36氪 海目星:拟出资2亿元参设产业基金,投资领域主要为新能源电池产业供应链及其他新兴产业领域的项目-36氪 上交所:本周对360起拉抬打压、虚假申报等证券异常交易行为采取了自律监管措施-36氪 央行:2026年4月同业拆借日均成交4614.8亿元,同比增加46%-36氪 央行:2026年4月上海黄金交易所黄金成交5633.7吨,同比减少17%-36氪 央行:2026年4月沪深两市日均成交额23437.9亿元,环比增加1.3%-36氪 立方制药:取得美阿沙坦钾片药品注册证书-36氪 AI时代核心终端生态定位与用户需求洞察| 2026AI Partner·北京亦庄AI+产业大会-36氪 恩捷股份:终止在马来西亚投资建设锂电池隔离膜项目-36氪 金诚信:拟增加Alacran铜金银矿项目建设投资-36氪 从感知环境到改变世界:物理AI的机遇、路径与实践| 2026AI Partner·北京亦庄AI+产业大会-36氪 苑东生物:维生素K1注射液获得药品注册证书-36氪 重庆燃气:股东拟减持不超1.8%公司股份-36氪 美力科技:拟4000万元—7000万元回购公司股份-36氪 老虎国际回应处罚:严格按照监管要求积极配合相关工作-36氪 长桥证券回应:将严格落实各项整改要求,依法合规推进相关安排-36氪 富途回应:中国内地有资产客户数占比已降至13%-36氪 传泡泡玛特买入北京太古坊整栋写字楼,太古地产回应“不便置评”-36氪 九华旅游:副总经理何龙被立案审查调查并留置-36氪 机构今日买入长电科技等29股,卖出嘉德利2.12亿元 5月25日央行将开展6000亿元MLF操作,期限为1年期 华盛雷达科创板IPO暂缓审议-36氪 华正新材:股票交易异常波动期间董事、高管合计减持21000股-36氪 腾讯承诺不再与相关版权方达成或变相达成版权独家授权合同-36氪 松发股份:向特定对象发行股票申请获上交所审核通过-36氪 节能风电:向特定对象发行股票申请获上交所审核通过-36氪 连信科技携手浙江大学共建“全省脑智发展与心理健康重点实验室”正式揭牌-36氪 优必选等在温州成立具身智能科技公司,注册资本7000万-36氪 香港证监会增强措施以应对伪造文件及洗钱风险并提高开户标准-36氪 神舟二十三号发射在即,各系统准备就绪-36氪 Jefferies预计7-Eleven日本业务营业利润将达2270亿日元,本财年同店销售增长势头强劲-36氪 国务院发文推行常住地提供基本公共服务,提升均等化水平-36氪 “无尽方舟”完成数千万种子轮融资-36氪 中国化学:目前氢氟酸产品在试生产阶段-36氪 马来西亚拟采购海外资源,保障能源供应维持至年底-36氪 小米YU7家族再推新车,雷军:标准版打特斯拉,GT版狙BBA-36氪 乘联分会:5月狭义乘用车零售预计152万辆,新能源预计95万辆-36氪 让智能体看见世界:CV × AI Agent 的行业场景新实践| 2026AI Partner·北京亦庄AI+产业大会-36氪 赛百味在合肥成立新餐饮管理公司,注册资本1000万-36氪 致敬:36氪AI寻求报道 - 让好项目,更早被看见-36氪 SpaceX的AI前景遭质疑,400个美国政府项目只有3个涉及Grok-36氪 雅诗兰黛与Puig终止合并谈判,组建美妆巨头计划作罢-36氪 马来西亚6月1日起推社交媒体监管新政:限制16岁以下用户使用-36氪 优步与印度JSW集团达成协议,合作在印度开发及部署电动汽车-36氪 老虎证券、富途控股美股盘前跌幅进一步扩大-36氪 零点有数联合中国人寿推出“真AI宠”宠物保险科技平台-36氪 圣晖集成:控股子公司中标约2.23亿元项目-36氪 阳光诺和:STC009注射液临床试验申请获受理-36氪 证监会严肃查处老虎等机构非法跨境展业案件-36氪 证监会:禁止互联网平台在境内为境外机构非法跨境经营提供营销宣传、证券期货开户通道等便利-36氪 证监会:严禁境外机构以任何形式在境内非法提供开户和交易服务,并设置2年集中整治期清理非法存量业务-36氪 恒指收涨0.86%,联想集团涨超19%-36氪 能落地的请留下,讲故事的请离场-36氪 圣阳股份:公司在AIDC数据中心领域尚未与美国客户达成合作-36氪 杭州银行增资至72.5亿,增幅约22%-36氪 马应龙:子公司获得溴芬酸钠滴眼液药品注册证书-36氪 韩国邮政拟加码AI数据中心和欧美地产投资-36氪 智元西南具身智能产业基地首批200台机器人正式下线-36氪 布伦特原油日内涨3%-36氪 圆桌对话:看见实效:从技术到处方,AI +医疗的场景落地与价值闭环| 2026AI Partner·北京亦庄AI+产业大会-36氪 联想集团涨超20%-36氪 以场景为锚,以AI为翼:大健康产业的实践与突破| 2026AI Partner·北京亦庄AI+产业大会-36氪 甘浙特高压受端配套工程首条送出线路贯通-36氪 算力浪潮下,AI智能影像的无线化变革| 2026AI Partner·北京亦庄AI+产业大会-36氪 AI+数字资产:激活企业沉睡数据,释放商业价值| 2026AI Partner·北京亦庄AI+产业大会-36氪 巴克莱:若美元持续走强,亚洲外汇储备可能下降6700亿美元-36氪 BAI资本8亿美元新基金完成首关-36氪 因前置摄像头存在软件缺陷,现代在美召回超42万辆汽车-36氪 特斯拉在美召回14575辆Model Y-36氪 2025年全国1%人口抽样调查主要数据公报发布-36氪 圆桌对话:降本增效 风控提智:数字员工驱动金融数智化转型的实战样本| 2026AI Partner·北京亦庄AI+产业大会-36氪 A股三大指数集体收涨,黄河旋风涨停-36氪 圆桌对话:进化的终极思考:引入AI,先改流程还是先换脑袋?| 2026AI Partner·北京亦庄AI+产业大会-36氪 AI+供应链:大模型与智能决策如何重构供应链全链路| 2026AI Partner·北京亦庄AI+产业大会-36氪
别急着All-in DeepSeek V4,先看看这10位从业者的真心话-36氪
2026-04-30 · via 36氪

文|周鑫雨 王毓婵

编辑|杨轩

解读DeepSeek V4的技术报告,是这几天AI行业最狂热的集体活动。

V4很强吗?在工程优化的维度中,答案是毋庸置疑的。过去,大家信奉“Scaling Law的暴力美学”——也就是靠堆更多优质算力、更大参数规模来提升模型性能。而V4走的是一条完全不同的路,它定义了一种“模型训练的克制美学”:

它不靠疯狂堆算力和参数,而是通过一系列组合优化和重构:

注意力机制(让模型学会“抓重点”,像人读长文章时会自动关注关键句子一样)

MoE架构(混合专家模型,可以理解为“让不同的专家负责不同类型的问题,每次只激活少数专家,省时又省力”)

后训练(模型初步练成后再针对性地补课强化)

推理系统工程(优化实际运行时各个环节的效率)

这样做的成果是把V4-Pro在处理百万Token(大约几十万字)长上下文时需要的算力,压低到了上一代V3.2的27%,同时用来临时存储对话上下文的KV缓存(可以理解为模型在跟你聊天时“记笔记”的草稿纸)被压缩到了原来的10%。

不过,工程只是工程,榜单只是榜单。

评价一个模型,我们不希望只停留在纸面参数上,而是放到部署、开发、投资的真实场景中去讨论V4的价值。为此,我们邀请了近10名开发者、应用创业者和投资人,进行了三天左右的体验和测试。

先说一个反直觉的结论:DeepSeek对应用层带来的影响,或许比模型层更大。

在惊叹极致的工程优化之余,正如DeepSeek自己在V4技术报告中坦言的那样:发展轨迹大约滞后前沿闭源模型3至6个月——V4如今的成果,就好比与魔鬼做交易:拉长了推理和Agent(智能体)能力的长板,代价是牺牲了部分准确性。

闭源模型厂商们,暂时可以松一口气。对于注重稳定、精确的商业世界而言,V4显然不是一款能够直接落地的模型。

Pine AI首席科学家李博杰,以及某头部Coding Agent创业者Chillin都对我们直言,工具调用稳定性+幻觉率,这两点必须在harness(给智能体套上的“缰绳”和“安全带”,用来规范它的行为、降低出错风险)层面补足,V4落地离不开“脚手架”。

但智力大脑的迭代方向,往往牵动着下游应用的生态。AI应用创业,将会面对技术和资本更严厉的双重考验。

“基模的性能还在快速迭代”——这句业内的共识,也意味着应用随时可能成为被模型颠覆的沙砾。一名双币基金的投资人举了不少“昨日黄花”的案例:“Workflow、Coding……”

AI应用公司“涌跃智能”创始人兼CEO陈炜鹏总结:未来,AI应用的壁垒,是把模型、Agent、产品场景和数据反馈组织成一个可靠、低成本、可规模化的生产系统。

亮点:不只有长文本和编程能力,而是高能力还成本低

写在前面:核心优势——代码与智能体能力

在几个关键的代码和软件工程评测中,V4-Pro展现出了当前开源模型的最高水平,与顶尖闭源模型几乎不相上下。我们把核心数据整理如下:

AI制图

🧑‍🏫PingCAP联合创始人兼CTO 黄东旭

我正在把自己的Hermes工作流迁移到DeepSeek V4上。原来我用得比较浪费,是用Claude Opus和GPT5.4来做Agent,但后来我发现,大多数日常工作其实并不需要特别高的coding能力。

日常办公任务,主要包括:(a)日常邮件整理;(b)文章撰写;(c)日历管理;(d)内容总结;(e)网络浏览。

现在我已经完全切换到DeepSeek V4了。它的效果比我想象中要好,可能是针对中文做了一些优化,整体语言能力比Opus和GPT更符合中文母语者的使用习惯。

所以我第一个结论是:如果你现在正在用一些更贵的模型来作为日常工作助理的Agent,其实可以比较放心地切换到DeepSeek V4 Pro上。

它的能力大概在Claude Sonnet 4.5到4.6的水平,但价格只有头部模型的四分之一还不到。现在我基本上已经不用再关注Agent的成本开销了。

DeepSeek V4的论文里一直在强调1M的上下文,但这点我其实感觉不是太强,因为现在主流的SOTA模型基本上至少也都是1M的上下文了,这只是追赶上了。

它真正的点在于:

1.成本真的非常低;

2.它是一个开放开源的模型。

我不用太担心Anthropic或者OpenAI如果断供,我之前的一些工作流就不能用了,这种事情之前其实发生过。在这一点上,切到DeepSeek V4,安全感是更高的。

其次,看编程能力。因为测试时间还比较短,我还没有用它来开发非常复杂的大型系统应用。

但在大概几千行代码的规模,或者做一些小型应用,以及处理充满各种外部第三方系统调用的场景(比如去Supabase或者TiDB Cloud上,通过阅读文档去接入一个它不太熟悉的工具),目前我的体感是基本上没有出现太大的问题。

在几千到一万行的规模里,V4 one-shot(一次性给足例子和指令,不额外调试)的成功率还是比较高的。

所以如果你只是做一些简单的小网站或者小型应用,我觉得DeepSeek的编程能力肯定比前一代要强非常多。

因为现在我的Harness框架其实并没有太复杂的人为编排,更多是依靠模型自身的协同能力(使用Slock.ai)。

简单来说,有以下两点:

1.它能够跟使用其他模型的Agent进行协同;

2.它完成一些简单的/具体的任务。

所以,如果前面有一些比较强的模型(例如像GPT5.5这种级别的)去给DeepSeek V4 Pro指方向,然后让它负责执行,这种模式我觉得能让整个Harness Engineering的成本大幅下降。

🧑‍🏫零一万物技术与产品中心副总裁 赵斌强

DeepSeek V4不是“最全能的”,但它是“最值得信赖的”——坚定的开源承诺、完整的技术报告、极低的推理成本、全技术栈国产化,让它成为ToB(面向企业)场景下性价比最优的基础模型选择。

DeepSeek V4最让我惊艳的是两件事。

第一,模型架构的底层创新。在100万Token上下文窗口下依然保持高质量推理能力,背后是混合注意力机制的底层创新。这种机制可以通俗地理解成:“粗读”着眼大局整体含义,“精读”精确理解细节。

尤其是在Context压缩方面的探索非常先进,而且DeepSeek在技术报告中毫无保留地公开了细节。这种坦诚和开源精神,在竞争激烈的大模型行业中极为宝贵。

第二,国产算力全栈适配。DeepSeek完成了华为昇腾910B/950的适配,在量化、稀疏化机制、领域expert优化等方面的工作做得非常细致。

这意味着从芯片到底层软件到模型训练、推理,国产全栈解决方案已在正确的方向上迈出了实质性一步。虽不能说完全摆脱对英伟达生态的依赖,但已经找到了正确的发展方向。这件事的难度和意义,怎么强调都不为过。

🧑‍🏫Pine AI首席科学家 李博杰

最惊艳的是DeepSeek把MoE、CSA+HCA混合注意力、mHC、Muon、FP4QAT这一长串架构创新真正在1.6T(1.6万亿参数)这个目前最大开源规模上跑通了。

这就像把一堆理论上很先进、但在小规模实验里经常失效的技术,成功组合到一台巨型引擎上并稳定运转起来。我们自己试过20多种架构创新,结论几乎都是“在70亿参数规模上可行,一上规模就掉链子甚至反作用”。

其他家的模型架构创新大多也卡在这一步。能在最大规模上让多项创新协同工作,说明DeepSeek底层训练的技术积累极深,仅其中一项“mHC”技术,就把原来在27B实验里近3000倍的信号放大,压到了约1.6倍,让训练变得稳定可控。

🧑‍🏫联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨

DeepSeek证明了“AI性价比”可以成为一种主动设计出的结构性优势。

27%、显存占用仅10%。同时,其1.6T总参数量大,但每次仅激活49B参数,效率极高。

这种结构性降本,再加上V4-Flash版本API 1元/百万Token的低价策略,使得“平民化超长上下文”成为了AI应用的新基准。

🧑‍🏫涌跃智能创始人兼CEO 陈炜鹏

DeepSeek V4最让我振奋的,不只是某个单点能力的提升,而是它说明国内大模型已经从“追赶基座能力”,进入到“参与Agent时代系统竞争”的阶段。

过去大家更关心模型会不会回答、推理、写代码;但到了今天,真正重要的是模型能不能在复杂任务中稳定完成目标,能不能以足够低的成本、足够高的效率接入真实产品系统。

遗憾:真正落地,V4还缺一些“脚手架”

写在前面:相对劣势——事实性知识与极端复杂推理

DeepSeek官方和各评估平台指出了V4-Pro的几个明显弱点。为了更直观,我们将关键弱项数据整理成下表:

AI制图。

🧑‍🏫Pine AI首席科学家 李博杰

我主要使用的是代码类和Agentic任务。这一类工作里:

V4-Pro的工具调用能力和通用世界知识,基本追平了前沿模型的次一档版本(大致相当于Claude 4.6 Sonnet水平);

但工具调用稳定性+幻觉率仍然是硬伤——这两点必须在Agent Harness层面补足(比如加强校验、失败后自动重试、用外部知识库让模型“接地气”、把工具使用规范定得严格清晰),否则在长链条任务里,任务链路一拉长,错误就会被不断放大;

一旦Harness层补好了这两个缺陷,整体推理成本能比前沿模型低好几倍。这才是真正的杠杆。

另一条线是:V4-Flash作为垂直微调的“甜点”是非常好的。什么叫垂直微调?就是在通用模型基础上,用特定领域的专业数据再“补课”,让它成为某个行业的专家。

1.6万亿参数的超大模型做后训练(SFT/RL)成本太高,一般公司根本负担不起,而2000亿到3000亿参数的模型才是市场做后训练的主力尺寸。我们之前在千问235B(2350亿参数)上做后训练,效果明显弱于同尺寸的V4-Flash。

Flash的性能已经追上前一代万亿级开源模型,超过600B多的DeepSeek V3.2和老版Kimi。Flash会成为做业务微调的首选基座。

🧑‍🏫Coding Agent创业者 Chillin

我们内部测评后得出的结论是:在Coding Agent场景下,DeepSeek V4是Claude一年多前的水平。

问题可能出现在两方面,一是参数规模,二是数据。DeepSeek和Anthropic还有比较显著的差距。

如果要真正落地,DeepSeek V4还需要一些特殊的脚手架,比如SWE-Agent(软件工程智能体)、OpenHands(一个开源Coding智能体)、Claude Code、OpenClaw。这都需要开发者额外配置。

🧑‍🏫涌跃智能创始人兼CEO 陈炜鹏

以Loopit(涌跃智能旗下的AI互动内容产品)的实际使用(主要是Coding场景)来看,要客观看到,DeepSeek V4在执行复杂长程任务的稳定性和任务完成率上,距离海外最强闭源模型仍有差距。

国内头部模型之间的能力差异在变小。这说明模型竞争正在进入一个新阶段:在Agent时代,模型能否理解长上下文、适应复杂框架、稳定完成长程任务,并以可接受的成本和速度运行,会变得同样重要。

真正拉开差距的,不只是模型本身,而是模型、后训练、Agent框架、评估体系和工程效率形成的整体系统。

🧑‍🏫联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨

V4的发布没有包含原生多模态版本(即同时能处理文字、图像、声音等的模型),这在当前市场环境下稍显遗憾。

但结合其全面拥抱国产算力的战略,这很可能是为了集中资源攻克最核心的算力底座问题而做出的阶段性取舍。

🧑‍🏫零一万物技术与产品中心副总裁 赵斌强

说“不及预期”有点鸡蛋里挑骨头。

但如果从ToC(面向个人用户)角度来看,产品化打磨还不够——Flash版本涉及创作、编程等复杂任务,能力略显不足;Pro版本虽然接近顶级闭源模型水准,但起步算力要求较高,存在入门门槛。

影响:AI并不是简单地越来越便宜

🧑‍🏫涌跃智能创始人兼CEO 陈炜鹏

一个重要趋势是,AI并不是简单地越来越便宜。

全球最旗舰模型的调用成本其实在上升,因为它们承载的是更高复杂度、更长上下文、更高价值的任务。真正快速变便宜的,是中层模型、开源模型和可自部署模型。

所以未来应用公司不会只问“哪个模型最强”,而是要建立一套模型调度系统:哪些任务必须用最强模型,哪些任务可以用高性价比模型,哪些能力可以通过Agent框架和工程系统补足。

DeepSeek V4的意义在于,它进一步丰富了模型供给层。

对企业来说,它不是简单替代某一个海外模型,而是让应用可以更灵活地做多模型编排、自部署和成本优化。

未来AI应用的壁垒,也不会是简单调用一个模型,而是把模型、Agent、产品场景和数据反馈组织成一个可靠、低成本、可规模化的生产系统。

对Loopit来说,这个趋势非常关键。我们做的是AI互动内容,模型能力决定创作上限,成本和速度决定创作能否规模化。

只有当不同层级的模型都足够可用,并且能够被有效编排,普通用户的大量创意才有可能被实时生成、互动和传播。DeepSeek V4的进展,会加速这个过程。

🧑‍🏫Pine AI首席科学家 李博杰

在垂直微调市场,千问、Llama等200-300B档基座被V4-Flash系统性替换。

所有做该尺寸后训练的团队都会重新评测;Flash同尺寸效果反超、推理框架Day-0适配齐全(SGLang/vLLM/TileLang),6个月内会成为国内开源垂直模型的默认起点。

华为昇腾950 SuperNode推理生态正式起步,并冲击英伟达芯片溢价。

这是第一个完整跑通的“国产芯+国产顶级开源模型”方案(NVIDIA/AMD都没拿到V4的早期适配),下半年950大规模出货后,Agent长上下文场景里会出现一波纯本土推理替换;

这间接影响是英伟达在中国市场的估值与溢价被重新定价——不是销量崩,是议价能力被压。

能完成复杂长程任务的Agent整体使用成本大幅下降。

V4-Pro输入(缓存未命中)1.74美元/输出3.48美元+1M上下文高效KV+MegaMoE已经把单Token成本压到前沿模型的1/6-1/7;

只要业界在Agent Harness层把V4的工具调用稳定性和幻觉率补齐(验证器、外部接地、严格Schema、自一致性投票),那些过去因为成本无法实用化的多步研究、长程代码Agent、深度搜索类应用会在今年下半年走出demo进入真实业务,Agent经济性的拐点就在这一波。

以及,闭源前沿厂商不会因此降价——它们的产品仍然显著领先,V4不构成定价压力。

🧑‍🏫零一万物技术与产品中心副总裁 赵斌强

ToB AI应用的核心命题是:在保证效果的前提下实现全周期的成本控制。DeepSeek V4的出现为这一命题提供了极具竞争力的解法。

Flash覆盖简单任务,Pro覆盖高复杂度场景,整体成本相比主流闭源方案会大幅降低,让零一万物在交付时能够显著提升方案性价比。

更重要的是,DeepSeek的开源是坚定的、不摇摆的,不会突然宣布闭源让应用的投入打水漂。这种坚定的开源姿态为企业级技术选型提供了宝贵的确定性。

零一万物内部已经全面启动基于DeepSeek V4的产品评测与能力验证,重点评估其在生产调度、智能办公、投资管理等企业核心场景中的表现,验证达标后会考虑替换原有模型,让更多行业客户用上顶级国产大模型。

V4发布后,我认为行业会主要产生三个变化:

1.国产全技术栈解决方案进入发展轨道,国产化替代从“梦想”变“现实”

DeepSeek成功适配华为昇腾,意味着国内AI产业在“芯片+框架+模型+应用”全技术栈国产化的方向上迈出了实质性一步。

对于有合规要求的政企客户,这是刚需。ToB市场的国产化替代进程将明显加速。

2.开源大模型倒逼闭源降价,AI应用业务减少被闭源模型吸血

DeepSeek用远远低于顶级闭源模型的价格实现了接近顶级闭源模型的效果,它的示范效应会进一步拉高开源模型的整体性能。

这也会迫使Anthropic、OpenAI等闭源模型厂商的高价策略面对压力。行业利润中心将从基座模型向深度行业应用迁移,对AI长期的发展极有益处。

3.开源模型≠企业应用,Harness能力成为新分水岭

开源降低了基座门槛,Harness决定了落地高度。从优质开源模型到稳定可靠的企业级产品,中间还隔着Harness这一层,包括幻觉消除、指令遵循、错误校验、专业性注入等工程能力。

每个行业的需求不同,没有一套Harness是通用的。这恰恰是零一万物的核心优势所在:基于自动评测、自动反馈、自动改进、专业性注入,为不同行业快速构建专属的Harness体系,让大模型真正在业务中用起来。

🧑‍🏫联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨

第一,百万级上下文成为应用层的“标配”,催生Agent爆发:V4将超长上下文能力下沉为普惠基础设施。

第二,行业竞争从“卷模型”转向“卷应用与数据”:当顶级开源模型性能逼近闭源、成本大幅下降后,模型本身将不再是稀缺壁垒。未来的投资与竞争焦点,将更明确地转向谁能利用这些基础模型,在医疗、金融、法律等高价值垂直场景中建立数据与应用闭环,形成商业护城河。

第三,国产算力产业链迎来巨大投资机遇:V4的成功,向业界证明了大模型在国产算力上也能摘取“皇冠上的明珠”。这必然催生对国产算力的确定性需求,带动从芯片设计、服务器到云服务的全产业链投资热潮。

我们判断,“今年的国产算力,就是去年的海外算力”,其产业趋势和资本市场的映射效应将尤为强劲。

我们会把资源向“能快速商业化、能落地行业、能形成产品壁垒”的项目集中,同时保持对底层架构与算力基础设施的长期投资。

🧑‍🏫某双币基金投资人

我今年的愿望是:基模Portfio(被投资方)顺利上市。

DeepSeek启动融资后,一定会吸收一级市场(尤其是国资)的大量资金。对剩下几家还没IPO的基模公司来说,继续滚动融资是不可持续的。

我还有个比较悲观的观点:今年应用层融资会比较困难。

基模能力还在快速迭代,意味着一大批应用会被颠覆。就像去年非常火热的Coding、Workflow,今年一级市场已经没什么人提了。

🧑‍🏫Coding Agent创业者 Chillin

开源是一个好事,DeepSeek V4能进一步推动交流和优化。但是这个时间距离拉的很大,让人感觉比较难受;

DeepSeek V4会迫使模型厂更加正面地面对规模和数据的问题,然而这两个问题极难解决,这是资本量的问题;

它也进一步地证明了Scaling Law的极限。工程化带来的性能跃升是有限的,这迫使所有人去找更底层的解。路漫漫其修远兮。

Bonus:一份DeepSeek V4实用指南

适合干什么?

编程与代码学习:如果你是编程初学者或需要编写个人脚本,DeepSeek V4是目前最顶级的选择之一。它能非常可靠地理解上下文、生成高质量代码,并且极擅长代码调试。

中文及中日韩(CJK)内容创作:无论是写文章、润色文案还是进行翻译,V4在中文、日文和韩文环境下的表现极其优异。

超长文本阅读与分析:V4原生支持高达100万Token的上下文窗口。你可以一次性将整本书、数万字的长篇报告或完整的代码库直接喂给它,让它帮你总结或提取关键信息。

不适合干什么?

搜索与查证客观事实:V4是一款“推理模型”而非“百科全书”,它在事实性知识(如历史细节、特定实体信息)的回忆测试中表现较弱,且极容易产生幻觉。特别是V4-Flash版本,在事实问答测试中得分仅有34.1%。建议:不要用它来当搜索引擎,查证事实请使用带搜索功能的其他AI或自己核实。

处理图片或文档排版:DeepSeek V4是一个纯文本模型,不支持任何图像输入或输出(No Vision)。如果你需要分析图表或图片,请使用其他多模态模型(如GPT-5.4 Mini)。

纯英文的高级创意写作:虽然它能写英文,但它的英文输出有时会显得行文生硬(stilted phrasing),如果你需要创作高度自然、地道或富有创意的纯英文内容,建议使用其他西方主流模型。

其他须知:

给予充分的思考空间:如果你使用的是具备显式思维链(CoT,即模型在给出答案前会先一步步推理,类似于“先打草稿再誊写”)的Pro版本,遇到难题时,不妨在提示词中鼓励它“多想几步”或开启“Think Max”模式,它推导得越深入,给出的答案往往越准确。

容忍偶尔的啰嗦:评估显示V4是一款相对“啰嗦”的模型,输出速度也偏慢。如果你只想要简短的答案,可以在提示词中明确要求“请用一句话回答”或“请尽量简短”。

欢迎交流!

欢迎交流!