惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

N
News and Events Feed by Topic
Malwarebytes
Malwarebytes
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
C
Cybersecurity and Infrastructure Security Agency CISA
F
Future of Privacy Forum
C
Cisco Blogs
T
The Exploit Database - CXSecurity.com
A
Arctic Wolf
S
Securelist
K
Kaspersky official blog
S
Schneier on Security
T
ThreatConnect
T
Tenable Blog
Spread Privacy
Spread Privacy
T
True Tiger Recordings
AWS News Blog
AWS News Blog
F
Fox-IT International blog
量子位
T
Threatpost
V
Vulnerabilities – Threatpost
C
CERT Recently Published Vulnerability Notes
Cisco Talos Blog
Cisco Talos Blog
GbyAI
GbyAI
宝玉的分享
宝玉的分享
腾讯CDC
G
Google Developers Blog
aimingoo的专栏
aimingoo的专栏
Cyberwarzone
Cyberwarzone
有赞技术团队
有赞技术团队
S
SegmentFault 最新的问题
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
V
Visual Studio Blog
U
Unit 42
雷峰网
雷峰网
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Simon Willison's Weblog
Simon Willison's Weblog
O
OpenAI News
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The GitHub Blog
The GitHub Blog
The Register - Security
The Register - Security
MyScale Blog
MyScale Blog
小众软件
小众软件
A
About on SuperTechFans
Last Week in AI
Last Week in AI
Y
Y Combinator Blog
博客园 - 三生石上(FineUI控件)
美团技术团队
Google Online Security Blog
Google Online Security Blog
P
Proofpoint News Feed
MongoDB | Blog
MongoDB | Blog

InfoQ - 促进软件开发领域知识与创新的传播

OpenTofu 1.12发布,带来 Terraform 从未提供的功能 Copilot 创始工程师:大多数 AI 编码“就像开着法拉利去买牛奶一样” 人工智能无法加速软件交付 C++之父开撕AI Coding:资深开发者宁愿退休也不愿伺候AI生成的代码 Java近期资讯:OpenJDK JEP、Azul Payara、WildFly、LangChain4j、OpenXava和Google ADK AI时代数据面临的新挑战和解决之道|AICon上海 数字银行Monzo在100个团队与12000个dbt模型之上构建可治理的数据网格 破局多端困境,拥抱 AI 变革:飞猪跨端技术的过去、现在与未来|AICon上海 大规模工程支撑场景下的多智能体系统设计:Grab 实践案例 OpenAI 详解规模化低延迟语音 AI 的 WebRTC 架构 华为鸿蒙突击队编程框架首席技术专家谢国确认出席AICon上海站,并以鸿蒙为例分享AI 时代的跨平台框架演进 买了卡不等于买到生产力:企业 Token 焦虑,逼出 AI Infra 新战场 Anthropic 推出 MCP 隧道,供私有代理访问内部系统 Agoda 构建多模态内容系统,链接图片和评论 别再骂 Claude 限速了,Anthropic Boris 亲口承认:最挑剔的用户,反而最离不开我们 为创造,再一次信仰之跃 |AdventureX 2026 开启招募 GitHub面临生存之战!多位员工曝内部乱象:独立文化要没了,封杀Claude Code才能“活” AI Coding 很强,为什么企业没提速? Gemini 3.5深夜登场,谷歌CEO劈柴亲自算账:速度快4倍、一年还省超10亿美元,曝内部已被颠覆 中经社发布“十五五”新产业研究智能体,可自主生成产业链分析报告 虚拟上下文窗口技术实现10倍扩容,联想天禧AI 4.0破解大模型长程推理难题 千问云发布,阿里云将模型路由、认证、用量查询全面 CLI、SKill化 TanStack 披露一起复杂的 npm 供应链攻击事件, 42 个包遭入侵 Vite 8.0 :基于 Rust 的统一打包工具,构建速度最高提升 30 倍 Fonttrio 发布:面向 shadcn/ui 的开源字体搭配注册表 Pip 26.1正式发布:上线依赖冷却机制与实验性锁定文件功能,抵御供应链攻击 阶跃星辰副总裁俞刚确认出席AICon上海站,分享多模态生成与理解的架构演进 Cloudflare 发布 Dynamic Workflows,将持久化执行扩展到按租户与按 Agent 动态运行的代码 每个企业都需要自己的 Token Factory?超聚变提出“智企”新范式 Navigation API 达基线版本,已经可以作为 History API 的替代方案使用 Cloudflare与Stripe推出新协议,让AI智能体创建账号、购买域名和进行生产部署 词元时代,万物智能 | 摩尔线程2026产品发布会:打造全场景AI算力基石 Altman拿Token换股权只够烧45天,20亿Token捐母校只值100块:Token真成“钱”了,谁更赚? 马斯克要当“太空版黄仁勋”:Anthropic一年上交150亿美元,Cursor百亿分手费锁死,SpaceX成新算力庄家 中国最神秘AI孵化器正式亮相:11位“大佬”导师成为超强外挂 从兼容 CUDA 到自我进化,摩尔线程想用 MUSA 解决真正的难题 OpenAI开源Symphony:面向自主编码智能体编排的SPEC规范文档 Ubuntu拥抱本地AI,而非云优先的操作系统集成 企业级Agent 落地,绕不开的 4 个工程问题 微软发布Aspire 13.3,迎来部署与前端重磅更新 腾讯混元世界模型的研发布局与思考|AICon上海 阿里发布新一代千问旗舰模型Qwen3.7-Max,登顶最佳国产模型 谷歌推出Cloud Fraud Defense,作为reCAPTCHA的继任者 AI Agent 最大的问题:它在企业里只是个“无名之辈” | 技术趋势 Cloudflare 推出支持确定性执行和 5 万个并发工作流的 Workflows V2 对话灵感实验室:全帧率 VLM、低成本与分层部署,业务现场不止需要炫技模型 10 天 3000 元,一人造出全球 AI 爆款!好莱坞导演抢人、游戏版引爆期待,合作细节首次披露 Anthropic 推出 Routines for Claude Code Snowflake Intelligence 合作伙伴生态:把 AI 能力带入千行百业 |技术趋势 一个隐蔽的循环依赖如何导致了 Discord 3 月份的语音服务中断 Arm 携手通义实验室,发起手机上的创意 AI 挑战赛 基准测试表明:AI智能体可修复独立漏洞,却难以理解系统范围影响 CIO 正在抛弃 AI 生码率:一场关于什么才算产研提效的实践复盘 外行式 Vibe Coding 正跟专业的Agent 工程走向融合:最吓人的是,我们“摆烂”有正当理由了? 不换 Kimi 底座,1/10 成本追平 Opus 4.7?Cursor 用 Composer 2.5 反击 Claude Code Snowflake Intelligence:从回答问题到执行任务的个人工作 Agent | 技术趋势 SolidJS 2.0 Beta:一级异步支持、重构的Suspense与确定性批处理 训推一体潮汐弹性:蚂蚁集团在智算基础设施的池化调度实践|AICon上海 如何在软件组织中扩展社会化的系统 Moonrepo发布moon v2.0:引入WASM插件工具链并重构CLI 蜂群Agent来了!openJiuwen社区发布JiuwenSwarm,引领Coordination Engineering新范式 Pinterest 工程师消除 CPU 僵尸进程,解决生产环境瓶颈 AMD苏妈对话李开复:AI转型只能由CEO驱动、未来“DRI”(直接负责人)将是企业核心|直击现场 8大岗位AI技能图谱 Anthropic发布工程事故报告,说明六周来Claude Code质量下降源于三项产品调整 05·29 腾讯云「数据库+AI」产品发布会重磅启幕 Airbnb 采用基于上下文的身份识别模型,支持隐私优先的社交功能 Anthropic首次揭秘下一代Claude怎么造!用户吐槽直接喂模型,连AI“做梦”都被训练 消息积压方面的数学知识:用于队列恢复的容量规划 Netflix借助Apache Druid中的区间感知缓存让84%的查询结果直接命中缓存 小红书 vibe coding 平台(Muse)之高可用人机共创 Agentic 系统架构实践|AICon上海 时序存储:影响成本与性能的设计选择 Cangjie:一门新的开源编译型语言,原生支持效应处理器和代数数据类型 Snowflake Observe:可观测性与 AI 数据云的融合 | 技术趋势 Golden Question 征集令|把你的 AI 落地之问带去 Snowflake Summit 26 H200还没到中国,Anthropic先急了:千亿美元抢芯片,转头涨价让开发者买单 曝Kimi 后训练团队研究员离职,曾为K2.5贡献者;MiniMax最新招聘,兼职也拿期权;传蜜雪CEO隔空回复黄仁勋,“大佬同款”卖爆|AI周报 从第一性原理出发:那些构建 Snowflake 的理念,以及下一步走向 | 技术趋势 Coder Agents让企业能够在自托管基础设施上运行AI编码工作流 超越基准:采用基于指标的方法在真实设备上维持iOS长期的良好性能 Java新闻汇总:GraalVM、Spring AI、JobRunr、GlassFish、Grails、Groovy和Quarkus Agent MCP 一个二十多年老兵的忧心:那条从Debug开始走向资深工程师的路,正在崩塌 从 Vibe Coding 到需求托管交付 Agent,菜鸟 AI 研发效能实践|AICon上海 从批处理迁移到微批次流式处理的实战经验 AI 的“最后一公里”:本地执行与全场景硬件接入的下一代 Agent 中枢|AICon上海 ChatGPT 可以帮你理财了,但它也知道你的全部余额!用户:谢谢不用了 记忆感知的大模型 KVCache 优化|AICon上海 Kubernetes v1.36 发布:安全默认配置强化,AI 工作负载支持日趋成熟 百度想明白了:旧供给到达极限了 “一人公司”正在重做AI创业?极客部落首场16个OPC项目路演:AI 创业已从“卷模型”转向“卷闭环” 当AI助手进化为自主智能体:英伟达如何携手 SAP 重构企业级“信任逻辑”? JEP 533 加强 JDK 27 中 Java 结构化并发的异常处理 兼顾效率、成本与能力,百灵开源旗舰推理模型 Ring-2.6-1T Grafana Pyroscope 2.0:实现持续性能分析规模化落地 AdonisJS v7 推出端到端类型安全、经过重构的项目模板以及零配置 OpenTelemetry Anthropic 推出 Claude Platform on AWS 鼠标每动一下都在训练AI,Meta员工“造反”了:厕所、会议室都贴满抗议传单 GitHub 推出 MCP 服务器集成,全面扩展机密扫描功能 蚂蚁灵波开源LingBot-VLA真机后训练全流程代码,150条示教数据即可适配新机器人 科大讯飞面向超大规模教育场景的 Agent 系统架构演进与工程实践|AICon上海
模型之外,皆属Harness!DeepSeek终于出手:招人、组队、从零造一个中国版Claude Code
Tina · 2026-05-25 · via InfoQ - 促进软件开发领域知识与创新的传播

Claude Code 定义了当前 AI 编程工具的上限,但它不对中国开发者开放。这个缺口,就是 DeepSeek 的机会。最新组建的团队,正在补上这一层最关键的基础设施——它叫 Harness。

DeepSeek 公开招兵买马:从零开始,对标 Claude Code

5 月中下旬,DeepSeek 开始了一场横跨多个平台的招聘动作:官网、小红书、X 同步放出信息,目标是组建一支全新的 Harness 团队,从零开始构建对标 Claude Code 的代码智能体产品。

DeepSeek 官网上发布的“Agent Harness 产品经理”和“Agent Harness 研发工程师”职位,开头就写着一句很醒目的公式:Model + Harness = AgentDeepSeek 对这个团队的定义很清楚:他们正在把 DeepSeek 的前沿模型能力转化为领先的 Agent 产品,而除模型本身以外的所有工作,都属于 Harness 的范畴。

在小红书上,“陈小礼”发布的帖子也非常直白:“简单来说就是对标 Claude Code,做 DeepSeek Code Harness”。

在 X(推特)上,DeepSeek 高级研究员陈德里(Deli Chen)发布了一条更带个人色彩的招聘推文:

陈德里毕业于北京大学,于 2023 年加入 DeepSeek 担任研究员,此后他的名字多次出现在公司发布的重要研究报告中。由于创始人梁文锋很少公开露面,陈德里已成为公司对外沟通的重要代表,曾在 2024 年 NVIDIA GTC 开发者大会和 2025 年世界互联网大会乌镇峰会上发表过公开演讲。

在这条推文的评论区,陈德里还补充了一句:“简历直达部门老大”,鼓励大家私信内推。这条推文获得了超过 30 万次浏览,以及 1600 多个点赞。网友反应普遍积极,可以说是万众期待。连 Redis 之父也在头排推荐人选 Armin Ronacher(Rust 核心贡献者、常用命令行工具的知名开发者)和 Mario Zechner(游戏开发领域的技术专家)。

再回到官网 JD,会发现 DeepSeek 对这个产品的要求很高。这个团队要连接研究员、工程师、开源社区和大厂用户,把真实任务里的问题、反馈和使用数据,反过来喂给产品和模型训练。

职位要求覆盖了当前 Agent 工程涉及的多个关键技术方向。DeepSeek 还明确写到,候选人要深度使用过 Claude Code、Cowork、Codex、Cursor、OpenCode、GitHub Copilot、Manus、OpenClaw、Hermes 等类似产品,并熟悉其中的使用方法、设计思想和产品实现。这已经不是传统产品经理的画像,而是一个真正理解 coding agent、开发者工具和 Agent 工作流的人。

还有一个细节也很 DeepSeek:官网职位的加分项最后写着,“其它超乎常人的与工作相关的才能”。这句带点极客气质的表达,甚至可以理解为这个产品不仅要对标 Claude Code,更是希望它能做到“标新立异”一些。

陈德里还特地指出,DeepSeek 已经招揽了曾在 Jane Street 工作多年、“有才华且富有”的工程师 Cui Tianyi,加入这个 Harness 团队。Cui Tianyi 毕业于浙江大学,在 Jane Street 工作了近九年,从事股票和固定收益领域的软件开发与研究,后联合创办了香港量化基金 TSY Capital。

Anthropic 一边定义未来,一边把中国开发者挡在门外

最近,Anthropic 在企业 AI 采用率上,把 OpenAI 从王座上拽了下来。

过去一年,Anthropic 的客户增长接近四倍,OpenAI 却几乎原地踏步。在首次采购 AI 服务的企业里,Anthropic 面对 OpenAI 的正面竞争,已经能赢下约 70% 的订单。Ramp 的报告说,这是“一个惊人的逆转”——他们从未见过一个软件行业的新来者能在短短几个月内颠覆市场领导者地位。这也足够说明 Anthropic 已经从“模型公司”变成了企业软件工作流里的重要供应商。

去年 2 月,Claude Code 推出预览版,不到一年就跑出数十亿美元的年化收入。但更重要的是,Claude Code 不只是一个编程工具,而是 AI Agent 发展中的一个转折点。按 Claude Code 创建者 Boris Cherny 的说法,代码只是第一个跑通的场景。根据 SemiAnalysis 在 2026 年 2 月的报告,Claude Code 已经占到 GitHub 公开提交量的 4%,而且仅在一个月内日活用户就翻了一倍。

Boris Cherny 说,对他日常做的编程工作,Claude 基本已经能搞定,2026 年底就会“跨 domain 变成所有人的通用能力”。也就是说,Anthropic 先拿代码开刀,是因为代码反馈明确、工具链成熟、易验证。coding 则是第一个被打穿的工作流,下一步是把这种 agentic 工作方式扩展到更多职业和日常办公场景。

然而 Anthropic 一路高歌猛进的同时,又一直把中国开发者挡在门外。Anthropic 官方明确禁止中国大陆访问 Claude。2025 年 9 月,它又出了更狠的政策:任何由中国资本控制超过 50%的公司,不管注册地在哪,都不准用。而 CEO 达里奥·阿莫迪本人也公开主张对中国实施技术制裁。

结果是:全球最好的 AI 编程产品之一,正在重新定义下一代软件开发的工作方式,而中国开发者连正式使用的资格都没有。今年 4 月还有报道指出,尽管封禁存在,Claude 在中国仍然需求旺盛,灰色渠道正在扩大:Claude Code 越强,这个缺口就越大。

这就是 DeepSeek 做 Harness 最直接的背景:不是“我们要做一个更好的工具”,而是“我们没有别的选择”。

Harness 为什么突然成了必争之地?

同一个模型,换一套 Harness,结果可能完全不同。

以 Claude Opus 4.5 为例:放进 Claude Code 的 Harness,在 CORE-Bench Hard 上能达到 95%;换成一个朴素的 Hugging Face Smolagents 配置,成绩只剩 42%。同样的权重、同样的智能水平,单是 Harness 就拉开了 53 个百分点。

https://x.com/sayashk/status/1996334941832089732

Terminal Bench 上也能看到类似现象:头部清一色用 Claude Opus 4.6,大家拼的已经不是模型,而是谁的 Harness 更好。更极端一点,一个更小、更便宜的模型,只要配上设计良好的 Harness,也可能打败一个大模型加粗糙 Harness。

这就是 2026 年 Harness 突然站到台前的原因。AI 编程已经过了“模型会不会写代码”的阶段,现在几乎所有前沿模型都会写代码,真正拉开差距的地方,变成了模型能不能在真实代码库里稳定干活。

AI 行业的关注点一直在往模型外层移动。2022 年,大家盯着权重、微调和 RLHF;2023 年,焦点转向上下文、RAG 和长上下文;2024 年,工具调用、MCP 成了关键词;到了 2026 年,真正站到台前的,是最外层的 Harness。

截图来源:https://arxiv.org/pdf/2604.08224

几年前,语言模型处理的还是很轻的任务:给它一段评论,让它判断情绪,几十个 token,几乎瞬间返回。现在的 coding agent 面对的是另一类任务:看完整个代码库,找到 bug,写补丁,跑测试,再验证结果。一次任务可能消耗上千万 token、持续几十分钟,背后还有数百次工具调用。到了这个阶段,单个模型已经撑不起全部体验,真正决定成败的是模型外面那套系统。

Harness 负责组织代码库、项目规则、上下文摘要;控制迭代次数、重试策略和任务边界;把模型的决策转成 shell 命令、文件编辑和测试执行,再把测试失败、日志输出、浏览器截图重新喂回模型。现代 coding agent 跑的已经不是一次性问答,而是一个“思考—行动—反馈—修正”的长循环。这个循环能不能跑稳,靠的就是 Harness。

截图来源:https://arxiv.org/pdf/2604.14228

Claude Code 的内部机制,也正好说明了这一点。它的核心并不神秘,本质上就是一个 loop:调用模型,运行工具,拿到反馈,再继续调用模型。

真正的护城河在外围:权限控制、上下文压缩、MCP 工具、插件、Skills、Hooks、Subagent 调度、会话存储和安全策略。它把一个简单循环包成了可控、可扩展、可长时间运行的工程系统。

不同的产品会长出不同的 Harness。Claude Code 重安全与稳定性,OpenClaw 重开放与可实验性——没有标准答案,所以各家公司必须自己掌握这套能力。

Claude Code 的爆发,正是 Harness 的力量。它用的模型并不比对手强一大截,但 Harness 做得细——终端集成、文件读写、权限控制、代码检索、并行子 Agent,组合成一个开发者愿意天天用的环境。你扔给它一句“修这个 bug”,它不会只生成代码让你复制粘贴,而是会沿着代码库往下走:定位、修改、运行、读报错、再修正。对开发者来说,这才是 AI 编程从“玩具”变成“生产力工具”的分界线。

截图来源:https://arxiv.org/pdf/2604.14228

而且 Claude Code 改变的不只是效率,而是任务边界。Anthropic 内部调查显示,约 27% 的任务是开发者没有这个工具时原本不会尝试的。它把“太麻烦、不值得、不敢碰”的工作变成可尝试的任务,让 AI 编程的价值从“省时间”转向“扩大人能做什么”。

更关键的是,Anthropic 把这套 Harness 放出去,每一次真实使用都在收集问题、失败轨迹和用户修正,反哺模型训练,形成了飞轮效应。模型越强,Harness 越顺手;Harness 越顺手,使用越多,模型进步越快。

只做模型,远远不够:模型和 Harness 一起进化

DeepSeek 现在最需要补的,正是这一点。它已经有足够强的模型,也有很强的开发者认同,但模型本身不会自动变成 Claude Code。一个强模型如果只是接在 API 后面,它依然只是一个模型;只有进入一套成熟的 Harness,它才能开始接触真实代码库、真实终端、真实测试、真实失败路径,并在这些反馈里不断变得更能干。

Claude Code 的演进史说明,模型和 Harness 从来不是两条分开的线。

Boris Cherny 曾在 Claude Code 一周年时回顾说,一年前,Claude 连写 bash 命令、处理字符串转义都还很吃力,一次只能运行几秒钟或几分钟;一年后,几乎整个 Claude Code 都是由 Claude Code 自己写出来的,而且 Claude 已经可以稳定地连续运行几分钟、几小时,甚至几天。

仅仅一年时间,变化幅度非常大。

长运行时直接区分了“会写代码”和“能完成任务”。 短任务里,模型一次生成就够了;而真实工程任务是持续的“修改、测试、出错、再修改”循环,可能持续几十分钟甚至数小时。一个只能稳定跑几分钟的 Agent,本质上仍是代码助手;而一个能跑几小时甚至几天的 Agent,才开始像真正的工程代理。

而长时间运行的难点在于:上下文窗口有限且越跑越乱,模型规划能力弱容易半途而废,它还总高估自己的完成度——明明只做了半成品,却会说“好了”。

解决这些问题有两条路。第一条是模型本身,把能力直接烘焙进权重。根据 Anthropic 展示的图表,在最小脚手架下,一个代理能稳定完成 50%任务的运行时长,从 Opus 3.7 的大约 1 小时,提升到 Opus 4.6 的 12 小时,并且已经很难再提升了。第二条路是改 Harness,也就是模型外面的脚手架。

回顾过去一年的发布节奏,每次发布新模型,几乎都会同步更新 Harness。两者不是先后关系,而是一起共同演化。

一年前,Sonnet 3.5 第一次在 Claude.ai 的 artifacts 里展现出编码潜力——它能自己验证构建出的东西,然后继续迭代。那是 Claude Code 出现前的第一个“aha 时刻”。

2025 年 2 月,Sonnet 3.7 发布,同时 Claude Code 以研究预览版发布。Anthropic 在公告中明确写道:“我们推出 Claude Code 的目标,是更好地理解开发者如何使用 Claude 进行编码,从而为未来的模型改进提供依据。”也就是说,Claude Code 从一开始就不只是一个开发者工具,更是一个实验性入口——用来观察开发者如何使用 Claude 编码,并把这些观察反哺给模型训练。它承担的任务,远不止产品本身,而是“让模型暴露真实问题”。

同年 5 月,Opus 4 和 Sonnet 4 发布,模型在管理上下文、推进任务方面变得更好。Claude Code 正式 GA,SDK 开放(也就是驱动 Claude Code 的那套 Harness 被公开)。到了 Sonnet 4.5,模型开始具备上下文感知能力,但还不够稳定,于是 Harness 加入了 checkpoints(回退机制)来补这个缺口,运行时长被推到约 30 小时。

这时,Claude Code SDK 改名为 Agent SDK,因为 Anthropic 意识到它的用途比编码广泛得多:这些长时间运行的 harness 可以应用到其他领域了。

Haiku 4.5 和 Opus 4.5 补齐后,用 Opus 做规划、Sonnet 做执行的分工成为可能——这又是 Harness 在模型分化出不同特长后重新编排的结果。同时发布的 skills 采用渐进式披露,本质上也是为了补“上下文窗口”不够用的缺。

随后是 Opus 4.6 和 Sonnet 4.6。Sonnet 4.6 以更低价格提供 Opus 级别的智能,成为主力编码模型;Opus 4.6 则在规划上极强,被称作“非常 agentic 的模型”——在极简 Harness 下,稳定运行时长从约 4 小时跳到了 12 小时。伴随这次发布,Anthropic 推出了 agent teams(子代理之间可以直接沟通,减少主代理负担)、server-side compaction(服务端压缩,解决上下文爆满问题)以及 100 万上下文窗口。这些都是 Harness 在模型变强后重新设计的“脚手架”。

每一次模型的升级,都伴随着 Harness 的同步进化。模型变强,Harness 就利用新能力去补新缺口,或者把旧逻辑简化。Anthropic 方面的总结是:“找到模型里的缺口,用 Harness 补上,再用 Harness 的数据去训练模型——到某个时间点,那部分 Harness 可能就不再需要了,然后循环继续。”

这也是 DeepSeek 面临的真正挑战。做一个代码助手的外观并不难,把模型接进终端、给它文件读写和命令执行,也只是第一步。真正难的是建立自己的长时运行闭环:让 DeepSeek 模型在真实代码库里工作,让 Harness 记录它在哪里失败、为什么失败、用户怎么修正,再把这些失败变成下一轮产品设计、工具设计和模型训练的输入。如果 DeepSeek 只做模型,它永远会被包在别人的工具里;如果它能跑通模型和 Harness 共同演化的循环,它才有机会长出自己的 Claude Code。

结语:模型之外,皆属 Harness

DeepSeek 官网那句 Model + Harness = Agent,正在成为行业共识。控制层不再只是模型的附属品,而是一个独立的产品维度。没有 Harness,模型只是能力;有了 Harness,模型才开始变成能运行、能交付、能持续迭代的产品。

更大的变化是,Harness 本身正在变成一个新市场。Anthropic 选择把托管运行时单独计费,按会话小时收费;谷歌和微软把会话、内存、代码执行、工具调用拆成平台里的消费项;OpenAI 则把 Agents SDK 开源,不额外收第一方运行时费用,只对模型和工具调用收费。各家都承认这层很重要,分歧只在于它到底应该是什么:一个付费托管服务,一组平台原语,还是一个用来带动模型消费的免费开源层。

DeepSeek 的机会也在这里。它本来就有模型价格优势,如果再补上一套自己的 Code Harness,就不只是“用更便宜的模型对标 Claude”,而是用更低成本的模型,加上自己的 Agent 工程系统,去挑战 Claude Code 这类产品的完整体验。AI 编程下一阶段拼的不是单点模型,也不是单点工具,而是模型能力、Harness 设计、运行成本和开发者入口的组合。

参考链接:

https://arxiv.org/pdf/2604.08224

https://arxiv.org/pdf/2604.14228

https://www.youtube.com/watch?v=mR-WAvEPRwE

https://www.infoq.cn/article/Z3MKvAKFC2Hjjk643oKQ

https://www.anthropic.com/engineering/harness-design-long-running-apps