惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

F
Fox-IT International blog
Recent Announcements
Recent Announcements
D
Docker
IT之家
IT之家
B
Blog
Jina AI
Jina AI
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
博客园 - 【当耐特】
Google DeepMind News
Google DeepMind News
F
Fortinet All Blogs
量子位
C
Check Point Blog
Microsoft Azure Blog
Microsoft Azure Blog
罗磊的独立博客
博客园 - 司徒正美
李成银的技术随笔
美团技术团队
Blog — PlanetScale
Blog — PlanetScale
雷峰网
雷峰网
The GitHub Blog
The GitHub Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
J
Java Code Geeks
T
The Blog of Author Tim Ferriss
酷 壳 – CoolShell
酷 壳 – CoolShell
MongoDB | Blog
MongoDB | Blog
P
Proofpoint News Feed
L
LangChain Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Y
Y Combinator Blog
大猫的无限游戏
大猫的无限游戏
有赞技术团队
有赞技术团队
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
V
Visual Studio Blog
T
Tailwind CSS Blog
H
Help Net Security
Engineering at Meta
Engineering at Meta
小众软件
小众软件
B
Blog RSS Feed
Stack Overflow Blog
Stack Overflow Blog
月光博客
月光博客
M
Microsoft Research Blog - Microsoft Research
宝玉的分享
宝玉的分享
人人都是产品经理
人人都是产品经理
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
GbyAI
GbyAI
H
Hackread – Cybersecurity News, Data Breaches, AI and More
Last Week in AI
Last Week in AI
Martin Fowler
Martin Fowler
Stack Overflow Blog
Stack Overflow Blog

V2EX

[吐槽] edge 的空白页内容卡片恶心人 [反馈] Livid 发布的最后一条帖子是介绍对话功能的(v2ex.com/t/1215364),他这会应该还在睡觉 [反馈] 楼上的,站长发的帖在哪?想看看原因。 [分享创造] 做了一个支持嗅探下载、YT-DLP 和在线音乐播放的桌面工具: XiaDown / 下蛋 [程序员] 小程序中充值余额,用于打车时支付使用,属于微信的虚拟支付嘛? [计算机] 如果 100w 等于 100 台电脑 [问与答] 大家有没有 chaptgpt 充值或者订阅的相关发票,可以提供一下给我(有偿) [问与答] 大佬 注册 chatgpt,有遇到过这个问题的吗 [问与答] 别发新帖了,点又点不进去,全是 404! [Android] 一个高性能的 Wireguard Android 开源客户端 [V2EX] 最新的帖子点不开了,包括我这个,不信你试试 开发了一个自用的 PDF 发票合并工具 给大家推荐一个 DataAgent 产品,欢迎拍砖 创意节点的所有帖子都会提示 404 Not Found Topic [北京/杭州][内推] 字节跳动-财经服务架构-AI 应用开发工程师 [程序员] Claude/ ChatGPT 为什么不给对话加个目录? 可以开发哪些有趣的小工具小网站小项目?灵感匮乏了 [反馈] 好消息,发贴 404 原因找到了,站长发帖子描述了详情,坏消息,站长发的帖子点击去也是 404,手动狗头 [分享创造] 开发了一个坦克大乱斗网页游戏 [V2EX] 🤐 [问与答] 不懂就问.为什么一堆主题 404 FakeVibeCode.com 一个假装你正在 vibecoding 的网站 [反馈] 好多帖子 404 啦,好像是新帖子 0 回复基本都是 404 [V2EX] 怎么现在点啥帖子都是 404 [分享创造] 做了一个免费的图片文件托管网站 [问与答] 刚才发了个分享帖,结果刚提交完就 404,有点懵。 [Google] 实测部分场景,谷歌 Omni 可以平替 seedance2 [投资] 又中了一个港股 [程序员] 请问下目前哪个区订阅 chatgpt plus 会便宜点啊,目前是土区 plus [问与答] v2 上今天有好的访问直接 404 是怎么回事 [OpenWrt] 有 M.2 接口, 2230 规格,但是可以驱动,固件层面魔改,实现多 AP 的无线 wifi 网卡吗? 虚心请教 tiktok 创作者奖励计划相关问题 [反馈] 404 的帖子当然都入库了,不然怎么能在首页列表中看到帖子呢 [反馈] 这里是程序员的天堂啊,我不是程序员 [问与答] V 站 bug 了吧 最近的帖子全部 404 了 @vivid [分享发现] 很多 404 帖子.... 网站出 bug 了 [大学] 耿同学也太勇了 kevlar-4u,让我收获了人生第一个 Fork ✌️ [Apple] testflight 微信读书同步、本地图书管理员和多模型切换 [问与答] 我之前发的一个关于流量卡的帖子为什么 404 了 VibeCoding 了个 无需后台服务的 Windows 极简仿伙墙 netblock [反馈] 这个时间点站长那边估计是凌晨吧?距离修复估计还需要些时间 [反馈] 我看有些新贴子是有回复的,是不是某些插件或者第三方客户端能绕过限制?它们是不是直接调用了 api ? [分享创造] 我把 Android 爆改成了小型服务器 [前端开发] 新用户福利|pointfixAPI 免费 10 刀额度等你来拿 注册送站内试用额度 想请各位大佬测试体验一下 [反馈] /api/topics/show.json?id=xx 通道对于没回复的帖子不是 404,是可用的,所以数据库没啥事,正文都正常进数据库了,可能 rewrite 有点 bug 这算不算鉴别中转站掺水? [华为] 公司给我弄了一个华为开发者大会的门票,有去过的同学能给些参观的建议吗? [反馈] 站长在哪里呀, 也不来修 bug [酷工作] [杭州][招人] Java 开发工程师(直播 / 财务方向) [问与答] 我想问一下为什么我发帖,会被 404 啊? [问与答] 最近 Win 转 MAC,有没有佬分享自己感觉好用的应用和设置 [问与答] 在 V2EX 分享一个 Codex skill,发出后直接 404,是触发了什么规则吗? [反馈] 发帖成功后再点进去看到/404 的各位不用慌张,直接用标题交流也行,标题可以放 120 个字符。我之前本来以为是 AI 相关的内容全部删帖了,现在才知道是个 bug,不知道啥时候能修复。有人提到用标题进行交流,我只能说打开了新世界的大门。 刷到 x 上一个视频,想转到小红书玩玩,但是有点怕被冲,大家看看能转吗? [分享发现] 凑个热闹 新帖 404 了 这样大家都不知道我的中转站地址了 [旅行] 计划六月份去云南玩 12 天,西双版纳、大理、丽江、香格里拉都去时间够吗 [反馈] 404 的朋友们,可以来 /go/feedback 发帖,用标题交流 hhhh vscode 中 claude 插件读取的磁盘文件,区别于其它 chat 插件 [Oracle] 重获 ARM 机器 加拿大 apple id 买 gpt 会员,用礼品卡 [小散户的日常] 啥时候会轮到电力设备啥的啊 [酷工作] [招人] 上海 | 资深前端工程师(偏小程序、AI 基建、AIGC) [推广] 这么多人做中转站, 域名有没有人要 getapi.now [分享发现] 求支持发开票的 codex 中转站 兄弟们,求推荐一款空气循环扇预算 300 [分享创造] 做了一个可以在线送数字花束的小工具: DigiBouquet 新上线 API 中转站,注册送站内试用额度 想请各位大佬测试体验一下 [推广] 辣椒 HTTP [推广] [福利] 新出的小众海外代理 Novproxy 测评,顺便送 4 个新用户大额测试码 [程序员] AI 文本拟人化(humanization)技术揭秘 [推广] pp 无卡注册又活了!分享一下我薅的中转站! [问与答] 退休前端学 AI,第一关就卡住了😅 开源实时数字人项目持续迭代中.....2GB 显存部署方案已完成.....目标支持消费级卡全链路本地部署~ 佬们现在有什么性价比高一点的流量卡不 [分享发现] 一个想开拼多多店铺的想法 为什么这两天这么多新发的帖子都突然 404 Topic Not Found [分享创造] bucketctl:一个操作 S3 存储的命小工具 [求职] [求职] 6 年开发,在线求捞,求佬锐评一下简历 [分享创造] 做了一个 Codex Skill:把 AI 生成的脚本/配置直接放进剪贴板,避免 TUI 复制格式污染 [Claude] 我写了一个工具,给 Claude Code 会话自动打分,开源 [反馈] ID 1215497 以后的帖子全部 404,猜一下是什么原因 [V2EX] 好多帖子 404 [程序员] 如何去除 AI 写作里的 AI 味儿? [推广] 玄武公益站,今日开放注册。注册即送 50 刀, Gpt-5.5 爽蹬。 求推荐带试用流量、可直连的住宅 IP [OpenAI] Codex cli 登录要求绑定手机号码 [推广] [送福利 / 行业天花板] 全网性价比最高海外代理 Novproxy:质量干翻全场,价格低到尖叫!内附 V2EX 专属限量 CDK [OpenAI] v2ex 炸了吗 [Claude] 我做了一个工具,给 Claude Code 会话打分——找出 AI 协作里的得分点 [推广] FreeModel 注册加认证 得$10 刀 [分享创造] 给我的 AI 加了作息、心情、做梦,顺便让她管自己的个人站 codex 问题 [问与答] 论坛的贴子怎么都打不开,直接 404 [问与答] 有没有懂法的老哥帮看看这种情况应该怎么处理? [推广] 妙妙 AI(bushi)玄武 Codex 公益站,测并发,注册送 50 刀,爽蹬 5.5 [分享创造] 做了一个现代的 IBKR portfolio 站 [问与答] 站长新功能出 bug 了吗,主页好多帖子 404 [生活] 在深住小区房和城中村单间的幸福感真的天壤之别 [Windows] VibeCoding 了个 无需后台服务的 Windows 极简防火墙 netblock
如何 实践 Harness 工程?
2026-04-15 · via V2EX

这是一个创建于 41 天前的主题,其中的信息可能已经有所发展或是发生改变。

mooncakeSec

1

mooncakeSec      4 月 15 日

核心目标是通过约束验证保证质量吧,因为人的注意力在 ai coding 中是无法提升的瓶颈,要放弃 review

kenshinhu

2

kenshinhu  

OP

   4 月 15 日

@mooncakeSec 我看到的实践都是哪里是卡在人类的就用 AI 介入,如果不能完全介入就是人类和 Agent 协助。
从工具层来看還是需要人类精心安排吧?

kenshinhu

4

kenshinhu  

OP

   4 月 15 日

@momogzp 对的,这个也有看过,可以对整个 Agent 的處理流有更深入的了解。同时我在想,如果现在有新的业务要做新的项目,該怎样可以让 Agent 在预期来完成需求(而不是有 人类介入 vibe 这種)

NoobNoob030

5

NoobNoob030      4 月 15 日

我之前遇到了跟你一样的困惑: https://www.v2ex.com/t/1202411

我在阅读了许多相关文章和项目之后,看的云里雾里,似懂非懂。然后我带着模糊的概念,直接进入实战,尝试各种框架( superpowers ,gstack ,gsd ,openspec ,omo ......),用过才知道咸淡。

我建议直接实践一个项目,只是问和看却不做,很难构建出清晰的认知

glacer

6

glacer      4 月 15 日   ❤️ 1

还是 TDD 那一套,要将需求边界、测试用例确定后再进行开发

kenshinhu

7

kenshinhu  

OP

   4 月 15 日

@NoobNoob030 我的了解不知道是不是这样子的,請大佬指点业下:
我觉得是这个概念不能是从工具出发,是从原来的软件工程通过 AI 来介入。
人类在 harness 相当于一个布道者,前期理多的是在工具是怎样配置,如在 github actions 中配置好相关的 Agent 介入,如果有测式工具就接入;
所以我在想当于有一个新的需求时,把需求定义好,分 里程->phase->PR 这个處理,人类做功能的验证:说白了就是做在测試,按界面/数据事件触发看看是否已对齐

NoobNoob030

11

NoobNoob030      4 月 15 日

@kenshinhu #7 我理解 harness 是能让 AI 更好的完成任务的一套架构,针对不同需求,架构的内容也不同。如果理解成字面意义上的“马具”,那么“需求定义”“自动化执行”“多 agent 交互”这些就相当于“缰绳、马鞍”,你提到的“把需求定义好,分 里程->phase->PR ”也能算是 harness 。

darksword21

13

darksword21  

PRO

   4 月 15 日

只能说老外挺能发明概念的

我理解所谓的 harness 是不是就是之前就有的帮助 llm 处理的东西,现在把他们打包称为 harness ?

kenshinhu

14

kenshinhu  

OP

   4 月 15 日

@NoobNoob030
是的,我在思考是否需要把工具体系从“人类使用”转为“Agent 可编排”的视角重新设计。

例如测试工具如果具备完善的 CLI 接口,就可以被纳入 CI/CD 流程,
并进一步作为 Agent 的可调用能力,由 Agent 进行调度和控制。

从工程结构来看,这一层本质上就是 harness ,
即对工具、执行流程和反馈机制的统一编排系统,而不是单一工具本身。

它不是前期任务,而是 Agent 能否稳定运行的基础设施。

還是通过一个 todos h5 的 webapp 試試过,還需要是实践一下才知道是怎么一回事

Clannad0708

15

Clannad0708      4 月 15 日

我来回答你把,在这个概念火之前,有个 cursor 的工程师来做分享。说他们内部做了大量的工程来实现 harness 。这个东西在我看来就是一套“规则说明” 他不是某个具体的框架或者技术,而是说一系列的包括提示词 prompt ,边界约束,工具描述等。一系列相关的东西来对 agent 进行 规则说明。 你要做的不是 直接告诉他 帮我实现 xxx 功能,而是详细的描述这个功能是什么样的,怎么测试他是否正常。通过一系列的 精雕细刻的设置说明和限制以及你的期望。他就能工作的更好

kenshinhu

16

kenshinhu  

OP

   4 月 15 日

@Clannad0708 对这个我也想过是否是通过 prompt 来驱动,但这样整 个 LOOP 還是需要 人类介入,就如描述 好了让 Agent 處理,把他的结果看一下,再把瑕疵的地方再輸入新的 Prompt 再處理最后这样好像又变化
人类 -> Agent -> 人类 -> Agent 这相环节;

huaweii

17

huaweii      4 月 15 日 via Android

openai 是站在商业公司的立场,宝玉是在站在高级打工人的立场。

sqlNice

18

sqlNice      4 月 15 日

我最近也在实践,目前项目是微前端架构。
1.完善所有的 ts+ tslint + eslint
2.统一所有应用的基建层
3.各种业务 skill
4.skill 生成的文件增加 skill-artifacts.json 文件做索引,后续 AI 修改过程中涉及到对应的文件则提示用户 [是否迭代 skill]
5.增加 hook (强制 lint 校验)
6.完善 doc 以及子应用之间常用的业务关系

总结:如果在使用 AI 过程中产生了手动修改代码的行为,那么这个行为都视为应该改为 skill 或增加自动化流程。

缺陷:vue2 项目没法做单元测试,目前只能把报错扼杀在发布之前。

sqlNice

19

sqlNice      4 月 15 日

我是如何开始的:
- 我大概搜罗了七八篇 harness 相关的文章,openAI cc vercel 等官方的 blog
- 参考 x 比较火的 LLM wiki ,总结这些文章,出一个在前端项目中如何探索 harness
- 列 plan 一项项去实施
- 旧项目改造了四五天,目前还没完

后续:
- 想着增加 jenkins 后反馈,基建/类型报错就直接让他改,业务相关的没办法只能人来

kenshinhu

22

kenshinhu  

OP

   4 月 15 日

@sqlNice 有感而发,旧项目使用 harness 才有价值,新项目使用 harness 就好像有點带偏。可能 specs + TDD 也够。 旧项目的话更多是需要对旧有的代碼和业务 有个归纳,这个过程 中肯定 会有一些细节的损失,需要好次迭代才能也旧项目拉到一个新的高度,当然旧有的项目是意大利面条这種的就另说了,可能 重新再做会更快

joyyu

23

joyyu      4 月 15 日

Harness 本质还是围绕构建稳定可靠 Agent 的工程,和 web 开发没很大关系。
新的 web 应用开发范式主要是基于现有的 Claude Code 、Codex 之类 Coding Agent 构建而生的 SDD TDD 之类的概念。

qianxaingmoli

24

qianxaingmoli      4 月 15 日

我的理解以及实践是,harness 是针对 llm 驱动的 agent ,langgraph 这种始终是 workflow 框架,束缚 llm 。
loop 要由 agent 管理,让它自己管理 subagent 。我把有些 agent 做成了 cli 的形式,给到 agent 自己去管理运用,而不是 agent 编排。自行管理记忆,保存 trace 。agent 自己观测,然后自进化。
按照业务进行深耕,在有限的上下文内,优化 cli 和记忆,agent 获取到更相关的东西。
而 harness 就是针对这种形式的最小化约束,比如合适的控制模式、渐进式披露、更合适的 cli(agent-friendly),引导约束 agent 在规范内自主运行,能获得很意外的智能涌现。

NizumaEiji

27

NizumaEiji      4 月 15 日

感觉概念都是看的云里雾里的,目前学到的一个点就是强约束若约定。简单说就是你对 ai 提的要求它未必遵守,所以所有的要求都要有对应的约束去限制,
比如要保证生成的代码可用,加个 hook ,修改完代码自动编译启动。
要求代码质量就是改完代码走一次类似的 sonar 之类的检测。
hook 执行失败直接把错误信息提交给 ai ,让去修改直到问题解决。

xiaomushen

28

xiaomushen      4 月 15 日

宝玉的文章不错,上次和他吃火锅,还是 2008 年时候的事儿了

Huyii

29

Huyii      4 月 15 日

楼上说得对,harness 是用在 agent 上的,有个公式是:agent = harness + model 。不过我还是不太清楚如何工程实践它,挺模糊的

YanSeven

30

YanSeven      4 月 15 日

@darksword21 我也这么理解的,就是围绕 prompt 和软件工程实践做的升级和打包概念。即在上下文窗口的约束之下,通过 prompt 管理来让 llm 践行软件工程最佳实践。

kenshinhu

32

kenshinhu  

OP

   4 月 15 日

@Huyii 因为我一直在想,harness + model 是怎样處理需求精细化的,就像 前端 ( APP / H5 ) 里有很多细节,这種還是需要人类介入比例比较 重的,但对于像 agent 这種就真的控制 好边界就可以了

kenshinhu

33

kenshinhu  

OP

   4 月 15 日

@YanSeven 所以我在想,未来如果 上下文窗口 可以有现在好几百倍的容器,是否现在的 Agent 理论都仅是过渡式

NizumaEiji

34

NizumaEiji      4 月 15 日

@kenshinhu #31
hook 都是自动触发的,错误信息可以在 function call 的过程中以结果的形式反馈给 llm 。
这个和开发者在 vibe coding 中的比重没啥关系吧,比重这个东西和你的规则和项目的适配度有关,最开始规则不够适配,只能边写边调。

meeop

36

meeop      4 月 15 日

对于大部分人来说,你什么都不用做,等待 agent 自己升级就行,你做什么大概率都会被快速追赶。
爱折腾的,最多装一下比如 superpowers ,on-my-xxx 系列开源封装好的 harness

bytesfold

37

bytesfold      4 月 15 日 via iPhone

我已经做了两套 harness 了,
- 第一套去年 9 月开始做的,跟 2 月 codex 的文章 90%相似
- 第二套上个月做的,已经上生产了。

visper

39

visper      4 月 16 日

规则约束,行为验证,任何结果都给反馈。

kerryeva

40

kerryeva      4 月 16 日

我理解 harness 就是在一定程度上践行 PDCA 循环