惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

S
Secure Thoughts
S
Schneier on Security
C
CERT Recently Published Vulnerability Notes
Cisco Talos Blog
Cisco Talos Blog
A
Arctic Wolf
L
LINUX DO - 热门话题
C
CXSECURITY Database RSS Feed - CXSecurity.com
Microsoft Azure Blog
Microsoft Azure Blog
P
Privacy & Cybersecurity Law Blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
V
Visual Studio Blog
J
Java Code Geeks
P
Palo Alto Networks Blog
V
V2EX
T
The Exploit Database - CXSecurity.com
P
Privacy International News Feed
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Y
Y Combinator Blog
AWS News Blog
AWS News Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
博客园 - 三生石上(FineUI控件)
Blog — PlanetScale
Blog — PlanetScale
PCI Perspectives
PCI Perspectives
Google DeepMind News
Google DeepMind News
Hugging Face - Blog
Hugging Face - Blog
Help Net Security
Help Net Security
L
LangChain Blog
博客园 - 【当耐特】
博客园_首页
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
I
Intezer
C
Cisco Blogs
T
Tor Project blog
The GitHub Blog
The GitHub Blog
博客园 - 聂微东
宝玉的分享
宝玉的分享
G
Google Developers Blog
NISL@THU
NISL@THU
Project Zero
Project Zero
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
腾讯CDC
Google DeepMind News
Google DeepMind News
人人都是产品经理
人人都是产品经理
月光博客
月光博客
I
InfoQ
云风的 BLOG
云风的 BLOG
小众软件
小众软件
U
Unit 42
Martin Fowler
Martin Fowler
Vercel News
Vercel News

雷峰网

1.8亿人在小红书读书:图书业在小红书电商营收规模年增超30% | 雷峰网 减重300kg,首搭5nm智驾芯片:2026款乐道L90正式亮相 | 雷峰网 阶跃和千⾥科技官宣战略合作:打造原⽣智驾基座模型,提升物理AI能⼒上限 | 雷峰网 “还债骑手”被强制下线240次:“开始我很反感过劳提醒,影响赚钱” | 雷峰网 石头科技:2025年营收高增56.51%,2026Q1营收增23.31% | 雷峰网 Mythos引爆攻击工业化时代,奇安信:构建三位一体内生安全体系是破解之道 | 雷峰网 曝两家科技大厂争投DeepSeek,估值飙至200亿美元;小米深夜放大招!最强大模型MiMo-V2.5系列发布;微软 Xbox 部门将裁员15% | 雷峰网 RGB-Mini LED电视普及风暴,海信正式发布小墨E5S Pro | 雷峰网 标配8255芯片与CDC,奇瑞试图终结“燃油车无智驾”时代 | 雷峰网 德赛西威也不相信,智驾能让Tier1躺着赚钱 | 雷峰网 找来刘翔做代言人,可能是智己LS8最好的一步棋 | 雷峰网 「中国版Grok上车」分水岭:阶跃交出首份量产答卷 | 雷峰网 百度Create大会双主论坛议程揭晓,多项重磅升级发布将集中亮相 | 雷峰网 泄露用户隐私!曝某AI助手将B用户简历发给A用户;苹果更换CEO原因曝光;微信宣布5国可用微信支付;航旅纵横「崩」了一天,借钱功能却正常 | 雷峰网 一季度交付1200件精益工具,希音深入技术创新提升按需时尚竞争力 | 雷峰网 从“替代”到“重构”:联想开天“1+2+N”如何重写信创AI PC逻辑? | 雷峰网 中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026 | 雷峰网 上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026 死亡率「99%」的芯片创业淘汰赛,为旌科技为何能活下来? | 雷峰网 清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026 | 雷峰网 东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026 | 雷峰网 西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026 | 雷峰网 西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026 | 雷峰网 21.0975 公里,是人形机器人的里程碑,也是 RISC-V 的新起点 | 雷峰网 独家 | 华为19级天才少年赵立晨离职创业,瞄准具身 Agentic OS 独家 | CMU系⼜诞⽣⼀家具⾝智能公司「Zeno AI」 | 雷峰网 Token消耗量翻10倍才算企业转型及格线?三位产业一线大佬教你用出性价比 | 雷峰网 阿里发布Qwen3.6-Max预览版,登顶最佳国产模型 | 雷峰网 郭达雅加入巨头背后:顶尖AI人才为何向大厂「回流」? | 雷峰网 解决机器人散热困境,华科冷芯高速悬浮泵液冷方案助力荣耀人形机器人“闪电”夺冠 | 雷峰网 智元邓泰华宣布:具身智能行业进入「部署态」 | 雷峰网 独家丨前安克研发总监丁准离职创业,获头部美元基金押注 | 雷峰网 曝DeepSeek V4将于本周发布,梁文锋对外融资20亿;雷军在服务区被堵车里维权?小米徐洁云回应;宇树H1半马被担架抬离赛道丨雷峰早报 | 雷峰网 广州一斗虾赛现场各路选手比拼蒸馏,现场诞生近50个“技能包” | 雷峰网 智元 ×Hitch Open|深耕具身智能,共建全球物理智能学术生态 | 雷峰网 2026广汽科技日重磅发布五大核心技术,以“科技向心”引领智能出行时代 | 雷峰网 一汽大众与卓驭科技的七年协同,交出一份燃油车智能化的成绩单 | 雷峰网 腾讯的长青游戏,今天又进化了一次 | 雷峰网 智己LS8上市:24.98万起售,刘翔站台的这台「最强8系」能打吗? | 雷峰网 全球1100万台出货,追觅打造最聪明的扫地机 | 雷峰网 阶跃率先跑通“中国版 Grok 上车”量产交付!超级 Eva 搭载极氪8X 今起上市 物理AI时代,为什么需要一颗“舱驾融合”芯片? | 雷峰网 逸安启欢迎问界加入,与宝马、梅赛德斯-奔驰携手, 共同推进中国豪华超充网络的发展 | 雷峰网 逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座 | 雷峰网 独家丨AWS大中华区多位L8高管迎来变动,SA部门负责人代闻离职 | 雷峰网 头部品牌 “加码”东南亚 泡泡玛特新品在Lazada发售 | 雷峰网 D19起售价21.98万元,零跑能成为9系SUV的“破局者”吗? | 雷峰网 全球首款!进迭时空 RISC-V AI CPU K3 成功适配 OpenHarmony 6.1 4小时闭门会,15位运动科技创业者聊透了哪些「不能公开说」的真相 | 雷峰网 在女性黑客松上,看见AI硬件的另一种可能 | 雷峰网 Plaud 爆火后,YoooClaw 要改写 AI 硬件的剧本 黄仁勋:DeepSeek在华为芯片上发布「很可怕」;抖音集团副总裁辟谣郭达雅亿元年薪入职字节;五角大楼与通用、福特等汽车制造商讨论造军火 | 雷峰网 正式官宣!佑驾创新与荣耀(HONOR)达成合作,以“无人车+机器人”打通全链路无人化闭环 | 雷峰网 解耦性能与厚重,英特尔AI高静Plus正在重写游戏本定义 | 雷峰网 独家丨Somnia Lab 完成千万美元天使轮融资,瞄准人机关系入口与万亿级具身情感生态 | 雷峰网 腾讯发布并开源混元世界模型 2.0,一句话造出3D世界,兼容游戏引擎! | 雷峰网 阿里发布世界模型HappyOyster,与谷歌Genie3竞争 | 雷峰网 从「集体暴跌」到「双轨分化」:一篇论文误读如何撕开DDR真实行情? | 雷峰网 格力高管炮轰友商被狂怼:又当又立!「真铜实料」这四字不姓格;美国将退还超1万亿元关税;品牌GMV高速增长,速卖通将成品牌出海全新主场 | 雷峰网 全球线上首发!辉瑞新一代减重药先维盈®开启预售服务,美团买药又下一城 | 雷峰网 傲基「生死局」:绝地反杀与盈利迷途 | 雷峰网 阿里ATH发布AI开发工具Meoo,已打通阿里云核心产品 | 雷峰网 美团闪购升级闪电仓供应链服务平台:向全行业商家开放即时零售供应链基建 | 雷峰网 阿里云连续5年稳居游戏云市场份额第一! | 雷峰网 与阿里成立合资公司后,新世界旗下Gmarket商品交易额(GMV)实现双位数增长 | 雷峰网 度小满发布DXMClawPay 面向Skill开发者提供一站式支付接入方案 | 雷峰网 滴滴自动驾驶全球化布局加快,年内在阿联酋开展试点 | 雷峰网 金立创始人刘立荣消失8年后最新动向:疑在印尼卖家具;月薪3万,DeepSeek聘人去内蒙草原守机房;比亚迪坪山园区大火,公司回应火势已扑灭 | 雷峰网 水下绞杀:清洁机器人渠道里的生意与生死 | 雷峰网 墨腾报告:东南亚电商平台成交额五年翻三倍 三大平台瓜分万亿市场 | 雷峰网 火山引擎:Seedance 2.0 API 服务全面开放 | 雷峰网 中远海运特运X火山引擎:“数字员工”驶向智慧航运新蓝海 | 雷峰网 重新认识具身行业,从自变量的这封邀请函开始 | 雷峰网 做了5年3D打印机,我发现了世界模型的Scaling Law | 雷峰网 别克×火山引擎:至境E7行业首发搭载豆包大模型最新版 | 雷峰网 强强联手,追觅牵手阿里速卖通,将在海外加大投入 | 雷峰网 推理卡毛利率下滑超7%,天数智芯「降价换量」的买卖值不值? | 雷峰网 明日新程完成连续两轮融资,领跑Harness群体多智能体赛道 | 雷峰网 「作弊」内幕曝光!3DMark回应将某知名国产手机除名;李想朋友圈炮轰东风日产恶意拉踩,后者高管回应;美的空调又发行业首创产品 | 雷峰网 50万起步的蔚来ES9,能否站稳高端? | 雷峰网 汽车行业已在阿里云上使用超10万卡“真武”PPU研发智驾 | 雷峰网 百度智能云联合多家头部具身智能企业,打造具身智能数据超市 | 雷峰网 从汽车到物理 AI:何小鹏眼中的智能汽车下半场 | 雷峰网 首个跑通端到端闭环的全模态安全脱敏的龙虾盒子,无问芯穹InfiniClaw Box让本地龙虾也能放心用! | 雷峰网 当参数不再决定胜负,AI时代的企业级SSD靠什么「赢」?|MemoryS 2026 | 雷峰网 独家丨继大疆押注后,智能派再获数亿元融资,或与拓竹正面硬刚 | 雷峰网 阿里视频生成大模型Wan2.7登顶DesignArena榜单 | 雷峰网 KV Cache需求暴涨32倍,AI如何重写存储产业链的「旧分工」?| MemoryS 2026观察 | 雷峰网 微软小冰,生不逢时 | 雷峰网 豆包APP实时语音通话升级全双工模型 抗干扰与低时延能力提升 | 雷峰网 中国充电联盟与万勋科技联合发布《中国新能源汽车自动充电用户行为洞察报告》加速自动充电规模商用 | 雷峰网 继“同事.skill”走红,周鸿祎回应“把自己炼成AI分身”:这才是数字分身的正确未来 | 雷峰网 章鱼动力获得新加坡顶级风投 K3领投的数亿元投资 | 雷峰网 港中文薛天帆团队:实现 4K 全景视频生成,普通视频也能「长出空间」丨CVPR 2026 | 雷峰网 独家丨前大疆T4悍将谢博文:从具身机器人转战桌面CNC,深圳再启「无限工坊」 | 雷峰网 2026淘宝直播三大主线:提效新品,造优质主播差异化,增优质内容曝光 | 雷峰网 阿里云百炼上线Agent记忆库,让「龙虾」应用更懂用户 | 雷峰网 百度官宣!Create2026百度AI开发者大会定档5月13至14日 | 雷峰网 印度禁止中国大陆产摄像头监控:花高价大批替换,国产厂商回应;传宇树科技与阿里达成出海战略合作;DeepSeek上线专家模式 | 雷峰网 20分钟破1000万!首日破3000万!创想三维2026全球3D打印类目众筹王者!AI+生态双向助推,3D打印布道者重新定义3D打印生态! | 雷峰网
ICML 2026:从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督 | 雷峰网
2026-06-16 · via 雷峰网

ICML 2026

 ICML 2026:从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督

PRM-PBE方法示意图

尽管大语言模型在代码生成和程序推理任务中取得了显著进展,但其在Programming-by-Example(PBE)任务中的表现仍受到明显限制。PBE要求模型仅根据输入输出样例推断潜在程序逻辑,并合成能够满足所有样例的程序。现有LLM方法通常依赖输入到输出的直接映射,或借助Chain-of-Thought、执行反馈、监督微调等方式增强推理能力。然而,这类方法缺乏对中间推理过程的细粒度监督,容易生成只满足部分样例的shortcut程序,或在复杂逻辑归纳场景下偏离真实意图。

近日,北京大学、京东、华东师范大学、实验室联合研究团队围绕 LLM在PBE场景中缺乏过程监督的问题,提出一种面向程序样例归纳的过程奖励强化学习框架PRM-PBE。该方法通过反馈引导的推理树构建过程监督数据,并训练Process Reward Model(PRM)评估中间推理步骤的可靠性,再结合按失败模式组织的三阶段课程学习与PPO优化程序合成模型,从而提升模型从输入输出样例中捕捉隐含程序逻辑的能力。相关论文题为PRM-PBE : Process Reward Model for Reinforcement Learning in Programming-by-Example。

论文作者:房越、金芝、安杰、陈宏申、李江梦、陈小红、詹乃军

通讯作者:金芝、安杰

现有 PBE 方法缺乏对推理过程的细粒度监督

Programming-by-Example的核心目标,是从少量输入输出样例中推断用户真正想要的程序逻辑。传统PBE系统通常依赖预定义DSL,通过符号搜索、递归分解或神经网络引导搜索完成程序合成。随着大语言模型的发展,PBE不再必须受限于特定DSL,模型可以直接基于自然语言提示、输入输出样例和推理链生成通用语言程序。

然而,论文指出,当前LLM-based PBE方法仍存在一个关键缺陷:模型主要学习输入与输出之间的表层映射,而缺少对中间归纳过程的监督。对于复杂PBE任务,仅凭样例进行端到端生成容易产生两类错误。一类是模型推断出完全错误的逻辑,例如把“多个列表相同位置元素相等的索引”错误理解为简单集合交集。另一类是模型生成只覆盖部分样例的程序,例如任务要求降序排序,模型却只执行反转操作,从而在部分样例上看似正确,但无法表达真实规则。

这些失败说明,PBE的难点并不只是最终代码是否通过测试,而在于模型是否能够在推理过程中逐步接近样例背后的潜在意图。若缺少对推理步骤的显式监督,模型很容易沿着错误归纳方向继续生成,并最终得到看似合理但逻辑不完整的程序。

用反馈引导的推理树构建过程监督数据

针对PBE中间推理过程难以监督的问题,论文提出反馈引导的推理树构建方法。推理树中的每个节点表示一个自然语言形式的中间推理步骤,模型从输入输出样例出发,逐步采样后继推理节点,直到形成完整推理路径。由于这些中间节点本身不能直接执行,系统会在路径终止后将其转化为完整程序,并通过执行测试判断其是否满足所有样例。

在此基础上,论文用后续路径的成功比例衡量节点质量。若某个节点的大部分后续路径都能导向正确程序,说明该推理状态较为可靠。若某个推理前缀的所有后继路径都失败,系统则将其视为潜在逻辑偏离点,并引入外部自然语言指令进行定向修复,从而生成更多高质量正样本,缓解PBE过程监督数据中正样本稀疏的问题。

用后继成功率训练过程奖励模型

在完成推理树构建后,论文进一步训练Process Reward Model来评估中间推理步骤的质量。PRM并不直接判断最终程序是否正确,而是为每个推理状态分配奖励分数,用来估计该状态继续生成正确程序的可能性。

具体而言,论文将节点的后继成功率作为偏好信号。如果节点A的后续采样路径更容易生成正确程序,而节点B的后续路径更容易失败,训练目标就要求PRM给节点A更高分数。相比简单的正负样本分类,这种偏好学习能够更细致地区分不同推理状态的可靠程度,使模型学会识别更可能通向正确程序的归纳方向。

三阶段课程学习将过程奖励注入强化学习

获得PRM后,论文将其接入强化学习框架,用过程级奖励优化程序合成模型。为提升训练稳定性,研究团队设计了按失败模式组织的三阶段课程学习策略,使模型从基础可执行性逐步过渡到复杂逻辑正确性。

第一阶段关注语法错误和运行时错误,训练模型生成能够正常执行的程序。第二阶段关注可执行但与目标行为完全不一致的程序,引导模型学习输入输出样例中的核心约束。第三阶段处理只能通过部分样例的程序,帮助模型减少对有限样例的过拟合。在每个阶段中,PRM对中间推理状态提供奖励,并通过PPO更新策略模型,从而让模型逐步学习更可靠的程序归纳路径。

多基准实验验证PRM-PBE的有效性

论文在PROSE、SyGuS、Playgol、Lists和MBPP五个代表性PBE基准上进行实验,覆盖字符串处理、列表操作、归纳逻辑程序设计以及由 MBPP改造而来的输入输出样例合成任务。实验同时比较了多种闭源与开源大语言模型,包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Flash、Qwen2.5-Coder、DeepSeek-Coder-V2、Llama-3和Qwen3。

主实验结果显示,PRM-PBE在所有基准上均显著优于现有基线。以 DeepSeek-Coder-V2为基础模型时,SFT的平均Pass@1为42.76%,而PRM-PBE提升至56.61%,带来13.85个百分点的增益。与最强非PRM基线Claude-3.5-Sonnet的WPS方法相比,PRM-PBE仍高出8.73个百分点。这说明,对于复杂PBE任务,仅依赖提示工程、搜索反馈或监督微调仍然不足,显式过程奖励能够更有效地提升程序合成准确率。

 ICML 2026:从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督

为PBE程序合成提供过程监督的新范式

这项工作的影响在于,它把PBE中最难监督的“从样例归纳程序意图”这一过程显式建模出来,并用过程奖励为强化学习提供了比最终执行结果更细粒度的训练信号。相比只判断程序是否通过测试,PRM-PBE 能够进一步识别推理路径中的偏离点,减少只满足部分样例的shortcut 程序,使模型更可靠地学习输入输出样例背后的全局逻辑。

更进一步,这一框架也为后续LLM程序合成研究提供了可扩展思路:对于许多难以直接标注中间过程的任务,可以通过“采样后续路径、验证最终结果、反推中间状态价值”的方式构建过程监督信号。随着更强的代码模型和自动验证工具发展,类似的过程奖励机制有望扩展到更复杂的程序归纳、算法生成和真实软件工程任务中。

原文作者:公众号“天基综合信息系统全国重点实验室”

原文链接:https://mp.weixin.qq.com/s/AQxUnKKX4qqRgi3KpRgSpw

雷峰网(公众号:雷峰网)