























ICML 2026

PRM-PBE方法示意图
尽管大语言模型在代码生成和程序推理任务中取得了显著进展,但其在Programming-by-Example(PBE)任务中的表现仍受到明显限制。PBE要求模型仅根据输入输出样例推断潜在程序逻辑,并合成能够满足所有样例的程序。现有LLM方法通常依赖输入到输出的直接映射,或借助Chain-of-Thought、执行反馈、监督微调等方式增强推理能力。然而,这类方法缺乏对中间推理过程的细粒度监督,容易生成只满足部分样例的shortcut程序,或在复杂逻辑归纳场景下偏离真实意图。
近日,北京大学、京东、华东师范大学、实验室联合研究团队围绕 LLM在PBE场景中缺乏过程监督的问题,提出一种面向程序样例归纳的过程奖励强化学习框架PRM-PBE。该方法通过反馈引导的推理树构建过程监督数据,并训练Process Reward Model(PRM)评估中间推理步骤的可靠性,再结合按失败模式组织的三阶段课程学习与PPO优化程序合成模型,从而提升模型从输入输出样例中捕捉隐含程序逻辑的能力。相关论文题为PRM-PBE : Process Reward Model for Reinforcement Learning in Programming-by-Example。
论文作者:房越、金芝、安杰、陈宏申、李江梦、陈小红、詹乃军
通讯作者:金芝、安杰
现有 PBE 方法缺乏对推理过程的细粒度监督
Programming-by-Example的核心目标,是从少量输入输出样例中推断用户真正想要的程序逻辑。传统PBE系统通常依赖预定义DSL,通过符号搜索、递归分解或神经网络引导搜索完成程序合成。随着大语言模型的发展,PBE不再必须受限于特定DSL,模型可以直接基于自然语言提示、输入输出样例和推理链生成通用语言程序。
然而,论文指出,当前LLM-based PBE方法仍存在一个关键缺陷:模型主要学习输入与输出之间的表层映射,而缺少对中间归纳过程的监督。对于复杂PBE任务,仅凭样例进行端到端生成容易产生两类错误。一类是模型推断出完全错误的逻辑,例如把“多个列表相同位置元素相等的索引”错误理解为简单集合交集。另一类是模型生成只覆盖部分样例的程序,例如任务要求降序排序,模型却只执行反转操作,从而在部分样例上看似正确,但无法表达真实规则。
这些失败说明,PBE的难点并不只是最终代码是否通过测试,而在于模型是否能够在推理过程中逐步接近样例背后的潜在意图。若缺少对推理步骤的显式监督,模型很容易沿着错误归纳方向继续生成,并最终得到看似合理但逻辑不完整的程序。
用反馈引导的推理树构建过程监督数据
针对PBE中间推理过程难以监督的问题,论文提出反馈引导的推理树构建方法。推理树中的每个节点表示一个自然语言形式的中间推理步骤,模型从输入输出样例出发,逐步采样后继推理节点,直到形成完整推理路径。由于这些中间节点本身不能直接执行,系统会在路径终止后将其转化为完整程序,并通过执行测试判断其是否满足所有样例。
在此基础上,论文用后续路径的成功比例衡量节点质量。若某个节点的大部分后续路径都能导向正确程序,说明该推理状态较为可靠。若某个推理前缀的所有后继路径都失败,系统则将其视为潜在逻辑偏离点,并引入外部自然语言指令进行定向修复,从而生成更多高质量正样本,缓解PBE过程监督数据中正样本稀疏的问题。
用后继成功率训练过程奖励模型
在完成推理树构建后,论文进一步训练Process Reward Model来评估中间推理步骤的质量。PRM并不直接判断最终程序是否正确,而是为每个推理状态分配奖励分数,用来估计该状态继续生成正确程序的可能性。
具体而言,论文将节点的后继成功率作为偏好信号。如果节点A的后续采样路径更容易生成正确程序,而节点B的后续路径更容易失败,训练目标就要求PRM给节点A更高分数。相比简单的正负样本分类,这种偏好学习能够更细致地区分不同推理状态的可靠程度,使模型学会识别更可能通向正确程序的归纳方向。
获得PRM后,论文将其接入强化学习框架,用过程级奖励优化程序合成模型。为提升训练稳定性,研究团队设计了按失败模式组织的三阶段课程学习策略,使模型从基础可执行性逐步过渡到复杂逻辑正确性。
第一阶段关注语法错误和运行时错误,训练模型生成能够正常执行的程序。第二阶段关注可执行但与目标行为完全不一致的程序,引导模型学习输入输出样例中的核心约束。第三阶段处理只能通过部分样例的程序,帮助模型减少对有限样例的过拟合。在每个阶段中,PRM对中间推理状态提供奖励,并通过PPO更新策略模型,从而让模型逐步学习更可靠的程序归纳路径。
多基准实验验证PRM-PBE的有效性
论文在PROSE、SyGuS、Playgol、Lists和MBPP五个代表性PBE基准上进行实验,覆盖字符串处理、列表操作、归纳逻辑程序设计以及由 MBPP改造而来的输入输出样例合成任务。实验同时比较了多种闭源与开源大语言模型,包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Flash、Qwen2.5-Coder、DeepSeek-Coder-V2、Llama-3和Qwen3。
主实验结果显示,PRM-PBE在所有基准上均显著优于现有基线。以 DeepSeek-Coder-V2为基础模型时,SFT的平均Pass@1为42.76%,而PRM-PBE提升至56.61%,带来13.85个百分点的增益。与最强非PRM基线Claude-3.5-Sonnet的WPS方法相比,PRM-PBE仍高出8.73个百分点。这说明,对于复杂PBE任务,仅依赖提示工程、搜索反馈或监督微调仍然不足,显式过程奖励能够更有效地提升程序合成准确率。

这项工作的影响在于,它把PBE中最难监督的“从样例归纳程序意图”这一过程显式建模出来,并用过程奖励为强化学习提供了比最终执行结果更细粒度的训练信号。相比只判断程序是否通过测试,PRM-PBE 能够进一步识别推理路径中的偏离点,减少只满足部分样例的shortcut 程序,使模型更可靠地学习输入输出样例背后的全局逻辑。
更进一步,这一框架也为后续LLM程序合成研究提供了可扩展思路:对于许多难以直接标注中间过程的任务,可以通过“采样后续路径、验证最终结果、反推中间状态价值”的方式构建过程监督信号。随着更强的代码模型和自动验证工具发展,类似的过程奖励机制有望扩展到更复杂的程序归纳、算法生成和真实软件工程任务中。
原文作者:公众号“天基综合信息系统全国重点实验室”
原文链接:https://mp.weixin.qq.com/s/AQxUnKKX4qqRgi3KpRgSpw
雷峰网(公众号:雷峰网)
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。