

























💡 站外导读:当前,AI智能体(Agent)训练面临高质量、复杂度可控数据稀缺的瓶颈。传统方法依赖人工标注或低效合成,成本高且难以扩展,制约了模型处理真实世界复杂推理任务的能力。阿里通义实验室推出的WebShaper系统,创新性地提出让AI自己生成训练数据,通过形式化建模和智能体扩展机制,实现了训练数据的自动化、高质量与可扩展生产,为突破AI智能体训练的数据困境提供了全新路径。
WebShaper 是阿里巴巴通义实验室推出的创新的 AI 训练数据合成系统。通过形式化建模和智能体扩展机制,为 AI 智能体(Agent)的训练提供了高质量、可扩展的数据。WebShaper 首次引入了基于集合论的“知识投影”(Knowledge Projection, KP)概念,通过 KP 的交集、并集和递归操作,构造复杂的问题结构,精准控制推理路径和任务复杂度。WebShaper 的 Expander 智能体能从简单的“种子问题”出发,逐步扩展成复杂的推理任务,让 AI 自己“出题”。训练策略结合了监督微调(SFT)和 GRPO 强化学习,使模型在复杂信息检索任务中表现出色。

形式化驱动框架:WebShaper 采用集合论对信息检索任务进行系统形式化,核心是“知识投影”(Knowledge Projections, KP)概念。KP 是基于特定关系的实体集合,
知识投影操作
R-并集:用于处理不确定性条件,例如“2000-2010年参赛的球员”可以通过并集操作表示。
交集:用于处理多条件约束,例如“2000年参赛且90年代出生的球员”。
任务扩展机制:WebShaper 通过“种子任务”开始,利用扩展器(Expander)逐步扩展问题复杂度。扩展器基于形式化框架,结合检索和验证工具,将简单问题扩展为复杂问题,确保逻辑一致性和任务难度。
数据合成与训练:生成的复杂问题被转换为训练数据,通过监督微调(SFT)和强化学习(如 GRPO 算法)进行模型训练,提升模型在复杂信息检索任务中的推理能力。
生活决策:WebShaper 可以在出行规划、健康查询、生活决策等场景下,即开即用,为用户提供个性化的信息支持。
医疗信息查询:WebShaper 可以帮助用户查询医疗健康信息,提供专业的医疗建议和健康咨询。
WebShaper的发布,标志着AI训练范式正从“数据喂养”向“数据自生长”演进。其核心创新在于用形式化方法(集合论)将模糊的“信息搜寻”任务结构化、可控化,并引入Expander智能体实现任务的自动化、复杂化扩展,这解决了高质量训练数据合成的可解释性与可控性难题。更深远看,它预示了AI发展的新循环:让模型参与甚至主导自身训练数据的构建,形成更高效的“自举”式进化。结合SFT与GRPO强化学习的混合策略,也体现了当前业界提升Agent推理能力的主流技术融合路径。对于整个行业而言,此类技术将加速专用AI智能体的开发进程,降低对人工数据标注的依赖,是推动AI走向更深、更复杂应用场景的关键基础设施。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。