原文链接:https://arxiv.org/pdf/2602.03587
这篇文档核心是提出了一个叫“CL-bench”的评估基准,专门测试大语言模型的“语境学习能力”——简单说就是模型能不能从新给的复杂信息里学知识,再用这些知识解决实际问题。
为什么要做这个基准?
现在的大语言模型(比如GPT、Claude这些)虽然能靠训练时学的知识解决不少问题,但现实里的任务更复杂:比如让模型看一份从没见过的产品说明书,然后一步步教用户操作;或者根据一堆实验数据找出隐藏的规律。这些都需要模型临时学新东西,而不是靠老知识,这种能力之前没被好好评估过,所以研究者就做了CL-bench。
CL-bench到底是什么?
它是个超全面的“测试题库”,包含500个复杂语境、1899个任务,还有3万多个评分标准,全是领域专家花大量时间做的。这些任务的特点是:要解决它们,必须用题目里给的新信息,模型以前学的知识没用。比如有的任务会给一个虚构国家的法律体系,让模型据此判案;有的给一套新的编程语法,让模型写代码。
而且这个题库很严谨:不会有模型训练时见过的内容,避免“作弊”;任务可能需要一步步做,后面的题依赖前面的答案,难度更高;评分标准也很细,能从多个维度判断模型做得对不对。
测试结果怎么样?
10个最先进的大语言模型测下来,平均只答对了17.2%的任务。就算是表现最好的GPT-5.1,也只答对了23.7%,连三成还不到。
不同类型的任务难度不一样:比如让模型学专业知识(像金融、医疗常识)然后答题,相对简单一点;但让模型从实验数据里找规律、模拟复杂场景,就特别难,所有模型平均正确率只有11.8%。
模型主要错在两个地方:要么忽略了题目给的关键信息,要么学错、用错了这些信息;而且输入的内容越长,模型表现越差,说明处理长文本里的新知识对它们来说还是个难题。
这事儿有啥意义?
这个基准的出现,是为了让AI研究者更关注“语境学习能力”——这是模型走向现实应用的关键。现在的模型像个“知识库”,但要成为能适应各种新场景的“帮手”,必须会快速学新东西。CL-bench就像一个“试金石”,能帮大家看清模型的短板,然后针对性改进,让模型以后能更好地处理没见过的文档、数据,解决更多实际问题。
一、CL-bench 的核心构成
- 基础规模:包含 500 个复杂语境、1899 个任务、31607 条评分标准,所有内容由领域专家打造,平均每个语境的标注需 20 小时专家工时。
- 语境分类:4 大核心类别(含 18 个子类),覆盖真实场景需求:
- 领域知识推理(如金融分析、法律判案)
- 规则系统应用(如新型游戏机制、编程语法)
- 流程任务执行(如产品操作手册、工作流编排)
- 实证发现与模拟(如实验数据规律、虚拟沙盒场景)
- 关键特点:
- 无“作弊”可能:语境含模型预训练中没有的新知识(虚构创作、修改现有知识、纳入小众前沿内容)
- 任务有关联性:51.1% 的任务是多轮 sequential 任务,需依赖前序任务结果
- 评分严格:需通过所有对应评分标准才算任务成功,覆盖事实、计算、流程等多维度
二、核心测试结果
- 整体表现:10 个前沿大语言模型平均任务成功率仅 17.2%,无模型突破 30%。
- 顶尖模型表现:GPT-5.1 表现最佳,成功率 23.7%;其次是 Claude Opus 4.5(21.1%)、GPT-5.2(18.1%)。
- 类别难度差异:
- 最易:领域知识推理(平均成功率 ~25%)
- 最难:实证发现与模拟(平均成功率仅 11.8%)
- 中等:规则系统应用、流程任务执行(成功率 ~17%-19%)
- 主要失败原因:
- 忽略语境信息(所有模型该类错误占比超 55%)
- 误用语境知识(所有模型该类错误占比超 60%)
- 格式错误(顶尖模型格式错误率超 35%)
- 长文本处理能力不足:输入长度越长,成功率越低
三、核心价值
- 填补评估空白:首次专门测试模型“从复杂语境学新知识并应用”的能力,弥补了现有基准只测“用旧知识解题”的缺陷。
- 指导模型优化:明确模型短板(长文本知识吸收、归纳推理、规则灵活应用),为研究者提供明确改进方向。
- 贴合现实需求:任务源于真实场景(如解读陌生文档、处理实验数据、执行复杂流程),评估结果能直接反映模型落地能力。
- 建立统一标准:提供高质量、可复现的评估体系,让不同模型的“语境学习能力”有公平对比依据。
以下是 CL-bench 测试集中 4 个核心类别的典型实例,每个例子都贴合真实场景,能直观体现“必须学新语境才能解题”的特点:
一、领域知识推理类(以法律为例)
- 语境:虚构一个叫“阿斯特拉”的国家,给出其完整的《星际贸易纠纷法》,包含 3 类核心规则——货物延迟交付的责任划分、跨境运输中的风险转移、虚拟资产交易的效力认定,同时附带 2 个既往判例(如“阿尔法公司诉贝塔物流案”)。
- 任务:某地球公司向阿斯特拉国出口医疗设备,约定“货到验收后付款”,但设备抵达后因阿斯特拉国突发政策调整,验收流程延迟 30 天,地球公司主张逾期付款违约金,阿斯特拉国买方以“政策不可抗”拒绝。请依据提供的法律体系,判断买方是否需要支付违约金,并说明法律依据。
- 关键要求:模型不能用现实中的国际法或合同法知识,必须严格依据语境中虚构的法律规则和判例推理。
二、规则系统应用类(以编程语法为例)
- 语境:定义一种全新的简化编程语言“EZ-Lang”,明确其核心语法:变量声明用“设 变量名 = 值”,循环用“重复 N 次 { 操作 }”,条件判断用“如果 条件 { 执行 } 否则 { 执行 }”,并给出 2 个简单示例(如计算 1-10 的和)。
- 任务:用 EZ-Lang 编写一段代码,实现“输入 5 个整数,筛选出其中大于 10 的数,计算它们的平均值并输出”。
- 关键要求:必须严格遵循语境中给出的语法规则,不能使用 Python、Java 等现有编程语言的语法。
三、流程任务执行类(以产品操作为例)
- 语境:提供“天网物流无人机 SDK(v4.5.2)”操作手册,包含 3 个核心模块:
- 认证模块:需先调用 auth_handshake() 建立连接,限速 50 次/秒
- 负载控制模块:运输 4 类危险品需调用 Payload_secure_cargo() 并验证锁闭状态
- 安全控制模块:飞行前必须调用 Safety_request_airspace(区域 ID, 飞行计划) 申请空域
- 任务:用户需要用无人机 D-998 紧急运输 12kg 医疗同位素(4 类危险品)到 4 号区域,当前有阵风。请生成符合手册要求的操作流程伪代码,拒绝任何违反安全规则的操作。
- 关键要求:必须使用语境中指定的函数,不能虚构函数(如不能用“force_launch_override()”跳过安全检查),且流程需按“认证→安全检查→验证→规划路线→调度→确认”的顺序执行。
四、实证发现与模拟类(以实验数据为例)
- 语境:给出一组电子在磁场中运动的时空数据(包含时间 t、坐标 x/y/z 等 100 组数据),并说明“电子在均匀磁场中会做螺旋运动,入射角度 θ = arctan(垂直速度/平行速度)”,垂直速度由 x、y 方向速度合成,平行速度为 z 方向速度。
- 任务:根据提供的数据,计算电子进入磁场时的入射角度(保留 3 位有效数字),并说明计算依据(需明确使用哪组数据、如何推导速度分量)。
- 关键要求:必须基于语境中的数据和物理公式计算,不能依赖模型预训练中的物理知识(如不能自行修改入射角度公式)。
这些实例的核心共性是:解题所需的关键信息(法律规则、编程语法、操作流程、数据公式)全部只存在于语境中,模型仅凭预训练知识无法完成,能精准测试“学新东西、用新东西”的能力。