惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google Online Security Blog
Google Online Security Blog
博客园_首页
酷 壳 – CoolShell
酷 壳 – CoolShell
Jina AI
Jina AI
博客园 - Franky
大猫的无限游戏
大猫的无限游戏
Hugging Face - Blog
Hugging Face - Blog
博客园 - 司徒正美
V
V2EX
雷峰网
雷峰网
云风的 BLOG
云风的 BLOG
V
Visual Studio Blog
F
Full Disclosure
Y
Y Combinator Blog
V
V2EX - 技术
Attack and Defense Labs
Attack and Defense Labs
S
Security @ Cisco Blogs
Schneier on Security
Schneier on Security
Microsoft Azure Blog
Microsoft Azure Blog
SecWiki News
SecWiki News
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
The GitHub Blog
The GitHub Blog
量子位
PCI Perspectives
PCI Perspectives
S
Secure Thoughts
D
Darknet – Hacking Tools, Hacker News & Cyber Security
AWS News Blog
AWS News Blog
Blog — PlanetScale
Blog — PlanetScale
爱范儿
爱范儿
K
Kaspersky official blog
B
Blog
A
Arctic Wolf
Hacker News: Ask HN
Hacker News: Ask HN
L
LangChain Blog
T
Tor Project blog
P
Privacy & Cybersecurity Law Blog
Recent Announcements
Recent Announcements
宝玉的分享
宝玉的分享
The Register - Security
The Register - Security
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
L
Lohrmann on Cybersecurity
D
Docker
A
About on SuperTechFans
H
Hackread – Cybersecurity News, Data Breaches, AI and More
Google DeepMind News
Google DeepMind News
The Last Watchdog
The Last Watchdog
S
Security Affairs
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
P
Privacy International News Feed
Simon Willison's Weblog
Simon Willison's Weblog

博客园 - stardsd

智能体攻防 计算语言学(computational linguistics) 状态空间模型(State Space Model, SSM) 神经符号集成(Neuro-Symbolic Integration) 动态计算分配(Dynamic Compute Allocation)技术:MoD 从LLM到SLM:小型语言模型 Claud Code 源码设计哲学总结 Claud Code源代码主提示词(prompts)中文版 REPL的实现以及Agent的REPL-Plan模式 LLM 大语言模型研究进展与趋势报告 DeepSeek DualPath 论文解读 Test Time Scaling (TTS) Web 4.0:Agentic Web 梅宏院士:符号主义与连接主义的结合应该成为下一代AI的发展方向 训推误差(training-inference mismatch)与重要性采样(Importance Sampling,IS) 如何设计GRPO系算法的reasoning reward + pair采样策略 GRPO(Group Relative Policy Optimization) 算法的演进脉络以及DAPO、VAPO、SRPO、GFPO的区别与联系 VLM评估体系指标对比:CIDEr vs CLIPScore vs GPT-based Eval CIDEr公式:多模态评价指标 TDM(Tree-based Deep Model,树模型) VLM的视觉词汇表扩充(Vary:扩展大型视觉语言模型的视觉词汇量) CLIP视觉词汇表与Q-Former Agent Skill 解析 斯科特·佩奇(Scott E. Page)多样性预测定理(Diversity Prediction Theorem) AI合成数据、模型坍缩与数据焦虑问题:合成数据的扩展定律(Scaling Law) - stardsd
CL-bench:上下文学习的评测
stardsd · 2026-02-05 · via 博客园 - stardsd

原文链接:https://arxiv.org/pdf/2602.03587

这篇文档核心是提出了一个叫“CL-bench”的评估基准,专门测试大语言模型的“语境学习能力”——简单说就是模型能不能从新给的复杂信息里学知识,再用这些知识解决实际问题。

为什么要做这个基准?

现在的大语言模型(比如GPT、Claude这些)虽然能靠训练时学的知识解决不少问题,但现实里的任务更复杂:比如让模型看一份从没见过的产品说明书,然后一步步教用户操作;或者根据一堆实验数据找出隐藏的规律。这些都需要模型临时学新东西,而不是靠老知识,这种能力之前没被好好评估过,所以研究者就做了CL-bench。

CL-bench到底是什么?

它是个超全面的“测试题库”,包含500个复杂语境、1899个任务,还有3万多个评分标准,全是领域专家花大量时间做的。这些任务的特点是:要解决它们,必须用题目里给的新信息,模型以前学的知识没用。比如有的任务会给一个虚构国家的法律体系,让模型据此判案;有的给一套新的编程语法,让模型写代码。

而且这个题库很严谨:不会有模型训练时见过的内容,避免“作弊”;任务可能需要一步步做,后面的题依赖前面的答案,难度更高;评分标准也很细,能从多个维度判断模型做得对不对。

测试结果怎么样?

10个最先进的大语言模型测下来,平均只答对了17.2%的任务。就算是表现最好的GPT-5.1,也只答对了23.7%,连三成还不到。

不同类型的任务难度不一样:比如让模型学专业知识(像金融、医疗常识)然后答题,相对简单一点;但让模型从实验数据里找规律、模拟复杂场景,就特别难,所有模型平均正确率只有11.8%。

模型主要错在两个地方:要么忽略了题目给的关键信息,要么学错、用错了这些信息;而且输入的内容越长,模型表现越差,说明处理长文本里的新知识对它们来说还是个难题。

这事儿有啥意义?

这个基准的出现,是为了让AI研究者更关注“语境学习能力”——这是模型走向现实应用的关键。现在的模型像个“知识库”,但要成为能适应各种新场景的“帮手”,必须会快速学新东西。CL-bench就像一个“试金石”,能帮大家看清模型的短板,然后针对性改进,让模型以后能更好地处理没见过的文档、数据,解决更多实际问题。


一、CL-bench 的核心构成

  • 基础规模:包含 500 个复杂语境、1899 个任务、31607 条评分标准,所有内容由领域专家打造,平均每个语境的标注需 20 小时专家工时。
  • 语境分类:4 大核心类别(含 18 个子类),覆盖真实场景需求:
    1. 领域知识推理(如金融分析、法律判案)
    2. 规则系统应用(如新型游戏机制、编程语法)
    3. 流程任务执行(如产品操作手册、工作流编排)
    4. 实证发现与模拟(如实验数据规律、虚拟沙盒场景)
  • 关键特点
    1. 无“作弊”可能:语境含模型预训练中没有的新知识(虚构创作、修改现有知识、纳入小众前沿内容)
    2. 任务有关联性:51.1% 的任务是多轮 sequential 任务,需依赖前序任务结果
    3. 评分严格:需通过所有对应评分标准才算任务成功,覆盖事实、计算、流程等多维度

二、核心测试结果

  • 整体表现:10 个前沿大语言模型平均任务成功率仅 17.2%,无模型突破 30%。
  • 顶尖模型表现:GPT-5.1 表现最佳,成功率 23.7%;其次是 Claude Opus 4.5(21.1%)、GPT-5.2(18.1%)。
  • 类别难度差异
    1. 最易:领域知识推理(平均成功率 ~25%)
    2. 最难:实证发现与模拟(平均成功率仅 11.8%)
    3. 中等:规则系统应用、流程任务执行(成功率 ~17%-19%)
  • 主要失败原因
    1. 忽略语境信息(所有模型该类错误占比超 55%)
    2. 误用语境知识(所有模型该类错误占比超 60%)
    3. 格式错误(顶尖模型格式错误率超 35%)
    4. 长文本处理能力不足:输入长度越长,成功率越低

三、核心价值

  • 填补评估空白:首次专门测试模型“从复杂语境学新知识并应用”的能力,弥补了现有基准只测“用旧知识解题”的缺陷。
  • 指导模型优化:明确模型短板(长文本知识吸收、归纳推理、规则灵活应用),为研究者提供明确改进方向。
  • 贴合现实需求:任务源于真实场景(如解读陌生文档、处理实验数据、执行复杂流程),评估结果能直接反映模型落地能力。
  • 建立统一标准:提供高质量、可复现的评估体系,让不同模型的“语境学习能力”有公平对比依据。

以下是 CL-bench 测试集中 4 个核心类别的典型实例,每个例子都贴合真实场景,能直观体现“必须学新语境才能解题”的特点:

一、领域知识推理类(以法律为例)

  • 语境:虚构一个叫“阿斯特拉”的国家,给出其完整的《星际贸易纠纷法》,包含 3 类核心规则——货物延迟交付的责任划分、跨境运输中的风险转移、虚拟资产交易的效力认定,同时附带 2 个既往判例(如“阿尔法公司诉贝塔物流案”)。
  • 任务:某地球公司向阿斯特拉国出口医疗设备,约定“货到验收后付款”,但设备抵达后因阿斯特拉国突发政策调整,验收流程延迟 30 天,地球公司主张逾期付款违约金,阿斯特拉国买方以“政策不可抗”拒绝。请依据提供的法律体系,判断买方是否需要支付违约金,并说明法律依据。
  • 关键要求:模型不能用现实中的国际法或合同法知识,必须严格依据语境中虚构的法律规则和判例推理。

二、规则系统应用类(以编程语法为例)

  • 语境:定义一种全新的简化编程语言“EZ-Lang”,明确其核心语法:变量声明用“设 变量名 = 值”,循环用“重复 N 次 { 操作 }”,条件判断用“如果 条件 { 执行 } 否则 { 执行 }”,并给出 2 个简单示例(如计算 1-10 的和)。
  • 任务:用 EZ-Lang 编写一段代码,实现“输入 5 个整数,筛选出其中大于 10 的数,计算它们的平均值并输出”。
  • 关键要求:必须严格遵循语境中给出的语法规则,不能使用 Python、Java 等现有编程语言的语法。

三、流程任务执行类(以产品操作为例)

  • 语境:提供“天网物流无人机 SDK(v4.5.2)”操作手册,包含 3 个核心模块:
    1. 认证模块:需先调用 auth_handshake() 建立连接,限速 50 次/秒
    2. 负载控制模块:运输 4 类危险品需调用 Payload_secure_cargo() 并验证锁闭状态
    3. 安全控制模块:飞行前必须调用 Safety_request_airspace(区域 ID, 飞行计划) 申请空域
  • 任务:用户需要用无人机 D-998 紧急运输 12kg 医疗同位素(4 类危险品)到 4 号区域,当前有阵风。请生成符合手册要求的操作流程伪代码,拒绝任何违反安全规则的操作。
  • 关键要求:必须使用语境中指定的函数,不能虚构函数(如不能用“force_launch_override()”跳过安全检查),且流程需按“认证→安全检查→验证→规划路线→调度→确认”的顺序执行。

四、实证发现与模拟类(以实验数据为例)

  • 语境:给出一组电子在磁场中运动的时空数据(包含时间 t、坐标 x/y/z 等 100 组数据),并说明“电子在均匀磁场中会做螺旋运动,入射角度 θ = arctan(垂直速度/平行速度)”,垂直速度由 x、y 方向速度合成,平行速度为 z 方向速度。
  • 任务:根据提供的数据,计算电子进入磁场时的入射角度(保留 3 位有效数字),并说明计算依据(需明确使用哪组数据、如何推导速度分量)。
  • 关键要求:必须基于语境中的数据和物理公式计算,不能依赖模型预训练中的物理知识(如不能自行修改入射角度公式)。

这些实例的核心共性是:解题所需的关键信息(法律规则、编程语法、操作流程、数据公式)全部只存在于语境中,模型仅凭预训练知识无法完成,能精准测试“学新东西、用新东西”的能力。