惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google Online Security Blog
Google Online Security Blog
博客园_首页
酷 壳 – CoolShell
酷 壳 – CoolShell
Jina AI
Jina AI
博客园 - Franky
大猫的无限游戏
大猫的无限游戏
Hugging Face - Blog
Hugging Face - Blog
博客园 - 司徒正美
V
V2EX
雷峰网
雷峰网
云风的 BLOG
云风的 BLOG
V
Visual Studio Blog
F
Full Disclosure
Y
Y Combinator Blog
V
V2EX - 技术
Attack and Defense Labs
Attack and Defense Labs
S
Security @ Cisco Blogs
Schneier on Security
Schneier on Security
Microsoft Azure Blog
Microsoft Azure Blog
SecWiki News
SecWiki News
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
The GitHub Blog
The GitHub Blog
量子位
PCI Perspectives
PCI Perspectives
S
Secure Thoughts
D
Darknet – Hacking Tools, Hacker News & Cyber Security
AWS News Blog
AWS News Blog
Blog — PlanetScale
Blog — PlanetScale
爱范儿
爱范儿
K
Kaspersky official blog
B
Blog
A
Arctic Wolf
Hacker News: Ask HN
Hacker News: Ask HN
L
LangChain Blog
T
Tor Project blog
P
Privacy & Cybersecurity Law Blog
Recent Announcements
Recent Announcements
宝玉的分享
宝玉的分享
The Register - Security
The Register - Security
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
L
Lohrmann on Cybersecurity
D
Docker
A
About on SuperTechFans
H
Hackread – Cybersecurity News, Data Breaches, AI and More
Google DeepMind News
Google DeepMind News
The Last Watchdog
The Last Watchdog
S
Security Affairs
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
P
Privacy International News Feed
Simon Willison's Weblog
Simon Willison's Weblog

博客园 - stardsd

智能体攻防 计算语言学(computational linguistics) 状态空间模型(State Space Model, SSM) 神经符号集成(Neuro-Symbolic Integration) 动态计算分配(Dynamic Compute Allocation)技术:MoD 从LLM到SLM:小型语言模型 Claud Code 源码设计哲学总结 Claud Code源代码主提示词(prompts)中文版 REPL的实现以及Agent的REPL-Plan模式 LLM 大语言模型研究进展与趋势报告 DeepSeek DualPath 论文解读 Test Time Scaling (TTS) Web 4.0:Agentic Web CL-bench:上下文学习的评测 梅宏院士:符号主义与连接主义的结合应该成为下一代AI的发展方向 训推误差(training-inference mismatch)与重要性采样(Importance Sampling,IS) 如何设计GRPO系算法的reasoning reward + pair采样策略 GRPO(Group Relative Policy Optimization) 算法的演进脉络以及DAPO、VAPO、SRPO、GFPO的区别与联系 CIDEr公式:多模态评价指标 TDM(Tree-based Deep Model,树模型) VLM的视觉词汇表扩充(Vary:扩展大型视觉语言模型的视觉词汇量) CLIP视觉词汇表与Q-Former Agent Skill 解析 斯科特·佩奇(Scott E. Page)多样性预测定理(Diversity Prediction Theorem) AI合成数据、模型坍缩与数据焦虑问题:合成数据的扩展定律(Scaling Law) - stardsd
VLM评估体系指标对比:CIDEr vs CLIPScore vs GPT-based Eval
stardsd · 2026-02-03 · via 博客园 - stardsd

总览表

维度 CIDEr CLIPScore GPT-based Eval
核心思想 人类共识 n-gram 跨模态语义对齐 大模型当裁判
是否需要参考文本 ✅ 需要(多条) ❌ 不需要 可选
是否看图像 ❌ 不直接 ✅ 是 ✅ 是
是否理解语义 ⚠️ 局部 ✅ 全局 ✅ 最强
是否理解事实 ⚠️ 有时幻觉 ⚠️ 受提示影响
可重复性 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐
可解释性 ⭐⭐⭐⭐ ⭐⭐
工业稳定性 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐

一句话:

CIDEr 稳、CLIPScore 灵、GPT Eval 强但玄


一、CIDEr:人类共识的“工程标尺”

它在评估什么?

你有没有说对“大家都会说的关键信息”

数学本质(你已经熟了):

\( \text{TF-IDF n-gram cosine similarity} \)

强项

  • 多参考鲁棒
  • 抑制废话
  • 高可复现性
  • 适合 RL reward

天生盲区

❌ 看不到图
❌ 不懂同义改写
❌ 不知道你是不是“瞎编但像真的”

经典翻车

图里是 dog,你写 cat
如果参考里有人写错一次,CIDEr 可能还不低


适合用在:

  • Image Caption benchmark
  • 模型版本回归对比
  • 强化学习 reward(SCST)

二、CLIPScore:跨模态语义对齐分数

核心公式(非常干净)

\(\mathrm{CLIPScore}(I, c)=\cos \bigl(f_{\text{img}}(I),f_{\text{text}}(c)\bigr)\)

它在评估什么?

你这句话,和这张图在“语义空间里像不像”

强项

  • 不需要参考文本
  • 对同义词、改写极其友好
  • 看得到图像
  • 对 VLM 非常公平

天生问题

⚠️ CLIP 本身有偏见
⚠️ 对“细节正确性”不敏感
⚠️ 对幻觉不够严厉

经典翻车

图里有 3 只狗
你说 many dogs
CLIPScore:✔️ 很高
人类:❌ 不精确


工业里的真实用法

你经常会看到:

CIDEr ↑
CLIPScore ↑
Human Eval ↑

👉 CLIPScore 不是替代 CIDEr,而是补它的盲区。


三、GPT-based Eval:让 LLM 当裁判

核心机制(不是公式,是 prompt)

Given an image and a caption,
rate correctness, completeness, hallucination (1–5)

它在评估什么?

从“像不像人类评审”这个层面,做整体判断

能力天花板

  • 理解复杂语义
  • 判断事实错误
  • 分析因果/关系
  • 给维度化反馈

但问题也最大

❌ 不稳定
❌ Prompt 敏感
❌ 不可复现
❌ 成本高
❌ 审稿人不完全信

最致命问题

评估模型本身也是模型,会“共振偏好”


现在主流怎么用 GPT Eval?

不是单独用,而是:

  • human eval 的 proxy
  • case study
  • failure mode 分类
  • 自动打标 / 质检

四、三者在“评估维度空间”的位置

          语义理解
             ▲
             │   GPT Eval
             │
             │
             │        CLIPScore
             │
             │
             │
             └──────────────────▶ 可复现性
                   CIDEr

五、什么时候用哪个?(实战建议)

🧪 论文 benchmark

CIDEr + CLIPScore + 人类评估

🏭 工业回归测试

CIDEr / BLEU(稳)

🔁 RL 训练 reward

CIDEr(主) + CLIPScore(辅)

🧠 开放式 VLM 能力评估

GPT-based eval(定性)

六、一个很重要但少说的真相

评估指标决定模型会学成什么样

  • 用 CIDEr 训 → 模型学会“像 COCO 人类”
  • 用 CLIPScore 训 → 模型学会“语义贴图”
  • 用 GPT Eval 训 → 极易 overfit 风格

这也是为什么现在越来越多工作在搞:

  • 多 reward 混合
  • 人类偏好对齐
  • 评估模型去偏(judge debiasing)

最后一句个“研究级 takeaway”

CIDEr 是标尺,CLIPScore 是投影,GPT Eval 是裁判
三者不是替代关系,而是“正交补充”。