
























| 维度 | CIDEr | CLIPScore | GPT-based Eval |
|---|---|---|---|
| 核心思想 | 人类共识 n-gram | 跨模态语义对齐 | 大模型当裁判 |
| 是否需要参考文本 | ✅ 需要(多条) | ❌ 不需要 | 可选 |
| 是否看图像 | ❌ 不直接 | ✅ 是 | ✅ 是 |
| 是否理解语义 | ⚠️ 局部 | ✅ 全局 | ✅ 最强 |
| 是否理解事实 | ❌ | ⚠️ 有时幻觉 | ⚠️ 受提示影响 |
| 可重复性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ |
| 可解释性 | ⭐⭐⭐⭐ | ⭐⭐ | ⭐ |
| 工业稳定性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ |
一句话:
CIDEr 稳、CLIPScore 灵、GPT Eval 强但玄
你有没有说对“大家都会说的关键信息”
数学本质(你已经熟了):
\( \text{TF-IDF n-gram cosine similarity} \)
❌ 看不到图
❌ 不懂同义改写
❌ 不知道你是不是“瞎编但像真的”
图里是 dog,你写 cat
如果参考里有人写错一次,CIDEr 可能还不低
\(\mathrm{CLIPScore}(I, c)=\cos \bigl(f_{\text{img}}(I),f_{\text{text}}(c)\bigr)\)
你这句话,和这张图在“语义空间里像不像”
⚠️ CLIP 本身有偏见
⚠️ 对“细节正确性”不敏感
⚠️ 对幻觉不够严厉
图里有 3 只狗
你说 many dogs
CLIPScore:✔️ 很高
人类:❌ 不精确
你经常会看到:
CIDEr ↑
CLIPScore ↑
Human Eval ↑
👉 CLIPScore 不是替代 CIDEr,而是补它的盲区。
Given an image and a caption,
rate correctness, completeness, hallucination (1–5)
从“像不像人类评审”这个层面,做整体判断
❌ 不稳定
❌ Prompt 敏感
❌ 不可复现
❌ 成本高
❌ 审稿人不完全信
评估模型本身也是模型,会“共振偏好”
不是单独用,而是:
语义理解
▲
│ GPT Eval
│
│
│ CLIPScore
│
│
│
└──────────────────▶ 可复现性
CIDEr
CIDEr + CLIPScore + 人类评估
CIDEr / BLEU(稳)
CIDEr(主) + CLIPScore(辅)
GPT-based eval(定性)
评估指标决定模型会学成什么样
这也是为什么现在越来越多工作在搞:
CIDEr 是标尺,CLIPScore 是投影,GPT Eval 是裁判
三者不是替代关系,而是“正交补充”。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。