
























CIDEr(Consensus-based Image Description Evaluation)是图像描述/自然语言生成领域常用的自动评估指标,尤其在 image captioning 任務中。
CIDEr 衡量 候选描述与多条参考描述 之间的相似度:
公式大致:
\(CIDEr = \frac{1}{M} \sum_{m=1}^M \text{cosine}\big(TFIDF(cand), TFIDF(ref_m)\big)\)
其中:
与 BLEU 等指标不同,CIDEr 强调一种 人类共识一致性(Consensus):越符合人类自然描述习惯的句子得分越高。
CIDEr 衡量的是:模型生成的句子,和“人类共识描述”在关键信息上的相似度,而且更重视“有区分度的词”。
也就是说:
它是 为 COCO 数据集专门设计 的(名字里 CI = Consensus-based Image Description)。
对某个样本(一张图):
\( \mathrm{CIDEr}(c)=\frac{1}{N}\sum_{j=1}^{N}\sum_{n=1}^{4}\mathrm{CIDEr}_n(c, s_j) \)
其中:
👉 核心思想:
对每个参考描述、每种 n-gram,算一次“加权相似度”,再平均
对某个 n(比如 2-gram):
\( \mathbf{g}_n(c) = \bigl( \mathrm{tfidf}_k(c) \bigr)_k \)
其中每一维对应一个 n-gram (k)。
\(\mathrm{tfidf}_k(c)=\underbrace{\frac{h_k(c)}{\sum_{k'} h_{k'}(c)}}*{\text{TF}} \cdot \underbrace{\log\frac{|I|}{|{i : k \in s_i}|}}*{\text{IDF}}\)
📌 关键含义:
\( \mathrm{CIDEr}_n(c, s_j)=\frac{\mathbf{g}_n(c) \cdot \mathbf{g}_n(s_j)}{|\mathbf{g}_n(c)| , |\mathbf{g}_n(s_j)|} \)
也就是:
生成句子 vs 参考句子,在 TF-IDF n-gram 空间里的 cosine similarity
如果 5 个参考都提到 “dog”:
| 词 | BLEU | CIDEr |
|---|---|---|
| “a man is standing” | 容易高分 | 权重很低 |
| “a man surfing on a wave” | 稍难 | 高权重 |
👉 CIDEr 奖励信息密度,不奖励废话长度
| 指标 | 关注点 | 最大问题 |
|---|---|---|
| BLEU | 精确匹配 | 同义词 / 改写直接判错 |
| ROUGE | 覆盖率 | 偏向召回 |
| CIDEr | 共识 + 信息量 | 计算复杂,但更“像人” |
所以:
Image Caption 论文默认报告 CIDEr,是有原因的
你经常会看到:
\( \mathcal{L}*{\text{RL}} = - \mathbb{E}*{c \sim p_\theta} [\mathrm{CIDEr}(c)] \)
也就是:
📌 原因很简单:
CIDEr 是可对齐人类偏好的自动指标
CIDEr = 在 TF-IDF 加权的 n-gram 空间里,对生成描述与人类共识的余弦相似度
它解决了三件事:
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。