惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google Online Security Blog
Google Online Security Blog
博客园_首页
酷 壳 – CoolShell
酷 壳 – CoolShell
Jina AI
Jina AI
博客园 - Franky
大猫的无限游戏
大猫的无限游戏
Hugging Face - Blog
Hugging Face - Blog
博客园 - 司徒正美
V
V2EX
雷峰网
雷峰网
云风的 BLOG
云风的 BLOG
V
Visual Studio Blog
F
Full Disclosure
Y
Y Combinator Blog
V
V2EX - 技术
Attack and Defense Labs
Attack and Defense Labs
S
Security @ Cisco Blogs
Schneier on Security
Schneier on Security
Microsoft Azure Blog
Microsoft Azure Blog
SecWiki News
SecWiki News
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
The GitHub Blog
The GitHub Blog
量子位
PCI Perspectives
PCI Perspectives
S
Secure Thoughts
D
Darknet – Hacking Tools, Hacker News & Cyber Security
AWS News Blog
AWS News Blog
Blog — PlanetScale
Blog — PlanetScale
爱范儿
爱范儿
K
Kaspersky official blog
B
Blog
A
Arctic Wolf
Hacker News: Ask HN
Hacker News: Ask HN
L
LangChain Blog
T
Tor Project blog
P
Privacy & Cybersecurity Law Blog
Recent Announcements
Recent Announcements
宝玉的分享
宝玉的分享
The Register - Security
The Register - Security
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
L
Lohrmann on Cybersecurity
D
Docker
A
About on SuperTechFans
H
Hackread – Cybersecurity News, Data Breaches, AI and More
Google DeepMind News
Google DeepMind News
The Last Watchdog
The Last Watchdog
S
Security Affairs
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
P
Privacy International News Feed
Simon Willison's Weblog
Simon Willison's Weblog

博客园 - stardsd

智能体攻防 计算语言学(computational linguistics) 状态空间模型(State Space Model, SSM) 神经符号集成(Neuro-Symbolic Integration) 动态计算分配(Dynamic Compute Allocation)技术:MoD 从LLM到SLM:小型语言模型 Claud Code 源码设计哲学总结 Claud Code源代码主提示词(prompts)中文版 REPL的实现以及Agent的REPL-Plan模式 LLM 大语言模型研究进展与趋势报告 DeepSeek DualPath 论文解读 Test Time Scaling (TTS) Web 4.0:Agentic Web CL-bench:上下文学习的评测 梅宏院士:符号主义与连接主义的结合应该成为下一代AI的发展方向 训推误差(training-inference mismatch)与重要性采样(Importance Sampling,IS) 如何设计GRPO系算法的reasoning reward + pair采样策略 GRPO(Group Relative Policy Optimization) 算法的演进脉络以及DAPO、VAPO、SRPO、GFPO的区别与联系 VLM评估体系指标对比:CIDEr vs CLIPScore vs GPT-based Eval TDM(Tree-based Deep Model,树模型) VLM的视觉词汇表扩充(Vary:扩展大型视觉语言模型的视觉词汇量) CLIP视觉词汇表与Q-Former Agent Skill 解析 斯科特·佩奇(Scott E. Page)多样性预测定理(Diversity Prediction Theorem) AI合成数据、模型坍缩与数据焦虑问题:合成数据的扩展定律(Scaling Law) - stardsd
CIDEr公式:多模态评价指标
stardsd · 2026-02-03 · via 博客园 - stardsd

CIDEr 公式

CIDEr(Consensus-based Image Description Evaluation)是图像描述/自然语言生成领域常用的自动评估指标,尤其在 image captioning 任務中。

📌 核心原理

CIDEr 衡量 候选描述与多条参考描述 之间的相似度:

  1. 将句子拆分为 n-gram(n=1 到 4)。
  2. 对每个 n-gram 计算 TF-IDF 权重(常见的短语权重低,不常见短语权重高)。
  3. 对候选句子与每个参考句子分别计算加权 cosine 相似度。
  4. 取所有参考句子的平均作为最终得分。

公式大致:

\(CIDEr = \frac{1}{M} \sum_{m=1}^M \text{cosine}\big(TFIDF(cand), TFIDF(ref_m)\big)\)

其中:

  • (M) 是参考句子数量
  • (TFIDF(\cdot)) 是基于 n-gram 的向量化表示

与 BLEU 等指标不同,CIDEr 强调一种 人类共识一致性(Consensus):越符合人类自然描述习惯的句子得分越高。


一句话直觉版

CIDEr 衡量的是:模型生成的句子,和“人类共识描述”在关键信息上的相似度,而且更重视“有区分度的词”。

也就是说:

  • 不是“像不像某一句参考答案”
  • 而是:是否抓住了大家都会提到的核心语义点

一、CIDEr 用在什么场景?

  • 图像描述(Image Captioning)
  • 视频描述
  • VLM 输出评估
  • 多参考文本一致性评估

它是 为 COCO 数据集专门设计 的(名字里 CI = Consensus-based Image Description)。


二、CIDEr 的整体公式(先看全貌)

对某个样本(一张图):

\( \mathrm{CIDEr}(c)=\frac{1}{N}\sum_{j=1}^{N}\sum_{n=1}^{4}\mathrm{CIDEr}_n(c, s_j) \)

其中:

  • ( c ):模型生成的 caption
  • ( s_j ):第 (j) 个参考 caption(人工)
  • ( N ):参考 caption 数量(COCO 中通常是 5)
  • ( n ):n-gram(1 到 4)

👉 核心思想

对每个参考描述、每种 n-gram,算一次“加权相似度”,再平均


三、最核心的一步:TF-IDF 表示

1️⃣ n-gram 向量表示

对某个 n(比如 2-gram):

\( \mathbf{g}_n(c) = \bigl( \mathrm{tfidf}_k(c) \bigr)_k \)

其中每一维对应一个 n-gram (k)。


2️⃣ TF-IDF 定义(重点)

\(\mathrm{tfidf}_k(c)=\underbrace{\frac{h_k(c)}{\sum_{k'} h_{k'}(c)}}*{\text{TF}} \cdot \underbrace{\log\frac{|I|}{|{i : k \in s_i}|}}*{\text{IDF}}\)

  • ( h_k(c) ):n-gram (k) 在句子 (c) 中出现次数
  • ( |I| ):数据集中图片总数
  • 分母:包含该 n-gram 的图片数量

📌 关键含义

  • 常见废话(如 “a man”) → IDF 低 → 权重小
  • 关键信息(如 “snowboard”“microwave”) → IDF 高 → 权重大

四、CIDEr_n 的核心公式(余弦相似度)

\( \mathrm{CIDEr}_n(c, s_j)=\frac{\mathbf{g}_n(c) \cdot \mathbf{g}_n(s_j)}{|\mathbf{g}_n(c)| , |\mathbf{g}_n(s_j)|} \)

也就是:

生成句子 vs 参考句子,在 TF-IDF n-gram 空间里的 cosine similarity


五、为什么 CIDEr 特别“适合人类直觉”?

1️⃣ 多参考 → 共识建模

  • BLEU:一句一句对
  • CIDEr:对“大家都说了什么”敏感

如果 5 个参考都提到 “dog”:

  • 你没提 → 扣分
  • 你提了 → 高分

2️⃣ IDF 抑制套话

BLEU CIDEr
“a man is standing” 容易高分 权重很低
“a man surfing on a wave” 稍难 高权重

👉 CIDEr 奖励信息密度,不奖励废话长度


3️⃣ n-gram = 局部结构感知

  • unigram → 物体
  • bigram → 属性 / 动作
  • trigram / 4-gram → 关系、场景

六、和 BLEU / ROUGE 的本质区别(重点)

指标 关注点 最大问题
BLEU 精确匹配 同义词 / 改写直接判错
ROUGE 覆盖率 偏向召回
CIDEr 共识 + 信息量 计算复杂,但更“像人”

所以:

Image Caption 论文默认报告 CIDEr,是有原因的


七、在 VLM / 强化学习训练中的地位

你经常会看到:

\( \mathcal{L}*{\text{RL}} = - \mathbb{E}*{c \sim p_\theta} [\mathrm{CIDEr}(c)] \)

也就是:

  • 用 CIDEr 当 reward
  • 直接做 Self-Critical Sequence Training(SCST)

📌 原因很简单:

CIDEr 是可对齐人类偏好的自动指标


八、一句“总结”

CIDEr = 在 TF-IDF 加权的 n-gram 空间里,对生成描述与人类共识的余弦相似度

它解决了三件事:

  1. 多答案一致性问题
  2. 废话泛滥问题
  3. 结构信息缺失问题