惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

爱范儿
爱范儿
Security Latest
Security Latest
NISL@THU
NISL@THU
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
C
Cybersecurity and Infrastructure Security Agency CISA
Cloudbric
Cloudbric
T
Threat Research - Cisco Blogs
大猫的无限游戏
大猫的无限游戏
C
CXSECURITY Database RSS Feed - CXSecurity.com
阮一峰的网络日志
阮一峰的网络日志
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
雷峰网
雷峰网
C
Cisco Blogs
V
Vulnerabilities – Threatpost
S
Security Archives - TechRepublic
V
Visual Studio Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
J
Java Code Geeks
D
Darknet – Hacking Tools, Hacker News & Cyber Security
Know Your Adversary
Know Your Adversary
博客园 - 叶小钗
腾讯CDC
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
P
Privacy International News Feed
P
Palo Alto Networks Blog
博客园_首页
V
V2EX
WordPress大学
WordPress大学
Schneier on Security
Schneier on Security
月光博客
月光博客
博客园 - 司徒正美
Google DeepMind News
Google DeepMind News
TaoSecurity Blog
TaoSecurity Blog
博客园 - 聂微东
酷 壳 – CoolShell
酷 壳 – CoolShell
人人都是产品经理
人人都是产品经理
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
博客园 - 【当耐特】
The Cloudflare Blog
罗磊的独立博客
美团技术团队
N
News | PayPal Newsroom
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Last Week in AI
Last Week in AI
K
Kaspersky official blog
Google Online Security Blog
Google Online Security Blog
S
SegmentFault 最新的问题
Application and Cybersecurity Blog
Application and Cybersecurity Blog
T
Tailwind CSS Blog

又见苍岚

COLMAP PatchMatch Stereo 算法详解 事件驱动的状态机框架:从理论到工程实践 Git 在国内网络环境下无法 Push 的排查与修复 —— 配置 Clash 代理 分段五次多项式插值原理详解 路径插值方法深度对比研究 Claude Code 使用指南 OpenClaw 记忆管理与技能创建指南 CBS(Conflict-Based Search)算法详解 A* 算法及其变种详解 OpenClaw 配置多 Agents Windows Powershell 无法加载文件,因为在此系统上禁止运行脚本问题的解决方案 MaxClaw 安装流程 大模型 AI 名词介绍 AList 网盘聚合工具简介 Protobuf 简介与测试 Claude Code 简介以及 GLM 4.7 模型接入 Github 歌词下载工具 163MusicLyrics Python __getattr__ 懒加载 Python TypedDict 机器人仿真平台 Gazebo 安装记录 机器人仿真平台 Gazebo 简介 多机器人路径规划问题(Multi-Agent Path Finding, MAPF)简介 Python exifread 读取修改过的 jpeg 信息错误问题修复 3D 坐标系变换的理解 3D 旋转矩阵基本概念 MongoDB Compass 介绍 Python 环境管理工具 uv Flutter 开发指南 Snipaste 安装下载与黑屏问题解决方案 全局路径规划算法记录 2025 Python 版本性能测试 Flutter Hello World Flutter 安装环境配置 Ubuntu VMware 硬盘扩容后 SMBus Host controller not enabled 报错问题解决 Python NetworkX 教程 Docker GPU 报错 - Failed to initialize NVML Unknown Error 解决方案 Python matplotlib 图表绘制 cuda-toolkit 安装替代 Cuda 与 Cudnn Jinja2 Python 利用 docxtpl 和 Jinja2 生成基于模板的 Word 文档 Docker 实现 CPU 核心隔离 LoFTR 基于 Transformer 的特征提取匹配算法 OmniGlue 特征匹配 SuperGlue 使用图神经网络学习特征匹配 Ubuntu 下将 xlsx 文件按照 sheet 转换为 图片 Python 使用 SQLAlchemy Python FastAPI 教程 openwrt 软路由配置安装 Nav2 地图文件(PGM/YAML)规范标准 3D OBJ 模型转换为 glb 瓦片格式 Python 源码 Redis 数据库介绍 Ubuntu 22.04 内核自动升级导致 MongoDB 7.0.12 错误记录 ubuntu 20.04 安装 ROS Noetic ubuntu 18.04 安装 ROS Melodic VMware Workstation Pro 个人免费版下载、安装、使用指南 Hybrid A-star 路径规划 Reeds-Shepp 曲线 Dubins 曲线 Linux kvm 虚拟机网络不通的问题解决方法 Ubuntu 自动内存清理 BiliBili 缓存视频转 mp4 Python 求解线性规划 3D Gaussian Splatting 官方源码实践记录 ImageMagick 教程 Ubuntu 22.04 安装 Colmap 对数几率 odds Ubuntu nmcli 网络管理工具使用指南 SuperPoint 自监督深度学习特征点提取 SyncTV Music Tag Web 在线音乐信息整理工具 ncm 格式转 mp3 MusicBrainz 音乐元数据百科数据库 Ubuntu 网络流量监控工具 私人云音乐平台 Navidrome 入门 手眼标定 四元数(Quaternions) OHTTPS 实现免费自动 https 证书申请、更新、部署 ubuntu 22.04 安装 CloudCompare 单机 KVM 虚拟机冷迁移 Ubuntu 22.04 使用 mdadm 实现软 raid 小鱼 一键安装 ROS-humble Fluid -46- 基于 Simpletex API 构建公式识别页面 公式识别 API 简介 -- Simpletex 使用 Python web 部署库 waitress 3D Gaussian Splatting for Real-Time Radiance Field Rendering Ubuntu Swap 简介与空间扩展 Ubuntu 24.04 安装 forticlient Clash Verge 使用 MongoDB 7.0.17 集群 Docker 构建源码 Error code - 2013. Lost connection to MySQL server during query 问题解决 Python 日志记录库 loguru 使用指北 Python 实现 Web 日志查看服务 MySQL LOAD DATA LOCAL INFILE 极速数据加载 Image size exceeds limit of 89478485 pixels 解决方案 Docker 使用 NVIDIA GPU 驱动错误解决 阿里云 docker 镜像仓库 Ubuntu中没有wired connected的解决方案 MinIO 简介 subconverter 代理订阅格式转换 修复 node –openssl-legacy-provider is not allowed in NODE_OPTIONS 错误
互信息
Yiwei Zhang · 2024-04-03 · via 又见苍岚

在概率论和信息论中,两个随机变量的互信息(mutual Information,MI)度量了两个变量之间相互依赖的程度。。

简介

对于两个随机变量,MI是一个随机变量由于已知另一个随机变量而减少的“信息量”(单位通常为比特)。互信息的概念与随机变量的熵紧密相关,熵是信息论中的基本概念,它量化的是随机变量中所包含的“信息量”。

MI不仅仅是度量实值随机变量和线性相关性(如相关系数),它更为通用。MI决定了随机变量 ${\displaystyle {\displaystyle (X,Y)}}$的联合分布与
${\displaystyle X}$ 和 ${\displaystyle Y}$ 的边缘分布的乘积之间的差异。MI是点互信息(Pointwise Mutual Information,PMI)的期望。克劳德·香农在他的论文A Mathematical Theory of Communication中定义并分析了这个度量,但是当时他并没有将其称为“互信息”。这个词后来由 罗伯特·法诺 创造。互信息也称为信息增益。

定义

设随机变量$(X,Y)$是空间 $X×Y$ 中的一对随机变量。若他们的联合分布是$p(x,y)$,边缘分布分别是$p(x)$和$p(y)$,那么,它们之间的互信息可以定义为:
$$
I(X;Y)=D_{\mathrm{KL}}(p(x,y)|p(x)\otimes p(y))
$$
其中,${\displaystyle {\displaystyle D_{\mathrm {KL} }}}$ 为KL散度(Kullback–Leibler divergence)。

注意,根据KL散度的性质,若联合分布${\displaystyle p(x,y)}$ 等于边缘分布${\displaystyle p(x)}$和${\displaystyle p(y)}$的乘积,则 ${\displaystyle I(X;Y)=0}$,即当 $X$和 $Y$ 相互独立的时候,观测到 $Y$对于我们预测X没有任何帮助,此时他们的互信息为0。

离散变量的互信息

离散随机变量 X 和 Y 的互信息可以计算为:
$$
{\displaystyle I(X;Y)=\sum _{y\in Y}\sum _{x\in X}p(x,y)\log {\left({\frac {p(x,y)}{p(x),p(y)}}\right)},,!}
$$
其中 p(x, y) 是 XY 的联合概率质量函数,而 ${\displaystyle p(x)} $ 和 ${\displaystyle p(y)}$ 分别是 $X$ 和 $Y$ 的边缘概率质量函数。

连续变量的互信息

在连续随机变量的情形下,求和被替换成了二重定积分:
$$
{\displaystyle I(X;Y)=\int _{Y}\int _{X}p(x,y)\log {\left({\frac {p(x,y)}{p(x),p(y)}}\right)};dx,dy,}
$$
其中 $p(x, y)$ 当前是 X 和 Y 的联合概率密度函数,而 ${\displaystyle p(x)}$ 和 ${\displaystyle p(y)}$ 分别是 $X$ 和 $Y $ 的边缘概率密度函数。

如果对数以 2 为基底,互信息的单位是 bit。

性质

互信息性质

对任意随机变量 $X,Y$ ,其互信息 $I(X,Y)$ 满足:

  1. 对称性:
    $$
    {\displaystyle I(X;Y)=I(Y;X)}
    $$

  2. 半正定:
    $$
    {\displaystyle I(X;Y)\geq 0}
    $$
    当且仅当 $X,Y$ 独立时:
    $$
    {\displaystyle I(X;Y)= 0}
    $$

平均互信息量不是从两个具体消息出发, 而是从随机变量X和Y的整体角度出发, 并在平均意义上观察问题, 所以平均互信息量不会出现负值。或者说从一个事件提取关于另一个事件的信息, 最坏的情况是0, 不会由于知道了一个事件,反而使另一个事件的不确定度增加。

极值性

$$
I(X;Y)≤H(X)
$$

$$
I(Y;X)≤H(Y)
$$

从一个事件提取关于另一个事件的信息量, 至多是另一个事件的熵那么多, 不会超过另一个事件自身所含的信息量。当 $X$ 和 $Y$ 是一一对应关系时: $I(X;Y)=H(X)$, 这时 $H(X|Y)=0$。从一个事件可以充分获得关于另一个事件的信息, 从平均意义上来说, 代表信源的信息量可全部通过信道。当X和Y相互独立时: $H(X|Y) =H(X)$, $I(Y;X)=0$。 从一个事件不能得到另一个事件的任何信息,这等效于信道中断的情况。

链法则

$$
I(X_{1},X_{2},\ldots X_{n};Y)=H(X_{1},X_{3},\ldots X_{n})-H(X_{1},X_{3},\ldots X_{n}|Y)
$$

不等式

如果 $U\to X\to Y\to V$ 构成马式链,则 $I(U;V)\leq I(X;Y)$。

概念理解

直观理解

直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。

所以具体的解释就是: 互信息越小,两个来自不同事件空间的随机变量彼此之间的关联性越低; 互信息越高,关联性则越高

这证实了互信息的直观意义为: "因X而有Y事件"的熵( 基于已知随机变量的不确定性) 在"Y事件"的熵之中具有多少影响地位( “Y事件所具有的不确定性” 其中包含了多少 “Y|X事件所具有的不确性” ),意即"Y具有的不确定性"有多少程度是起因于X事件;

例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的熵。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)

互信息是 X 和 Y 的联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。 于是互信息以下面方式度量依赖性:$I(X; Y) = 0$ 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出:当 X 和 Y 独立时,$p(x,y) = p(x) p(y)$,因此:
$$
{\displaystyle \log {\left({\frac {p(x,y)}{p(x),p(y)}}\right)}=\log 1=0.,!}
$$

与其他量的关系

互信息又可以等价地表示成:

$$ {\displaystyle {\begin{aligned}I(X;Y)&{}=H(X)-H(X|Y)\\&{}=H(Y)-H(Y|X)\\&{}=H(X)+H(Y)-H(X,Y)\\&{}=H(X,Y)-H(X|Y)-H(Y|X)\end{aligned}}} $$

其中 ${\displaystyle \ H(X)}$ 和 ${\displaystyle \ H(Y)}$ 是边缘熵,$H(X|Y) $和 $H(Y|X)$ 是条件熵,而 $H(X,Y)$ 是 $X $ 和 $Y $ 的联合熵。注意到这组关系和并集、差集和交集的关系类似,于是用Venn 图表示

如果把熵 H(Y) 看作一个随机变量于不确定度的量度,那么 H(Y|X) 就是"在已知 X 事件后Y事件会发生"的不确定度。于是等式的右边第二行就可以读作“将Y事件的不确定度,减去基于X事件后Y事件因此发生的不确定度”。

注意到离散情形 H(X|X) = 0,于是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y),我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。

相对熵表示

互信息也可以表示为两个随机变量的边缘分布 X 和 Y 的乘积 $p(x) × p(y)$ 相对于随机变量的联合熵 $p(x,y)$ 的相对熵:
$$
{\displaystyle I(X;Y)=D_{\mathrm {KL} }(p(x,y)|p(x)p(y)).}
$$
此外,令 $p(x|y) = p(x, y) / p(y)$。则

$$ {\displaystyle {\begin{aligned}I(X;Y)&{}=\sum _{y}p(y)\sum _{x}p(x|y)\log _{2}{\frac {p(x|y)}{p(x)}}\\&{}=\sum _{y}p(y)\;D_{\mathrm {KL} }(p(x|y)\|p(x))\\&{}=\mathbb {E} _{Y}\{D_{\mathrm {KL} }(p(x|y)\|p(x))\}.\end{aligned}}} $$

注意到,这里相对熵涉及到仅对随机变量 X 积分,表达式 ${\displaystyle D_{\mathrm {KL} }(p(x|y)|p(x))}$ 现在以 Y 为变量。于是互信息也可以理解为相对熵 X 的单变量分布 $p(x)$ 相对于给定 Y 时 X 的条件分布 $p(x|y) $:分布 $p(x|y) $ 和 $p(x)$ 之间的平均差异越大,信息增益越大。

信息增益

互信息与信息增益

一、两者描述的时空不同

信息增益: $Gain=H(X)-H(X/Y)$, 意义是系统分类后增加的信息量(研究同一系统的不同状态)

互信息:$I(X,Y)=H(X)-H(X/Y)=H(Y)-H(Y/X)$,意义就是 X 与 Y 之间对应关系的信息量(研究同一状态下系统中的两个子系统)

二、Y的含义不一样

增益里面Y是分类方式,互信息里面Y是事件

互信息里面的Y,用 $H(Y)$ 表示,可以通过统计测量概率,并用信息熵公式计算。

但是增益里面的Y,由于是一种分类方式,它的熵要是直接计算,信息论里面没有介绍。

三、两者之间的关系

信息增益是描述前后两种不同状态的信息熵变化,即确定性的增加量,分类本质就是将一个系统中各种元素之间的分类关系(X,Y,Z,…)确定下来。

四、总结

Gain是各元素之间的人为定义的关系信息,I只是两两之间客观关系信息,当然I也能够扩展,通过扩展可以计算得到gain,不论是I还是gain他们都是关系信息,而非事件信息。信息增益是互信息的无偏估计,所以在决策树的训练过程中, 两者是等价的。

参考资料

文章链接:
https://www.zywvvd.com/notes/study/information-theory/mutual-info/mutual-info/