惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

爱范儿
爱范儿
Security Latest
Security Latest
NISL@THU
NISL@THU
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
C
Cybersecurity and Infrastructure Security Agency CISA
Cloudbric
Cloudbric
T
Threat Research - Cisco Blogs
大猫的无限游戏
大猫的无限游戏
C
CXSECURITY Database RSS Feed - CXSecurity.com
阮一峰的网络日志
阮一峰的网络日志
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
雷峰网
雷峰网
C
Cisco Blogs
V
Vulnerabilities – Threatpost
S
Security Archives - TechRepublic
V
Visual Studio Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
J
Java Code Geeks
D
Darknet – Hacking Tools, Hacker News & Cyber Security
Know Your Adversary
Know Your Adversary
博客园 - 叶小钗
腾讯CDC
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
P
Privacy International News Feed
P
Palo Alto Networks Blog
博客园_首页
V
V2EX
WordPress大学
WordPress大学
Schneier on Security
Schneier on Security
月光博客
月光博客
博客园 - 司徒正美
Google DeepMind News
Google DeepMind News
TaoSecurity Blog
TaoSecurity Blog
博客园 - 聂微东
酷 壳 – CoolShell
酷 壳 – CoolShell
人人都是产品经理
人人都是产品经理
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
博客园 - 【当耐特】
The Cloudflare Blog
罗磊的独立博客
美团技术团队
N
News | PayPal Newsroom
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Last Week in AI
Last Week in AI
K
Kaspersky official blog
Google Online Security Blog
Google Online Security Blog
S
SegmentFault 最新的问题
Application and Cybersecurity Blog
Application and Cybersecurity Blog
T
Tailwind CSS Blog

又见苍岚

COLMAP PatchMatch Stereo 算法详解 事件驱动的状态机框架:从理论到工程实践 Git 在国内网络环境下无法 Push 的排查与修复 —— 配置 Clash 代理 分段五次多项式插值原理详解 路径插值方法深度对比研究 Claude Code 使用指南 OpenClaw 记忆管理与技能创建指南 CBS(Conflict-Based Search)算法详解 A* 算法及其变种详解 OpenClaw 配置多 Agents Windows Powershell 无法加载文件,因为在此系统上禁止运行脚本问题的解决方案 MaxClaw 安装流程 大模型 AI 名词介绍 AList 网盘聚合工具简介 Protobuf 简介与测试 Claude Code 简介以及 GLM 4.7 模型接入 Github 歌词下载工具 163MusicLyrics Python __getattr__ 懒加载 Python TypedDict 机器人仿真平台 Gazebo 安装记录 机器人仿真平台 Gazebo 简介 多机器人路径规划问题(Multi-Agent Path Finding, MAPF)简介 Python exifread 读取修改过的 jpeg 信息错误问题修复 3D 坐标系变换的理解 3D 旋转矩阵基本概念 MongoDB Compass 介绍 Python 环境管理工具 uv Flutter 开发指南 Snipaste 安装下载与黑屏问题解决方案 全局路径规划算法记录 2025 Python 版本性能测试 Flutter Hello World Flutter 安装环境配置 Ubuntu VMware 硬盘扩容后 SMBus Host controller not enabled 报错问题解决 Python NetworkX 教程 Docker GPU 报错 - Failed to initialize NVML Unknown Error 解决方案 Python matplotlib 图表绘制 cuda-toolkit 安装替代 Cuda 与 Cudnn Jinja2 Python 利用 docxtpl 和 Jinja2 生成基于模板的 Word 文档 Docker 实现 CPU 核心隔离 LoFTR 基于 Transformer 的特征提取匹配算法 OmniGlue 特征匹配 SuperGlue 使用图神经网络学习特征匹配 Ubuntu 下将 xlsx 文件按照 sheet 转换为 图片 Python 使用 SQLAlchemy Python FastAPI 教程 openwrt 软路由配置安装 Nav2 地图文件(PGM/YAML)规范标准 3D OBJ 模型转换为 glb 瓦片格式 Python 源码 Redis 数据库介绍 Ubuntu 22.04 内核自动升级导致 MongoDB 7.0.12 错误记录 ubuntu 20.04 安装 ROS Noetic ubuntu 18.04 安装 ROS Melodic VMware Workstation Pro 个人免费版下载、安装、使用指南 Hybrid A-star 路径规划 Reeds-Shepp 曲线 Dubins 曲线 Linux kvm 虚拟机网络不通的问题解决方法 Ubuntu 自动内存清理 BiliBili 缓存视频转 mp4 Python 求解线性规划 3D Gaussian Splatting 官方源码实践记录 ImageMagick 教程 Ubuntu 22.04 安装 Colmap 对数几率 odds Ubuntu nmcli 网络管理工具使用指南 SuperPoint 自监督深度学习特征点提取 SyncTV Music Tag Web 在线音乐信息整理工具 ncm 格式转 mp3 MusicBrainz 音乐元数据百科数据库 Ubuntu 网络流量监控工具 私人云音乐平台 Navidrome 入门 手眼标定 四元数(Quaternions) OHTTPS 实现免费自动 https 证书申请、更新、部署 ubuntu 22.04 安装 CloudCompare 单机 KVM 虚拟机冷迁移 Ubuntu 22.04 使用 mdadm 实现软 raid 小鱼 一键安装 ROS-humble Fluid -46- 基于 Simpletex API 构建公式识别页面 公式识别 API 简介 -- Simpletex 使用 Python web 部署库 waitress 3D Gaussian Splatting for Real-Time Radiance Field Rendering Ubuntu Swap 简介与空间扩展 Ubuntu 24.04 安装 forticlient Clash Verge 使用 MongoDB 7.0.17 集群 Docker 构建源码 Error code - 2013. Lost connection to MySQL server during query 问题解决 Python 日志记录库 loguru 使用指北 Python 实现 Web 日志查看服务 MySQL LOAD DATA LOCAL INFILE 极速数据加载 Image size exceeds limit of 89478485 pixels 解决方案 Docker 使用 NVIDIA GPU 驱动错误解决 阿里云 docker 镜像仓库 Ubuntu中没有wired connected的解决方案 MinIO 简介 subconverter 代理订阅格式转换 修复 node –openssl-legacy-provider is not allowed in NODE_OPTIONS 错误
结构相似性损失 SSIM (structural similarity)
Yiwei Zhang · 2023-12-19 · via 又见苍岚

结构相似性指标(structural similarity index,SSIM index)是一种用以衡量两张数位影像相似程度的指标,本文记录相关内容。

简介

结构相似性指标(structural similarity index,SSIM index)是一种用以衡量两张数位影像相似程度的指标。当两张影像其中一张为无失真影像,另一张为失真后的影像,二者的结构相似性可以看成是失真影像的影像品质衡量指标。相较于传统所使用的影像品质衡量指标,像是峰值信噪比(PSNR),结构相似性在影像品质的衡量上更能符合人眼对影像品质的判断。

结构相似性的基本观念为自然影像是高度结构化的,亦即在自然影像中相邻像素之间有很强的关联性,而这样的关联性承载了场景中物体的结构资讯。人类视觉系统在观看影像时已经很习惯抽取这样的结构性资讯。因此,在设计影像品质衡量指标用以衡量影像失真程度时,结构性失真的衡量是很重要的一环。

定义

给定两个信号 $x$ 和 $y$,两者的结构相似性定义为:

$$ \begin{aligned} &\mathrm{SSIM}(\mathbf{x},\mathbf{y})=[l(\mathbf{x},\mathbf{y})]^{\alpha}[c(\mathbf{x},\mathbf{y})]^{\beta}[s(\mathbf{x},\mathbf{y})]^{\gamma}, \\ &l(\mathbf{x},\mathbf{y})={\frac{2\mu_{x}\mu_{y}+C_{1}}{\mu_{x}^{2}+\mu_{y}^{2}+C_{1}}},c(\mathbf{x},\mathbf{y})={\frac{2\sigma_{x}\sigma_{y}+C_{2}}{\sigma_{x}^{2}+\sigma_{y}^{2}+C_{2}}},s(\mathbf{x},\mathbf{y})={\frac{\sigma_{xy}+C_{3}}{\sigma_{x}\sigma_{y}+C_{3}}}。 \end{aligned} $$

其中,$l(\mathbf{x},\mathbf{y})$比较$\mathbf{x}$和$\mathbf{y}$的亮度,$c(\mathbf{x},\mathbf{y})$比较$\mathbf{x}$和$\mathbf{y}$的对比度,$s(\mathbf{x},\mathbf{y})$比较$\mathbf{x}$和$\mathbf{y}$的结构 (structure) , $\alpha>0,\quad\beta>0,\quad\gamma>0$, 为调整$l(\mathbf{x},\mathbf{y})$、$c(\mathbf{x},\mathbf{y})$、$s(\mathbf{x},\mathbf{y})$相对重要性的参数,$\mu_x$ 及$\mu_y$、$\sigma_x$ 及$\sigma_y$分别为x和y的平均值和标准差,$\sigma_{xy}$为x和y的协方差,$C_1$、$C_2$、$C_3$皆为常数,用以维持$l(\mathbf{x},\mathbf{y})$、$c(\mathbf{x},\mathbf{y})$、$s(\mathbf{x},\mathbf{y})$的稳定。

结构相似性指标的值越大,代表两个信号的相似性越高。试想,若使用全等的两张图片去做SSIM运算,也就是说$\mu_x=\mu_y$且$\sigma_x=\sigma_y$,如此一来:

$$ \mathrm{SSIM}(\mathbf{x},\mathbf{x})=\frac{2\mu_x^2+C_1}{\mu_x^2+\mu_x^2+C_1}\times\frac{2\sigma_x^2+C_2}{\sigma_x^2+\sigma_x^2+C_2}\times\frac{\sigma_{xx}+C_3}{\sigma_x\sigma_x+C_3}=1 $$

性质

  • 对称性

$$
\mathrm{SSIM}(\mathbf{x},\mathbf{y})=\mathrm{SSIM}(\mathbf{y},\mathbf{x})。
$$

  • 局限性

结构相似性指标的最大值为1,亦即
$$
\forall\mathbf{x},\mathbf{y},\mathrm{SSIM}(\mathbf{x},\mathbf{y})\leq1,
$$

  • 单一最大值

当衡量的两个信号完全相同时,若且唯若结构相似性指标的值为1。

使用

实际使用时,一般会将参数设为 $\alpha=\beta=\gamma=1\text{及}C_3=C_2/2,$ 得到:

$$ \mathrm{SSIM}(\mathbf{x},\mathbf{y})=\frac{(2\mu_x\mu_y+C_1)(2\sigma_{xy}+C_2)}{(\mu_x^2+\mu_y^2+C_1)(\sigma_x^2+\sigma_y^2+C_2)} $$

在计算两张影像的结构相似性指标时,会开一个局部性的视窗,一般为 $N \times N$ 的小区块,计算出视窗内信号的结构相似性指标,每次以像素为单位移动视窗,直到整张影像每个位置的局部结构相似性指标都计算完毕。将全部的局部结构相似性指标平均起来即为两张影像的结构相似性指标。

比较

一般认为,结构相似度指标比均方误差(MS)更适合用来判断两张图像的相似度,原因是结构相似性指标同时考虑图片亮度、对比与结构资讯,这跟人类的视觉系统的判断基准较为接近。MSE只考虑两张图片的平均亮度误差而不考虑结构化的资讯,所以当图片有些微的亮度改变时,MSE改变会很剧烈,但小亮度改变并不会造成人类把两张图片判断成完全不同。

另外一种计算相似度的方法是使用正规化均方根误差(NRMSE),NRMSE是基于MSE的公式,再除上其中一张图像的亮度,这样的处理使得NRMSE对于整体亮度变化比较不敏感,并且让数值落在比较受限的范围内以便于比较,然而NRMSE没有考虑结构化资讯的问题依旧存在。

测试

下面使用了五张照片做实验,辅助说明:

  • Image A:原图
  • Image B:(Image A * 0.5) + 128
  • Image C:255 - Image A
  • Image D:Image A 叠加影子后的结果
  • Image E:对照组

对人类的视觉系统来说,Image A、B、C、D 是一群较为相似的图片,Image E 则是与其他图片毫无相关。

这里是使用Image A跟其他图片进行相似度的比较,一共使用三种方法:均方误差(MSE)、正规化方均根差(NRMSE)、结构相似度指标(SSIM)。

A B C D E
MSE 0.000 4443.170 7214.947 5445.344 4592.340
NRMSE 0.000 0.489 0.623 0.541 0.497
SSIM 1.000 0.744 -0.909 0.713 0.047

然而在上述的比较实验可以发现,只有结构相似度指标能够正确反映这个关联,结构相似性指标在Image B、C、D之中都得到了较高的相似度(其中Image C为负相关),而唯有Image E得到了接近零的相似度。这代表使用结构相似性指标能够知道Image A、B、C、D之间很相似,而Image E跟其他图片不相似。反之,MSE与NRMSE皆无法在结果上反映出Image E与其他图片的差别。

限制

结构相似性指标有其限制,对于影像出现位移、缩放、旋转(皆属于非结构性的失真)的情况无法有效的运作。为解决此问题,另已发展出在小波域进行运算的结构相似性指标,称作复小波结构相似性指标(complex wavelet SSIM,CW-SSIM)。

当图片出现平移、旋转或是缩放时,结构相似度指标会改变得十分剧烈,并很容易将两张类似的图片视为不相似的。原因与在计算SSIM时所使用的局部性视窗有关,平移、旋转或是缩放都会导致视窗内的像素结构完全改变,使SSIM无法正确估计相似度。

测试

下面的实验是使用Image A 跟Image F、G、H计算相似度

  • Image F: Image A 往右平移30像素
  • Image G: Image A 逆时针旋转30度
  • Image H: Image A 长宽各缩短6.25%

可以看到Image A仅向右移30像素就导致了两张图片前后的SSIM为0.11,上述实验足以说明结构相似性指标的确对这些操作很敏感,要解决这类的问题可以使用复小波结构相似性。

变形

多尺度结构相似性

多尺度结构相似性(multi-scale SSIM,MS-SSIM)尝试去解决结构相似度里面,依赖特定大小的视窗进行计算的问题,因为如果输入的图片的解析度不同,使用者往往需要更改结构相似性的参数,才能得到较合理的结果。多尺度结构相似性,则是把输入图片经过若干次的低通滤波器与两倍下采样,每次下采样之后都计算一次结构相似度。最后的结果会同时考量所有不同尺寸的图片计算出的结构相似性,由此达到指标能自适应不同解析度的图片的目的。Multi-Scale SSIM Complex Wavelet SSIM 或是 CW-SSIM的作者认为MS-SSIM能得到比SSIM相等或是更好的评量结果。

结构相异性

结构相异性(structural dissimilarity,DSSIM)正好是结构相似性的相反。当两张图片相等时,结构相异性为0。反之当两张图片很不相似时,结构相异性可以趋近无限大。
$$
\mathrm{DSSIM}(x,y)=\frac{1-\mathrm{SSIM}(x,y)}2
$$

复小波结构相似性

结构相似性虽然能大致符合人类的视觉系统的感受,但若图片遇到几何上的转换,例如平移、旋转与缩放时,结构相似性会无法正确描述两张图片的相似程度。因此复小波结构相似性(complex wavelet SSIM,CW-SSIM)针对了这个问题进行了改良,CW-SSIM的作者[8]认为与其使用亮度(magnitude)进行比较,不如用相位来进行比较较具有代表性,因此CW-SSIM会在复小波域中计算区域性的相位,并用相位的差异来计算相似性,公式如下:

$$ \text{CW-SSIM}(c_x,c_y)=\left(\frac{2\sum_{i=1}^N|c_{x,i}||c_{y,i}|+K}{\sum_{i=1}^N|c_{x,i}|^2+\sum_{i=1}^N|c_{y,i}|^2+K}\right)\left(\frac{2|\sum_{i=1}^Nc_{x,i}c_{y,i}^*|+K}{2\sum_{i=1}^N|c_{x,i}c_{y,i}^*|+K}\right) $$

其中$c_x$ 是复小波转换后的$x$信号,而$c_{y}$是复小波转换后的$y$信号,另外$K$是用于稳定数值的一个常数如同结构相似性,CW-SSIM的最大值为1, 但是不同于结构相似性,CW-SSIM的最小值为0。

参考资料

文章链接:
https://www.zywvvd.com/notes/study/deep-learning/loss/ssim/ssim/