声纹识别 ECAPA-TDNN

又见苍岚

COLMAP PatchMatch Stereo 算法详解事件驱动的状态机框架：从理论到工程实践 Git 在国内网络环境下无法 Push 的排查与修复 —— 配置 Clash 代理分段五次多项式插值原理详解路径插值方法深度对比研究 Claude Code 使用指南 OpenClaw 记忆管理与技能创建指南 CBS(Conflict-Based Search)算法详解 A* 算法及其变种详解 OpenClaw 配置多 Agents Windows Powershell 无法加载文件，因为在此系统上禁止运行脚本问题的解决方案 MaxClaw 安装流程大模型 AI 名词介绍 AList 网盘聚合工具简介 Protobuf 简介与测试 Claude Code 简介以及 GLM 4.7 模型接入 Github 歌词下载工具 163MusicLyrics Python __getattr__ 懒加载 Python TypedDict 机器人仿真平台 Gazebo 安装记录机器人仿真平台 Gazebo 简介多机器人路径规划问题(Multi-Agent Path Finding, MAPF)简介 Python exifread 读取修改过的 jpeg 信息错误问题修复 3D 坐标系变换的理解 3D 旋转矩阵基本概念 MongoDB Compass 介绍 Python 环境管理工具 uv Flutter 开发指南 Snipaste 安装下载与黑屏问题解决方案全局路径规划算法记录 2025 Python 版本性能测试 Flutter Hello World Flutter 安装环境配置 Ubuntu VMware 硬盘扩容后 SMBus Host controller not enabled 报错问题解决 Python NetworkX 教程 Docker GPU 报错 - Failed to initialize NVML Unknown Error 解决方案 Python matplotlib 图表绘制 cuda-toolkit 安装替代 Cuda 与 Cudnn Jinja2 Python 利用 docxtpl 和 Jinja2 生成基于模板的 Word 文档 Docker 实现 CPU 核心隔离 LoFTR 基于 Transformer 的特征提取匹配算法 OmniGlue 特征匹配 SuperGlue 使用图神经网络学习特征匹配 Ubuntu 下将 xlsx 文件按照 sheet 转换为图片 Python 使用 SQLAlchemy Python FastAPI 教程 openwrt 软路由配置安装 Nav2 地图文件（PGM/YAML）规范标准 3D OBJ 模型转换为 glb 瓦片格式 Python 源码 Redis 数据库介绍 Ubuntu 22.04 内核自动升级导致 MongoDB 7.0.12 错误记录 ubuntu 20.04 安装 ROS Noetic ubuntu 18.04 安装 ROS Melodic VMware Workstation Pro 个人免费版下载、安装、使用指南 Hybrid A-star 路径规划 Reeds-Shepp 曲线 Dubins 曲线 Linux kvm 虚拟机网络不通的问题解决方法 Ubuntu 自动内存清理 BiliBili 缓存视频转 mp4 Python 求解线性规划 3D Gaussian Splatting 官方源码实践记录 ImageMagick 教程 Ubuntu 22.04 安装 Colmap 对数几率 odds Ubuntu nmcli 网络管理工具使用指南 SuperPoint 自监督深度学习特征点提取 SyncTV Music Tag Web 在线音乐信息整理工具 ncm 格式转 mp3 MusicBrainz 音乐元数据百科数据库 Ubuntu 网络流量监控工具私人云音乐平台 Navidrome 入门手眼标定四元数（Quaternions） OHTTPS 实现免费自动 https 证书申请、更新、部署 ubuntu 22.04 安装 CloudCompare 单机 KVM 虚拟机冷迁移 Ubuntu 22.04 使用 mdadm 实现软 raid 小鱼一键安装 ROS-humble Fluid -46- 基于 Simpletex API 构建公式识别页面公式识别 API 简介 -- Simpletex 使用 Python web 部署库 waitress 3D Gaussian Splatting for Real-Time Radiance Field Rendering Ubuntu Swap 简介与空间扩展 Ubuntu 24.04 安装 forticlient Clash Verge 使用 MongoDB 7.0.17 集群 Docker 构建源码 Error code - 2013. Lost connection to MySQL server during query 问题解决 Python 日志记录库 loguru 使用指北 Python 实现 Web 日志查看服务 MySQL LOAD DATA LOCAL INFILE 极速数据加载 Image size exceeds limit of 89478485 pixels 解决方案 Docker 使用 NVIDIA GPU 驱动错误解决阿里云 docker 镜像仓库 Ubuntu中没有wired connected的解决方案 MinIO 简介 subconverter 代理订阅格式转换修复 node –openssl-legacy-provider is not allowed in NODE_OPTIONS 错误

声纹识别 ECAPA-TDNN

Yiwei Zhang · 2023-06-26 · via 又见苍岚

声纹识别是指利用声音特征对说话人的身份进行识别的生物识别技术，已有几十年的发展历史，但直到深度学习兴起之后才开始广泛应用。本文记录当前主流声纹模型 ECAPA-TDNN。

简介

ECAPA-TDNN由比利时哥特大学Desplanques等人于2020年提出，通过引入SE (squeeze-excitation)模块以及通道注意机制，该方案在国际声纹识别比赛（VoxSRC2020）中取得了第一名的成绩。百度旗下PaddleSpeech发布的开源声纹识别系统中就利用了ECAPA-TDNN提取声纹特征，识别等错误率（EER）低至0.95%。

Baseline

两种基于DNN的说话人识别系统将作为衡量ECAPA-TDNN模型性能的有力baseline：一种是x-vector系统，另一种是基于ResNet的系统，这两种系统目前都在VoxSRC等说话人验证任务上达到了最先进水平。

x-vector

x-vector包含多层帧级别的TDNN层，一个统计池化层和两层句子级别的全连接层，以及一层softmax，损失函数为交叉熵。得益于网络中的统计池化层，x-vector可以接受任意长度的输入，并将帧级别的特征融合成整句的特征。此外，在训练中引入了包含噪声和混响在内的数据增强策略，使得模型对于噪声和混响等干扰更加鲁棒。

x-vector模型结构

扩展的 TDNN x-vector 体系结构，它改进了原始 x-vector系统。初始帧层由一维空洞卷积层和全连接层交叉而成。每个过滤器都可以访问前一层或输入层的所有特征。空洞卷积层的任务是逐渐建立时间上下文。在所有框架层中引入残差连接。框架层之后是一个仔细的统计数据池化层，用于计算最终帧级特征的平均值和标准差。在统计池化层使用注意力机制，如下图所示，给不同的帧不同的权重，并且同时生成加权平均数、加权标准差。在这种方式下，它可以有效地捕获到更长期的说话人特征变化。在统计池化层之后，引入两个全连接层，第一层作为瓶颈层（1x1的卷积层），生成低维说话人特征嵌入。

用于提取话语级说话人特征的DNNs

基于ResNet的r-vector

第二个基线系统是文献中提出的r-vector（从ResNet中提取的嵌入）。它由基于ResNet架构的ResNet18和ResNet34实现。ResNet采用残差块来简化比以往深很多的网络的训练，对每几个堆叠的层做依次残差学习，在特征相加时维度相等的情况下，即恒等映射时，一个残差块被定义为：
$$
y=F(x,{W_i})+x
$$
其中x和y是所考虑的层的输入和输出向量。函数 $F(x,{W_i})$ 表示要学习的残差映射。如果该条件不满足（比如，通道数不同）的话，我们还可以对输入执行一个线性投影 $W_s$ 来匹配二者的维度，如下：
$$
y=F(x,{W_i})+W_sx
$$
该网络的卷积帧层使用二维特征作为输入，并使用二维CNN对其进行处理，受x-vector向量拓扑的启发，在池化层中收集平均值和标准差统计信息，使用的ResNet的详细拓扑如下图所示。总之，不论网络的深浅，使用残差学习总是有好处的：浅时能够加快收敛，深时可以解决退化问题，使求解器找到较好的解。

ResNet34的架构

论文核心技巧

针对目前基于x-vector的声纹识别系统中的一些优缺点，论文从以下3个方面进行了改进：

依赖于通道和上下文的统计池化

在最近的x-vector架构中，软自注意力（soft-attention）用于计算时序池化层中的加权统计信息，可以在不同的帧集上提取特定的说话人属性。基于此，论文将这种时间注意力机制扩展到通道维度：

$$ e_{t, c}=\boldsymbol{v}_{c}^{T} f\left(\boldsymbol{W} \boldsymbol{h}_{t}+\boldsymbol{b}\right)+k_{c} $$

式中，$ℎ_t$ 是时间步长 $t$ 处最后一个帧层的激活，参数W和b将注意力信息投影到一个较小的R维表示中，这一表征由所有C个通道共享以减小过拟合的风险。通过非线性函数f(.)之后，该信息通过带权重的线性层$v_c$和偏置$k_c$转换为通道相关的自注意力分数$e_{t,c}$，再通过时域t上的softmax函数进行归一化得到注意力权重$α_{t,c}$：
$$
\alpha_{t, c}=\frac{\exp \left(e_{t, c}\right)}{\sum_{\tau}^{T} \exp \left(e_{\tau, c}\right)}
$$

自注意力得分$α_{t,c}$代表了给定通道 $c4$ 内每一帧的重要性，并用于计算通道 $c$ 的加权统计信息。对于每一条语音，每个通道的平均向量 $\tilde{\mu}_{c}$和标准差向量 $\tilde{\sigma}_{c}$ 估计为： $$ \tilde{\mu}_{c}=\sum_{t}^{T} \alpha_{t, c} h_{t, c} $$ $$ \tilde{\sigma}_{c}=\sqrt{\sum_{t}^{T} \alpha_{t, c} h_{t, c}^{2}-\tilde{\mu}_{c}^{2}} $$ 池化层的最终输出是各通道的加权平均向量μ~以及加权标准差向量 $\tilde{\sigma}_{c}$。

一维Squeeze-Excitation（挤压激励模块）Res2Blocks

在x-vector系统中帧层的时间上下文限制为15帧，无法利用更大范围的时序上下文以提高性能。考虑到语音数据的长时关联性，论文引入了计算机视觉领域中的一维挤压激励（SE）模块，该模块能有效建模全局通道的相关性。

SE的第一个组件是挤压操作，它为每个通道生成描述符，挤压操作仅包括计算跨时域的帧级特征的平均向量z：

$$ \boldsymbol{z}=\frac{1}{T} \sum_{t}^{T} \boldsymbol{h}_{t} $$

然后在激励操作中使用z中的描述符来计算每个通道的权重。论文将激励操作定义为:

$$ \boldsymbol{s}=\sigma\left(\boldsymbol{W}_{2} f\left(\boldsymbol{W}_{1} \boldsymbol{z}+\boldsymbol{b}_{1}\right)+\boldsymbol{b}_{2}\right) $$

此操作充当瓶颈层，得到的向量s是介于0和1之间的权重sc，这些权重在每个通道计算后与原始输入相乘后得到估计的输出 $\tilde{\boldsymbol{h}}_{c}$： $$ \tilde{\boldsymbol{h}}_{c}=s_{c} \boldsymbol{h}_{c} $$

为了将SE模块与残差连接的优点结合起来，论文提出了如下图所示的 SE-Res2Block架构：

SE-Res2Block的内部结构

SE-Res2Block包含具有前一层和后一个层上下文为1帧的空洞卷积，第一个层可用于降低特征维度，而第二个密集层将特征数量恢复到原始维度，然后用SE模块来缩放每个通道，整个单元使用一个跳跃连接。

ResBlock是一种流行的计算机视觉体系结构，关于它有许多改进的工作，使用ResBlock让系统可以轻松地整合改进的模块，性能更优。例如，最近的Res2Net模块增强了中央卷积层，因此它可以通过在内部构造层次化的类残差连接来处理多尺度特征。此模块的集成提高了性能，同时显著减少了模型参数的数量。

多层特征聚合及求和

原始的 x 向量系统仅使用最后一帧层的特征映射来计算池化统计信息。鉴于TDNN的分层性质，这些更深层次的特征是最复杂的特征，应该与说话者身份密切相关。然而，根据相关文献中的证据，论文认为更浅的特征映射也有助于更稳健的说话人嵌入。对于每一帧，论文提出将所有SE-Res2Blocks的输出特征串联起来。在这个多层特征聚合(MFA)之后，一个密集层（dense layer）处理连接的信息以生成用于注意力统计池的特征。

ECAPA-TDNN整体网络结构

另一种利用多层信息的补充方法是使用所有先前SE-Res2Blocks和初始卷积层的输出作为每个帧层块的输入。论文中，通过将每个SE-Res2Block中的残差连接定义为所有先前块的输出的总和来实现这一点。这可以从算法框图中“Conv1D+ReLU(k=1,d=1)”上面的几个箭头看出。论文选择对特征图求和，而不是串联来限制模型参数计数。最终，ECAPA-TDNN的整体架构如图所示。

原始论文

开源项目

我这里推荐一个我用过的半开源项目，说他半开源是因为源码开源了，预训练模型下载需要付费，有点不舒服，但也能理解。

项目地址：https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch

使用方法

将仓库克隆到本地
下载预训练模型（付费，有条件也可以自己训练）
将模型放到 models 文件夹
替换配置文件 configs/ecapa_tdnn.yml 为你下载的模型配置文件
修改 inter_ 开头的文件运行就可以得到结果了。

示例代码

import argparse
import functoolsimport mtutils as mt
from mvector.predict import MVectorPredictor
from mvector.utils.utils import add_arguments, print_arguments
parser = argparse.ArgumentParser(description=__doc__)
add_arg = functools.partial(add_arguments, argparser=parser)
add_arg('configs',          str,    'configs/ecapa_tdnn.yml',   '配置文件')
add_arg('use_gpu',          bool,   True,                       '是否使用GPU预测')
add_arg('audio_path1',      str,    'dataset/a_1.wav',          '预测第一个音频')
add_arg('audio_path2',      str,    'dataset/b_2.wav',          '预测第二个音频')
add_arg('threshold',        float,  0.6,                        '判断是否为同一个人的阈值')
add_arg('model_path',       str,    'models/ecapa_tdnn_MelSpectrogram/best_model/', '导出的预测模型文件路径')
args = parser.parse_args()
print_arguments(args=args)
# 获取识别器
predictor = MVectorPredictor(configs=args.configs,
                             model_path=args.model_path,
                             use_gpu=args.use_gpu)
audio_path_list = mt.glob_recursively('../Yuanshen/OriginAudio/', 'wav')
audio_feature_dict = dict()
for audio_path in mt.tqdm(audio_path_list):
    file_name = mt.OS_basename(audio_path)
    temp_feature = predictor.predict(audio_path)
    assert file_name not in audio_feature_dict
    audio_feature_dict[file_name] = temp_feature
mt.json_save(audio_feature_dict, 'fea.json')

这是我使用的代码，将文件夹中所有 wav 文件循环，通过网络提取声纹特征，做成字典保存起来备用。

声纹特征 192 维。

参考资料

文章链接：
https://www.zywvvd.com/notes/study/audio/voiceprint-recognition/voiceprint-recognition/

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

又见苍岚

简介

Baseline

x-vector

基于ResNet的r-vector

论文核心技巧

依赖于通道和上下文的统计池化

一维Squeeze-Excitation（挤压激励模块）Res2Blocks

多层特征聚合及求和

原始论文

开源项目

使用方法

示例代码

参考资料