惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

爱范儿
爱范儿
Security Latest
Security Latest
NISL@THU
NISL@THU
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
C
Cybersecurity and Infrastructure Security Agency CISA
Cloudbric
Cloudbric
T
Threat Research - Cisco Blogs
大猫的无限游戏
大猫的无限游戏
C
CXSECURITY Database RSS Feed - CXSecurity.com
阮一峰的网络日志
阮一峰的网络日志
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
雷峰网
雷峰网
C
Cisco Blogs
V
Vulnerabilities – Threatpost
S
Security Archives - TechRepublic
V
Visual Studio Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
J
Java Code Geeks
D
Darknet – Hacking Tools, Hacker News & Cyber Security
Know Your Adversary
Know Your Adversary
博客园 - 叶小钗
腾讯CDC
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
P
Privacy International News Feed
P
Palo Alto Networks Blog
博客园_首页
V
V2EX
WordPress大学
WordPress大学
Schneier on Security
Schneier on Security
月光博客
月光博客
博客园 - 司徒正美
Google DeepMind News
Google DeepMind News
TaoSecurity Blog
TaoSecurity Blog
博客园 - 聂微东
酷 壳 – CoolShell
酷 壳 – CoolShell
人人都是产品经理
人人都是产品经理
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
博客园 - 【当耐特】
The Cloudflare Blog
罗磊的独立博客
美团技术团队
N
News | PayPal Newsroom
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Last Week in AI
Last Week in AI
K
Kaspersky official blog
Google Online Security Blog
Google Online Security Blog
S
SegmentFault 最新的问题
Application and Cybersecurity Blog
Application and Cybersecurity Blog
T
Tailwind CSS Blog

又见苍岚

COLMAP PatchMatch Stereo 算法详解 事件驱动的状态机框架:从理论到工程实践 Git 在国内网络环境下无法 Push 的排查与修复 —— 配置 Clash 代理 分段五次多项式插值原理详解 路径插值方法深度对比研究 Claude Code 使用指南 OpenClaw 记忆管理与技能创建指南 CBS(Conflict-Based Search)算法详解 A* 算法及其变种详解 OpenClaw 配置多 Agents Windows Powershell 无法加载文件,因为在此系统上禁止运行脚本问题的解决方案 MaxClaw 安装流程 大模型 AI 名词介绍 AList 网盘聚合工具简介 Protobuf 简介与测试 Claude Code 简介以及 GLM 4.7 模型接入 Github 歌词下载工具 163MusicLyrics Python __getattr__ 懒加载 Python TypedDict 机器人仿真平台 Gazebo 安装记录 机器人仿真平台 Gazebo 简介 多机器人路径规划问题(Multi-Agent Path Finding, MAPF)简介 Python exifread 读取修改过的 jpeg 信息错误问题修复 3D 坐标系变换的理解 3D 旋转矩阵基本概念 MongoDB Compass 介绍 Python 环境管理工具 uv Flutter 开发指南 Snipaste 安装下载与黑屏问题解决方案 全局路径规划算法记录 2025 Python 版本性能测试 Flutter Hello World Flutter 安装环境配置 Ubuntu VMware 硬盘扩容后 SMBus Host controller not enabled 报错问题解决 Python NetworkX 教程 Docker GPU 报错 - Failed to initialize NVML Unknown Error 解决方案 Python matplotlib 图表绘制 cuda-toolkit 安装替代 Cuda 与 Cudnn Jinja2 Python 利用 docxtpl 和 Jinja2 生成基于模板的 Word 文档 Docker 实现 CPU 核心隔离 LoFTR 基于 Transformer 的特征提取匹配算法 OmniGlue 特征匹配 SuperGlue 使用图神经网络学习特征匹配 Ubuntu 下将 xlsx 文件按照 sheet 转换为 图片 Python 使用 SQLAlchemy Python FastAPI 教程 openwrt 软路由配置安装 Nav2 地图文件(PGM/YAML)规范标准 3D OBJ 模型转换为 glb 瓦片格式 Python 源码 Redis 数据库介绍 Ubuntu 22.04 内核自动升级导致 MongoDB 7.0.12 错误记录 ubuntu 20.04 安装 ROS Noetic ubuntu 18.04 安装 ROS Melodic VMware Workstation Pro 个人免费版下载、安装、使用指南 Hybrid A-star 路径规划 Reeds-Shepp 曲线 Dubins 曲线 Linux kvm 虚拟机网络不通的问题解决方法 Ubuntu 自动内存清理 BiliBili 缓存视频转 mp4 Python 求解线性规划 3D Gaussian Splatting 官方源码实践记录 ImageMagick 教程 Ubuntu 22.04 安装 Colmap 对数几率 odds Ubuntu nmcli 网络管理工具使用指南 SuperPoint 自监督深度学习特征点提取 SyncTV Music Tag Web 在线音乐信息整理工具 ncm 格式转 mp3 MusicBrainz 音乐元数据百科数据库 Ubuntu 网络流量监控工具 私人云音乐平台 Navidrome 入门 手眼标定 四元数(Quaternions) OHTTPS 实现免费自动 https 证书申请、更新、部署 ubuntu 22.04 安装 CloudCompare 单机 KVM 虚拟机冷迁移 Ubuntu 22.04 使用 mdadm 实现软 raid 小鱼 一键安装 ROS-humble Fluid -46- 基于 Simpletex API 构建公式识别页面 公式识别 API 简介 -- Simpletex 使用 Python web 部署库 waitress 3D Gaussian Splatting for Real-Time Radiance Field Rendering Ubuntu Swap 简介与空间扩展 Ubuntu 24.04 安装 forticlient Clash Verge 使用 MongoDB 7.0.17 集群 Docker 构建源码 Error code - 2013. Lost connection to MySQL server during query 问题解决 Python 日志记录库 loguru 使用指北 Python 实现 Web 日志查看服务 MySQL LOAD DATA LOCAL INFILE 极速数据加载 Image size exceeds limit of 89478485 pixels 解决方案 Docker 使用 NVIDIA GPU 驱动错误解决 阿里云 docker 镜像仓库 Ubuntu中没有wired connected的解决方案 MinIO 简介 subconverter 代理订阅格式转换 修复 node –openssl-legacy-provider is not allowed in NODE_OPTIONS 错误
音频基础知识
Yiwei Zhang · 2023-05-17 · via 又见苍岚

之前对图像接触比较多,心血来潮学习一下音频知识(诶嘿)。

前言

现实生活中,我们听到的声音都是时间连续的,我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。

音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程,我们人耳所能听到的声音频率范围为(20Hz~20KHz),因此音频文件格式的最大带宽是20KHZ

根据奈奎斯特的理论,音频文件的采样率一般在40~50KHZ之间。

奈奎斯特采样定律,又称香农采样定律,即:为了不失真地恢复模拟信号,采样频率应该大于等于模拟信号频谱中最高频率的2倍。

声音

声音的本质是一种能量波,由振动而产生的能量波,通过传输介质传输出去。

声音的属性

声音有三个属性:音调、音量、音色,但表示声波用的是一维信号,这个信号如何表示这三个属性?

  • 音调:声音频率的高低,表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定,同时也与声音强度有关。
  • 音量:由“振幅”(amplitude)和人离声源的距离决定,振幅越大响度越大
  • 音色:又称声音的品质,波形决定了声音的音色。

波长决定音调高低;

振幅决定音量高低;

波纹决定音色。

PCM

PCM(Pulse Code Modulation),即脉冲编码调制技术。

由于我们人耳听到的声音均为模拟信号,那么我们如何将听到的信息存储起来呢?这就涉及到了PCM技术。

PCM技术就是把声音从模拟信号转化为数字信号的技术,即对声音进行采样、量化的过程,经过PCM处理后的数据,是最原始的音频数据,即未对音频数据进行任何的编码和压缩处理。

原理

脉冲编码调制就是把一个时间连续,取值连续的模拟信号变换成时间离散,取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样,再对样值幅度量化,编码的过程。

简化来说:PCM脉冲编码调制,以一个固定的频率对模拟信号进行采样,并将采样的信号按照一定精度进行量化,最终量化后的值被输出,记录到存储介质中。

  • 原始模拟音频数据如下

  • 按照固定频率进行采样,得到

  • 最后,对采样后的数据选择合适精度进行量化

采样

是指把物理信号转化为数字信号的过程。

采样频率

单位时间内对模拟信号的采样次数,它用赫兹(Hz)来表示。采样频率越高,声音的还原就越真实越自然,当然数据量就越大。

形象来说,采样频率是指将模拟信号转换成数字信号时的采样频率,也就是单位时间内采样多少点。

拿声音来说,采样频率可以是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准。采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的样本数据就越多,对信号波形的表示也越精确。

采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。

频率概念理解
频率 日常概念
5kHz 仅能达到人们讲话的声音质量。
11kHz 播放小段声音的最低标准,是CD音质的四分之一。
22kHz CD音质的一半,目前大多数网站都选用这样的采样率。
44kHz 标准的CD音质,可以达到很好的听觉效果。
48kHz miniDV、数字电视、DVD、电影和专业音频。

采样位数

采样位数(Sample Bits):又称为采样精度,量化级,也相当于每个采样点所能被表示的数据范围。

采样位数通常有8bits或16bits两种,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。

8bits为低品质,16bits为高品质,16bits最为常见。

声道数

声道数(Channels):又称为通道数,指的是:能支持不同发声的音响个数,它是衡量音响设备的重要指标之一。

单声道的声道数为1个声道;

双声道的声道数为2个声道;

立体声道的声道数默认为2个声道;

立体声道(4声道)的声道数为4个声道。

比特率

比特率是指将模拟信号转化为数字信号后,单位时间内的二进制数据量,是衡量音视频质量的指标之一。单位为比特每秒(bps或者bit/s)。

单位时间内比特率越大,精度就越高,处理出来的文件就越接近原始文件,音视频文件的质量也越高。

1
2
3
1000 bit/s = 1 kbit/s (一千位每秒)
1000 kbit/s = 1 Mbit/s (一兆或一百万位每秒)
1000 Mbit/s = 1 Gbit/s (一吉比特或十亿位每秒)

拿声音来说,能够分辨语音的最低比特率为800bps,通话质量一般来说是8kbps, FM广播一般是96kbps, MP3文件范围在8-320kbps之间(一般为128kpbs), 16位CD一般为 1411kbps。

音频比特率计算公式:
$$
【比特率】(kbps)=【量化采样点】(kHz)×【位深】(bit/采样点)×【声道数量】(一般为2)
$$

在视频中,比特率又常被称为码率。16kbps为可视电话质量,128-384kpbs为商用视频会议质量,VCD一般为1.25Mbps,DVD为5Mkpbs,蓝光光碟为40Mbps。

计算公式为:【码率】(kbps)=【文件大小】(KB) * 8 / 【时间】(秒)。

比如一部1G的电影,时长60分钟,那么它的码率则为 1 x 1024 x 1024 x 8 / 3600 = 2300Kbps/s。

例如:

如果是CD音质,采样率44.1KHz,采样位数16bit,立体声(双声道)
$$
码率 = 44.1 * 1000 * 16 * 2 = 1411200bps = 176400Bps
$$
那么录制一分钟的音乐, 文件大小大概:
$$
176400 * 1 * 60 / 1024 / 1024 =10.09MB
$$

音频数据大小计算

知道上面几个概念,我们就能够计算出来一个原始的音频文件所占用空间大小了。
$$
空间大小 ( Byte )= 采样频率 (h z) * 时长 (s) * 采样位数 (b i t) * 声道数 / 8
$$

量化

量化: 量化就是通过四舍五入的方法将采样后的模拟信号转换成一种数字信号的过程。

  • 对于采样来说,就是在时间轴上对信号数字化;

  • 对于量化来说,就是在幅度轴上对信号数字化

通过采样时测的的模拟电压值,要进行分级量化,按整个电压变化的最大幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值。

压缩

PCM数据是最原始的音频数据,完全无损,所以PCM数据虽然音质优秀但体积庞大,为了解决这个问题先后诞生了一系列的音频格式,这些音频格式运用不同的方法对音频数据进行压缩,其中有无损压缩和有损压缩两种。

  • 无损压缩:将数据压缩之后,通过解码还能还原成与原始数据一模一样的数据为无损压缩。

    • ALAC、APE、FLAC
  • 有损压缩:消除冗余信息,如人耳能听到的声音为 20Hz - 20000Hz 以内,所以可以将此范围外的声音去除掉。

    • MP3、AAC、OGG、WMA

其他相关概念

概念 含义
帧(Frame) 声音的基本数据单元,其长度为采样位数和通道数的乘积。
周期(Period Size) 音频设备一次处理所需要的帧数,对于音频设备的数据访问以及音频数据的存储,都是以此为单位。硬件缓冲传输单位,即完成这么多采样帧的传输,就会回馈一个中断。
Buffer Bytes 一个应用Buffer有多少个字节,DMA缓冲区大小。
Sign 表示样本数据是否是有符号位。
Byte Ordering 字节序,表明数据是小端(little-endian)存储还是大端(big-endian)存储,通常均为little-endian。
nteger Or Floating Point 整形或者浮点型,大多数格式的PCM样本数据使用整形表示。
交错模式 数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录第一帧的左声道样本和右声道样本,再开始第2帧的记录。
非交错模式 首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。
音频帧 音频数据是流式的,本身没有明确的一帧帧的概念,在实际的应用中,为了音频算法处理/传输的方便,一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。

因为Buffer Size由应用设置,其可大可小,若其太大,则传输的延时太大,所以对此进行分片,提出Period的概念。overrun,录制时,数据都满了,应用来不及取走;underrun,需要数据来播放,应用来不及写入数据

以FFmpeg中常见的PCM数据格式 s16le 为例:它描述的是有符号16位小端PCM数据。

s表示有符号,16表示位深,le表示小端存储。

参考资料

文章链接:
https://www.zywvvd.com/notes/study/audio/audio-basics/audio-basics/