惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

博客园 - cpuimage

AIGC图像困局 深度学习优化器算法巧思速览 lora训练之偷师 大话AI绘画技术原理与算法优化 Tensorflow2 深度学习十必知 自 TensorFlow 2.6 起,修正IDE代码自动补全失效的方法 开源发丝分割数据集CelebAHairMask-HQ(国庆献礼) 博文大纲 文字渲染一探 磨皮美颜算法 附完整C代码 Windows下C,C++开发环境搭建指南 一种简单高效的音频降噪算法示例(附完整C代码) 算法踩坑小记 wav2midi 音乐旋律提取算法 附可执行demo 图像去模糊算法 循序渐进 附完整代码 音频算法之小黄人变声 附完整C代码 音频识别算法思考与阶段性小结 大话音频变声原理 附简单示例代码 c语言智能指针 附完整示例代码
音频算法之我思
cpuimage · 2018-10-24 · via 博客园 - cpuimage

很长一段时间,扎根在音频领域,各种玩耍。

渐渐上了轨道。

一切的一切仅仅因为相信自己能做好,也必须做好。

不懂就去查,去问,去找资料,去找视频。

渐渐的,我开始懂了,也慢慢有了系统性的理解。

随后经常能发散思维。

最近,

在自动增益,

音频降噪,

语速检测,

相位谱重建各个算法之间穿梭。

慢慢有所产出,有所突破。

特别是在音频降噪领域,

不能算质的飞跃,

但是确实摸到了一些规律。

而写完相位谱重建算法之后,

我也突发奇想,

相位谱既然能通过高斯分布的思路进行重建,

那是不是可以说明,

高斯分布可以用来作为音频算法的信号标准化,归一化。

这是一个值得去研究的方向,

音频信号的高斯归一化。

前面面试了一家公司的时候,

提到说音频通过能量谱可以重建相位谱,

那面试官好像认定我是傻子,

就好像觉得我是在胡扯一样。

真的懒得解释,

实操是验证真理的唯一标准。

而语速检测,

其实有点类似音乐的节拍检测,

只不过一定要去除空白帧,

因为空白从另一个角度来说,

可以认为是停顿,或者说换气。

所以语速检测的思路也可以基本确认。

而自动增益方面,

找资料的时候发现一个神奇的标准,EBU R128,

这里就不科普展开了,感兴趣的可以维基一下。

这个算法在FFMPEG里面有很详细的实现,

抠出来算法代码,直接应用,

效果不要太好。

近期,终于回到广东,

在南京接受了太多的负能量,回来之后真的有获得新生的感觉。

世界顿时和平。

相对于深度学习而言,

我还是比较坚持采用传统算法去实现降噪增益等处理,

原因也很简单,音频时效性特别重要。

采用深度学习很多时候要做大量的工作才能保证时效性了,

从软件,硬件的角度来说,音频不比图像好处理。

自然挑战也多了起来,

不过庆幸的是,

在傻逼一样的坚持之后,

不采用深度学习方案的音频降噪,

终于达到近乎可以商用的程度了。

当然最近也在思考算法的下一步优化方案。

继续验证思路,继续改良。

这里放出linux系统下的可执行文件,供大家评测。

下载地址:https://files.cnblogs.com/files/cpuimage/denoise.zip

解压后采用命令行: ./denoise sample.wav 

执行后生成降噪后的文件sample_out.wav

现在是自适应降噪强度,

降噪后自动做增益(2018.1.11移除自动增益),

后续计划加上降噪的强度控制。

噪声样本自行寻觅,

比较好找。就不提供了。

在音频这条路上,

如果我走偏了,大家记得把我拉回来。

2018.11.3 补充:

最近在看一些语音增强的算法,找点思路或者说灵感。

不知道是不是我理解有问题,

我发现一些老外做的算法,

存在一些算法逻辑上很绕的问题,

我总有种感觉,他们对傅里叶变换理解得不够深刻,

还是说数学学得不好。

昨晚上一直在理解一份java版本的音频降噪开源代码,

看得我一阵蒙圈,

地址是:https://github.com/alexanderchiu/AudioProcessor

作为学习音频增强降噪算法,的确是一份相对而言逻辑比较清晰的实现了。

这代码大家仔细看完一定会跟我有一样的感受,就是逻辑思路很绕。

有种杂交水稻的感觉,算法效果还可以。

2018.12.1更新:

优化算法效果,再次减少计算量,提升性能,

并且支持多通道wav。

当然若有其他相关问题或者需求也可以邮件联系俺探讨。

邮箱地址是: 
gaozhihan@vip.qq.com