惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

S
Secure Thoughts
Security Latest
Security Latest
Simon Willison's Weblog
Simon Willison's Weblog
O
OpenAI News
GbyAI
GbyAI
L
LINUX DO - 最新话题
A
Arctic Wolf
T
Tor Project blog
G
GRAHAM CLULEY
I
InfoQ
博客园_首页
IT之家
IT之家
The Register - Security
The Register - Security
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
P
Proofpoint News Feed
The GitHub Blog
The GitHub Blog
Blog — PlanetScale
Blog — PlanetScale
N
Netflix TechBlog - Medium
K
Kaspersky official blog
博客园 - 三生石上(FineUI控件)
S
SegmentFault 最新的问题
U
Unit 42
PCI Perspectives
PCI Perspectives
量子位
P
Palo Alto Networks Blog
S
Securelist
T
Troy Hunt's Blog
博客园 - 【当耐特】
Recorded Future
Recorded Future
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
S
Security Affairs
Engineering at Meta
Engineering at Meta
T
The Blog of Author Tim Ferriss
博客园 - 聂微东
罗磊的独立博客
N
News and Events Feed by Topic
人人都是产品经理
人人都是产品经理
B
Blog RSS Feed
NISL@THU
NISL@THU
C
Cisco Blogs
T
Threatpost
有赞技术团队
有赞技术团队
Forbes - Security
Forbes - Security
Hugging Face - Blog
Hugging Face - Blog
Last Week in AI
Last Week in AI
T
The Exploit Database - CXSecurity.com
Cloudbric
Cloudbric
Cyberwarzone
Cyberwarzone
Google DeepMind News
Google DeepMind News
C
Cyber Attacks, Cyber Crime and Cyber Security

心作乱象

放置类手游的音效设计思路 - 心作乱象 【转载】好朋友诗社选 - 心作乱象 【转载】拿不拿(n-buna)月上漫步系列壁纸 - 心作乱象 诗歌杂谈 - 心作乱象 【转载】西川:努力给当代人的精神生活注入诗歌(节选) - 心作乱象 青蛙的故事(童话) - 心作乱象 2023大陆春节档电影短评(《流浪地球2》《满江红》《无名》《深海》) - 心作乱象 流行歌词选 - 心作乱象 现代诗选 - 心作乱象
一次AI人声模型训练的尝试 - 心作乱象
· 2023-05-02 · via 心作乱象

请注意,本文编写于 1140 天前,最后修改于 1140 天前,其中某些信息可能已经过时。

(半个多月)之前花了两天搞了一下AI人声模型(然后忘了发),AI人声主要分为vc(音色转换)和tts(文本to音频)两种,网上很多AI孙燕姿之类的就是前者,输入一段唱歌声通过训练好的模型转化成目标音色(某种意义上来说效果接近变声器?),后者是通过输入一段文字通过训练好的模型生成对应的说话音频。两种流程其实也大差不差,准备和处理训练数据,训练模型,使用;遗憾的是中文互联网上很多资源都没有,有些是本来就没人做(比如甚至搜不到一个本地部署相关的视频或者文章,全是colab一键式运行),有些是原作者自己删库跑路了(听说是被人用在zz相关了,也有的免费分享的资源被挂在tb等平台售卖)。相关使用条款的建立也是任重道远。
本地部署后我用3080ti挂了几天,跑了1w epochs,感觉效果还蛮好的(因为手上只有几十条音频,一般来说训练集起码都要两三百条以上,质量高数量多),就是都2022年了怎么还在用22050采样率16bit单声道,情感模型更是16000采样率(有一种传承的美感)。说到本地部署不得不说确实折磨(虚拟环境立大功),很多bug都是相关软件/模块版本问题(光python就试了3个版本),但是报错只会报别的,不会代码慎入(让我更想学点代码了),在可遇见的未来相关内容应该也不会太多(像几个月前我刚本地部署了AI绘画模型SD,过几天就有人出整合包了,直到现在已经集成成软件了),一方面是没法像绘画那样炼一个大模型给所有人用,需要另一个人的音色就得重新训练(需要数百上千条5s以上语音条,要求干净无bgm无杂音音质好),所以在比较长的一段时间内最常见的应该还是用户使用网络分享的免费模型(如使用演员/声优作品进行训练生成的模型),版权等问题又会比较严重(),如果不加上情感模型,纯vits训练出来的模型声音还是比较生硬的(好于市面上大多数AI声音,但如果训练集质量高数量够的话上限会高很多),还有一个比较严重的问题就是不同作者的项目的symbol size基本没有统一,要么用不了要么损失一部分质量转换到新项目的symbol size,没有统一的模型训练标准不管是在使用上还是发展上都会受到很大影响。总体来说目前香饽饽还是ai绘画,无论从发展速度还是接近商用程度都未来可期,ai视频也有苗头(包括但不限于各种ai插件集成到软件里,真人动作ai转化动画等),ai人声在比较长的一段时间内质量应该都不会超出“营销号ai配音”太多。附上github项目地址,colab项目地址自寻,本地运行显存最好8G以上。

附录:
vits项目:https://github.com/CjangCjengh/vits
情感模型项目:https://github.com/innnky/emotional-vits
本地部署教程:https://www.bilibili.com/read/cv21153903