一次AI人声模型训练的尝试 - 心作乱象

请注意，本文编写于 1140 天前，最后修改于 1140 天前，其中某些信息可能已经过时。

（半个多月）之前花了两天搞了一下AI人声模型（然后忘了发），AI人声主要分为vc（音色转换）和tts（文本to音频）两种，网上很多AI孙燕姿之类的就是前者，输入一段唱歌声通过训练好的模型转化成目标音色（某种意义上来说效果接近变声器？），后者是通过输入一段文字通过训练好的模型生成对应的说话音频。两种流程其实也大差不差，准备和处理训练数据，训练模型，使用；遗憾的是中文互联网上很多资源都没有，有些是本来就没人做（比如甚至搜不到一个本地部署相关的视频或者文章，全是colab一键式运行），有些是原作者自己删库跑路了（听说是被人用在zz相关了，也有的免费分享的资源被挂在tb等平台售卖）。相关使用条款的建立也是任重道远。
本地部署后我用3080ti挂了几天，跑了1w epochs，感觉效果还蛮好的（因为手上只有几十条音频，一般来说训练集起码都要两三百条以上，质量高数量多），就是都2022年了怎么还在用22050采样率16bit单声道，情感模型更是16000采样率（有一种传承的美感）。说到本地部署不得不说确实折磨（虚拟环境立大功），很多bug都是相关软件/模块版本问题（光python就试了3个版本），但是报错只会报别的，不会代码慎入（让我更想学点代码了），在可遇见的未来相关内容应该也不会太多（像几个月前我刚本地部署了AI绘画模型SD，过几天就有人出整合包了，直到现在已经集成成软件了），一方面是没法像绘画那样炼一个大模型给所有人用，需要另一个人的音色就得重新训练（需要数百上千条5s以上语音条，要求干净无bgm无杂音音质好），所以在比较长的一段时间内最常见的应该还是用户使用网络分享的免费模型（如使用演员/声优作品进行训练生成的模型），版权等问题又会比较严重（），如果不加上情感模型，纯vits训练出来的模型声音还是比较生硬的（好于市面上大多数AI声音，但如果训练集质量高数量够的话上限会高很多），还有一个比较严重的问题就是不同作者的项目的symbol size基本没有统一，要么用不了要么损失一部分质量转换到新项目的symbol size，没有统一的模型训练标准不管是在使用上还是发展上都会受到很大影响。总体来说目前香饽饽还是ai绘画，无论从发展速度还是接近商用程度都未来可期，ai视频也有苗头（包括但不限于各种ai插件集成到软件里，真人动作ai转化动画等），ai人声在比较长的一段时间内质量应该都不会超出“营销号ai配音”太多。附上github项目地址，colab项目地址自寻，本地运行显存最好8G以上。

附录：
vits项目：https://github.com/CjangCjengh/vits
情感模型项目：https://github.com/innnky/emotional-vits
本地部署教程：https://www.bilibili.com/read/cv21153903

推荐订阅源

心作乱象