RVC部署与推理训练

介绍

RVC 全称 Retrieval-based-Voice-Conversion ，是一个基于 VITS 的变声器，常配合 UVR 使用（翻唱）。

配置要求

与 SoVITS 类似，但对渣机更加友好（1650 还是没法玩），甚至用服务器 CPU“2690v2”（两枚）或者“2650v4”也可以花费大概两天半的时间训练一个模型。

推理最少 4GB VRAM（实际上 4GB 显存太过于坐牢）

炼丹最少 6GB VRAM

没有显卡可以用 CPU 龟速炼丹（下下策）

细节

影响炼丹 / 推理速度的因素有：

CPU主频（如果使用CPU的话）
CPU核心/线程数（如果使用CPU的话）（影响幅度较小）
内存频率（如果使用CPU的话）（影响幅度较大）
显卡CUDA核心个数（影响幅度最大）
显存频率（影响幅度中等）
显存大小（影响幅度最大，可以调整batch_size以加快（？）炼丹速度）

部署（Linux/Windows通用）

最好使用 conda 来管理 py 环境，这里我假设你成功安装了 conda，以下是需要运行的命令：

conda create -n=rvc python=3.10
conda activate rvc
git clone https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
pip install -r requirements.txt
cd tools/
export all_proxy=http://<代理地址>:<端口>
./dlmodels.sh #下载预处理模型
cp -r assets/* ../assets/
cd ..

自此即为部署成功

启动！

python infer-web.py

稍后即可在浏览器看到以下页面：（自动打开）

![例子](https://oss.qijieya.cn/1/1723227646570.png

推理

重采样，这个选项一般不管，保持0即可
无脑拉1
一般保持默认0.33即可，拉太小会糊
仅havest有效，一般不管
看模型质量，模型好可以拉大些0.8～0.98，模型不行可以拉0.4～0.7，一般给出的0.75也是可以尝试的
男转女调12，女转男调-12，同性保持0即可

炼丹

有显卡就选rmvpe_gpu，没有显卡那就选rmvpe
保存频率应该是总训练轮数的因数
这个看数据集长短，(5,10]min 推荐[300,500]轮，>10min 推荐[50,300)。如果实在不知道训多少轮，那就250吧
CPU炼丹的话起码8，GPU炼丹看显存；这个决定吃VRAM/RAM的程度

整个页面都很写得很清楚了，本文无需多讲

杂项

wav 和 flac 比较占空间，mp3 比较吃时间

如果跑一下不行，那么可以改一改参数再跑一下

原音频和模型质量决定最终输出上限

推荐订阅源

锦木祈杰のblog

介绍

配置要求

细节

部署（Linux/Windows通用）

启动！

推理

炼丹

杂项