惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园 - Franky
N
Netflix TechBlog - Medium
Google Online Security Blog
Google Online Security Blog
月光博客
月光博客
量子位
酷 壳 – CoolShell
酷 壳 – CoolShell
V
V2EX
腾讯CDC
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 聂微东
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
M
MIT News - Artificial intelligence
Vercel News
Vercel News
The GitHub Blog
The GitHub Blog
Hugging Face - Blog
Hugging Face - Blog
博客园 - 【当耐特】
Apple Machine Learning Research
Apple Machine Learning Research
aimingoo的专栏
aimingoo的专栏
博客园 - 三生石上(FineUI控件)
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
MongoDB | Blog
MongoDB | Blog
H
Help Net Security
The Cloudflare Blog
Blog — PlanetScale
Blog — PlanetScale
F
Full Disclosure
G
Google Developers Blog
罗磊的独立博客
Jina AI
Jina AI
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Y
Y Combinator Blog
H
Hackread – Cybersecurity News, Data Breaches, AI and More
J
Java Code Geeks
A
About on SuperTechFans
IT之家
IT之家
大猫的无限游戏
大猫的无限游戏
S
SegmentFault 最新的问题
有赞技术团队
有赞技术团队
GbyAI
GbyAI
雷峰网
雷峰网
T
The Blog of Author Tim Ferriss
The Register - Security
The Register - Security
U
Unit 42
D
Docker
Martin Fowler
Martin Fowler
L
LINUX DO - 热门话题
NISL@THU
NISL@THU
阮一峰的网络日志
阮一峰的网络日志
C
Cybersecurity and Infrastructure Security Agency CISA
博客园_首页
Google DeepMind News
Google DeepMind News

锦木祈杰のblog

我不想再因为别人活着 2025年终总结 最近研究的几张esim MetingApi一些小改动 2025 Google 开发者大会 也许是happy end的三年? 邮储万事达卡 | 最值得拥有的一张国际卡 一些业余无线电の碎碎念 本站公开服务 一加 ace5 root 笔记 2024最后的欢乐——校元旦文艺汇演 零零碎碎又是一年?2024年度总结 Object V-5 | 瓦纳海姆传送装置 自建meting-api(带网易云VIP) 联想小主机上手(M6600q-N100) 杭州! 美元迟迟不降息背后隐藏着什么阴谋 为什么我放弃了Ubuntu+KDE+i3wm而选择了Manjaro+i3wm 二次元游戏,为何突然衰退了 SSTV - 一种使用音频传输图片的方法以及特别用法
RVC部署与推理训练
洛天依x64 · 2024-04-12 · via 锦木祈杰のblog

_

介绍

RVC 全称 Retrieval-based-Voice-Conversion ,是一个基于 VITS 的变声器,常配合 UVR 使用(翻唱)。

配置要求

与 SoVITS 类似,但对渣机更加友好(1650 还是没法玩),甚至用服务器 CPU“2690v2”(两枚)或者“2650v4”也可以花费大概两天半的时间训练一个模型。

推理最少 4GB VRAM(实际上 4GB 显存太过于坐牢)

炼丹最少 6GB VRAM

没有显卡可以用 CPU 龟速炼丹(下下策)

细节

影响炼丹 / 推理速度的因素有:

  • CPU主频(如果使用CPU的话)
  • CPU核心/线程数(如果使用CPU的话)(影响幅度较小)
  • 内存频率(如果使用CPU的话)(影响幅度较大)
  • 显卡CUDA核心个数(影响幅度最大)
  • 显存频率(影响幅度中等)
  • 显存大小(影响幅度最大,可以调整batch_size以加快(?)炼丹速度)

部署(Linux/Windows通用)

最好使用 conda 来管理 py 环境,这里我假设你成功安装了 conda,以下是需要运行的命令:

conda create -n=rvc python=3.10
conda activate rvc
git clone https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
pip install -r requirements.txt
cd tools/
export all_proxy=http://<代理地址>:<端口>
./dlmodels.sh #下载预处理模型
cp -r assets/* ../assets/
cd ..

自此即为部署成功

启动!

python infer-web.py

稍后即可在浏览器看到以下页面:(自动打开)

![例子](https://oss.qijieya.cn/1/1723227646570.png

推理

  1. 重采样,这个选项一般不管,保持0即可
  2. 无脑拉1
  3. 一般保持默认0.33即可,拉太小会糊
  4. 仅havest有效,一般不管
  5. 看模型质量,模型好可以拉大些0.8~0.98,模型不行可以拉0.4~0.7,一般给出的0.75也是可以尝试的
  6. 男转女调12,女转男调-12,同性保持0即可

炼丹

image.png

  1. 有显卡就选rmvpe_gpu,没有显卡那就选rmvpe
  2. 保存频率应该是总训练轮数的因数
  3. 这个看数据集长短,(5,10]min 推荐[300,500]轮,>10min 推荐[50,300)。如果实在不知道训多少轮,那就250吧
  4. CPU炼丹的话起码8,GPU炼丹看显存;这个决定吃VRAM/RAM的程度

整个页面都很写得很清楚了,本文无需多讲

杂项

wav 和 flac 比较占空间,mp3 比较吃时间

如果跑一下不行,那么可以改一改参数再跑一下

原音频和模型质量决定最终输出上限