自己折腾个小工具, 需要克隆音色生成语音 tts(text-to-speech),主要要求:1. 推理时间尽量实时(100 字符/10s)2. 多音色支持目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好有没有比较低成本的方案推荐?
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。