TTS选择
ace--碳水化合物
·
2026-05-28
·
via 博客园 - ace--碳水化合物
短答(直接告诉你怎么选)
| 场景 |
推荐 |
| 只是 demo:浏览器输入中文 → 播声 |
Web Speech API(零依赖,3 行 JS) |
| 配合后端,质量最好且免费 |
edge-tts(微软在线 API 的 Python 包) |
| 完全离线 + CPU 快 |
Piper(中文一般但极快、模型 ~60MB) |
| 完全离线 + 自然/对话感 |
ChatTTS(2024 爆款,CPU 可跑但要等几秒) |
| 高品质 + 阿里生态对齐(已有 FunASR) |
CosyVoice(阿里同源,SOTA,GPU 才舒服) |
| 商用、要 SLA |
Azure Speech / 阿里 NLS / 讯飞 / 腾讯 |
详细对比
| 方案 |
部署形态 |
联网 |
中文质量 |
CPU 速度 |
安装/成本 |
声音克隆 |
适合本项目? |
| Web Speech API |
纯浏览器 speechSynthesis |
无 |
看系统,Win/Mac/iOS 中文 OK,Linux 差 |
即时 |
0 |
否 |
★★★ demo 最快 |
| edge-tts (py) |
后端调微软 Edge 的 TTS REST |
需公网 |
优(晓晓/云希等中文音色丰富) |
<1s |
pip install edge-tts 一行,免费 |
否 |
★★★★★ 强烈推荐 |
| Piper |
后端二进制,本地模型 |
无 |
中(机器味重但可懂) |
<0.5s/句 |
二进制 + 模型 60MB |
否 |
★★★★ 离线兜底 |
| ChatTTS |
后端 Python |
无 |
优(对话感强,有"嗯/呃"语气) |
CPU ~8-20s/句 |
模型 ~1GB,需 torch |
部分 |
★★★ 拟人最强但慢 |
| Coqui XTTS-v2 |
后端 Python |
无 |
良 |
CPU ~5-15s/句 |
模型 ~2GB |
是(零样本) |
★★ 多语言但中文非强项 |
| CosyVoice |
后端 Python |
无 |
极优(SOTA 中文) |
GPU 优 / CPU 慢 |
模型 ~4GB,阿里同源 |
是 |
★★★ 你机器没 GPU 不行 |
| GPT-SoVITS |
后端 Python |
无 |
良(克隆强) |
推荐 GPU |
部署较繁 |
极强 |
★ 主打克隆,过重 |
| F5-TTS |
后端 Python |
无 |
良 |
推荐 GPU |
模型 ~1GB |
是 |
★★ 新,GPU 才好 |
| Bark (suno) |
后端 Python |
无 |
中 |
CPU 极慢 30s+ |
模型 ~5GB |
部分 |
★ pass |
| Azure Speech |
云 REST |
需公网 |
极优 |
<1s |
key,计费(~$15/百万字符) |
是 |
★★★ 商用必选 |
| 阿里 NLS / 讯飞 / 腾讯 |
云 REST |
需公网 |
优 |
<1s |
key,计费 |
部分 |
★★★ 国内合规 |
| OpenAI TTS |
云 REST |
需公网 |
中(英文优) |
<1s |
key,计费 |
否 |
★ 中文一般 |
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。