


























ChatGOP · 2025 年 6 月 10 日 · 1584 次点击
这是一个创建于 359 天前的主题,其中的信息可能已经有所发展或是发生改变。
3 wyntalgeer 2025 年 6 月 10 日@ChatGOP Text-To-Text 没有问题。你说的 text->voice 是 TTS 看一下酒馆,voice->text 是 STT 我不了解是否有现成的方案 |
4 Ta0Ta0Ta0 2025 年 6 月 10 日看啥场景,在中英文翻译上,NMT 足够了,上 LLM 有点奢侈。 |
6 conhost 2025 年 6 月 10 日@ChatGOP text->voice 以及 voice->text 翻译目前还没有现成的方案,还处于研究阶段,如果你不介意质量也可以用。现有的这些翻译是通过文本翻译前面或后面加 TTS 或者 ASR 实现。 |
7 ChatGOPOP @conhost 看到 Google TTS 和 Google STT 都有, 可能精度不高。 实时指的是比如 Chatbot 里面打一段文字,立即就翻译出来了。有必要从 BERT 转换成 GPT 吗? |
8 conhost 2025 年 6 月 10 日@ChatGOP TTS 和 STT 技术是现成的,就是工程构建的过程。另外你说的实时的话,不进行特定优化的话,NMT 的翻译一句话的时延大概在 500ms ,LLM 采用的是相同的解码方案,解码时间也差不多,但是 LLM 模型更大,计算更耗时。但是现在硬件设备针对 LLM 也有一定的针对性的优化,所以基本上是能保证的。 |
9 pike0002 2025 年 6 月 10 日用 Google Gemini 就可以吧,1.5 Flash 都是免费的(不是特别长的话,特别长可以截断分批处理),2.0 也不是很贵。如果要转 voice ,可能就是先用 Gemini 翻完再用 TTS (知识比较有机器感)? 我使用 Gemini 比较多,觉得效果比较好。 |
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。