



























V 站的各位开发者朋友们大家好!今天想和大家分享我们开源的一个新项目:OpenTalking。这是一个开源的实时数字人框架。
开发数字人对话产品时,大家往往会遇到一个痛点:各种优秀的开源模型(大语言模型、语音合成、数字人渲染)都有了,但要把它们拼凑成一个低延迟、体验顺畅的 WebRTC 实时产品链路却非常繁琐。
OpenTalking 的目标就是帮你把数字人对话产品需要的链路串起来。它涵盖了前端交互、会话状态、LLM 回复、TTS/音色选择、打断控制、字幕事件、WebRTC 音视频播放,以及外部模型服务调用。相比于死磕底层的推理模型,OpenTalking 专注于提供一个完善的产线编排层。
为了让大家能快速看到效果,我们对链路做了简化处理。默认情况下,你只需要在本地部署一个模型服务( FlashTalk WebSocket ),然后将 LLM 、STT 、TTS 全部走阿里云百炼的 API (例如 OpenAI 兼容端点和 DashScope 实时 ASR/TTS ),就可以跑起来。后续你可以无痛切换为自己本地部署的各类自定义模型服务。
项目基于 Apache License 2.0 协议开源,欢迎大家来跑一跑,提提 Issue 或者 PR !如果觉得有帮助,求大佬们赏个 Star ⭐️!
1103327938。此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。