










IT之家 5 月 20 日消息,據通義實驗室消息,通義千問團隊發布了 Qwen3.5-LiveTranslate-Flash 實時語音翻譯模型,該模型在語種覆蓋、延遲控制和音色保留等方面實現顯著突破,旨在解決跨境直播、跨境國會等場景中的實時同傳痛點。
IT之家附官方詳細介紹如下:
跨境直播卡頓、跨境國會延遲、AI 歌詠“機器感”太重…… 實時同傳一直卡在“延遲、語種、音色”三大痛點。
Qwen3.5-LiveTranslate-Flash 給出了解決方案:支持 60 種語言的語音輸入和文字輸出,29 種語言的語音輸出,端到端字均延遲低至 2.8 秒,還能保留說話人的原聲特徵。
核心亮點速覽
Qwen3.5-LiveTranslate
輸入音頻和輸出文本語種從 18 種提升至 60 種,輸出音頻從 10 種提升至 29 種;
語音同傳字均延遲降低至 2.8 秒;
支持實時音色克隆,翻譯後仍保留說話人原聲特徵;
內置熱詞能力,專有名詞和行業術語翻譯更精準。


Qwen3.5-LiveTranslate 能聽懂和翻譯 60 種語言,其中 29 種可以實現語音輸出。輸入音頻和輸出文本語種從 18 個大幅提升至 60 個,輸出音頻語向從 10 個提升至 29 個,覆蓋更多國家與區域的語言互譯組合,滿足跨境會議、直播出海、在線課堂、商務談判等多語同傳需求。

引進全新 Readable Unit(可讀單元)實時翻譯技術,在保證譯文可讀性与語義連貫的前提下,實現更激進的流式輸出。端到端字均延遲降低到 2.8 秒,適用於直播、連麥、發布會等對延遲極敏感的場景。

支持 Real-time Voice Cloning(動態跨語言音色克隆)。在同傳過程中自動捕捉並複刻說話人音色特徵,譯文在不同語言間依舊保持“同個人”的聲音質感與情緒表現力。主播、嘉賓、主持人的身份一致性大幅提升,沉浸感拉滿。

內置動態熱詞(Hotword)引擎,最高支持 1000 個自定義條目。對人名、地名、品牌、產品型號、行業術語進行優先識別與優先翻譯。支持場景動態配置與實時更新,顯著降低技術發布會、醫療 / 法律 / 金融會議、企業內訓中“術語翻錯、名字聽錯”的風險。

我們將模型放入高頻實戰環境,複雜場景依舊穩定發揮:
跨國會議& 出境旅遊
多語混說 / 複雜口音:會議室多語種交錯發言、帶口音表達,模型精準切分並同步譯。
智能硬體落地:搭配千問 AI 眼鏡在泰國點餐實測,語音交互 + 實時同傳無縫銜接,溝通零障礙。
直播帶貨 & 影視出海
數字與規格精準翻譯:直播連麥中,商品參數、價格、折扣數字翻譯準確率極高,帶貨宣發不斷檔。
古文 / 文化內容同傳:準確理解並翻譯古典文言文,語義連貫且保留文化韻味,字幕與配音同步流暢。
視覺消歧輔助
結合多模態理解能力,在語境模糊時自動引入視覺信息輔助判斷,大幅降低「一詞多義」導致的翻譯歧義。


在公開多語言語音翻譯基準(FLEURS、CoVoST2)上,Qwen3.5-LiveTranslate-Flash 翻譯準確率優於當前主流語音大模型,顯著優於前代 Qwen3-LiveTranslate-Flash,在語言覆蓋和翻譯質量上均實現突破。







憑藉可讀單元流式策略,Qwen3.5-LiveTranslate-Flash 相比 Qwen3-LiveTranslate-Flash 將首字延遲降低 3.45 秒、字均延遲降低 1.88 秒,最終實現端到端字均延遲 2.8 秒,翻譯質量幾乎無損。

相比上一代,Qwen3.5-LiveTranslate-Flash 在核心參數與功能上實現了全面進階,詳細對比如下:


Qwen3.5-LiveTranslate 是基於 Qwen3.5-Omni Thinker-Talker 架構打造的翻譯大模型。面向同聲傳譯場景,我們採用 chunk-wise 流式輸入機制,引入可讀單元來控制語音合成粒度,在保證同傳體感的同时有效降低時延。此外,借助動態跨語言音色克隆技術,模型在翻譯時能夠實時識別並模仿說話人的原始音色。

從“能翻譯”到“實時同傳”,Qwen3.5-LiveTranslate-Flash 用更低延遲、更多語種、更自然音色,為跨境協作、內容出海、智能硬體提供新一代語音基礎設施。
立即體驗
Blog:https://qwen.ai/blog?id=qwen3.5-livetranslate
Demo:https://omni.qwen.ai/live-translate
阿里云百煉:即將上線
廣告聲明:文內含有的對外跳轉鏈接(包括不僅限於超連結、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。