慣性聚合 高效追蹤和閱讀你感興趣的部落格、新聞、科技資訊
閱讀原文 在慣性聚合中打開

推薦訂閱源

Google DeepMind News
Google DeepMind News
大猫的无限游戏
大猫的无限游戏
GbyAI
GbyAI
WordPress大学
WordPress大学
雷峰网
雷峰网
博客园_首页
L
LangChain Blog
Blog — PlanetScale
Blog — PlanetScale
Last Week in AI
Last Week in AI
博客园 - Franky
M
MIT News - Artificial intelligence
S
SegmentFault 最新的问题
博客园 - 【当耐特】
Jina AI
Jina AI
腾讯CDC
Y
Y Combinator Blog
酷 壳 – CoolShell
酷 壳 – CoolShell
Stack Overflow Blog
Stack Overflow Blog
宝玉的分享
宝玉的分享
罗磊的独立博客

IT之家

消息称大疆 Pocket 4 目标超千万,可能是一英寸 CMOS 出货量最大的单品 OpenAI 回应马斯克要求罢免奥尔特曼:搞法律突袭,扰乱诉讼 - IT之家 鸿蒙智行问界 M6 预订量突破 10 万台,预售 26.98 万元起 今年一季度全国铁路完成固定资产投资 1379 亿元,西十高铁、雄商高铁山东段联调联试 - IT之家 首届北京市中学生人形机器人足球赛今日启动,近 50 支队伍参赛 - IT之家 涉及“赵一鸣是日本品牌”等,抖音处置 1500 余条谣言内容 - IT之家 广汽集团与海尔集团签约,探索“人车家”互联生态 - IT之家 亚马逊调整云游戏平台 Luna 业务模式,取消 Ubisoft+、GOG 等第三方商店 消息称华擎将推出 X870E Taichi White,补全 AMD 800 系白色旗舰主板缺失 长城汽车归元平台首款方盒子全球征名,十二佳提名公布 - IT之家 消息称雷克萨斯新车即将支持苹果数字车钥匙 - IT之家 普京要求俄罗斯加速自研有竞争力的 AI 模型,彻底转向国产技术 - IT之家 影石刘靖康:已开源保真全景无人机仿真平台 AirSim360、DAP 全景度量深度模型等核心成果 - IT之家 长安汽车总经理赵非:当前车企仅靠卖车已难以盈利 - IT之家 地平线创始人余凯:4 月 22 日推出中国第一款舱驾融合智能体芯片“星空” - IT之家 冯兴亚:广汽集团具身智能机器人即将量产,飞行汽车预计今年完成适航认证并量产交付 - IT之家 模块化笔电制造商 Framework CEO 痛批业界追逐“AI 优先”,称个人计算设备可能就此消亡 16 年来首次:小米首届员工运动会今天启幕,雷军压轴致辞 - IT之家 比亚迪廉玉波:新能源汽车产业正进入确定性与不确定性并存的阶段 - IT之家 阿耳忒弥斯 2 号宇航员安全返回地球,有哪些技术和科研收获 - IT之家 曝索尼 Alpha 7R VI 全画幅无反相机将随 100-400mm f/4.0 GM 镜头一同登场,发布会预计在 5 月 小米产教融合最新成绩披露:合作院校超 400 家、成都基地启用 - IT之家 亚马逊 CEO 贾西:自研芯片年化收入预估 500 亿美元,规模超 AMD 与英特尔 马来西亚推动“AI 城市”转型,目标 2030 年成为“AI 国家” Galaxy S24 Ultra 手机用户反馈三星人为设限,无法使用 Galaxy Buds4 Pro 耳机高清语音 广汽集团董事长冯兴亚:当前县级市场新能源汽车渗透率不到 20% - IT之家 消息称《地铁:离去》新作下周公布,有望 State of Play 发布会亮相 广汽新一代智能座舱架构与电子电气架构明日发布,将宣布芯片生态建设的重大突破 - IT之家 苹果预订台积电 6 万片晶圆产能,2027 年全力冲刺 AI 服务器芯片 日本经济产业省向 Rapidus 追加 6315 亿日元支持,加速下一代半导体研发 差 10%:消息称三星 2nm 工艺良率卡在 60%,无缘代工高通第六代骁龙 8 至尊版芯片 岚图汽车卢放:有话语权的企业宣传技术要控制言行,不要去误导人 - IT之家 我国业界首个产业协同平台,“太空算力专业委员会”启动成员征集 - IT之家 梅赛德斯-AMG CLA Shooting Brake EQ 高性能电动旅行车路测图曝光 特斯拉 Semi 电动卡车电池架构曝光:创新垂直立方设计,攻克低温续航衰减难题 - IT之家 加州初创公司 PowerStation 投放新型快充站:完全太阳能供电,限时免费开放 - IT之家 蔚来 2026 款乐道 L90 将搭载神玑 NX9031 辅助驾驶芯片,4 月 21 日上市 卢放谈岚图与华为合作:是战略合作,也是两个独立主体,对双方快速成长非常重要 - IT之家 OpenAI 回应 Axios 工具安全事件,敦促苹果 Mac 用户更新 ChatGPT 等应用 滴滴 Robotaxi 将采用混合派单模式,系统判断是否派给无人驾驶汽车 - IT之家 岚图汽车董事长卢放:如果原材料价格再涨,最后一定会传到终端 - IT之家 华为靳玉志:L3 是走向完全自动驾驶的必经阶段,今年或为全球自动驾驶元年 - IT之家 吉利杨学良谈未来的汽车:是智能移动终端和数据载体,更是生态入口 - IT之家 爱因斯坦预言百年后,引力波有望揭示宇宙大爆炸原初黑洞 - IT之家 53 分钟超长全食:美国载人绕月任务记录罕见深空日食奇观 - IT之家 美国联邦航空管理局另类招聘:欢迎游戏玩家应征空管 - IT之家 华为靳玉志重申不造车:致力于成为智能网联汽车时代的“电子螺丝钉” - IT之家 京东否认做网约车业务:新项目 4 月 13 日上线 爱沙尼亚选择不跟进青少年社媒禁令:解决不了问题,孩子们总有办法绕过 - IT之家 本月生效:微软 PowerShell 7.7 预览版起全面转向 MSIX
AI 同傳 2.8 秒延遲,阿里通義千問發布實時語音翻譯模型 Qwen3.5-LiveTranslate
2026-05-20 · via IT之家

IT之家 5 月 20 日消息,據通義實驗室消息,通義千問團隊發布了 Qwen3.5-LiveTranslate-Flash 實時語音翻譯模型,該模型在語種覆蓋、延遲控制和音色保留等方面實現顯著突破,旨在解決跨境直播、跨境國會等場景中的實時同傳痛點。

IT之家附官方詳細介紹如下:

跨境直播卡頓、跨境國會延遲、AI 歌詠“機器感”太重…… 實時同傳一直卡在“延遲、語種、音色”三大痛點。

Qwen3.5-LiveTranslate-Flash 給出了解決方案:支持 60 種語言的語音輸入和文字輸出,29 種語言的語音輸出,端到端字均延遲低至 2.8 秒,還能保留說話人的原聲特徵。

核心亮點速覽

Qwen3.5-LiveTranslate

  • 輸入音頻和輸出文本語種從 18 種提升至 60 種,輸出音頻從 10 種提升至 29 種;

  • 語音同傳字均延遲降低至 2.8 秒;

  • 支持實時音色克隆,翻譯後仍保留說話人原聲特徵;

  • 內置熱詞能力,專有名詞和行業術語翻譯更精準。

Qwen3.5-LiveTranslate 能聽懂和翻譯 60 種語言,其中 29 種可以實現語音輸出。輸入音頻和輸出文本語種從 18 個大幅提升至 60 個,輸出音頻語向從 10 個提升至 29 個,覆蓋更多國家與區域的語言互譯組合,滿足跨境會議、直播出海、在線課堂、商務談判等多語同傳需求。

引進全新 Readable Unit(可讀單元)實時翻譯技術,在保證譯文可讀性与語義連貫的前提下,實現更激進的流式輸出。端到端字均延遲降低到 2.8 秒,適用於直播、連麥、發布會等對延遲極敏感的場景。

支持 Real-time Voice Cloning(動態跨語言音色克隆)。在同傳過程中自動捕捉並複刻說話人音色特徵,譯文在不同語言間依舊保持“同個人”的聲音質感與情緒表現力。主播、嘉賓、主持人的身份一致性大幅提升,沉浸感拉滿。

內置動態熱詞(Hotword)引擎,最高支持 1000 個自定義條目。對人名、地名、品牌、產品型號、行業術語進行優先識別與優先翻譯。支持場景動態配置與實時更新,顯著降低技術發布會、醫療 / 法律 / 金融會議、企業內訓中“術語翻錯、名字聽錯”的風險。

我們將模型放入高頻實戰環境,複雜場景依舊穩定發揮:

跨國會議& 出境旅遊

多語混說 / 複雜口音:會議室多語種交錯發言、帶口音表達,模型精準切分並同步譯。

智能硬體落地:搭配千問 AI 眼鏡在泰國點餐實測,語音交互 + 實時同傳無縫銜接,溝通零障礙。

直播帶貨 & 影視出海

數字與規格精準翻譯:直播連麥中,商品參數、價格、折扣數字翻譯準確率極高,帶貨宣發不斷檔。

古文 / 文化內容同傳:準確理解並翻譯古典文言文,語義連貫且保留文化韻味,字幕與配音同步流暢。

視覺消歧輔助

結合多模態理解能力,在語境模糊時自動引入視覺信息輔助判斷,大幅降低「一詞多義」導致的翻譯歧義。

在公開多語言語音翻譯基準(FLEURS、CoVoST2)上,Qwen3.5-LiveTranslate-Flash 翻譯準確率優於當前主流語音大模型,顯著優於前代 Qwen3-LiveTranslate-Flash,在語言覆蓋和翻譯質量上均實現突破。

憑藉可讀單元流式策略,Qwen3.5-LiveTranslate-Flash 相比 Qwen3-LiveTranslate-Flash 將首字延遲降低 3.45 秒、字均延遲降低 1.88 秒,最終實現端到端字均延遲 2.8 秒,翻譯質量幾乎無損。

相比上一代,Qwen3.5-LiveTranslate-Flash 在核心參數與功能上實現了全面進階,詳細對比如下:

Qwen3.5-LiveTranslate 是基於 Qwen3.5-Omni Thinker-Talker 架構打造的翻譯大模型。面向同聲傳譯場景,我們採用 chunk-wise 流式輸入機制,引入可讀單元來控制語音合成粒度,在保證同傳體感的同时有效降低時延。此外,借助動態跨語言音色克隆技術,模型在翻譯時能夠實時識別並模仿說話人的原始音色。

從“能翻譯”到“實時同傳”,Qwen3.5-LiveTranslate-Flash 用更低延遲、更多語種、更自然音色,為跨境協作、內容出海、智能硬體提供新一代語音基礎設施。

立即體驗

Blog:https://qwen.ai/blog?id=qwen3.5-livetranslate

Demo:https://omni.qwen.ai/live-translate

阿里云百煉:即將上線

廣告聲明:文內含有的對外跳轉鏈接(包括不僅限於超連結、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。