惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
阮一峰的网络日志
阮一峰的网络日志
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
The Last Watchdog
The Last Watchdog
U
Unit 42
MongoDB | Blog
MongoDB | Blog
H
Hackread – Cybersecurity News, Data Breaches, AI and More
S
Security @ Cisco Blogs
GbyAI
GbyAI
Schneier on Security
Schneier on Security
P
Proofpoint News Feed
Application and Cybersecurity Blog
Application and Cybersecurity Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
J
Java Code Geeks
E
Exploit-DB.com RSS Feed
Martin Fowler
Martin Fowler
量子位
Google DeepMind News
Google DeepMind News
Apple Machine Learning Research
Apple Machine Learning Research
Y
Y Combinator Blog
V
V2EX - 技术
S
Security Affairs
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Webroot Blog
Webroot Blog
Vercel News
Vercel News
Google DeepMind News
Google DeepMind News
F
Fortinet All Blogs
G
Google Developers Blog
TaoSecurity Blog
TaoSecurity Blog
小众软件
小众软件
Stack Overflow Blog
Stack Overflow Blog
罗磊的独立博客
I
InfoQ
博客园 - 司徒正美
Forbes - Security
Forbes - Security
Last Week in AI
Last Week in AI
AI
AI
aimingoo的专栏
aimingoo的专栏
博客园 - Franky
Hacker News: Ask HN
Hacker News: Ask HN
Hacker News - Newest:
Hacker News - Newest: "LLM"
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
SecWiki News
SecWiki News
Cloudbric
Cloudbric
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
L
LangChain Blog
N
News | PayPal Newsroom
Microsoft Azure Blog
Microsoft Azure Blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
O
OpenAI News

量子位

AI自主监测宠物健康,陪狗都不用自己来了!涂鸦Hey Tuya打造全屋智能“超级入口” 燃油SUV车主熬出头了!华为乾崑智驾加持,全新奥迪Q5L率先实现智能化 华人再破硅谷天花板!AI黑马新任CTO,中科大80后 0博士组合拿下ICLR时间检验奖!两个GPT天才本科生+二本逆袭LeCun弟子,十年论文终封神 DeepSeek V4报告太详尽了!484天换代之路全公开 优必选发布Thinker cosmos:加码开发者生态,推动人形机器人走向规模化 DeepSeek-V4发布,华为云首发适配 Mobileye 2026财年一季度营收增长27%,自动驾驶商业化进程持续推进 100%主流车企的共同选择:一个AI“通用底座”正在汽车行业成型 真有人做AI小猫啊?!生产力和情绪价值都拉满了 Coordination Engineering关键一环,JiuwenClaw再发布Team Skills技能新范式 DeepSeek V4终于发布!打破最强闭源垄断,明确携手华为芯片 荣耀WIN游戏本等多款新品正式发布,荣耀PC家族全面爆发 刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢 河南师傅,左手扳手,右手飞书,竟然能搞数据分析! 国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家 印奇站上AI+车浪潮之巅:7个月,千里科技和华为「五五开」 飞书项目开放平台焕新升级,全面迈向“AI Friendly” 半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神 Nature封面:机器人乒乓球干翻人类职业选手 特斯拉开源硬件,中国公司回应来了:直接把机器人大脑开源了 挖漏洞何必Mythos,国产智能体早跑通了 “不造车的特斯拉”亮出“舱驾一体”全家桶,汽车长出“主动理解力”,奇瑞比亚迪等10+巨头力挺 科大讯飞发布燎原N30m笔记本,重塑全栈国产AIPC新标杆 神秘模型「大象」:仅100B拿下SOTA,Token效率超高! 香港科创标杆奖项!商汤首席科学家林达华荣获中银香港科创奖 国产多模态Agent拿下医学分割SOTA!不用改模型、不加token 这些人读个博一年能挣几十万?2026苹果学者名单公布了 大厂AI抢人大战,从实习生开始 全球首个世界统一模型发布,机器人家庭成员来了! 从GPU到Token:AI基础设施竞争逻辑重构 2026萤石品牌新品发布会:驭智向前锚定长期主义,AI驱动多点开花 6分钟满电续航1500公里!宁王一夜终结加油时代 单Agent时代结束,AI们开始组团上班 前小鹏汽车自动驾驶一号位李力耘出任众擎CTO,加速打造具身大脑 5月20日,马上AI起来!中国AIGC产业峰会报名已启动|首波嘉宾官宣 物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题 ISC.AI 2026创新独角兽沙盒大赛在京启动 聚焦智能体 共筑AI创新生态 都让让!赛博女娲蒸馏一切,让乔布斯马斯克集体给你打工 把人类驾驶员赶出机场,复旦大牛校友要港股IPO了 小米宣布上线PC版龙虾,Xiaomi miclaw正式开启PC、Mac、有屏音箱多终端封测 Agent正杀入软件研发一线!全球超60位技术专家拆解AI落地困局,2026奇点智能技术大会收官 Kimi新论文:把KVCache玩成新商业模式了 横扫全球15项SOTA!高德首个面向AGI的全栈具身技术体系大公开 大模型架构的下半场 高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环 马斯克来抖音卖老干妈了?? 教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决 黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的” 王濛代言的方盒子19万开卖,头顶激光雷达,底盘能“预瞄”路况 AI开始接管实验室了!玻尔·跃迁实验室:试剂、设备、数据一个入口搞定,1800+设备即插即用 OpenClaw的风,已经吹进了奶茶圈 11.58万,全系Lidar+L4同源算法,广汽文远把城区NOA打成白菜价 4.55亿美金!中国具身智能最大单笔融资诞生,高瓴红杉联手押注具身大脑 谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样 π0.7发布,VLA押出了机器人的GPT-3时刻 18家具身顶尖势力集结,RoboChallenge 打造全球最大具身模型竞技场 空间智能第一股,开盘暴涨171%!李飞飞押注的赛道,杭州六小龙之一跑通了 ImageNet作者苏昊回国任教复旦!李飞飞高徒,具身第一高引,出任通用物理AI院长 PPIO上线PPHermes:云端沙箱一键部署Hermes Agent 72天,从0到千万小时产能,这个具身「新锐派」凭什么接管数据赛道? 打造全球领先“具身智能超级供应链”,京东发布行业首个具身数据全链路基础设施 世界客商排队体验讯飞AI眼镜,科大讯飞把多语种AI能力带进广交会第一现场 刚刚,机器人练成了宁次的「白眼」:∞帧画面边看边3D重建我们的世界! 宁王飘了!日赚2.3亿,回应比亚迪“闪充”:跟我学的,构不成挑战 腾讯官宣升级AI小程序成长计划,所有小程序都能申请 扔掉你的Token账单吧,荣耀YOYO Claw技术把养虾成本打下来了 Claude实名认证引众怒!强制验证是为了更精准封号 短短3个月,高德已拿下具身智能领域15项世界第一 我用1分钟开发了个上线应用,有阿里Meoo谁还学编程啊 继HappyHorse后,阿里又有一款模型登顶权威评测榜单 具身智能为什么还没真正落地?问题卡在这|沙龙报名 炸奥特曼的人被扒出来了 全球首创16cm极致外扩超级机械臂,MOVA扫地机开启清洁新纪元 百度Create大会官宣三大核心看点,国内最大AI开发者嘉年华5月北京揭幕 北电数智发布星火·AI云2.0,以AI系统工程重塑产城发展范式 | 酒仙桥论坛 CAAI携手中国人民大学高瓴人工智能学院、英博数科启动高校学院算力支持计划 今年最火的AI产品,不止龙虾|榜单申报中 入职Meta的吴翼,清华叉院官网已撤其教职信息 智能座舱“大脑”No.1冲刺港股,身价630亿,小米理想小鹏背后的共同供应商 别养龙虾了,硅谷Agent新潮流是「爱马仕」 Claude强到不敢发的Mythos,被质疑用了字节Seed技术 有人把巴菲特芒格炼化成Agent,然后开源了… 「Claude Code之父」其实是野路子来的…… 养虾人看哭了!字节扣子2.5出生即满级,手机对话就能Vibe Coding HTML-in-Canvas引爆前端!AI时代互联网视觉效果完全不一样了 36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR’26 Claude复活30年前传奇游戏,仅用一个周末 超越人手!中国第一家脑机接口独角兽,要把仿生手带给机器人 滴滴自动驾驶张博:聚焦安全和体验 推动自动驾驶全球化落地 奥特曼遭遇死亡威胁:凌晨家中被投燃烧瓶 中国具身模型狂揽全球第一!机器人的人类数据时代来了 刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA 阿里视频生成大模型Wan2.7登顶DesignArena榜单 紫荆智康发布“紫荆AI医院”线上虚拟诊室 击败PI!星动纪元登顶具身奥林匹克,狂揽三项全球冠军 实测刘翔pick的国产AI汽车,BBA老车主的豪华滤镜碎了 奔驰崩了,在华销量大跌27% LeCun点赞:国产开源模型占领硅谷,性价比超10倍 刷屏的SBTI,底层算法有点东西…
4步出声,单卡0.24秒!Noiz AI联合港科大清华,开源音频生成大模型
思邈 · 2026-06-15 · via 量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-06-15 14:52:30 来源:量子位

还能听懂时间戳

允中 发自 凹非寺

量子位 | 公众号 QbitAI

“先来一段蝉鸣,然后吉他声切入。”

对于这样一段看似简单的文字指令,现有的音频大模型不仅“听不懂”(搞错顺序或数量),而且“出得慢”(生成10秒声音,往往需要等待几秒甚至十几秒)。

这成了AI音频从“玩具”走向专业工作流和实时交互的最大绊脚石。

为了解决这一行业痛点,Noiz AI联合香港科技大学、清华大学等机构,正式推出了支持Anything-to-Audio的极速音频生成大模型AudioX-Turbo

AudioX-Turbo不仅仅是一个能处理多种模态输入的生成器,更是将矛头直指“极速推理”“精准可控”两大难题。

通过分布匹配蒸馏和对抗蒸馏,AudioX-Turbo将原本50-200步的扩散生成过程暴减至4步,模型前向次数骤降约25倍;

再配合全新标注的920万量级“强指令”语料,模型终于“听懂了时间戳”。

而且,推理代码、训练代码、模型权重等全部开源。

论文与项目页面:https://zeyuet.github.io/AudioX-Turbo/
项目代码:https://github.com/NoizAI/AudioX-Turbo

核心突破一:用4步打败100步,单卡0.24秒出声

现有的主流音频模型,如MMAudio,Stable Audio Open,它们多依赖Diffusion(扩散)或Flow Matching,通常需要几十到上百步迭代。

AudioX-Turbo的解法是分布匹配对抗蒸馏

1. 原生多模态骨干打底

全面采用原生适合多模态融合的Multimodal Diffusion Transformer (MMDiT)作为模型骨架,配合MAF模块从零训练了2.7B参数,确保了极高的音画同频与跨模态控制力。

△图1.预训练阶段

2. Turbo蒸馏加速

基于Flow Matching框架,引入分布匹配蒸馏(DMD)对抗蒸馏将模型蒸馏至4步,同时应用CFG蒸馏去掉了CFG引入的额外NFE开销。

“简单说,就像把一幅需要涂100遍才能完成的画,提炼成只涂4遍的模板——AudioX-Turbo用蒸馏技术把这个‘模板’提炼出来了。”

△图2. 分布匹配对抗蒸馏

结果惊人,AudioX-Turbo仅需4个采样步数就逼近Teacher模型100步的音质,再得益于扩散判别器,学生模型输出和真实样本的对抗训练,使少步模型在部分性能指标上反超了100步教师模型。

单张RTX 4090上,生成10秒音频仅需0.24秒(RTF仅0.02),打开了实时音频生成的想象空间。

△图3. Audiox-Turbo对比其它模型的全面评测

核心突破二:数据大换血,920万样本让模型“听懂人话”

之前很多音频模型无法精确控制,根源在于数据里的文本标签太“糊”(比如只有简单的环境音概括)。

为此,Noiz AI与港科大团队专门打造了超大规模的多模态音频数据集IF-caps-Pro,总规模约920万

团队搭建了“大模型级联标注”的方案——

先构建海量高质量视频-音频对,然后用Gemini 2.5 Pro模型生成带时间戳、乐器、事件数量的结构化模板,再用Qwen2-Audio进行大规模扩写。

喂给模型的数据从“模糊的摘要”变成了“带有精确时间轴的剧本”

△图4. 数据构造流程

与此同时,研究团队意外发现,文本标签写得越细,模型不仅文本生音频效果变好,连带着“只看无声视频配音”时的对齐度也跟着大幅提升。

霸榜级的实验表现

在经典的AudioCaps、MusicCaps等测试集中,4步的AudioX-Turbo模型在核心音质指标上打败或战平了需要50-200步的众多基线模型。

而为了评测模型的指令跟随能力,团队构造了专门的benchmark T2A-bench

测试结果显示,在针对声音类别、数量、时间戳和先后顺序的评测中,AudioX-Turbo的效果对比其它基线方法呈现出碾压态势(部分指标较基线提升超一倍)。

△图5. AudioX-Turbo的指令跟随能力

总结与传送门

AudioX-Turbo三大亮点

  • 4步推理,相比教师模型减少25倍计算量,效果更优,RTF仅0.02(4090);
  • 920万强指令数据集,首次实现精确时间戳控制;
  • Anything-to-Audio:文本、视频、图像全支持,一个模型搞定;

该项目所有训练代码及模型权重,已全部开源。

Noiz AI与港科大、清华的这项联合工作,证明了音频大模型完全可以打破“慢吞吞”和“不受控”的刻板印象。

随着4步极速推理的实现,互动剧配音、游戏引擎实时拟音,甚至是AI直播伴奏,都将变得触手可及。

而这正是Noiz AI正在推进的方向——让音效、有声内容制作、实时互动语音,都能实时重建。

论文信息:
论文标题:AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation
核心团队:Noiz AI、香港科技大学、清华大学
项目主页:https://zeyuet.github.io/AudioX-Turbo/

版权所有,未经授权不得以任何形式转载及使用,违者必究。