惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

F
Full Disclosure
Recorded Future
Recorded Future
T
Tenable Blog
S
Securelist
C
CERT Recently Published Vulnerability Notes
T
Threatpost
S
Schneier on Security
A
Arctic Wolf
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
Know Your Adversary
Know Your Adversary
P
Privacy International News Feed
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
The Register - Security
The Register - Security
Cisco Talos Blog
Cisco Talos Blog
AWS News Blog
AWS News Blog
K
Kaspersky official blog
T
True Tiger Recordings
T
Threat Research - Cisco Blogs
V
Vulnerabilities – Threatpost
P
Palo Alto Networks Blog
T
The Exploit Database - CXSecurity.com
小众软件
小众软件
B
Blog
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Microsoft Azure Blog
Microsoft Azure Blog
Cyberwarzone
Cyberwarzone
C
Cybersecurity and Infrastructure Security Agency CISA
T
Tor Project blog
Spread Privacy
Spread Privacy
Malwarebytes
Malwarebytes
P
Proofpoint News Feed
F
Fox-IT International blog
F
Fortinet All Blogs
P
Privacy & Cybersecurity Law Blog
G
GRAHAM CLULEY
量子位
Latest news
Latest news
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 叶小钗
Project Zero
Project Zero
T
Tailwind CSS Blog
N
Netflix TechBlog - Medium
Martin Fowler
Martin Fowler
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
I
Intezer
博客园_首页
腾讯CDC
H
Hackread – Cybersecurity News, Data Breaches, AI and More
D
Darknet – Hacking Tools, Hacker News & Cyber Security

量子位

DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时 刚刚,国产AI自己造了AI,全球首例! 留给人类数学家的悬赏不多了!谷歌DeepMind一口气解决9道埃尔德什问题 卡帕西Anthropic最新头衔:技术员工(MTS) 华为发布AI DC数据基础设施全栈方案,加速行业智能化跃升 荣耀600系列手机发布:4K闪光微单Live,国补价2294.15元起 “卡车界特斯拉”,刚刚又融了2亿美元 编程权威榜单:千问3.7仅次于Claude,阿里全球第二 刚刚,国产Agent模型闯入全球第一梯队!限时免费 京东JoyInside戴文军:AI的终极形态不是聊天,是融入你家每一件物品丨AIGC2026 无人车遇水则瘫?Waymo大规模召回,叫停多城Robotaxi服务 打造创投生态的超级枢纽, 2026投资界SuperLink大会定档6月 “VLA和世界模型都不是终局,会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026 蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收,让机器人边推演、边行动 DeepSeek V4还能更省!新工具缓存命中率高达99.82%,2折稳定到手 图灵奖得主领衔,中国大模型第一梯队集结!2026智源大会,看懂AI下一程 Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想 华为具身大脑一号位创业,用认知科学造世界模型,获亿元级融资 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026 卷到今天,Agent的含金量还在提升丨AIGC2026圆桌论坛 谷歌CEO承认Coding落后了 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026 什么!你说胡彦斌也在苦修Vibe Coding “五类人AI替代不了,企业做第二名最稳妥” | 昆仑万维方汉@AIGC2026 OpenAI大神教你如何榨干Codex DeepSeek V4价格打骨折,宁王京东网易抢着入场,梁文锋:目标是AGI 美团外卖前负责人入局餐饮具身模型,元节智能获千万级种子轮融资 美团外卖前负责人入局餐饮具身模型,元节智能获千万级种子轮融资 龙虾养不动了?周鸿祎给虾搭了个云端办公室,专业私教在线炼虾 李飞飞再出手,空间智能的ImageNet来了 融资700亿!DeepSeek Code真要来了,ACM金牌大神崔添翼挂帅 狂揽F轮融资+拿下4100万用户!深圳玩家出手,把企业旧系统变成AI能力库 顶流里最快!智谱,你是在「喷」代码吧 80集短剧,3天拍完:当电影人下场做Agent,影视生产迎来了“最懂行”的解法 39万!雷军发布小米最贵SUV 联想集团Q4营收利润双创新高,兑现历史最佳财年 腾讯混元开源全新翻译模型Hy-MT2 ,上线小程序「腾讯Hy翻译」 菲尔兹奖得主都看懵了:OpenAI非数学模型首次自主突破80年未解数学难题 风行在线CEO易正朝:先全员Coding,再All in众创丨AIGC2026 Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五 AI首次实现中国风光发电普查,北大、阿里达摩院研究登上《自然》 上海交大AI教授亲授:半天带你拆解Agent底层逻辑 得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家 520当天400万AI人,都在量子位听这近20场演讲&对谈|第四届中国AIGC产业峰会 顺丰邮政仓库干活的机器人,顺手拿了个具身高考第一 刚刚,马斯克公开SpaceX招股书! 智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速 太初元碁洪源:异构计算能力将成为未来AI算力基础设施的重要方向|AIGC2026 VC、品牌顾问、编剧,正在批量把自己做成AI AIDC建设正从“通用标准”走向“适用高效” 破壁行动!把大厂级“研发外挂”发给每一个创新者,智会心研PLUS版免费公测 海信激光电视探索X1 Pro发布:中国家庭,正式进入客厅影院时代 2026中国AIGC最值得关注的企业&产品图鉴来了!谁在造浪,谁在落地? 趋境科技完成数亿元Pre-A轮融资,高品质AI Token生产基础设施 苏姿丰上海开讲:AI正在重新定义计算的每一层 完成“由铁到钢”的生态蜕变 刘军携联想全场景AI终端点亮智能未来 抢先李飞飞!世界模型能多人联机玩FPS游戏了 国产GPU开始造世界!国内首个全栈具身智能仿真平台来了 Cursor新模型,你怎么还在套Kimi?马斯克你怎么还吆喝上了?? L2++「五冠王」文远知行:自动驾驶版的张雪机车,专治各种不服 5.20 明天见!拿好这份参会指南|AIGC2026峰会 Qwen最新3.7 Max预览版空降!两代超大杯并行迭代,林俊旸走了但还在加速 百度无人车新纪录:周订单破35万!李彦宏:开始单城盈利了 重塑主流PC,第三代英特尔酷睿开启全民AI轻薄本时代 AI水论文封一年,署名连坐!arXiv最严新规来了,陶哲轩附议 openJiuwen社区开源新招:重磅发布JiuwenSwarm,拉开群体智能“养蜂”序幕 华为“养”出半个具身智能创业圈 上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代 8B模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026 信通院&清华提出FedRE:用「纠缠」搞定联邦学习三难困境 | CVPR 26 黄仁勋北京必吃榜我们都尝了!后海酒吧老板:他答应以后每年来一次 LeCun炮轰Hinton:他认可LLM就是想摆烂退休了! 30万奖金池,这道汉语方言对话题等你来解丨第十一届信也科技杯全球AI算法大赛 一只机器狗,把英伟达的算力王座拱翻了 世界大学生超级计算机竞赛首设“英才对接”环节,搭建“赛场—职场”人才供需桥梁 Agent、多模态、应用、算力一天看尽,峰会亮点在此|5.20日,来现场一起AI 龙虾之父月烧940万元的token!要不是入职OpenAI还真用不起 SFT别急着接RL!你的多模态大模型可能一直在“带伤训练” 6.4k Stars!用Claude Code写论文的全套流水线,有人打包开源了 不用再找了,AI落地最全的实战打法,都在亦庄这场大会里 奥特曼投的芯片涨疯了,今年最大科技IPO 虾马之后又火一个!OpenHuman用20分钟了解你的一切,存成卡帕西式知识库 别让模型烧Token了!GitHub 20k星神作:把全网变成命令行 中国500万医生的新AI:顶刊独家联手,卷的就是证据源 15.68万乐道L80开卖,厨房搬进前备厢,李斌:纯电大五座SUV的“拐点” 华为云创想者大会主题论坛议程公布:释放Agentic AI新布局 Need is all you need:AI接手Coding后,程序员最值钱的能力只剩这一项? 容联云发布“数字员工”级 Al Agent 平台,重塑大模型联络中心 手机的智能体AI,正在因为天玑全面跃升 阿里发布Qoder 1.0,可全面接管代码生成、验证和交付流程 坐到马斯克和库克中间的湖南女人 蚂蚁百灵 Ring-2.6-1T 开源 Agent 执行能力全面增强 智能无处不在:OpenClaw预示的AI未来 英伟达给黄仁勋儿女涨薪了!年薪百万美元,“凭能力而不是身份” 数亿元融资落地!国内最早布局“人类学习”路线的具身公司,用人类视角重做具身智能 人手一个数据库,Kimi背后这套AI基建到底有多能扛? 重生之我在AI时代当老板:让一群Agent互相PUA 淘天金码奖落幕:20 名超级工程师诞生,推动 AI Native 实践 国产GPU组了个开源局,把SGLang等核心开发者都摇来了! Robotaxi第一股又涨疯了
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式
克雷西 · 2026-05-26 · via 量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-05-26 18:17:39 来源:量子位

光影之间,读懂未尽之意

允中 发自 凹非寺
量子位 | 公众号 QbitAI

当你把一段长达9分钟、在“晴空万里”与“冰天雪地”间剧烈切换的冰岛旅行Vlog输入给大模型,并要求它做一份旅行攻略时,常规的视觉大模型通常只能给出一份基于字幕和画面标签拼凑的“流水账”。

但实际上,长视频理解不仅需要识别每一帧里出现了什么,还要在连续的时序流动中捕捉因果链条

而作为快手自研多模态大语言模型,Keye-VL-2.0-30B-A3B展现出了截然不同的理解能力。

它不仅看见了画面,更读懂了画面背后的因果。

先来看视频:

【视频请到公众号查看】

Keye-VL-2.0-30B-A3B捕捉到了“冻手”细节,主动建议备好保暖手套;听到了猎奇美食吐槽,给出“体验当地文化”的高情商建议;敏锐察觉到了“雪地车祸”画面,直接输出“跟团优于自驾”的安全策略……

这已经超越了简单的画面标签识别,这是在连贯的时序流动中梳理因果、并基于人类逻辑进行深度规划的“慢思考”。

在多模态大模型从“基础感知”向“深度推理”演进的浪潮中,快手团队始终在思考两个问题:

如何突破视频理解任务中超长视觉上下文带来的算力瓶颈?又如何让模型从一个单纯的“观察者”进化为能解决实际复杂任务的“行动者”?

今天,快手正式发布了新版多模态大模型Keye-VL-2.0-30B-A3B。

作为Keye家族最新一代的30B级主力基座,Keye-VL-2.0-30B-A3B率先将DSA(DeepSeek Sparse Attention)机制引入多模态理解场景,成功解锁了256K超长上下文的深度感知,在长视频时序感知上实现了几乎无损的推理能力。

更具里程碑意义的是,这也是Keye系列首次解锁Agent协作机制,在Code、Tool、Search等复杂场景下展现出了扎实的系统级协作与执行潜力。

五大技术引擎重塑多模态底座

DSA首次落地多模态,破解长视频理解瓶颈

视频理解的痛点,往往在于超长视觉上下文带来的指数级计算开销与核心信息的稀释。

Keye-VL-2.0-30B-A3B在底层架构上完成了关键跨越——首次在多模态理解场景中成功应用了DSA(DeepSeek Sparse Attention)。

通过结合稀疏注意力与极具针对性的特征聚合,模型在处理长达小时级的视频序列时,能够有效进行高噪环境下的信息提纯,精准捕捉关键帧并理清动态规律。

这一架构优势在细粒度视频时序理解最新基准(TimeLens)中得到了极致验证。

需要说明的是,该榜单论文官方仅公布了Gemini-2.5-Pro的成绩,为了保证评测的严谨性,快手团队严格按照相同评测方式,在内部同步测试了Gemini 3 Flash作为实测基线比对:

  • 日常动作时序解析(Charades-TimeLens):模型以58.4的mIoU强势对标实测的最强视频理解闭源标杆Gemini 3 Flash(61.2)。
  • 视频动作定位(ActivityNet-TimeLens): 凭借58.5的mIoU,实现了对官方数据Gemini-2.5-Pro(58.1)以及实测数据Gemini 3 Flash(57.0)的全面超越。
  • 高光时刻提取(QVHighlights-TimeLens):模型的mIoU达到70.1,与官方榜单的顶尖闭源模型并驾齐驱,并大幅超过实测的Gemini 3 Flash(49.5)。

时序解析意味着厘清动作发生的精确边界,并给出所属视频中的准确时间。我们向Keye-VL-2.0-30B-A3B输入了一段制作陶杯的工艺流程视频。

【视频请到公众号查看】

面对繁复的手工动作,模型展现出了手术刀般的帧级判断力,直接输出了一份带有精确时间戳的工艺全拆解:

  • 方解石原料处理:用锤子将原石砸成小块;放入竹筛中在溪流中反复冲洗去除杂质。
  • 方解石煅烧与制浆:放土窑加木炭煅烧至高温(约950℃);开窑取出白色粉末;加水研磨制成细腻浆液(水飞工艺)。
  • 陶土采集与处理:山地挖取红褐色陶土;倒缸加水搅拌去杂质。
  • 茶杯坯体制作与装饰:转轮手工拉坯塑形;精细修整厚度形状;底部贴方形印章款识并修整。
  • 配釉与施釉:按比例称取石英石长石等原料并加水搅拌制浆;坯体反复浸入釉浆后自然晾干。
  • 烧制与成品展示:装窑堆叠;烧柴升温至1200℃;出窑清洗浸入陈茶水中氧化调整釉色;最终呈现开片、铁足等釉色特征。

从挖土、煅烧、水飞到修坯、配釉、陈茶,全程极具专业壁垒的手工工序,模型不仅全部准确识别,更将每一个工艺动作与视频时间轴实现了毫秒级的完美咬合。

再来一段《王者荣耀》高燃对局的视频。

【视频请到公众号查看】

当接收到“请找出视频中的高光时刻,并给出你的依据,时间戳用[mm:ss]的形式来表示”的指令时,Keye-VL-2.0- 30B-A3B没有陷入传统AI“哪里有击杀提示就截取哪里”或“只看画面元素剧烈变化”的机械逻辑。

它的做法是基于视觉张力、音画协同以及电竞叙事的深刻理解,给出了极具玩家共鸣的精准判定:

  • 视觉与节奏的双重爆发——模型判定依据:模型敏锐捕捉到了画面中最激烈的团战场景,不仅能精细识别“金色、紫色光效交织”的特效,还能准确读取“276”“132”等具体的动态伤害数值。它将这些视觉元素的密集程度作为战斗节奏紧凑的直接证据,展现了极强的动态视觉解析力。
  • 音画协同的戏剧张力构建——模型判定依据:模型并没有局限于游戏画面本身,跨模态捕捉到了底部的英文歌词字幕。它成功理解了带有燃向色彩的歌词与激烈对局之间的关联,指出了这种“音画协同”如何将视频的戏剧张力推向高潮。
  • “绝境翻盘”的情绪共鸣点——模型判定依据:这是最体现模型深度的部分。它通过读取画面中的“27 vs 35”判定出己方劣势的背景,结合团战的胶着状态,精准提炼出“绝境翻盘”这一电竞核心叙事节点。它证明了自己不仅能看懂画面,更能切中游戏视频背后的情绪感染力与观赏价值。
  • 全局视角的对比排他逻辑——模型判定依据:模型的分析并没有孤立存在,而是展现出了宏观的全局视野。它主动将高光片段与此前的战斗、追击片段(00:00-00:16 / 00:17-00:58)进行了全盘对比,从特效强度、节奏张力和叙事意义三个维度严密论证了该时段的不可替代性,逻辑闭环极具说服力。

为了更直观地展现这种跨代际的领先,可以将其在核心视频理解基准上的表现进行可视化对比。

如下图所示,无论是TimeLens的细粒度动作锚定,还是在LongVideoBench上的综合长时序解析,Keye-VL-2.0-30B-A3B都展现出了对同级别甚至200B+超大参数开源基座的显著压制力。

除此之外,模型还实现了极致的推理成本与专属Infra训练系统重构

作为30B级别的基座,Keye-VL-2.0-30B-A3B不仅在时序理解上显著优于超两千亿参数的开源模型,更在底层算力效能上实现了飞跃。

一方面是推理成本大幅摊薄,引入DSA架构与系统级工程优化后,模型长序列Prefill(预填充)阶段成本降低了50%。

更重要的是,随着输入视频上下文的拉长,传统Full Attention的Decode计算量会呈指数级暴增,而快手团队基于DSA的Decode成本曲线展现出了极其平缓的增长态势,为超长视频的大规模落地提供了极具竞争力的低成本方案。

另一方面是破解长视频训练瓶颈,快手打造了专为长视频、变长序列服务的训练Infra:

  • 通过可横向扩展的ExtraIO架构将IO独立部署、按需扩容,消除视频解码与抽帧带来的IO瓶颈;
  • 采用ViT–LM异构并行 + 两级负载均衡 + ViT激活值零显存优化(Recompute/Offload),破解了长视频、变长序列下计算/显存的均衡难题;
  • 基于FlashInfer、TileLang对变长序列模式下的DSA进行深度调优,使得长序列训练性能相比基于开源方案适配的Baseline直接翻倍。

极致的细粒度感知与时序推理,实现视频SOTA

基于强大的底层基础架构,快手团队在“时空统一编码”与“长时序特征聚合”上进行了深度优化。

相较于历史版本,Keye-VL-2.0-30B-A3B的视频理解能力实现了全方位跃升,不仅在当前同尺寸模型中登顶SOTA,更在多项核心时序指标上跨越了尺寸壁垒。

模型不仅能“看懂”画面的静态切片,更具备了强大的时序因果推理能力。

这一跨越式的进化,在多项权威视频理解榜单的最终定版实测中得到了极其有力的数据印证。

打破了“长上下文衰减”魔咒(VideoMME V2),也就是业界普遍面临着的“输入帧数越多,注意力越稀释、准确率越低”的痛点。

Keye-VL-2.0-30B-A3B彻底扭转了这一趋势——当输入视频从64帧极限扩展至512帧时,模型的平均准确率(ACC)不仅未见衰减,反而从35.34%逆势大幅飙升至42.44%

同时,代表复杂逻辑深度的非线性得分(Non-Liner Score)亦从18.54稳步跨越至24.19。

这种反直觉表现,完美验证了其在超长序列下的绝对统治力。

超长视频综合理解(LongVideoBench)方面,当模型面对长达数十分钟甚至小时级的复杂视频理解任务时,斩获了74.10的高分,将同级别开源基座远远甩在身后,跨级逼近顶级闭源巨头。

真正的长视频理解,是对复杂剧情跌宕、空间跳跃与情感暗线的全面洞察。

我们向模型输入了一段长达8分钟、记录“长白山云顶天宫雪雕重建”的纪录片,要求其给出详细的场景划分与叙事总结。

【视频请到公众号查看】

面对这部充满波折的群像短片,模型不仅精准切分了8个核心场景,更展现出了惊人的“叙事解构”能力:

  • 空间与事件的精准追踪:从起初的图纸分歧(00:18),到夜间大型造雪机进场施工(01:29),再到通过航拍对比小镇从“烂尾楼”变“繁华夜市”(02:48),模型精准识别了所有场景跳跃;
  • 灾难冲突的因果提取:在03:45节点,模型敏锐捕捉到了“天空阴沉、冰雪融化飞檐变钝”的视觉细节,结合旁白精准总结出了核心剧情转折:“百年不遇的冬雨导致雪体坍塌,团队陷入死局。”
  • 情感与主题的深度升华:模型并没有停留在“建雪雕”的表层,它提取了画面中巨大的“振兴东北”刻字,关联了片中“老程盼女儿、小李回流家乡”的人物背景,在总结中直指故事内核:“极寒的温度冻不住东北人的热血,冰雪项目不仅是奇观,更是承载着东北人振兴家乡、呼唤游子归乡的炽热情感与现实路径。”

这样的表现,已经超越了视频打标员,成为了一位具备极高人文共情能力的“阅卷人”。

此外在全能视听推理(MLVU & VideoMMMU)上,模型需要从微观动作追踪到宏观跨学科视频解析,结果在MLVU (82.80)与VideoMMMU (79.98)等多维高难榜单中均交出了傲视同侪的答卷。

Agent框架打通“感知-规划-执行”全链路

作为Keye家族迈向真实业务场景的关键一步,Keye-VL-2.0-30B-A3B首次在多模态基座中内建了Agent协作机制。

面对复杂的多步任务,模型跳出了传统单轮对话的框架,着力构建了一套相对稳定、可靠的自动化调度基线。

Code Agent(代码工程基线)方面,在业内巨头林立的代码赛道,快手选择务实地构建多模态代码能力的有效水位。

模型初步打通了基础题的逻辑推演,并在真实代码仓库的解析上进行了探索。

实测数据显示,定版模型在LivecodeBench v6 (77.10)与OJBench (39.20)的算法评测中,不仅领先于同级别参数模型,甚至在基础推演能力上超越了部分两千亿参数的开源基座。

在更贴近真实业务线的SWE-bench Verified任务中,模型也跑通了62.00的基线成绩,初步具备了定位并修复代码Issue的能力。

更重要的是,模型充分发挥了基座的视觉优势,在HTML前端生成(如视觉手稿直转网页)等极具业务价值的细分场景上,跑通了结合执行反馈的自我纠错闭环。

Tool Agent(工具调用与调度)方面,模型也展现出了扎实的意图理解与接口调度能力。

这一能力在TAU2-Bench(82.58)、BFCL-V4 (65.72)以及多模态Agent测试集VITA-Bench (33.12)中得到了印证,其中在侧重复杂多步调度的TAU2-Bench上,模型跨尺寸建立了显著优势。

为了验证其实际业务容错率,我们向模型输入了一段高度交织的复杂指令,要求其同时处理“查询指定标签门店、测算经纬度配送距离、筛选商品并最终创建酒店及配送订单”。

面对这种极易导致模型崩溃的“多线程”需求,Keye-VL-2.0-30B-A3B展现出了极为冷静的多步任务分解(Task Planning)能力。

它自主规划并按序调用了get_delivery_store_info、longitude_latitude_to_distance、create_hotel_order等十余次API。

在长达数十轮的执行流中,模型不仅准确提取了上下文参数作为后续API的输入参数,更在底层跑通了容错逻辑——

依靠强大的自我推理完成状态自检与策略调整,最终向用户输出了排版清晰、状态明确的执行结果。完美适应了高度自动化的文本工作流。

MOPD专家合版,克服灾难性遗忘

在垂域能力拓展阶段,为解决多任务学习的“灾难性遗忘”,快手团队创新性地引入了跨模态MOPD(多专家策略蒸馏/合并)技术。

通过分段re-tokenize方法,团队保证了多模态场景下序列的严格对齐。

在动态路由与参数融合的作用下,该方法有效整合了各垂域专家模型。

在此基础上,他们独创了分桶优势缩放(Bucket Advantage Scaling)方法,从Token级别对结构组织、教师表达、感知表征与推理运算进行细粒度建模,并在优势估计阶段施加差异化缩放。

这一机制极大强化了核心的感知与推理信号,抑制了格式性、模板性Token的干扰。

同时,为释放Dense Reward的优势,快手团队首次将MOPD引入重复崩溃治理,通过多粒度识别与精确定位,将原本模糊的负向反馈转化为可追溯的优化信号,显著提升了长序列生成的鲁棒性。

真正的多任务融合,不能以牺牲通用底座能力为代价。下图是Keye-VL-2.0-30B-A3B最终定版在全维度基准测试中的“全景成绩单”:

得益于MOPD技术的有机融合,模型不仅在Video和Agent等核心阵地登顶,更在极度考验逻辑的数学推理(Math & Reasoning)、STEM以及指令遵循(Instruction Following)等通用能力上迎来了全面爆发。

Context-RL与严苛数据引擎,构筑推理的绝对可靠性

为了让模型蜕变为“严密且实事求是的逻辑引擎”,快手团队在后训练(Post-Training)阶段,量身定制了一套极具深度的多模态强化学习体系,核心建立在两大基石之上。

一是创新奖励信号,实现超几何分布级别的事实性监督

在视觉感知与多模态推理中,为了解决“可靠性难以评估”的痛点,在常规规则外,模型开创性引入了Context-RL奖励机制

该机制利用混合模态的参考信息,构建了极其稠密的细粒度奖励信号,实现了超几何分布级别的事实性监督。

它强力压制了多步推理、复杂学科(数学/医疗/代码)场景下的幻觉倾向,迫使模型严格锚定输入信息进行毫无发散的可靠长程推演。

二是严苛的数据引擎,这里快手团队采取了极致的筛选与准确率过滤手段。

高质量奖励必须依托纯净的数据引擎。

为此,他们设计了极为严格的数据筛选配比流程,并引入高效的准确率过滤机制(Accuracy Filtering),实时剔除低质量、逻辑断层的样本轨迹。

这种“高信噪比数据”与“高精度奖励”的完美结合,彻底打破了RL训练中的作弊与坍塌,确保模型在长上下文推演中的决策稳定性实现了质的飞跃。

扎根真实业务生态,驱动内容与商业双飞轮

评测榜单上的突破,从来不是Keye迭代的终点。

多模态理解大模型与Agent能力在各真实业务场景中的深度落地,才是快手在2026年乃至未来技术投入的重中之重。

告别空泛的行业热词堆砌,快手的全景布局既锚定行业通用能力的扎实基座,更聚焦最坚实的业务落地与真实收益,Keye-VL正在从下面的三个维度,全面重塑真实业务流。

多模态理解融入到核心业务,拿到真实收益

多模态理解能力,是快手庞大内容与商业生态迈向全面智能化的基石。

Keye-VL-2.0-30B-A3B正在将极具细粒度的长视频感知与图文解析能力,无缝融入到生成式推荐、内容生态治理以及商业化定向投放等核心链路中。

目前,模型已在多个内部高优应用场景率先落地。

它不仅能像人类一样精准捕捉视频画面的“弦外之音”与时序逻辑,极大提升了推荐系统的分发命中率,更在广告营销的精细化标签提取上,实打实地取得了显著的商业收益转化。

通过Keye-VL,快手正在让最前沿的算力与算法,真正成为反哺主营业务的增长引擎。

Video × Agent,重塑视频素材生产范式

面向未来的智能生态演进方向,Keye新解锁的Agent协作机制正直接赋能庞大的创作者群体与商业生态。

快手会将“精准多模态理解”与“Agent自动化调度”深度融合,打造端到端的全自动闭环工作流。

面对海量且高频的短视频业务诉求,模型不再仅仅是看懂内容的“旁观者”,化身为深入生产一线的“智能调度枢纽”。

从海量视频库中的智能检索、关键高光切片提取,到基于逻辑演进的自动化剪辑包装,再到契合爆款逻辑的营销文案生成,Keye-VL都极大降低了优质内容的生产门槛,真正拉动生态生产力。

以30B为基石,构建下一代智能基建壁垒

Keye-VL-2.0-30B-A3B的成功落地,是对快手从底层DSA算力优化、海量数据飞轮到后训练Context-RL算法链路的有力验证。

这不仅解决了当下的业务痛点,更为下一阶段的研发扫清了工程障碍。

他们将以30B版本的成功经验为跳板,稳步向真正的原生多模态(Native Multimodal)与端到端深度融合挺进。

快手拒绝盲目的跟风炒作,通过一次次扎实的业务验证与版本迭代,持续构筑具有深度的行业技术影响力,沉淀不可替代的核心基建壁垒。

从突破算力瓶颈,到深入业务一线。跑分不是终点,落地才是

Keye-VL-2.0-30B-A3B,现已就绪。

致谢:本文案例演示的视频素材源自快手平台@爱德黎子、@山白、@南翔、@穆穆(鬼神)
开源主页与模型权重已同步上线
Hugging Face: https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B
GitHub: https://github.com/Kwai-Keye/Keye

版权所有,未经授权不得以任何形式转载及使用,违者必究。