

















< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
2026-05-26 18:17:39 来源:量子位
光影之间,读懂未尽之意
当你把一段长达9分钟、在“晴空万里”与“冰天雪地”间剧烈切换的冰岛旅行Vlog输入给大模型,并要求它做一份旅行攻略时,常规的视觉大模型通常只能给出一份基于字幕和画面标签拼凑的“流水账”。
但实际上,长视频理解不仅需要识别每一帧里出现了什么,还要在连续的时序流动中捕捉因果链条。
而作为快手自研多模态大语言模型,Keye-VL-2.0-30B-A3B展现出了截然不同的理解能力。
它不仅看见了画面,更读懂了画面背后的因果。
先来看视频:
【视频请到公众号查看】
Keye-VL-2.0-30B-A3B捕捉到了“冻手”细节,主动建议备好保暖手套;听到了猎奇美食吐槽,给出“体验当地文化”的高情商建议;敏锐察觉到了“雪地车祸”画面,直接输出“跟团优于自驾”的安全策略……

这已经超越了简单的画面标签识别,这是在连贯的时序流动中梳理因果、并基于人类逻辑进行深度规划的“慢思考”。
在多模态大模型从“基础感知”向“深度推理”演进的浪潮中,快手团队始终在思考两个问题:
如何突破视频理解任务中超长视觉上下文带来的算力瓶颈?又如何让模型从一个单纯的“观察者”进化为能解决实际复杂任务的“行动者”?
今天,快手正式发布了新版多模态大模型Keye-VL-2.0-30B-A3B。
作为Keye家族最新一代的30B级主力基座,Keye-VL-2.0-30B-A3B率先将DSA(DeepSeek Sparse Attention)机制引入多模态理解场景,成功解锁了256K超长上下文的深度感知,在长视频时序感知上实现了几乎无损的推理能力。
更具里程碑意义的是,这也是Keye系列首次解锁Agent协作机制,在Code、Tool、Search等复杂场景下展现出了扎实的系统级协作与执行潜力。
视频理解的痛点,往往在于超长视觉上下文带来的指数级计算开销与核心信息的稀释。
Keye-VL-2.0-30B-A3B在底层架构上完成了关键跨越——首次在多模态理解场景中成功应用了DSA(DeepSeek Sparse Attention)。
通过结合稀疏注意力与极具针对性的特征聚合,模型在处理长达小时级的视频序列时,能够有效进行高噪环境下的信息提纯,精准捕捉关键帧并理清动态规律。
这一架构优势在细粒度视频时序理解最新基准(TimeLens)中得到了极致验证。
需要说明的是,该榜单论文官方仅公布了Gemini-2.5-Pro的成绩,为了保证评测的严谨性,快手团队严格按照相同评测方式,在内部同步测试了Gemini 3 Flash作为实测基线比对:
时序解析意味着厘清动作发生的精确边界,并给出所属视频中的准确时间。我们向Keye-VL-2.0-30B-A3B输入了一段制作陶杯的工艺流程视频。
【视频请到公众号查看】
面对繁复的手工动作,模型展现出了手术刀般的帧级判断力,直接输出了一份带有精确时间戳的工艺全拆解:

从挖土、煅烧、水飞到修坯、配釉、陈茶,全程极具专业壁垒的手工工序,模型不仅全部准确识别,更将每一个工艺动作与视频时间轴实现了毫秒级的完美咬合。
再来一段《王者荣耀》高燃对局的视频。
【视频请到公众号查看】
当接收到“请找出视频中的高光时刻,并给出你的依据,时间戳用[mm:ss]的形式来表示”的指令时,Keye-VL-2.0- 30B-A3B没有陷入传统AI“哪里有击杀提示就截取哪里”或“只看画面元素剧烈变化”的机械逻辑。
它的做法是基于视觉张力、音画协同以及电竞叙事的深刻理解,给出了极具玩家共鸣的精准判定:

为了更直观地展现这种跨代际的领先,可以将其在核心视频理解基准上的表现进行可视化对比。
如下图所示,无论是TimeLens的细粒度动作锚定,还是在LongVideoBench上的综合长时序解析,Keye-VL-2.0-30B-A3B都展现出了对同级别甚至200B+超大参数开源基座的显著压制力。

除此之外,模型还实现了极致的推理成本与专属Infra训练系统重构。
作为30B级别的基座,Keye-VL-2.0-30B-A3B不仅在时序理解上显著优于超两千亿参数的开源模型,更在底层算力效能上实现了飞跃。
一方面是推理成本大幅摊薄,引入DSA架构与系统级工程优化后,模型长序列Prefill(预填充)阶段成本降低了50%。
更重要的是,随着输入视频上下文的拉长,传统Full Attention的Decode计算量会呈指数级暴增,而快手团队基于DSA的Decode成本曲线展现出了极其平缓的增长态势,为超长视频的大规模落地提供了极具竞争力的低成本方案。
另一方面是破解长视频训练瓶颈,快手打造了专为长视频、变长序列服务的训练Infra:
基于强大的底层基础架构,快手团队在“时空统一编码”与“长时序特征聚合”上进行了深度优化。
相较于历史版本,Keye-VL-2.0-30B-A3B的视频理解能力实现了全方位跃升,不仅在当前同尺寸模型中登顶SOTA,更在多项核心时序指标上跨越了尺寸壁垒。
模型不仅能“看懂”画面的静态切片,更具备了强大的时序因果推理能力。
这一跨越式的进化,在多项权威视频理解榜单的最终定版实测中得到了极其有力的数据印证。
它打破了“长上下文衰减”魔咒(VideoMME V2),也就是业界普遍面临着的“输入帧数越多,注意力越稀释、准确率越低”的痛点。
Keye-VL-2.0-30B-A3B彻底扭转了这一趋势——当输入视频从64帧极限扩展至512帧时,模型的平均准确率(ACC)不仅未见衰减,反而从35.34%逆势大幅飙升至42.44%。
同时,代表复杂逻辑深度的非线性得分(Non-Liner Score)亦从18.54稳步跨越至24.19。
这种反直觉表现,完美验证了其在超长序列下的绝对统治力。
超长视频综合理解(LongVideoBench)方面,当模型面对长达数十分钟甚至小时级的复杂视频理解任务时,斩获了74.10的高分,将同级别开源基座远远甩在身后,跨级逼近顶级闭源巨头。
真正的长视频理解,是对复杂剧情跌宕、空间跳跃与情感暗线的全面洞察。
我们向模型输入了一段长达8分钟、记录“长白山云顶天宫雪雕重建”的纪录片,要求其给出详细的场景划分与叙事总结。
【视频请到公众号查看】
面对这部充满波折的群像短片,模型不仅精准切分了8个核心场景,更展现出了惊人的“叙事解构”能力:

这样的表现,已经超越了视频打标员,成为了一位具备极高人文共情能力的“阅卷人”。
此外在全能视听推理(MLVU & VideoMMMU)上,模型需要从微观动作追踪到宏观跨学科视频解析,结果在MLVU (82.80)与VideoMMMU (79.98)等多维高难榜单中均交出了傲视同侪的答卷。
作为Keye家族迈向真实业务场景的关键一步,Keye-VL-2.0-30B-A3B首次在多模态基座中内建了Agent协作机制。
面对复杂的多步任务,模型跳出了传统单轮对话的框架,着力构建了一套相对稳定、可靠的自动化调度基线。
Code Agent(代码工程基线)方面,在业内巨头林立的代码赛道,快手选择务实地构建多模态代码能力的有效水位。
模型初步打通了基础题的逻辑推演,并在真实代码仓库的解析上进行了探索。
实测数据显示,定版模型在LivecodeBench v6 (77.10)与OJBench (39.20)的算法评测中,不仅领先于同级别参数模型,甚至在基础推演能力上超越了部分两千亿参数的开源基座。
在更贴近真实业务线的SWE-bench Verified任务中,模型也跑通了62.00的基线成绩,初步具备了定位并修复代码Issue的能力。
更重要的是,模型充分发挥了基座的视觉优势,在HTML前端生成(如视觉手稿直转网页)等极具业务价值的细分场景上,跑通了结合执行反馈的自我纠错闭环。
Tool Agent(工具调用与调度)方面,模型也展现出了扎实的意图理解与接口调度能力。
这一能力在TAU2-Bench(82.58)、BFCL-V4 (65.72)以及多模态Agent测试集VITA-Bench (33.12)中得到了印证,其中在侧重复杂多步调度的TAU2-Bench上,模型跨尺寸建立了显著优势。
为了验证其实际业务容错率,我们向模型输入了一段高度交织的复杂指令,要求其同时处理“查询指定标签门店、测算经纬度配送距离、筛选商品并最终创建酒店及配送订单”。
面对这种极易导致模型崩溃的“多线程”需求,Keye-VL-2.0-30B-A3B展现出了极为冷静的多步任务分解(Task Planning)能力。

它自主规划并按序调用了get_delivery_store_info、longitude_latitude_to_distance、create_hotel_order等十余次API。
在长达数十轮的执行流中,模型不仅准确提取了上下文参数作为后续API的输入参数,更在底层跑通了容错逻辑——
依靠强大的自我推理完成状态自检与策略调整,最终向用户输出了排版清晰、状态明确的执行结果。完美适应了高度自动化的文本工作流。
在垂域能力拓展阶段,为解决多任务学习的“灾难性遗忘”,快手团队创新性地引入了跨模态MOPD(多专家策略蒸馏/合并)技术。
通过分段re-tokenize方法,团队保证了多模态场景下序列的严格对齐。
在动态路由与参数融合的作用下,该方法有效整合了各垂域专家模型。
在此基础上,他们独创了分桶优势缩放(Bucket Advantage Scaling)方法,从Token级别对结构组织、教师表达、感知表征与推理运算进行细粒度建模,并在优势估计阶段施加差异化缩放。
这一机制极大强化了核心的感知与推理信号,抑制了格式性、模板性Token的干扰。
同时,为释放Dense Reward的优势,快手团队首次将MOPD引入重复崩溃治理,通过多粒度识别与精确定位,将原本模糊的负向反馈转化为可追溯的优化信号,显著提升了长序列生成的鲁棒性。
真正的多任务融合,不能以牺牲通用底座能力为代价。下图是Keye-VL-2.0-30B-A3B最终定版在全维度基准测试中的“全景成绩单”:

得益于MOPD技术的有机融合,模型不仅在Video和Agent等核心阵地登顶,更在极度考验逻辑的数学推理(Math & Reasoning)、STEM以及指令遵循(Instruction Following)等通用能力上迎来了全面爆发。
为了让模型蜕变为“严密且实事求是的逻辑引擎”,快手团队在后训练(Post-Training)阶段,量身定制了一套极具深度的多模态强化学习体系,核心建立在两大基石之上。
一是创新奖励信号,实现超几何分布级别的事实性监督。
在视觉感知与多模态推理中,为了解决“可靠性难以评估”的痛点,在常规规则外,模型开创性引入了Context-RL奖励机制。
该机制利用混合模态的参考信息,构建了极其稠密的细粒度奖励信号,实现了超几何分布级别的事实性监督。
它强力压制了多步推理、复杂学科(数学/医疗/代码)场景下的幻觉倾向,迫使模型严格锚定输入信息进行毫无发散的可靠长程推演。
二是严苛的数据引擎,这里快手团队采取了极致的筛选与准确率过滤手段。
高质量奖励必须依托纯净的数据引擎。
为此,他们设计了极为严格的数据筛选配比流程,并引入高效的准确率过滤机制(Accuracy Filtering),实时剔除低质量、逻辑断层的样本轨迹。
这种“高信噪比数据”与“高精度奖励”的完美结合,彻底打破了RL训练中的作弊与坍塌,确保模型在长上下文推演中的决策稳定性实现了质的飞跃。
评测榜单上的突破,从来不是Keye迭代的终点。
多模态理解大模型与Agent能力在各真实业务场景中的深度落地,才是快手在2026年乃至未来技术投入的重中之重。
告别空泛的行业热词堆砌,快手的全景布局既锚定行业通用能力的扎实基座,更聚焦最坚实的业务落地与真实收益,Keye-VL正在从下面的三个维度,全面重塑真实业务流。
多模态理解能力,是快手庞大内容与商业生态迈向全面智能化的基石。
Keye-VL-2.0-30B-A3B正在将极具细粒度的长视频感知与图文解析能力,无缝融入到生成式推荐、内容生态治理以及商业化定向投放等核心链路中。
目前,模型已在多个内部高优应用场景率先落地。
它不仅能像人类一样精准捕捉视频画面的“弦外之音”与时序逻辑,极大提升了推荐系统的分发命中率,更在广告营销的精细化标签提取上,实打实地取得了显著的商业收益转化。
通过Keye-VL,快手正在让最前沿的算力与算法,真正成为反哺主营业务的增长引擎。
面向未来的智能生态演进方向,Keye新解锁的Agent协作机制正直接赋能庞大的创作者群体与商业生态。
快手会将“精准多模态理解”与“Agent自动化调度”深度融合,打造端到端的全自动闭环工作流。
面对海量且高频的短视频业务诉求,模型不再仅仅是看懂内容的“旁观者”,化身为深入生产一线的“智能调度枢纽”。
从海量视频库中的智能检索、关键高光切片提取,到基于逻辑演进的自动化剪辑包装,再到契合爆款逻辑的营销文案生成,Keye-VL都极大降低了优质内容的生产门槛,真正拉动生态生产力。
Keye-VL-2.0-30B-A3B的成功落地,是对快手从底层DSA算力优化、海量数据飞轮到后训练Context-RL算法链路的有力验证。
这不仅解决了当下的业务痛点,更为下一阶段的研发扫清了工程障碍。
他们将以30B版本的成功经验为跳板,稳步向真正的原生多模态(Native Multimodal)与端到端深度融合挺进。
快手拒绝盲目的跟风炒作,通过一次次扎实的业务验证与版本迭代,持续构筑具有深度的行业技术影响力,沉淀不可替代的核心基建壁垒。
从突破算力瓶颈,到深入业务一线。跑分不是终点,落地才是。
Keye-VL-2.0-30B-A3B,现已就绪。

致谢:本文案例演示的视频素材源自快手平台@爱德黎子、@山白、@南翔、@穆穆(鬼神)
开源主页与模型权重已同步上线
Hugging Face: https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B
GitHub: https://github.com/Kwai-Keye/Keye
版权所有,未经授权不得以任何形式转载及使用,违者必究。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。