



























💡 站外导读:在AIGC浪潮下,高质量视频生成需求激增,但多主体场景下的“角色一致性”与“背景干扰”始终是行业痛点。智谱AI开源的Kaleido框架,正是针对这一核心挑战的破局之作。它通过创新的数据管线与R-RoPE机制,首次在开源领域实现了多主体视频的精准解耦与稳定生成,标志着AIGC视频创作从单体展示向复杂叙事迈出了关键一步,为开发者提供了强大的底层工具。
Kaleido 是智谱AI开源的多主体视频生成框架,能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE(Reference Rotary Positional Encoding)机制,有效分离主体与背景信息,在多主体场景下保持主体特征一致性。Kaleido 在多主体视频生成中达到 SOTA 效果,为视频生成领域提供强大的开源方案,助力开发者实现高质量的多主体视频创作。

多主体一致性生成:框架能在视频中保持多个主体(如人物、物体等)的视觉一致性,在复杂场景和多人交互中能维持稳定的主体特征。
背景解耦:框架能有效分离主体与背景信息,避免生成视频中出现参考图像中的无关背景细节,使主体在不同背景中具有更好的适应性。
高质量视频生成:通过优化的数据构建和训练方法,生成高质量、高保真度的视频内容,适用多种应用场景,如广告、影视制作等。
灵活的条件控制:框架支持通过多张参考图像和文本提示进行视频生成,为创作者提供更灵活的创作空间。
影视制作:Kaleido 能根据角色的多张参考图生成高质量的动画视频,帮助动画师快速生成初步动画素材,提高制作效率。
广告创意:通过多主体视频生成,Kaleido 能为广告创作者提供灵活的素材生成方案,快速生成包含多个产品或人物的广告视频。
虚拟试穿:在电商领域,Kaleido 能生成用户试穿虚拟服装或佩戴虚拟饰品的视频,提升用户体验。
虚拟角色互动:为虚拟主播或虚拟角色生成自然的互动视频,使其在直播、游戏等场景中表现出更丰富的动态效果。
教育与培训:用在生成教学视频,例如通过多主体生成展示实验过程或多人协作场景,增强教学的直观性和趣味性。
Kaleido的发布,远不止一个新模型那么简单。它揭示了AIGC视频生成正从‘单体炫技’向‘多体叙事’的深水区迈进。智谱AI通过开源此框架,巧妙地将行业难题(多主体一致性)转化为社区共建的机遇,其技术路径——用高质量、解耦的数据强制模型学习‘纯粹’的主体特征,再通过R-RoPE在架构层面固化身份边界——极具启发性。这预示着未来视频生成模型的竞争,将更多地聚焦于数据工程与架构创新的结合。对于从业者而言,Kaleido不仅是工具,更是一个观察多主体生成技术演进的绝佳样本。其在影视预演、个性化广告、虚拟社交等场景的落地潜力,正推动AIGC从内容生产的‘辅助工具’向‘核心生产力引擎’加速转变。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。