

























💡 站外导读:当AI不仅能生成图像和视频,还能构建一个可供实时探索和交互的连贯世界,这意味着什么?腾讯混元团队开源的“混元世界模型1.5”给出了答案。它直击当前AIGC内容缺乏空间连贯性与交互性的核心痛点,用户仅需输入文字或图片,即可快速创建并像玩游戏一样自由探索专属的3D虚拟空间。这标志着生成式AI正从静态内容生成,迈入动态、沉浸式世界构建的新阶段,为游戏、影视、XR乃至机器人训练打开了全新的可能性。
腾讯混元世界模型1.5(HY WorldPlay 1.5)是腾讯混元团队开源的实时交互式世界生成模型。用户只需输入文字或图片,模型能快速创建专属的虚拟世界,通过键盘、鼠标或手柄自由探索。模型具备实时交互生成、长范围3D一致性和多样化交互体验三大核心能力,支持高清视频输出和多种风格场景生成。模型首次开源了涵盖数据、训练、推理部署等全链路的实时世界模型框架,创新双分支动作表征、上下文记忆重构等技术,为AI生成内容带来新的突破,能广泛应用于游戏开发、影视制作、具身智能研究等领域。

实时交互生成:通过优化的流式推理技术,模型能以24帧/秒的速度实时生成720P高清视频,用户能像玩游戏一样自由操控虚拟相机,实时探索AI生成的世界。
长范围3D一致性:采用重构记忆机制,模型能“记住”场景的三维结构,即使用户离开某个区域后返回,场景依然保持一致,支持分钟级的几何一致性生成,适用高质量3D空间模拟。
多样化交互体验:支持第一人称和第三人称视角,生成不同风格的游戏场景、现实场景,支持文本触发事件(如爆炸)和视频续写功能,满足多种应用需求。
场景导出与重建:用户能将生成的3D场景导出为可多次使用的3D点云,便于后续的进一步开发和应用。
双分支动作表征:融合三维相机位姿与离散控制指令,实现精准的交互控制。相比单一控制方式,提升生成一致性和稳定性,同时缓解场景尺度不一致导致的收敛慢和控制漂移问题。
上下文记忆重构机制:通过短时序上下文记忆和长空间记忆,结合“时间重构”技术动态调整记忆帧编码,强化历史帧的持续影响力,确保运动平滑和几何一致性。
Context Forcing蒸馏策略:对齐师生模型的记忆上下文,解决分布匹配蒸馏中的模式崩溃问题,平衡实时性与记忆能力,减少长序列生成中的误差累积,兼顾速度与生成质量。
World Compass强化学习框架:通过渐进式rollout策略和细粒度奖励函数,同步提升动作控制准确性和视觉输出质量,显著提高采样效率,实现训练与推理过程的一致性。
流式推理服务:优化等待、传输与推理全链路延迟,采用DiT与VAE混合并行、流式解码传输及模型量化等技术,支持24帧/秒的长时流式生成,适配多样化场景。
AI 游戏开发:作为智能关卡生成器,根据玩家的文本描述实时创建可探索的游戏世界,降低开发成本并提升玩家体验。
影视制作:创作者通过文本指令快速生成和迭代场景设计,加速影视前期制作并降低创作成本。
虚拟现实(VR)与增强现实(AR):生成沉浸式虚拟环境,支持用户通过 VR/AR 设备实时探索和互动,适用于教育、娱乐和培训等领域。
具身智能研究:为具身智能体提供虚拟训练平台,助力研究感知、决策和交互能力,提升智能体性能。
建筑设计与城市规划:根据设计师描述快速生成建筑或城市环境的 3D 模型,支持实时修改和优化,提高设计效率。
混元世界模型1.5的开源,是AIGC领域一次重要的范式跃迁。它不仅仅是生成一段3D视频,而是构建一个具有空间记忆、支持实时交互的“世界”。其技术亮点——如双分支动作控制、上下文记忆重构——精准解决了世界模型的一致性与交互延迟难题。这背后反映的前沿趋势是:生成式AI正从“内容生成”向“环境生成”进化,这是通往通用人工智能(AGI)和真正元宇宙的关键基石。对于行业而言,它极大地降低了创建交互式3D环境(尤其是用于训练具身智能体)的门槛,将游戏开发、虚拟制片和机器人仿真等领域的“世界构建”成本推向一个新低点。腾讯此次全链路开源,也展现了其在基础模型层面推动生态发展的决心,有望催化一波以实时交互世界为画布的新应用创新浪潮。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。