























💡 站外导读:当前,AI在虚拟环境中的自主决策与执行能力仍面临巨大挑战,尤其是在复杂的3D开放世界游戏中,如何实现实时感知、长周期规划与跨场景泛化,是业界公认的痛点。随着大模型技术的飞速发展,将AI Agent深度融入游戏等数字孪生环境,已成为探索通用人工智能(AGI)和具身智能的关键前沿。字节跳动最新推出的Lumine智能体,正是在这一背景下,试图突破现有局限,为AI在复杂动态环境中的应用开辟新路径。
Lumine是字节跳动推出的在3D开放世界游戏中实时感知、推理和行动的通用AI智能体。Lumine基于Qwen2-VL-7B-Base模型,通过类人交互范式,将感知、思考和行动整合在一起。Lumine能实时感知游戏环境,执行复杂的任务,包括战斗、解谜、与NPC交互以及GUI操作等。Lumine在《原神》中表现出色,能完成长达数小时的主线任务,且在其他游戏中展现跨游戏泛化能力。Lumine通过多阶段训练,逐步提升自主思考和操作能力,为未来具身智能的发展提供新的方向。

任务执行:能自主完成复杂的长周期任务,如在《原神》中完成长达数小时的主线剧情。
战斗能力:动态追踪敌人、精准射击、切换角色进行连招攻击,高效开启宝箱。
解谜能力:支持应对各种解谜挑战,如收集风神瞳、激活元素方碑等。
NPC交互:能与NPC进行稳定对话,完成任务。
GUI操作:像人类玩家一样进行2D界面操作,如制作物品、使用传送锚点等。
跨游戏泛化:无需额外微调,能在其他游戏(如《崩坏:星穹铁道》《鸣潮》)中完成任务。
感知空间:以每200ms处理一帧游戏画面,保留历史推理轨迹,为决策提供上下文信息。
混合思考策略:在关键场景(如环境突变、计划失效)进行推理,简单场景直接输出动作,提高效率。
键盘与鼠标操作建模:将所有操作定义为鼠标位移和按键序列,通过高质量数据进行三阶段训练:
预训练:学习基础视觉运动能力。
指令跟随训练:关联语言指令与动作。
决策推理训练:学会自主规划和修正,完成长周期任务。
实时优化:通过上下文管理和多维度优化,降低延迟,确保实时交互。
Lumine的发布绝非只是一款游戏AI工具的更新,它精准地指向了当前AI发展的两个核心趋势:一是‘环境交互智能’,即AI从被动接受数据转向在复杂、动态的3D世界中主动感知与行动;二是‘通用智能体’的雏形,通过在《原神》等高复杂度场景中锤炼,并展现出跨游戏泛化能力,它验证了‘一个模型,多种环境’的可行性。其采用的Qwen2-VL-VL基座模型与混合思考策略,巧妙平衡了实时性与决策深度。从产业视角看,这不仅是游戏开发和测试的革命性工具,更是元宇宙、数字孪生乃至工业仿真中智能代理的预演。它预示着,未来的AI竞争,将从单一任务处理能力,全面转向在开放世界中持续学习、推理和执行的‘智能体’综合能力比拼。字节跳动此举,无疑是在为下一代人机交互和具身智能的基础设施卡位。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。