
























💡 站外导读:随着AI Agent浪潮席卷移动端,如何用自然语言指令实现手机操作自动化成为开发者关注的焦点。智谱开源的Open-AutoGLM框架应运而生,它基于先进的视觉语言模型,能将用户意图转化为真实点击、滑动等操作,覆盖外卖、社交、办公等50多款主流中文应用。更关键的是,该框架采用云手机技术保障隐私安全,并提供完整工具链,极大降低了手机智能体开发的门槛。
Open-AutoGLM 是智谱开源的手机端智能助理框架,基于 AutoGLM 构建,能通过自然语言指令实现手机操作的自动化。Open-AutoGLM通过 Phone Use 能力框架,将自然语言指令转化为实际操作,如点击、滑动、输入等,可在外卖、社交、客服等场景中自动完成任务。框架借助云手机技术保障隐私安全。Open-AutoGLM 开源目的是推动行业共同进步,保护用户隐私,加速 Agent 技术爆发。目前支持 50 多款主流中文应用,提供完整工具链和详细文档,助力开发者快速上手和二次开发。

自然语言理解与任务执行:用户能用自然语言描述需求,AI 自动解析意图、执行操作。
多模态界面理解:通过视觉语言模型理解手机屏幕内容,识别界面元素进行操作。
自动化操作:支持点击、滑动、输入文本、长按、双击等多种操作,模拟真实用户行为。
敏感操作确认与人工接管:在涉及隐私或敏感操作时,AI 会请求人工确认或接管,确保安全性。
远程调试与控制:支持通过 WiFi 或网络进行远程 ADB 调试,无需物理连接设备即可操作。
支持多款应用:覆盖 50 多款主流中文应用,包括社交通讯、电商购物、美食外卖、视频娱乐等场景。
云手机环境部署:在云端虚拟设备中运行,保障用户隐私和数据安全。
C:\Open-AutoGLM 或 ~/Open-AutoGLM)。cd path/to/Open-AutoGLMpip install -r requirements.txtpython3 -m vllm.entrypoints.openai.api_server --model zai-org/AutoGLM-Phone-9B --port 8000python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "任务描述"Open-AutoGLM的开源标志着手机AI Agent从概念验证进入可落地部署的关键阶段。从技术趋势看,它解决了移动端Agent的两大核心瓶颈:一是通过多模态界面理解实现跨应用操作,突破了传统API调用的局限;二是创新的云手机架构,在保障隐私的同时实现了规模化部署。这背后反映的是AI从“理解”到“行动”的范式转变——未来三年,能自动操作GUI的Agent将重塑人机交互方式。对开发者而言,现在正是布局移动端Agent开发的最佳窗口期,智谱通过开源工具链+模型组合拳,正在为行业树立新的技术基准。
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。