惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园 - 三生石上(FineUI控件)
T
Threat Research - Cisco Blogs
月光博客
月光博客
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
爱范儿
爱范儿
Hugging Face - Blog
Hugging Face - Blog
腾讯CDC
云风的 BLOG
云风的 BLOG
D
Docker
罗磊的独立博客
U
Unit 42
博客园 - 聂微东
人人都是产品经理
人人都是产品经理
P
Proofpoint News Feed
博客园 - Franky
Apple Machine Learning Research
Apple Machine Learning Research
MyScale Blog
MyScale Blog
B
Blog RSS Feed
美团技术团队
J
Java Code Geeks
S
Securelist
Cyberwarzone
Cyberwarzone
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
NISL@THU
NISL@THU
Security Latest
Security Latest
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Recorded Future
Recorded Future
Hacker News - Newest:
Hacker News - Newest: "LLM"
L
LINUX DO - 热门话题
Recent Announcements
Recent Announcements
Last Week in AI
Last Week in AI
A
About on SuperTechFans
MongoDB | Blog
MongoDB | Blog
Spread Privacy
Spread Privacy
T
Tenable Blog
I
Intezer
N
News | PayPal Newsroom
大猫的无限游戏
大猫的无限游戏
A
Arctic Wolf
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
V
V2EX - 技术
S
Schneier on Security
S
SegmentFault 最新的问题
Latest news
Latest news
宝玉的分享
宝玉的分享
V
Visual Studio Blog
V
V2EX
T
Tor Project blog
C
Comments on: Blog

量子位

DDIM之父宋佳铭,宣布离职 英伟达版「MacBook Pro」曝光:老黄自研了CPU! 机器人原生世界动作模型问世!首创时空一体架构,复旦系团队出品 Token贵只因你喂给模型的垃圾太多了丨@亚马逊王晓野AIGC2026 τ0-WM:最大规模预训练的开源具身世界模型来了 AI原生时代下,让世界适应Agent,而非教AI做人 | 港大黄超@AIGC2026 从Token无上限到全员Agent:MiniMax的AI Native组织进化实践 帮Gemini拿下IMO金牌的关键先生,差点成了职业钢琴家 英伟达清华团队提出Gamma-World:世界模型从「一个人玩」到「多人共处」 英伟达清华团队提出Gamma-World:世界模型从「一个人玩」到「多人共处」 4nm!比亚迪自研AI芯片来了:制程对齐英伟达,算力拉爆特斯拉 光帆科技与腾讯出行服务达成战略合作 开启新一轮预售 PPIO入选非凡产研「2026 Global AI 100」,以AI实力领跑出海新浪潮 面壁智能「开源周」:一场定义端侧 AI 终局的系统性「亮剑」 5亿Tokens白送!全球首个商用AI主机发布,终于能放开烧Token了 下限零基础,上限肝大作!腾讯这个AI游戏创作平台,太野了 创意设计版WorkBuddy来了!腾讯发布智能体创意工作室Miora 刚刚,全球⾸个“事件级预测”具身智能世界模型来了! 清华系团队给大模型织了一张“智能算力电网” Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行 DeepSeek V4芯模协同背后,国产算力生态开始飞轮加速 世界模型接棒语言模型,这家公司全球首创物理AGI“双金字塔”体系,通用机器人进入“家庭时代” 沙钢签约钉钉,让悟空成为每一位“钢铁人”的生产力工具 5篇AI生成的数学论文被接收!00后创始人洪乐潼融资14个亿 7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看” AI正在重写软件行业?8岁孩子做操作系统,一人公司拿下千万订单 「斯隆奖」得主戴亮全职加盟复旦 清华有了新老师:黄仁勋 雷鸟双品齐发:GT 系列、V4 同台亮相,次世代 AI 眼镜雷鸟 iO 提前预告 1400亿Agent入场,“流量”这条护城河要塌了 5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了 OpenAI挖来了个F1级别车手搞公关 触觉具身来了个梦之队:天使轮近亿 Codex自我蒸馏玩法火了!OpenAI员工亲授:复制粘贴就能让AI消灭重复劳动 DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时 将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式 刚刚,国产AI自己造了AI,全球首例! 留给人类数学家的悬赏不多了!谷歌DeepMind一口气解决9道埃尔德什问题 卡帕西Anthropic最新头衔:技术员工(MTS) 华为发布AI DC数据基础设施全栈方案,加速行业智能化跃升 荣耀600系列手机发布:4K闪光微单Live,国补价2294.15元起 “卡车界特斯拉”,刚刚又融了2亿美元 编程权威榜单:千问3.7仅次于Claude,阿里全球第二 刚刚,国产Agent模型闯入全球第一梯队!限时免费 京东JoyInside戴文军:AI的终极形态不是聊天,是融入你家每一件物品丨AIGC2026 无人车遇水则瘫?Waymo大规模召回,叫停多城Robotaxi服务 打造创投生态的超级枢纽, 2026投资界SuperLink大会定档6月 “VLA和世界模型都不是终局,会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026 蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收,让机器人边推演、边行动 DeepSeek V4还能更省!新工具缓存命中率高达99.82%,2折稳定到手 图灵奖得主领衔,中国大模型第一梯队集结!2026智源大会,看懂AI下一程 Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想 华为具身大脑一号位创业,用认知科学造世界模型,获亿元级融资 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026 卷到今天,Agent的含金量还在提升丨AIGC2026圆桌论坛 谷歌CEO承认Coding落后了 未来推理将吃掉70%算力,30%留给训练丨硅谷投资人张璐@AIGC2026 什么!你说胡彦斌也在苦修Vibe Coding “五类人AI替代不了,企业做第二名最稳妥” | 昆仑万维方汉@AIGC2026 OpenAI大神教你如何榨干Codex DeepSeek V4价格打骨折,宁王京东网易抢着入场,梁文锋:目标是AGI 美团外卖前负责人入局餐饮具身模型,元节智能获千万级种子轮融资 美团外卖前负责人入局餐饮具身模型,元节智能获千万级种子轮融资 龙虾养不动了?周鸿祎给虾搭了个云端办公室,专业私教在线炼虾 李飞飞再出手,空间智能的ImageNet来了 融资700亿!DeepSeek Code真要来了,ACM金牌大神崔添翼挂帅 狂揽F轮融资+拿下4100万用户!深圳玩家出手,把企业旧系统变成AI能力库 顶流里最快!智谱,你是在「喷」代码吧 80集短剧,3天拍完:当电影人下场做Agent,影视生产迎来了“最懂行”的解法 39万!雷军发布小米最贵SUV 联想集团Q4营收利润双创新高,兑现历史最佳财年 腾讯混元开源全新翻译模型Hy-MT2 ,上线小程序「腾讯Hy翻译」 菲尔兹奖得主都看懵了:OpenAI非数学模型首次自主突破80年未解数学难题 风行在线CEO易正朝:先全员Coding,再All in众创丨AIGC2026 Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五 AI首次实现中国风光发电普查,北大、阿里达摩院研究登上《自然》 上海交大AI教授亲授:半天带你拆解Agent底层逻辑 得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家 520当天400万AI人,都在量子位听这近20场演讲&对谈|第四届中国AIGC产业峰会 顺丰邮政仓库干活的机器人,顺手拿了个具身高考第一 刚刚,马斯克公开SpaceX招股书! 智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速 太初元碁洪源:异构计算能力将成为未来AI算力基础设施的重要方向|AIGC2026 VC、品牌顾问、编剧,正在批量把自己做成AI AIDC建设正从“通用标准”走向“适用高效” 破壁行动!把大厂级“研发外挂”发给每一个创新者,智会心研PLUS版免费公测 海信激光电视探索X1 Pro发布:中国家庭,正式进入客厅影院时代 2026中国AIGC最值得关注的企业&产品图鉴来了!谁在造浪,谁在落地? 趋境科技完成数亿元Pre-A轮融资,高品质AI Token生产基础设施 苏姿丰上海开讲:AI正在重新定义计算的每一层 完成“由铁到钢”的生态蜕变 刘军携联想全场景AI终端点亮智能未来 抢先李飞飞!世界模型能多人联机玩FPS游戏了 国产GPU开始造世界!国内首个全栈具身智能仿真平台来了 Cursor新模型,你怎么还在套Kimi?马斯克你怎么还吆喝上了?? L2++「五冠王」文远知行:自动驾驶版的张雪机车,专治各种不服 5.20 明天见!拿好这份参会指南|AIGC2026峰会 Qwen最新3.7 Max预览版空降!两代超大杯并行迭代,林俊旸走了但还在加速 百度无人车新纪录:周订单破35万!李彦宏:开始单城盈利了 重塑主流PC,第三代英特尔酷睿开启全民AI轻薄本时代 AI水论文封一年,署名连坐!arXiv最严新规来了,陶哲轩附议
别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式
Jay · 2026-05-31 · via 量子位

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-05-31 22:25:18 来源:量子位

下一代CUA训练范式

复旦×通义团队 投稿

量子位 | 公众号 QbitAI

给Agent同时接上GUI操作和工具调用,准确率反而下降了。

模型根本不会在GUI和Tool之间选择。该点按钮的时候去调API,该调API的时候又死磕菜单,两头乱窜,越帮越忙。

为应对这一挑战,复旦大学通义实验室MobileAgent团队联合提出ToolCUA,一个面向GUI-Tool混合动作空间的Computer Use Agent。

核心目标就一个:让模型学会什么时候走GUI,什么时候切Tool,什么时候不该调工具。

结果相当能打。

ToolCUA-8B在OSWorld-MCP上拿到46.85%准确率,超过Claude-4-Sonnet,逼近Claude-4.5-Sonnet

代码、模型权重已全面开源。

混合动作空间下的路径困惑

传统的CUA主要依赖原子化GUI操作,例如点击、输入、拖拽、滚动。这类操作泛化性强,只要界面上能看到按钮,理论上模型就能点;但它也有明显短板:步骤长、误差容易累积,在复杂任务中很容易出现cascading errors。

相反,tool calls或API-based operations往往更高效、更精确。例如在LibreOffice里批量处理表格,GUI-only方案可能需要一串冗长的菜单点击和参数配置,而工具调用可能一个API就能完成。

看起来最自然的方案,是让Agent同时拥有GUI和Tool。但实验发现一个非常反直觉的事实:直接把tools接到强模型上,并不会自动提升性能。

在hybrid GUI-Tool action space中,Agent每一步都站在一个岔路口:左边是GUI,右边是Tool。GUI泛化强但慢,Tool快但依赖覆盖与上下文条件。如果模型缺少路径选择能力,就会出现两类典型失败:

Tool underuse:明明有更高效的工具,模型仍然几乎只走GUI路线。

Tool overuse:模型频繁调用工具,但调用时机不对、调用粒度不对,反而降低任务成功率。

论文将这个问题定义为optimal GUI-Tool path selection:在长程任务中动态决定何时使用GUI actions、何时调用tools,从而形成更高效、更可靠的执行路径。

上图左侧的表格直接给出了这个反直觉现象:一旦把tools接到强模型上,结果并不总是更好。

Qwen3VL-8B几乎不使用工具,平均tool calls只有0.003,准确率从29.0%降到28.2%;Qwen3VL-235B则明显更倾向于调用工具,平均tool calls达到6.10,步骤数从25.9降到17.4,但准确率反而从41.1%降到38.1%。

Claude系列同样说明了这一点。

Claude-4-sonnet在加入工具后步骤数从23.6降到19.2,但准确率从47.7%降到43.5%;Claude-4.5-sonnet的步骤数从23.3降到19.1,但准确率从61.9%降到48.4%。

这说明,混合动作空间真正难的不是有没有工具,而是模型在GUI和Tool之间会不会选路

第一阶段:数据合成与Tool-Bootstrapped RFT

要让模型学会GUI-Tool path selection,首先需要高质量的interleaved GUI-Tool trajectories。但现实中,这类数据非常稀缺。

真实工具接口往往应用相关、覆盖不完整,而且维护成本高;而收集真实GUI-Tool混合轨迹又需要复杂的环境接入和人工标注。

已有GUI数据虽然规模很大,但大多是GUI-only trajectories,只教模型如何点击和输入,并没有告诉模型何时应该用工具替代冗长GUI操作。

ToolCUA的第一步,就是把这些GUI-only数据盘活,并顺势完成第一阶段的hybrid bootstrapping。

论文提出Interleaved GUI-Tool Trajectory Scaling Pipeline:从已有GUI轨迹出发,利用MLLM合成grounded tool library,再将GUI-only trajectories转换成interleaved GUI-Tool trajectories。

整个pipeline可以概括为三个步骤:

1、Trajectory-aware synthetic tool library construction。

对每条GUI轨迹,模型会分析任务目标、动作序列和截图描述,从真实操作流程中抽象出可调用的工具。

例如从Chrome设置流程中抽象出chrome_open_language_settings,从LibreOffice表格操作中抽象出读取工作簿信息、创建透视表等工具。

这些工具不是凭空生成的API模板,而是grounded in concrete trajectory behavior,也就是从真实GUI行为中抽象出来的工具能力。

2、Tool trajectory generation with next-state grounding。

给定合成工具库和原始GUI轨迹,MLLM生成一个功能等价的tool-only trajectory,并为每一步预测tool response。

随后通过next-state grounding,将工具执行效果锚定到原始GUI轨迹中的下一帧截图,验证工具步骤和可见状态变化是否一致。

3、Interleaved GUI-Tool trajectory generation。

最后,系统不会简单地把所有GUI操作都替换成工具,而是随机采样部分工具调用,再替换回对应GUI子序列,形成多种GUI与Tool交错的轨迹。

这个设计非常关键:它让模型看到不同tool availability下的决策边界,也自然产生GUI -> Tool和Tool -> GUI的critical switching steps。

最终,ToolCUA的数据中大约包括了4k个unique tools,覆盖fine-grained、mid-grained、coarse-grained多级粒度,大约有180k steps数据用于warmup SFT,还从critical steps中sample出5k条用于single-turn RL。

基于这些数据,ToolCUA进一步执行Tool-Bootstrapped GUI RFT。这一阶段的目标,不是直接学完整长程策略,而是先给模型打下一个可用的hybrid foundation。

具体来说,ToolCUA先在D_all上进行warmup SFT,学习多模态工具调用知识,包括工具用途、参数、返回结果,以及工具执行后的状态变化。

随后,模型在D_critical上进行single-turn RL,在明确的GUI-Tool switching steps上采样多个completion,并通过反馈校准模型在局部边界上的选择。

这一阶段做的事情是:先把interleaved GUI-Tool数据合成出来,再让模型先学会会用工具和在局部切换点上别选错。

Online Agentic RL与Tool-Efficient Path Reward

如果说第一阶段解决的是模型先要进入hybrid action space,那么第二阶段解决的就是:模型如何在真实环境里学会trajectory-level的路径选择。

ToolCUA的第二阶段是Online Agentic RL。这一步不再只优化单步动作,而是在真实GUI-Tool environment中进行long-horizon rollout,让模型学习完整任务轨迹上的路径选择。

团队首先构建了同时具备GUI actions和Tool calls的高可用Sandbox用于agentic RL,并且为工具返回结果设计了更加结构化的格式便于模型理解。

Agentic RL优化的核心是Tool-Efficient Path Reward:

其中,R_fmt和R_acc分别是标准格式奖励与任务成功奖励;R_tool和R_length则是ToolCUA专门设计的两项轨迹级奖励,并且它们只在成功轨迹上激活,避免模型从失败执行里学到错误偏好。

第一项是Tool Appropriateness Reward (R_tool)

在数据构建时,每个任务会带一个task-level的tool-beneficial标记:t_b = 1表示这个任务适合用工具,t_b = -1表示这个任务不适合用工具。与此同时,c表示整条轨迹里的tool calls数。

于是,R_tool奖励的不是工具调用更多,而是更精确的两种行为:

对于适合工具的任务,成功轨迹里确实调用了工具。

对于不适合工具的任务,成功轨迹里反而没有乱用工具。

它要解决的正是前面提到的hybrid confusion:有些模型明明该用工具却不用,有些模型则在不该用的时候乱用。R_tool的作用,就是把工具是否合适这件事从任务成功里单独拎出来训练。

第二项是Path Efficiency Reward (R_length)

这里,s是当前轨迹的步数,\bar{s}是同组rollout的平均步长,S_max是最大执行步数。ToolCUA不拿一个固定阈值来判定长还是短,而是做group-relative comparison:

如果某条成功轨迹比组内平均更短,就给线性bonus。

如果更长,就做衰减。

这样设计的好处是,模型会自然倾向于探索更短的成功路径。而在很多场景里,更短的路径恰恰意味着:用一个高层工具替代一长串冗余GUI操作。因此,R_length本质上是在鼓励模型发现更高效的GUI-Tool execution path

所以,这一阶段的核心并不是让模型调用更多工具,而是让它学会两件事:什么时候工具真的合适,什么时候这条执行路径真的更短。

OSWorld-MCP上达到46.85%,相对提升约66%

ToolCUA主要在OSWorld-MCP上评测。这个benchmark在传统OSWorld的基础上引入了hybrid GUI-Tool action space,覆盖典型GUI actions、150+ tools和主流桌面应用,适合衡量模型在真实混合动作空间中的执行能力。

评测指标包括:

  • Accuracy:任务成功率
  • TIR (Tool Invocation Rate):是否做对任务,并且在tool-beneficial tasks中使用工具,并在non-tool-beneficial tasks中避免工具
  • ACS (Average Completion Steps):平均完成步数,衡量执行效率

ToolCUA-8B在OSWorld-MCP上取得46.85% accuracy,相比Qwen3-VL-8B-Instruct baseline的28.23%,相对提升约66%

同时,ToolCUA超过了GUI-Owl-1.5-8B(43.84%)、Gemini-3.1-Pro(41.14%)和Claude-4-Sonnet(43.54%),并接近Claude-4.5-Sonnet(48.35%)与GUI-Owl-1.5-32B(48.05%)。

更重要的是效率指标。ToolCUA的ACS仅为14.93 steps,是表中所有模型里最低的。这说明ToolCUA不只是完成了更多任务,也学会了用更短路径完成任务。

与Qwen3-VL-8B-Instruct相比,ToolCUA的overall TIR从8.41%提升到24.32%,ACS从19.34降到14.93。这说明模型不仅更会做任务,也更会判断什么时候应该调用工具。

在训练阶段,Online Agentic RL只使用单应用Linux任务,并刻意排除了multi_apps domain,用于OOD验证。

结果显示,在held-out multi_apps任务上,ToolCUA从baseline的9.8%和pre-online RL stage的18.5%提升到23.9%

在具体应用域上,ToolCUA也有明显提升。例如在libreoffice_calculation上从19.6%提升到34.8%,在vs_code上从66.7%提升到94.4%

更进一步,ToolCUA还在WindowsAgentArena上进行评测。

尽管训练数据和sandbox都来自Linux桌面环境,ToolCUA在unseen Windows desktop apps上达到33.8% accuracy,超过Qwen3-VL-8B-Instruct的26.4%、Qwen3-VL-32B-Instruct的30.9%,也超过Qwen3-VL-235B-A22B的32.1%

这说明ToolCUA学到的并不只是某些特定任务模板,而是更接近一种可迁移的hybrid action orchestration能力。

为什么ToolCUA真正学会了选路

ToolCUA的提升到底来自哪里?论文里的ablation很清楚地给出三条结论。

第一,如果没有interleaved GUI-Tool trajectory data,online RL本身学不会可靠的tool use。

当去掉offline interleaved GUI-Tool bootstrapping,直接从Qwen3-VL-8B-Instruct baseline开始做online agentic RL时,模型的overall accuracy虽然也会继续上升,但它很难真正学会稳定的工具调用行为。

最典型的现象是:TIR长期偏低,训练后期也只到约15%;tool calls在大部分训练过程中都接近0

这说明,仅靠trajectory-level online reward,并不足以让一个GUI-centric base model自然长出靠谱的hybrid switching能力。模型需要先通过interleaved supervision获得工具知识和切换先验。

第二,如果没有Tool-Efficient Path Reward,模型学不会稳定且高效的路径。

同样在rl_dynamics里可以看到,去掉R_tool和R_length后,只保留标准的R_acc与R_fmt,accuracy曲线会明显更不稳定,在训练step 8-11左右出现下降,最终与完整ToolCUA之间有大约7个点的差距。

与此同时,TIR和tool-calls也没有稳定上升趋势,trajectory length也缺少持续下降。

这说明,任务成功奖励本身不足以教会模型什么时候工具是合适的和什么路径才是真正高效的。

第三,Hybrid GUI-Tool training比pure GUI training更有效。

论文进一步比较了pure GUI training和hybrid GUI-Tool training。

GUI-only pipeline从baseline 29.03%提升到SFT后34.93%,再到agentic RL后42.05%;而GUI+Tool pipeline中,RFT已经达到38.13%,完整ToolCUA进一步达到46.85%

这表明hybrid GUI-Tool action space本身就是一个更高保真的训练环境。模型不只是学visual grounding,也在这个过程中学会何时应该用结构化工具替代冗余GUI操作。

WindowsAgentArena的结果也说明,这种训练范式带来的不是单点收益,而是更强的跨平台泛化能力

真正的GUI-Tool协同

为了更直观地理解ToolCUA的能力,可以看两个实际案例。

第一个是LibreOffice Calc任务:用户要求在一个名为Sheet2的新sheet中创建两个pivot tables,分别统计product和sales channel对应的total revenue。

GUI-only方法通常需要选择数据范围、打开菜单、配置字段、确认参数,步骤冗长且容易出错。

ToolCUA则先调用工具读取workbook信息和sheet内容,识别数据结构与字段位置,然后直接调用create_pivot_table生成透视表。

这个案例展示的不是工具永远比GUI好,而是: 当任务核心是结构化表格操作时,Tool可以绕过脆弱的逐步GUI导航,用更确定的方式完成任务。

第二个案例来自VS Code。任务是将/home/user/data1和/home/user/data2两个文件夹加入当前workspace。

ToolCUA先连续调用add_folder工具,把两个目录加入VS Code workspace。

这一步非常适合工具调用,因为路径明确、操作结构化、目标可验证。

但工具调用完成后,VS Code弹出了Do you trust the authors?的信任确认对话框。

这个状态不是简单tool call就能闭环的。

此时ToolCUA切换回GUI action,点击Yes, I trust the authors。

完成界面上的最后一步。

这正是ToolCUA想解决的问题:它不是试图用Tool替代所有GUI,也不是退回纯GUI操作,而是在真实环境里学习两种action space的协同与切换

Hybrid action training,下一代CUA训练范式

在agent热潮的推动下,computer use agent正在更积极地探索真实世界里的落地路径。

ToolCUA为社区揭示了一个关键现象:一旦进入hybrid action space,现有CUA和部分强基座模型会出现明显的路径困惑,甚至导致准确率下降。

团队通过staged training paradigm在hybrid action training上做了一次有益探索,并验证了这一路线的有效性。

接下来,更值得继续和推进的方向,是构建更大规模的CUA工具,训练更大规模的CUA基座模型,让CUA原生具有hybrid actions的能力,更好地解决人类复杂问题。

项目网站:https://x-plug.github.io/ToolCUA/
代码仓库:https://github.com/X-PLUG/ToolCUA
模型地址:https://huggingface.co/mPLUG/ToolCUA-8B
Mobile-Agent系列:https://github.com/X-PLUG/MobileAgent

版权所有,未经授权不得以任何形式转载及使用,违者必究。