惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
V
Vulnerabilities – Threatpost
有赞技术团队
有赞技术团队
小众软件
小众软件
O
OpenAI News
C
Cyber Attacks, Cyber Crime and Cyber Security
I
Intezer
NISL@THU
NISL@THU
D
Darknet – Hacking Tools, Hacker News & Cyber Security
N
News and Events Feed by Topic
MongoDB | Blog
MongoDB | Blog
阮一峰的网络日志
阮一峰的网络日志
Hacker News: Ask HN
Hacker News: Ask HN
D
Docker
WordPress大学
WordPress大学
Security Archives - TechRepublic
Security Archives - TechRepublic
A
About on SuperTechFans
Stack Overflow Blog
Stack Overflow Blog
C
CERT Recently Published Vulnerability Notes
L
LINUX DO - 最新话题
Application and Cybersecurity Blog
Application and Cybersecurity Blog
M
MIT News - Artificial intelligence
Blog — PlanetScale
Blog — PlanetScale
S
Security @ Cisco Blogs
Cloudbric
Cloudbric
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
V
V2EX
Hacker News - Newest:
Hacker News - Newest: "LLM"
G
Google Developers Blog
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
W
WeLiveSecurity
Google DeepMind News
Google DeepMind News
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
H
Hackread – Cybersecurity News, Data Breaches, AI and More
G
GRAHAM CLULEY
S
Schneier on Security
T
Tor Project blog
Spread Privacy
Spread Privacy
PCI Perspectives
PCI Perspectives
Microsoft Security Blog
Microsoft Security Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
F
Fortinet All Blogs
L
Lohrmann on Cybersecurity
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
T
The Exploit Database - CXSecurity.com
TaoSecurity Blog
TaoSecurity Blog
Apple Machine Learning Research
Apple Machine Learning Research
T
Threat Research - Cisco Blogs
T
Troy Hunt's Blog
罗磊的独立博客

雷峰网

1.8亿人在小红书读书:图书业在小红书电商营收规模年增超30% | 雷峰网 减重300kg,首搭5nm智驾芯片:2026款乐道L90正式亮相 | 雷峰网 阶跃和千⾥科技官宣战略合作:打造原⽣智驾基座模型,提升物理AI能⼒上限 | 雷峰网 “还债骑手”被强制下线240次:“开始我很反感过劳提醒,影响赚钱” | 雷峰网 石头科技:2025年营收高增56.51%,2026Q1营收增23.31% | 雷峰网 Mythos引爆攻击工业化时代,奇安信:构建三位一体内生安全体系是破解之道 | 雷峰网 曝两家科技大厂争投DeepSeek,估值飙至200亿美元;小米深夜放大招!最强大模型MiMo-V2.5系列发布;微软 Xbox 部门将裁员15% | 雷峰网 RGB-Mini LED电视普及风暴,海信正式发布小墨E5S Pro | 雷峰网 标配8255芯片与CDC,奇瑞试图终结“燃油车无智驾”时代 | 雷峰网 德赛西威也不相信,智驾能让Tier1躺着赚钱 | 雷峰网 找来刘翔做代言人,可能是智己LS8最好的一步棋 | 雷峰网 「中国版Grok上车」分水岭:阶跃交出首份量产答卷 | 雷峰网 百度Create大会双主论坛议程揭晓,多项重磅升级发布将集中亮相 | 雷峰网 泄露用户隐私!曝某AI助手将B用户简历发给A用户;苹果更换CEO原因曝光;微信宣布5国可用微信支付;航旅纵横「崩」了一天,借钱功能却正常 | 雷峰网 一季度交付1200件精益工具,希音深入技术创新提升按需时尚竞争力 | 雷峰网 从“替代”到“重构”:联想开天“1+2+N”如何重写信创AI PC逻辑? | 雷峰网 中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026 | 雷峰网 上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026 死亡率「99%」的芯片创业淘汰赛,为旌科技为何能活下来? | 雷峰网 清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026 | 雷峰网 东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026 | 雷峰网 西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026 | 雷峰网 西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026 | 雷峰网 21.0975 公里,是人形机器人的里程碑,也是 RISC-V 的新起点 | 雷峰网 独家 | 华为19级天才少年赵立晨离职创业,瞄准具身 Agentic OS 独家 | CMU系⼜诞⽣⼀家具⾝智能公司「Zeno AI」 | 雷峰网 Token消耗量翻10倍才算企业转型及格线?三位产业一线大佬教你用出性价比 | 雷峰网 阿里发布Qwen3.6-Max预览版,登顶最佳国产模型 | 雷峰网 郭达雅加入巨头背后:顶尖AI人才为何向大厂「回流」? | 雷峰网 解决机器人散热困境,华科冷芯高速悬浮泵液冷方案助力荣耀人形机器人“闪电”夺冠 | 雷峰网 智元邓泰华宣布:具身智能行业进入「部署态」 | 雷峰网 独家丨前安克研发总监丁准离职创业,获头部美元基金押注 | 雷峰网 曝DeepSeek V4将于本周发布,梁文锋对外融资20亿;雷军在服务区被堵车里维权?小米徐洁云回应;宇树H1半马被担架抬离赛道丨雷峰早报 | 雷峰网 广州一斗虾赛现场各路选手比拼蒸馏,现场诞生近50个“技能包” | 雷峰网 智元 ×Hitch Open|深耕具身智能,共建全球物理智能学术生态 | 雷峰网 2026广汽科技日重磅发布五大核心技术,以“科技向心”引领智能出行时代 | 雷峰网 一汽大众与卓驭科技的七年协同,交出一份燃油车智能化的成绩单 | 雷峰网 腾讯的长青游戏,今天又进化了一次 | 雷峰网 智己LS8上市:24.98万起售,刘翔站台的这台「最强8系」能打吗? | 雷峰网 全球1100万台出货,追觅打造最聪明的扫地机 | 雷峰网 阶跃率先跑通“中国版 Grok 上车”量产交付!超级 Eva 搭载极氪8X 今起上市 物理AI时代,为什么需要一颗“舱驾融合”芯片? | 雷峰网 逸安启欢迎问界加入,与宝马、梅赛德斯-奔驰携手, 共同推进中国豪华超充网络的发展 | 雷峰网 逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座 | 雷峰网 独家丨AWS大中华区多位L8高管迎来变动,SA部门负责人代闻离职 | 雷峰网 头部品牌 “加码”东南亚 泡泡玛特新品在Lazada发售 | 雷峰网 D19起售价21.98万元,零跑能成为9系SUV的“破局者”吗? | 雷峰网 全球首款!进迭时空 RISC-V AI CPU K3 成功适配 OpenHarmony 6.1 4小时闭门会,15位运动科技创业者聊透了哪些「不能公开说」的真相 | 雷峰网 在女性黑客松上,看见AI硬件的另一种可能 | 雷峰网 Plaud 爆火后,YoooClaw 要改写 AI 硬件的剧本 黄仁勋:DeepSeek在华为芯片上发布「很可怕」;抖音集团副总裁辟谣郭达雅亿元年薪入职字节;五角大楼与通用、福特等汽车制造商讨论造军火 | 雷峰网 正式官宣!佑驾创新与荣耀(HONOR)达成合作,以“无人车+机器人”打通全链路无人化闭环 | 雷峰网 解耦性能与厚重,英特尔AI高静Plus正在重写游戏本定义 | 雷峰网 独家丨Somnia Lab 完成千万美元天使轮融资,瞄准人机关系入口与万亿级具身情感生态 | 雷峰网 腾讯发布并开源混元世界模型 2.0,一句话造出3D世界,兼容游戏引擎! | 雷峰网 阿里发布世界模型HappyOyster,与谷歌Genie3竞争 | 雷峰网 从「集体暴跌」到「双轨分化」:一篇论文误读如何撕开DDR真实行情? | 雷峰网 格力高管炮轰友商被狂怼:又当又立!「真铜实料」这四字不姓格;美国将退还超1万亿元关税;品牌GMV高速增长,速卖通将成品牌出海全新主场 | 雷峰网 全球线上首发!辉瑞新一代减重药先维盈®开启预售服务,美团买药又下一城 | 雷峰网 傲基「生死局」:绝地反杀与盈利迷途 | 雷峰网 阿里ATH发布AI开发工具Meoo,已打通阿里云核心产品 | 雷峰网 美团闪购升级闪电仓供应链服务平台:向全行业商家开放即时零售供应链基建 | 雷峰网 阿里云连续5年稳居游戏云市场份额第一! | 雷峰网 与阿里成立合资公司后,新世界旗下Gmarket商品交易额(GMV)实现双位数增长 | 雷峰网 度小满发布DXMClawPay 面向Skill开发者提供一站式支付接入方案 | 雷峰网 滴滴自动驾驶全球化布局加快,年内在阿联酋开展试点 | 雷峰网 金立创始人刘立荣消失8年后最新动向:疑在印尼卖家具;月薪3万,DeepSeek聘人去内蒙草原守机房;比亚迪坪山园区大火,公司回应火势已扑灭 | 雷峰网 水下绞杀:清洁机器人渠道里的生意与生死 | 雷峰网 墨腾报告:东南亚电商平台成交额五年翻三倍 三大平台瓜分万亿市场 | 雷峰网 火山引擎:Seedance 2.0 API 服务全面开放 | 雷峰网 中远海运特运X火山引擎:“数字员工”驶向智慧航运新蓝海 | 雷峰网 重新认识具身行业,从自变量的这封邀请函开始 | 雷峰网 做了5年3D打印机,我发现了世界模型的Scaling Law | 雷峰网 别克×火山引擎:至境E7行业首发搭载豆包大模型最新版 | 雷峰网 强强联手,追觅牵手阿里速卖通,将在海外加大投入 | 雷峰网 推理卡毛利率下滑超7%,天数智芯「降价换量」的买卖值不值? | 雷峰网 明日新程完成连续两轮融资,领跑Harness群体多智能体赛道 | 雷峰网 「作弊」内幕曝光!3DMark回应将某知名国产手机除名;李想朋友圈炮轰东风日产恶意拉踩,后者高管回应;美的空调又发行业首创产品 | 雷峰网 50万起步的蔚来ES9,能否站稳高端? | 雷峰网 汽车行业已在阿里云上使用超10万卡“真武”PPU研发智驾 | 雷峰网 百度智能云联合多家头部具身智能企业,打造具身智能数据超市 | 雷峰网 从汽车到物理 AI:何小鹏眼中的智能汽车下半场 | 雷峰网 首个跑通端到端闭环的全模态安全脱敏的龙虾盒子,无问芯穹InfiniClaw Box让本地龙虾也能放心用! | 雷峰网 当参数不再决定胜负,AI时代的企业级SSD靠什么「赢」?|MemoryS 2026 | 雷峰网 独家丨继大疆押注后,智能派再获数亿元融资,或与拓竹正面硬刚 | 雷峰网 阿里视频生成大模型Wan2.7登顶DesignArena榜单 | 雷峰网 KV Cache需求暴涨32倍,AI如何重写存储产业链的「旧分工」?| MemoryS 2026观察 | 雷峰网 微软小冰,生不逢时 | 雷峰网 豆包APP实时语音通话升级全双工模型 抗干扰与低时延能力提升 | 雷峰网 中国充电联盟与万勋科技联合发布《中国新能源汽车自动充电用户行为洞察报告》加速自动充电规模商用 | 雷峰网 继“同事.skill”走红,周鸿祎回应“把自己炼成AI分身”:这才是数字分身的正确未来 | 雷峰网 章鱼动力获得新加坡顶级风投 K3领投的数亿元投资 | 雷峰网 港中文薛天帆团队:实现 4K 全景视频生成,普通视频也能「长出空间」丨CVPR 2026 | 雷峰网 独家丨前大疆T4悍将谢博文:从具身机器人转战桌面CNC,深圳再启「无限工坊」 | 雷峰网 2026淘宝直播三大主线:提效新品,造优质主播差异化,增优质内容曝光 | 雷峰网 阿里云百炼上线Agent记忆库,让「龙虾」应用更懂用户 | 雷峰网 百度官宣!Create2026百度AI开发者大会定档5月13至14日 | 雷峰网 印度禁止中国大陆产摄像头监控:花高价大批替换,国产厂商回应;传宇树科技与阿里达成出海战略合作;DeepSeek上线专家模式 | 雷峰网 20分钟破1000万!首日破3000万!创想三维2026全球3D打印类目众筹王者!AI+生态双向助推,3D打印布道者重新定义3D打印生态! | 雷峰网
看屏幕、用键鼠,我的 OpenClaw「睁眼」了 | 雷峰网
2026-05-31 · via 雷峰网
雷峰网(公众号:雷峰网)讯 2026 年 5 月 11 日,本地 AI 智能体框架 OpenClaw 正式上线了 macOS 专属桌面操控工具 Peekaboo,提供像素级截图、UI 元素识别、以及完整的 GUI 自动化能力。简单来说,就是让 Agent “长出眼睛”,从此看得见屏幕、点得到按钮,甚至自主操作电脑。
看屏幕、用键鼠,我的 OpenClaw「睁眼」了

GUI 自动化或可以视为 OpenClaw 在 Computer Use 上的最后一块能力短板。此前的 Agent 交互模式尚停留在文本对话层面,虽然已经实现了高度自主的指令遵循和任务闭环能力,但图形操作界面仍然是人类的专属。而 Peekaboo 的登场将 Agent 带进了下一个时代,只有能够“看见”,它们才算是成为了真正能够全权接管桌面的自主执行体。

那么对用户而言,这意味着什么样的体验革新?Peekaboo 又是如何让 AI 真正接管桌面?我们第一时间上手进行了实测。

看屏幕、用键鼠,我的 OpenClaw「睁眼」了

01

接管桌面,OpenClaw 超进化

“Agent 的眼睛”听起来很像是某种普通的附加功能,但这一描述远远低估了 Peekaboo 的真实地位,它更重要的意义在于彻底打破了 Agent 只能被动应答的局限,将其拉入真实的桌面操作场景。

Peekaboo 搭载的像素级识别能力,能够自动精准标注屏幕上的按钮、输入框、弹窗、软件窗口等所有界面元素,且无需人工标记或提前适配。同时它可以完美模拟人类的操作逻辑,自主完成鼠标点击、文字输入、页面滚动、快捷键操控等全套键鼠行为。

更核心的优势在于无依赖通用性,Peekaboo 不依赖软件官方 API、无需嵌入 SDK 适配,这意味着所有桌面软件、网页平台都能直接兼容适配。它在赛博世界留下的痕迹就像一个真正的人类用户那样,一切你能操作的对象,它都可以接手。

这已然提供了一种重构电脑操作底层逻辑的可能。而我们首先好奇的是,Peekaboo 到底是具备真实的落地能力,抑或只是噱头式的 Agent 玩具?在真实的桌面环境下,我们首先测试了其复杂连续操作能力。

这是一项信息检索测试。我们要求 Peekaboo 打开 Safari 浏览器,自动关闭网页弹窗干扰,然后在顶部网址搜索框查找「AI近期大事」,在下方一众搜出来的网站中,打开第一个网站,然后关闭网站。

整套流程全部由 OpenClaw 自主完成,任务内容虽然并不复杂,但实际操作覆盖了图标识别、按钮点击、弹窗检测、搜索框定位、内容输入等多项能力。

特别是在同一个页面中执行输入内容、定位词条等任务时,从视频中可以看出,Peekaboo 自主完成了规避弹窗干扰、适配动态网页布局,这表明其能够稳定地识别复杂的软件界面。更关键的是,在连贯完成多步骤桌面操作时,Peekaboo 表现出的操作逻辑也非常贴合人类使用习惯。

到此为止,可以说 Peekaboo 绝非仅仅支持单点点击的演示型工具。当然,对于 GUI 自动化而言这还只是入门。落地能力更为核心的考验是在任务流延伸至跨软件乃至跨系统的程度时,Peekaboo 是否仍然能够实现全流程自主的桌面操作。

第二项测试将信息检索延伸至成果交付阶段,要求 Peekaboo 在 Safari 浏览器中搜索百度热搜榜,依次提取热搜榜、电影榜、小说榜、电视剧榜前六名的数据,然后回到桌面新建 Excel 表格,将此前采集到的四类榜单数据进行汇总。

结果显示,Peekaboo 自主操作电脑完成了长链路的复合任务。其中涉及到浏览器的部分在案例一中已有所展示,更值得关注的是其在浏览器、办公软件、系统桌面、文件夹、系统设置等多个操作平台之间的跳转,整套流程并未出现需要人工干预的卡顿。

这意味着 OpenClaw 和 Peekaboo 的结合已经具备了真实的办公自动化能力,而 OpenClaw 的定位也正在从 AI 工具的调用者,转向下一代桌面环境操作底座。在 Agent 普遍以调用第三方工具为核心逻辑的背景下,Peekaboo 让 OpenClaw 成为了距离接管整个电脑最近的选手。

看屏幕、用键鼠,我的 OpenClaw「睁眼」了

02

极客玩具,普通人也能上手了

很长一段时间以来, AI 桌面自动化工具大多局限于极客群体,难以走进普通用户日常的办公、生活场景。而 Peekaboo 的不同之处在于,它的部署跟竞品比起来实在太简单了,既可以作为 MCP 服务运行,一行命令行无缝接入OpenClaw、Codex、Claude Code 或 Cursor,小白也可以直接在 ClawHub 安装 Peekaboo Skill,零配置使用。

事实上,GUI 自动化并非全新的尝试,类似的产品此前也并不鲜见,但恰恰是作为后来者的 Peekaboo 踩上了新一代多模态技术的东风。UI 识别曾经是长期困扰这一赛道的瓶颈之一,突如其来的弹窗和页面内容变动,导致的 GUI 自动化翻车是家常便饭。而 Peekaboo 不绑定单一厂商,可以说是坐收多模态技术水涨船高的红利。

此外,曾经的 GUI 自动化工具要看软件厂商脸色行事,系统权限被牢牢把握在对方手中,真正能够落地的场景非常有限,强行上马的结局往往是被送上黑名单。最终有能力和毅力把它们用起来的,往往也只剩下极客。

而对于 OpenClaw 而言,这同样不再是问题。传统方案是等厂商开放 API 接口,Peekaboo 直接操作屏幕,不仅绕开了请求许可的环节,而且意味着即使是那些多年不曾更新的小众软件,和从未对外开放接口的内部工具,都被一视同仁地纳入了 Peekaboo 的能力范围。

多模态技术的迭代和对封闭生态的突破合流,某种程度上,Peekaboo 成为了第一款普通人也能用的桌面自动化工具。

将这种颠覆性的桌面操控能力交予大众之手的同时,Peekaboo 另一个让人惊喜之处是高度完善的安全性保障。隐私方面,Peekaboo 会对操作界面进行像素级截图,但由于全程跑在本地,因此屏幕画面无需上传云端。此外可控性方面,Peekaboo 执行的每一项任务都有完整的操作记录可供追溯,由手动触发启动,不支持后台静默运行,且可以随时一键中断。

多重安全机制叠加下,虽无法实现绝对的零风险,操作的主动权却始终由用户掌控,有效规避了 AI 后台私自操作、隐私数据泄露等核心风险。

看屏幕、用键鼠,我的 OpenClaw「睁眼」了

03

必经之路,还是权宜之计

在出色的桌面操控能力之外,Peekaboo 仍然表现出了诸多 GUI 自动化工具常见的问题。

首先是坐标偏移。不同的显示器分辨率、窗口缩放比例之下,页面元素位置的变化偶尔会导致点击坐标漂移、操作点位偏差。即便整体识别率处于较高水平,也仍然影响了 Peekaboo 对于复杂任务的完成精度。

此外还有上下文遗忘。当超长程任务进行到后半段时,Peekaboo 常常会忘记自己此前干了什么,然后重复执行某些操作,直到卡死进程。

当然如果你看了前面的测试视频,会发现最明显的问题仍然是执行速度。复杂界面识别、超长任务流程都会导致 Peekaboo 有比较明显的延迟,这也是 GUI 自动化工具的通病。

一种解释是,视觉方案在执行速度上无法与通过代码命令直接操作比拟,但更值得追问之处在于,这是否意味着视觉方案本身的落地能力就不尽人意。

除了此前提到的操作精准性和执行速度,通过多模态理解实现的 GUI 自动化还意味着不俗的 Token 成本。Peekaboo 在设计之初显然也考虑到了这一点,试图通过 VQA 定向分析和元素 ID 压缩等方式减少 Token 消耗,前者指多模态模型收到屏幕截图后不返回完整图像描述,而是针对具体问题生成精简回答,后者则表示使用短 ID 来标记界面 UI 元素,相比原始坐标或完整描述更加紧凑。

然而当代码命令方案成为比较的对象,这仍然是一笔无法忽视的成本。

在 Peekaboo 之前,另一个耐人寻味的例子是豆包手机助手。后者初期凭借便捷体验快速出圈,但很快因其使用安卓系统级高危权限模拟用户点击、跨应用跳转,被微信、支付宝、淘宝等主流 App 的风控系统识别为异常行为,导致部分跨应用操作功能受限或被迫下线,甚至一度遭到众多主流软件厂商的声讨。时至今日,其后续发展仍然面临着生态兼容与合作模式的重大不确定性。

这背后是 GUI 自动化技术在权限边界、数据主权和商业利益上与现有移动生态的深层冲突。Peekaboo 为规避生态壁垒而生,却无法真正绕过它。当 Agent 之争走向落地执行能力的较量,速度、成本、准确性,日后或许都会成为 Peekaboo 的命门。

视觉方案到底是打通 AI 现实操作链路的必经之路,还是生态封禁被真正突破之前的权宜之计?值得拭目以待。

雷峰网文章

雷峰网原创文章,未经授权禁止转载。详情见转载须知