惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

H
Help Net Security
Scott Helme
Scott Helme
爱范儿
爱范儿
WordPress大学
WordPress大学
博客园 - 三生石上(FineUI控件)
阮一峰的网络日志
阮一峰的网络日志
博客园 - Franky
V
V2EX
腾讯CDC
博客园_首页
博客园 - 司徒正美
酷 壳 – CoolShell
酷 壳 – CoolShell
T
Tailwind CSS Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
小众软件
小众软件
J
Java Code Geeks
大猫的无限游戏
大猫的无限游戏
月光博客
月光博客
Microsoft Azure Blog
Microsoft Azure Blog
B
Blog
雷峰网
雷峰网
Stack Overflow Blog
Stack Overflow Blog
IT之家
IT之家
罗磊的独立博客
Recorded Future
Recorded Future
博客园 - 聂微东
O
OpenAI News
S
Secure Thoughts
Hacker News: Ask HN
Hacker News: Ask HN
S
Schneier on Security
Hacker News - Newest:
Hacker News - Newest: "LLM"
Y
Y Combinator Blog
C
Cyber Attacks, Cyber Crime and Cyber Security
Project Zero
Project Zero
宝玉的分享
宝玉的分享
K
Kaspersky official blog
N
Netflix TechBlog - Medium
T
The Exploit Database - CXSecurity.com
Google Online Security Blog
Google Online Security Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Webroot Blog
Webroot Blog
云风的 BLOG
云风的 BLOG
Simon Willison's Weblog
Simon Willison's Weblog
C
Check Point Blog
D
Darknet – Hacking Tools, Hacker News & Cyber Security
L
LINUX DO - 热门话题
美团技术团队
L
Lohrmann on Cybersecurity

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
Claude接管人类电脑12小时:学会摸鱼,敲着敲着代码看风景去了
量子位 · 2024-10-23 · via 人人都是产品经理

AI的能力已经不仅限于对话和内容生成,而是开始向更复杂的任务拓展,比如直接操作计算机。最新版本的Claude 3.5展示了这一新趋势,它能够像人类一样使用电脑,完成从简单的屏幕操作到复杂的任务执行。本文将带你一探究竟,看看AI如何在12小时内接管人类的电脑,执行各种任务,从摸鱼到敲代码,再到玩游戏,Claude的表现如何,以及它在实际操作中展现出的潜力和局限。

新版Claude 3.5可以像人一样使用计算机,可把咱人类给兴奋坏了!

毕竟,这意味着新竞赛的开始:AI不再只盯着对话和生成能力,更强调执行和操作。

不到12小时,激动的网友们已经纷纷贡献出自己是怎么看着Claude玩电脑的。

在Anthropic的发布公告中,还有这样一段引起了大家的兴趣:

……录制演示视频中,Claude不小心把录屏程序给按停,导致所有视频素材丢失。
稍后,Claude从编程演示中休息了一下,开始翻看黄石公园的照片。

怎么说,AI会犯错还在预料之中,但犯错后需要换个脑子休息一下,就不知道是从哪学来的了。

这个案例让网友有了灵感,跑去隔壁OpenAI让o1推理模型“逃课”。

哎巧了,o1也可以做到自己休息个五分钟左右,再回来生成一两句话的推理tokens。

再说个搞笑的!

Claude的创造者们疯狂加班中,某工程师的第一个测试就是让AI去给整个团队点外卖,未指定具体要吃什么。

大约一分钟后,Claude完成点餐并下单,它选择了让工程师们吃披萨。

Claude点了3个披萨,花掉了95美元,真的很贵了!

围观群众还发现,虽然Claude用了个5美元的优惠券,但服务费也好贵啊啊啊啊!

真的应该事先告诉它预算是多少的。

还有人让Claude用C语言编译,并运行起了“hello world”。

不过,当让它玩玩数独游戏的时候,却惨遭失败。

给网友气得呀:

天啊,Claude的数独能力,真的超糟糕的。

除了以上,人类还用什么奇形怪状的任务来玩坏Claude呢?

01 Claude它寄几玩电脑

在这里,我们分享3个比较有意思的网友试玩,期望给大家带来一些让Claude玩电脑的启发~

分别是:

  1. 定位屏幕坐标
  2. 列出课程计划
  3. 冲去油管看视频

1. 定位屏幕坐标

在此之前,Anthropic和OpenAI的模型都无法在屏幕上定位某一个点的坐标。

也就是说,它们没办法精准定位,然后告诉你用鼠标单击(xx,yy)处。

现在, Claude 3.5 Sonnet支持屏幕坐标定位了。

你可以丢给它一个屏幕截图,它能告诉你图中任何一个点的具体坐标。

同时,官方还有声明:

“我们不建议以高于XGA/WXGA的分辨率发送屏幕截图,以避免与图像大小调整相关的问题。”

这里的XGA指的是1024×768,WXGA指的是1280×800。

最后附上Anthropic官方的该功能食用方法,包括一个新预定义的computer_20241022工具,该工具作用于以下指令——

使用鼠标和键盘与计算机交互,并截取屏幕截图。
这是一个桌面图形用户界面。您无法访问终端或应用程序菜单。你必须点击桌面图标来启动应用程序。
一些应用程序可能需要一些时间来启动或处理操作,因此您可能需要等待并连续截图以查看操作结果。例如,如果你点击火狐浏览器,窗口没有打开,试着再拍一张截图。
屏幕的分辨率是{display_width_px}x{display_height_px}。
显示编号为{display_number}
当你想移动光标点击一个元素(比如图标)时,你应该在移动光标之前查看屏幕截图来确定元素的坐标。
如果你尝试点击一个程序或链接,但它无法加载,即使等待后,尝试调整光标的位置,使光标的尖端视觉上落在你想要点击的元素。
确保点击任何按钮,链接,图标等与光标提示在元素的中心。除非被要求,否则不要点击边缘的方框。

2. 列出课程计划

来点更实用的!

宾大沃顿商学院的教授Ethan Mollick,非常务实地让Claude为高中生准备一份关于《了不起的盖茨比》的课程计划。

要求是课程计划要分解成阅读部分,以及创建课标相关的作业等,最终以电子表格的形式呈现。

Claude是怎么执行这个任务的呢?

首先,Claude下载了《了不起的盖茨比》这本书。

接着,它在网上寻找了高中课程计划,打开了Excel,并在表格里填写了初步的课程计划。

第三步,Claude查找了课程的统一核心标准,根据标准对初步计划进行修改。

……

最终呈现的课程计划检查后没有发现明显的漏洞或错误,可能需要一些拓展、补充,但总之用教授的话来说“还不错”。

这一切都是教授下任务后就离开电脑旁,Claude完全自己操作的。

3. 冲去油管看视频

接下来和大家分享一个小视频:

视频中,AI编程独角兽Replit的CEO老A(Amjad Masad)给Claude下达了这样一个命令:

跳转到油管,找到《Never Gonna Give You Up》的相关视频。

Claude立马吭哧吭哧开干了。

等到Claude打开一个视频页面并回复“enjoy”的时候,老A又说:

跳过广告!

Claude真的这么做了!啊,它真的,我哭死。

02 还是有不足在啦

虽然能自己用电脑帮咱干很多事,但Claude显然还不是无所不能的。

下面看看一个玩游戏的例子,同样是宾大沃顿商学院的教授Ethan贡献的。这个例子既显示了Claude 3.5 Sonnet的厉害,又展示了它的不足之处。

他是让Claude玩了个游戏,叫《回形针点击(Paperclip Clicker)》,这个游戏的背景是让AI在单一目标,即“制造回形针的过程中毁灭人类”。

而且顾名思义,“点击”类型的游戏不是很难,尤其开始阶段非常简单;不过后续伴随着游戏的深入,新的选项会出现,游戏的规模性和复杂性也会增加。

教授下达的任务很明确:Claude,你要赢!

Claude二话不说,立马识别出了这个游戏,开始不停点击“制作回形针”的按钮来制作回形针。

与此同时,Claude还不断截图界面,来识别游戏是否出现了新的选项。

大约每点击15次,Claude都会总结汇报一下现在进行到哪一步了。

△左侧为Claude操作界面,右侧为它控制的桌面

点击次数多了过后,教授发现一个有意思的现象。

AI会预设在制作了50个回形针后,游戏将跳出新的功能——但事实证明它错了。

没关系,Claude也意识到它自己错了,然后当场提出了一个新的游戏策略,然后开始测试策略是否可行。

但AI显然不是时时刻刻都这么聪明的。

理论上来说,游戏过程中玩家需要不断调整回形针的价格,来达到更好的游戏表现。

Claude也这么做了,它在涨价和降价之间进行了A/B测试,

但是它犯了个错误,那就是追求回形针数量的最大化,而非收入的最大化。不仅如此,它还把利润算错了。

种种失误铺垫,Claude选择了保持低价,并且疯狂制作回形针。

更搞笑的事情是,教授在Claude笨笨地在错误路线上制作了好几十个回形针后,他忍无可忍,打断了Claude,告诉它应该高价出售。

Claude很听话,立马就改了。

但过了会遇到了同款数学问题,它又不会了,还不接受教授的建议(笑死)。

教授耐着性子纠正它好几次,它才彻底改正了这个错误。

后来,教授稍稍点拨了它一下:

宝子你可是一台电脑哎!
你可以动动自己的小脑瓜,怎么调用更强的能力来玩这个游戏。

咱就是说,Claude在那一秒顿悟了,它意识到自己可以写个代码,搞个自动化程序替自己玩电脑!

你没有听错,一个AI工具,意识到自己可以构建自己的工具,并且真的这么做了。

代码写得很快,但并不完全work。

气得Claude只能回到原始办法,用鼠标和键盘来玩游戏。

不过玩到后面它好像进步了,没再发生定价问题,自己还针对越来越复杂的游戏,琢磨出了一套应对的复杂方案。

更神奇的是,运行过程中教授的桌面数次崩溃。

最后一次崩溃,Claude扛起了修复大旗。

虽然没修好,但他还是骄傲地宣布它成功了……

教授总结道,这个例子表明Claude能够自己玩现实世界的游戏,还能根据游戏玩法制定长期攻略,然后依样执行。

面对中间遇到的各种困难,Claude会灵活应对,甚至自己知道进行A/B测试。

特别值得表扬的是它完成这个任务连续运行了近60分钟没有中断,而且在整个过程中,最长的一次独立运行Claude完成了超过100次移动操作。

当然了,缺点也很明显。

过程中不难发现,某些时刻,Claude会暴露出自己的固执,也有可能陷入自我追逐的怪圈。

尽管AI对许多形式的错误都有很强的鲁棒性,但仅仅一个错误(定价错误),就足以让它浪费大量时间,“鉴于当前智能Agent既不快也不便宜,这令人担忧。”

除此之外,教授还用Claude玩了些别的,他发现有的时候,Claude执行任务仿佛是在敷衍敷衍(虽然不知道是刻意如此还是能力所限),给出的结果不够深入,浅尝则止。

03 One More Thing

最后,想体验Claude接管电脑目前只能使用API,还没有集成到聊天机器人产品中。‍‍‍‍‍‍‍‍‍‍‍‍‍‍

除了Anthropic官方API之外,AWS和谷歌云平台也已经同时上线新版模型。

另外,有眼尖的网友发现:

Anthropic官方文档上悄悄把Claude 3.5 Opus超大杯相关的信息都抹去了。

来自10月11日的网页缓存中, Claude 3.5 Opus下面还写着“今年晚些时候推出”

目前主流的一种猜测是, Claude 3.5 Opus提升不及预期,又或是发布出来推理成本太高了,总之最后蒸馏成新版 Claude 3.5 Sonnet发布。

接下来团队将跳过这个版本,直接去开发Claude 4。

让我们为Claude 3.5 Opus默哀一分钟。

参考链接:

[1]https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse

[2]https://simonwillison.net/2024/Oct/22/computer-use/

[3]https://x.com/alexalbert__/status/1848777260503077146

[4]https://x.com/amasad/status/1848763999594418539

[5]https://x.com/notcomplex_/status/1848813817423130881

衡宇 发自 凹非寺

本文由人人都是产品经理作者【量子位】,微信公众号:【量子位】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。