惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

GbyAI
GbyAI
T
Tenable Blog
Webroot Blog
Webroot Blog
L
Lohrmann on Cybersecurity
S
Securelist
S
Schneier on Security
NISL@THU
NISL@THU
Know Your Adversary
Know Your Adversary
C
Cybersecurity and Infrastructure Security Agency CISA
T
The Exploit Database - CXSecurity.com
L
LINUX DO - 热门话题
C
CXSECURITY Database RSS Feed - CXSecurity.com
O
OpenAI News
I
Intezer
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
TaoSecurity Blog
TaoSecurity Blog
S
Secure Thoughts
Application and Cybersecurity Blog
Application and Cybersecurity Blog
P
Privacy International News Feed
H
Hacker News: Front Page
N
Netflix TechBlog - Medium
M
MIT News - Artificial intelligence
博客园 - Franky
PCI Perspectives
PCI Perspectives
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Microsoft Azure Blog
Microsoft Azure Blog
MongoDB | Blog
MongoDB | Blog
L
LangChain Blog
P
Proofpoint News Feed
S
Security Affairs
WordPress大学
WordPress大学
The Last Watchdog
The Last Watchdog
S
SegmentFault 最新的问题
小众软件
小众软件
F
Full Disclosure
博客园 - 叶小钗
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
T
The Blog of Author Tim Ferriss
Simon Willison's Weblog
Simon Willison's Weblog
P
Palo Alto Networks Blog
Security Latest
Security Latest
P
Proofpoint News Feed
月光博客
月光博客
T
Tailwind CSS Blog
Scott Helme
Scott Helme
Hacker News - Newest:
Hacker News - Newest: "LLM"
Google Online Security Blog
Google Online Security Blog
T
Threat Research - Cisco Blogs
Help Net Security
Help Net Security
Project Zero
Project Zero

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
Claude接管人类电脑12小时:学会摸鱼,敲着敲着代码看风景去了
量子位 · 2024-10-23 · via 人人都是产品经理

AI的能力已经不仅限于对话和内容生成,而是开始向更复杂的任务拓展,比如直接操作计算机。最新版本的Claude 3.5展示了这一新趋势,它能够像人类一样使用电脑,完成从简单的屏幕操作到复杂的任务执行。本文将带你一探究竟,看看AI如何在12小时内接管人类的电脑,执行各种任务,从摸鱼到敲代码,再到玩游戏,Claude的表现如何,以及它在实际操作中展现出的潜力和局限。

新版Claude 3.5可以像人一样使用计算机,可把咱人类给兴奋坏了!

毕竟,这意味着新竞赛的开始:AI不再只盯着对话和生成能力,更强调执行和操作。

不到12小时,激动的网友们已经纷纷贡献出自己是怎么看着Claude玩电脑的。

在Anthropic的发布公告中,还有这样一段引起了大家的兴趣:

……录制演示视频中,Claude不小心把录屏程序给按停,导致所有视频素材丢失。
稍后,Claude从编程演示中休息了一下,开始翻看黄石公园的照片。

怎么说,AI会犯错还在预料之中,但犯错后需要换个脑子休息一下,就不知道是从哪学来的了。

这个案例让网友有了灵感,跑去隔壁OpenAI让o1推理模型“逃课”。

哎巧了,o1也可以做到自己休息个五分钟左右,再回来生成一两句话的推理tokens。

再说个搞笑的!

Claude的创造者们疯狂加班中,某工程师的第一个测试就是让AI去给整个团队点外卖,未指定具体要吃什么。

大约一分钟后,Claude完成点餐并下单,它选择了让工程师们吃披萨。

Claude点了3个披萨,花掉了95美元,真的很贵了!

围观群众还发现,虽然Claude用了个5美元的优惠券,但服务费也好贵啊啊啊啊!

真的应该事先告诉它预算是多少的。

还有人让Claude用C语言编译,并运行起了“hello world”。

不过,当让它玩玩数独游戏的时候,却惨遭失败。

给网友气得呀:

天啊,Claude的数独能力,真的超糟糕的。

除了以上,人类还用什么奇形怪状的任务来玩坏Claude呢?

01 Claude它寄几玩电脑

在这里,我们分享3个比较有意思的网友试玩,期望给大家带来一些让Claude玩电脑的启发~

分别是:

  1. 定位屏幕坐标
  2. 列出课程计划
  3. 冲去油管看视频

1. 定位屏幕坐标

在此之前,Anthropic和OpenAI的模型都无法在屏幕上定位某一个点的坐标。

也就是说,它们没办法精准定位,然后告诉你用鼠标单击(xx,yy)处。

现在, Claude 3.5 Sonnet支持屏幕坐标定位了。

你可以丢给它一个屏幕截图,它能告诉你图中任何一个点的具体坐标。

同时,官方还有声明:

“我们不建议以高于XGA/WXGA的分辨率发送屏幕截图,以避免与图像大小调整相关的问题。”

这里的XGA指的是1024×768,WXGA指的是1280×800。

最后附上Anthropic官方的该功能食用方法,包括一个新预定义的computer_20241022工具,该工具作用于以下指令——

使用鼠标和键盘与计算机交互,并截取屏幕截图。
这是一个桌面图形用户界面。您无法访问终端或应用程序菜单。你必须点击桌面图标来启动应用程序。
一些应用程序可能需要一些时间来启动或处理操作,因此您可能需要等待并连续截图以查看操作结果。例如,如果你点击火狐浏览器,窗口没有打开,试着再拍一张截图。
屏幕的分辨率是{display_width_px}x{display_height_px}。
显示编号为{display_number}
当你想移动光标点击一个元素(比如图标)时,你应该在移动光标之前查看屏幕截图来确定元素的坐标。
如果你尝试点击一个程序或链接,但它无法加载,即使等待后,尝试调整光标的位置,使光标的尖端视觉上落在你想要点击的元素。
确保点击任何按钮,链接,图标等与光标提示在元素的中心。除非被要求,否则不要点击边缘的方框。

2. 列出课程计划

来点更实用的!

宾大沃顿商学院的教授Ethan Mollick,非常务实地让Claude为高中生准备一份关于《了不起的盖茨比》的课程计划。

要求是课程计划要分解成阅读部分,以及创建课标相关的作业等,最终以电子表格的形式呈现。

Claude是怎么执行这个任务的呢?

首先,Claude下载了《了不起的盖茨比》这本书。

接着,它在网上寻找了高中课程计划,打开了Excel,并在表格里填写了初步的课程计划。

第三步,Claude查找了课程的统一核心标准,根据标准对初步计划进行修改。

……

最终呈现的课程计划检查后没有发现明显的漏洞或错误,可能需要一些拓展、补充,但总之用教授的话来说“还不错”。

这一切都是教授下任务后就离开电脑旁,Claude完全自己操作的。

3. 冲去油管看视频

接下来和大家分享一个小视频:

视频中,AI编程独角兽Replit的CEO老A(Amjad Masad)给Claude下达了这样一个命令:

跳转到油管,找到《Never Gonna Give You Up》的相关视频。

Claude立马吭哧吭哧开干了。

等到Claude打开一个视频页面并回复“enjoy”的时候,老A又说:

跳过广告!

Claude真的这么做了!啊,它真的,我哭死。

02 还是有不足在啦

虽然能自己用电脑帮咱干很多事,但Claude显然还不是无所不能的。

下面看看一个玩游戏的例子,同样是宾大沃顿商学院的教授Ethan贡献的。这个例子既显示了Claude 3.5 Sonnet的厉害,又展示了它的不足之处。

他是让Claude玩了个游戏,叫《回形针点击(Paperclip Clicker)》,这个游戏的背景是让AI在单一目标,即“制造回形针的过程中毁灭人类”。

而且顾名思义,“点击”类型的游戏不是很难,尤其开始阶段非常简单;不过后续伴随着游戏的深入,新的选项会出现,游戏的规模性和复杂性也会增加。

教授下达的任务很明确:Claude,你要赢!

Claude二话不说,立马识别出了这个游戏,开始不停点击“制作回形针”的按钮来制作回形针。

与此同时,Claude还不断截图界面,来识别游戏是否出现了新的选项。

大约每点击15次,Claude都会总结汇报一下现在进行到哪一步了。

△左侧为Claude操作界面,右侧为它控制的桌面

点击次数多了过后,教授发现一个有意思的现象。

AI会预设在制作了50个回形针后,游戏将跳出新的功能——但事实证明它错了。

没关系,Claude也意识到它自己错了,然后当场提出了一个新的游戏策略,然后开始测试策略是否可行。

但AI显然不是时时刻刻都这么聪明的。

理论上来说,游戏过程中玩家需要不断调整回形针的价格,来达到更好的游戏表现。

Claude也这么做了,它在涨价和降价之间进行了A/B测试,

但是它犯了个错误,那就是追求回形针数量的最大化,而非收入的最大化。不仅如此,它还把利润算错了。

种种失误铺垫,Claude选择了保持低价,并且疯狂制作回形针。

更搞笑的事情是,教授在Claude笨笨地在错误路线上制作了好几十个回形针后,他忍无可忍,打断了Claude,告诉它应该高价出售。

Claude很听话,立马就改了。

但过了会遇到了同款数学问题,它又不会了,还不接受教授的建议(笑死)。

教授耐着性子纠正它好几次,它才彻底改正了这个错误。

后来,教授稍稍点拨了它一下:

宝子你可是一台电脑哎!
你可以动动自己的小脑瓜,怎么调用更强的能力来玩这个游戏。

咱就是说,Claude在那一秒顿悟了,它意识到自己可以写个代码,搞个自动化程序替自己玩电脑!

你没有听错,一个AI工具,意识到自己可以构建自己的工具,并且真的这么做了。

代码写得很快,但并不完全work。

气得Claude只能回到原始办法,用鼠标和键盘来玩游戏。

不过玩到后面它好像进步了,没再发生定价问题,自己还针对越来越复杂的游戏,琢磨出了一套应对的复杂方案。

更神奇的是,运行过程中教授的桌面数次崩溃。

最后一次崩溃,Claude扛起了修复大旗。

虽然没修好,但他还是骄傲地宣布它成功了……

教授总结道,这个例子表明Claude能够自己玩现实世界的游戏,还能根据游戏玩法制定长期攻略,然后依样执行。

面对中间遇到的各种困难,Claude会灵活应对,甚至自己知道进行A/B测试。

特别值得表扬的是它完成这个任务连续运行了近60分钟没有中断,而且在整个过程中,最长的一次独立运行Claude完成了超过100次移动操作。

当然了,缺点也很明显。

过程中不难发现,某些时刻,Claude会暴露出自己的固执,也有可能陷入自我追逐的怪圈。

尽管AI对许多形式的错误都有很强的鲁棒性,但仅仅一个错误(定价错误),就足以让它浪费大量时间,“鉴于当前智能Agent既不快也不便宜,这令人担忧。”

除此之外,教授还用Claude玩了些别的,他发现有的时候,Claude执行任务仿佛是在敷衍敷衍(虽然不知道是刻意如此还是能力所限),给出的结果不够深入,浅尝则止。

03 One More Thing

最后,想体验Claude接管电脑目前只能使用API,还没有集成到聊天机器人产品中。‍‍‍‍‍‍‍‍‍‍‍‍‍‍

除了Anthropic官方API之外,AWS和谷歌云平台也已经同时上线新版模型。

另外,有眼尖的网友发现:

Anthropic官方文档上悄悄把Claude 3.5 Opus超大杯相关的信息都抹去了。

来自10月11日的网页缓存中, Claude 3.5 Opus下面还写着“今年晚些时候推出”

目前主流的一种猜测是, Claude 3.5 Opus提升不及预期,又或是发布出来推理成本太高了,总之最后蒸馏成新版 Claude 3.5 Sonnet发布。

接下来团队将跳过这个版本,直接去开发Claude 4。

让我们为Claude 3.5 Opus默哀一分钟。

参考链接:

[1]https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse

[2]https://simonwillison.net/2024/Oct/22/computer-use/

[3]https://x.com/alexalbert__/status/1848777260503077146

[4]https://x.com/amasad/status/1848763999594418539

[5]https://x.com/notcomplex_/status/1848813817423130881

衡宇 发自 凹非寺

本文由人人都是产品经理作者【量子位】,微信公众号:【量子位】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。