惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

A
About on SuperTechFans
T
Threatpost
L
LangChain Blog
G
GRAHAM CLULEY
Simon Willison's Weblog
Simon Willison's Weblog
W
WeLiveSecurity
T
The Blog of Author Tim Ferriss
Stack Overflow Blog
Stack Overflow Blog
C
Check Point Blog
Microsoft Security Blog
Microsoft Security Blog
C
Cybersecurity and Infrastructure Security Agency CISA
H
Hacker News: Front Page
P
Privacy International News Feed
Microsoft Azure Blog
Microsoft Azure Blog
Apple Machine Learning Research
Apple Machine Learning Research
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Attack and Defense Labs
Attack and Defense Labs
The Hacker News
The Hacker News
www.infosecurity-magazine.com
www.infosecurity-magazine.com
The Register - Security
The Register - Security
Cisco Talos Blog
Cisco Talos Blog
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
有赞技术团队
有赞技术团队
H
Help Net Security
U
Unit 42
S
Security Affairs
Engineering at Meta
Engineering at Meta
Forbes - Security
Forbes - Security
The Cloudflare Blog
S
Securelist
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Webroot Blog
Webroot Blog
量子位
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Help Net Security
Help Net Security
Latest news
Latest news
SecWiki News
SecWiki News
H
Heimdal Security Blog
IT之家
IT之家
博客园 - Franky
Google DeepMind News
Google DeepMind News
小众软件
小众软件
A
Arctic Wolf
月光博客
月光博客
T
Tailwind CSS Blog
NISL@THU
NISL@THU
GbyAI
GbyAI
N
News and Events Feed by Topic

Mr. PM 下午先生

從目標到指標的對齊:產品目標不是公司目標的縮小版 | Mr.PM 下午先生 2026 回母校演講:QA 大整理 真希望我20歲懂的事:理財、設定目標、長線思考 用 AI 當編輯,將 100 集 podcast 編輯成書 | Mr.PM 下午先生 Vibe Coding 做出成果之後,沒人告訴你的三個陷阱 | Mr.PM 下午先生
99% 的 50 次方,設計 AI Agent 的第一性原理 | Mr.PM 下午先生
mrpm · 2026-05-19 · via Mr. PM 下午先生

一個 AI 模型,把單一步驟做到 99% 正確率,聽起來很厲害了。可是當你要它連續執行 20 個步驟,整串任務的成功率會掉到 82%;如果是 50 個步驟,成功率剩下 60%。(圖表資料來源:metr.org)


這對我來說意味著:

第一:拿 Agent 來做什麼很重要

過程中能不能被檢查,是關鍵。你要怎麼把一個大目標,拆成一個個「可以獨立驗證、或可以互動確認」的小步驟,這才是設計的核心。

我自己的經驗是:與其追求「一個指令搞定一切」,不如養成「分段交付、逐段確認」的習慣。這跟帶人做事其實一樣,你不會把一個大專案丟給新人然後三個月後才看結果,你會切成幾個里程碑,一段一段對。

第二:把 Agent 步驟數減少

把 50 步砍成 10 步,整體成功率會從 60% 直接跳到 90%。代價只是你要多花一點時間在前面設計流程。

所以我在設計複雜任務時,會先去找:有哪些步驟可以合併成一次 tool call?找得到我就用,因為這樣能大幅拉高 Agent 的成功率。

也因為這個原因,我最近買了不少軟體。現成的軟體常常已經把好幾個步驟封裝成一個成熟的 API,等於別人幫你把「50 步」先壓成「1 步」了,那你何必自己重做一次。

第三:幫每一步加上「檢查點」,比追求每一步都對更實際

你不可能讓每一步都 100% 正確,但可以做到「錯了會被攔下來」。

這跟工廠的品管很像。產線不是假設每個環節都不會出錯,而是在關鍵環節擺檢查站,壞的東西流不到下一關。Agent 也是一樣,與其期待它五十步都不出錯,不如在中間放幾個驗證點,讓它每跑幾步就停下來對一次答案。

差別在哪?沒有檢查點的時候,一個小錯會一路滾到最後,等你發現,整串都白做了。有檢查點的時候,錯誤在第三步就被抓出來,你只要修那一段。

我自己設計流程時,會刻意去想哪幾個點是「一旦錯了、後面全錯」,那幾個點就一定要放檢查站。

第四:把「人要驗證的東西」和「AI 自己能驗證的東西」分開

不是所有驗證都需要你親自上。

有些步驟,AI 跑完可以自己驗,比如算出來的數字對不對、程式跑不跑得起來、格式符不符合規定,這種有明確對錯的,讓它自己檢查就好,你不用插手。

真正需要你出手的,是那種「對錯沒辦法用規則判定、要靠經驗和判斷」的步驟。把你的注意力省下來,集中在那些只有人能判斷的關卡上。你的時間很貴,不要花在 AI 自己就能檢查的地方。

第五:不確定的時候,寧可多拆幾步讓自己看得到

「能砍步驟就砍」那是針對你已經很有把握、每一步都很穩的任務。但如果是你還不熟、或風險很高的任務,反而要反過來多拆幾步,讓過程攤開來給你看。

第六:長任務就用更強的模型,不要不捨得

考你一個數字:當模型正確率是 95%,20 個步驟的任務,成功率剩下多少?

答案是 36%。

所以結論很簡單。越長、步驟越多的任務,就要用正確率越高的模型,而正確率高的通常也是比較貴的那個。這種時候別省,因為模型正確率每高一點,你那串長任務的成功率就會被放大很多。

第七:跳出「追求正確率」這個框架

前面講的都是「有標準答案、可以算成功率」的任務。但有一類事情完全不一樣。

發散思考、找出藏在底下的思考維度,這種事情本來就沒有「正確答案」,自然也不會有「成功率」這個議題。

在這類任務上,你要做的不是逼 Agent 答對,而是讓它幫你把所有可能性窮盡,因為 AI 跑這件事比你快太多了。這也是我當初設計 Product Planning skill 的初衷。

第八:「把任務設計好」本身就是一種能力

同樣一個 AI,同樣一個模型,有人用它做出 90% 成功率的流程,有人做出 36%。

差別不在模型,在那個設計流程的人。他懂不懂拆步驟、懂不懂放檢查點、懂不懂哪裡該合併哪裡該攤開、懂不懂什麼時候該換更強的模型。

所以與其擔心「AI 會不會取代我」,我更在意的是:我有沒有把「設計任務」這件事練成自己的本事。模型大家都能用,但會不會用,是另一回事。

--
不想錯過我的新文章:訂閱免費電子報


我的線上課:數據化營運產品增長產品企劃力,歡迎大家報名