


























一個 AI 模型,把單一步驟做到 99% 正確率,聽起來很厲害了。可是當你要它連續執行 20 個步驟,整串任務的成功率會掉到 82%;如果是 50 個步驟,成功率剩下 60%。(圖表資料來源:metr.org)

這對我來說意味著:
過程中能不能被檢查,是關鍵。你要怎麼把一個大目標,拆成一個個「可以獨立驗證、或可以互動確認」的小步驟,這才是設計的核心。
我自己的經驗是:與其追求「一個指令搞定一切」,不如養成「分段交付、逐段確認」的習慣。這跟帶人做事其實一樣,你不會把一個大專案丟給新人然後三個月後才看結果,你會切成幾個里程碑,一段一段對。
把 50 步砍成 10 步,整體成功率會從 60% 直接跳到 90%。代價只是你要多花一點時間在前面設計流程。
所以我在設計複雜任務時,會先去找:有哪些步驟可以合併成一次 tool call?找得到我就用,因為這樣能大幅拉高 Agent 的成功率。
也因為這個原因,我最近買了不少軟體。現成的軟體常常已經把好幾個步驟封裝成一個成熟的 API,等於別人幫你把「50 步」先壓成「1 步」了,那你何必自己重做一次。
你不可能讓每一步都 100% 正確,但可以做到「錯了會被攔下來」。
這跟工廠的品管很像。產線不是假設每個環節都不會出錯,而是在關鍵環節擺檢查站,壞的東西流不到下一關。Agent 也是一樣,與其期待它五十步都不出錯,不如在中間放幾個驗證點,讓它每跑幾步就停下來對一次答案。
差別在哪?沒有檢查點的時候,一個小錯會一路滾到最後,等你發現,整串都白做了。有檢查點的時候,錯誤在第三步就被抓出來,你只要修那一段。
我自己設計流程時,會刻意去想哪幾個點是「一旦錯了、後面全錯」,那幾個點就一定要放檢查站。
不是所有驗證都需要你親自上。
有些步驟,AI 跑完可以自己驗,比如算出來的數字對不對、程式跑不跑得起來、格式符不符合規定,這種有明確對錯的,讓它自己檢查就好,你不用插手。
真正需要你出手的,是那種「對錯沒辦法用規則判定、要靠經驗和判斷」的步驟。把你的注意力省下來,集中在那些只有人能判斷的關卡上。你的時間很貴,不要花在 AI 自己就能檢查的地方。
「能砍步驟就砍」那是針對你已經很有把握、每一步都很穩的任務。但如果是你還不熟、或風險很高的任務,反而要反過來多拆幾步,讓過程攤開來給你看。
考你一個數字:當模型正確率是 95%,20 個步驟的任務,成功率剩下多少?
答案是 36%。
所以結論很簡單。越長、步驟越多的任務,就要用正確率越高的模型,而正確率高的通常也是比較貴的那個。這種時候別省,因為模型正確率每高一點,你那串長任務的成功率就會被放大很多。
前面講的都是「有標準答案、可以算成功率」的任務。但有一類事情完全不一樣。
發散思考、找出藏在底下的思考維度,這種事情本來就沒有「正確答案」,自然也不會有「成功率」這個議題。
在這類任務上,你要做的不是逼 Agent 答對,而是讓它幫你把所有可能性窮盡,因為 AI 跑這件事比你快太多了。這也是我當初設計 Product Planning skill 的初衷。
同樣一個 AI,同樣一個模型,有人用它做出 90% 成功率的流程,有人做出 36%。
差別不在模型,在那個設計流程的人。他懂不懂拆步驟、懂不懂放檢查點、懂不懂哪裡該合併哪裡該攤開、懂不懂什麼時候該換更強的模型。
所以與其擔心「AI 會不會取代我」,我更在意的是:我有沒有把「設計任務」這件事練成自己的本事。模型大家都能用,但會不會用,是另一回事。
--
不想錯過我的新文章:訂閱免費電子報
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。