慣性聚合 高效追蹤和閱讀你感興趣的部落格、新聞、科技資訊
閱讀原文 在慣性聚合中打開

推薦訂閱源

L
LangChain Blog
The Cloudflare Blog
月光博客
月光博客
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
T
The Blog of Author Tim Ferriss
博客园 - Franky
MongoDB | Blog
MongoDB | Blog
大猫的无限游戏
大猫的无限游戏
雷峰网
雷峰网
腾讯CDC
Stack Overflow Blog
Stack Overflow Blog
WordPress大学
WordPress大学
J
Java Code Geeks
Engineering at Meta
Engineering at Meta
小众软件
小众软件
G
Google Developers Blog
量子位
罗磊的独立博客
Recent Announcements
Recent Announcements
A
About on SuperTechFans

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理,
我讓 AI 讀了 52 篇論文,這是我學到的關於迴圈(Loop)的三件事 – 人人都是產品經理
yan · 2026-06-23 · via 人人都是产品经理

當AI遇上神經科學論文,萬字解讀的自動化革命正在上演。本文揭秘了一個名為Loop(Loop)的智能協議系統如何透過五步流程、獨立評審機制和客觀評價標準,將52篇論文的深度解讀工作量從104小時壓縮至近乎自動化完成。更關鍵的是,作者用實戰案例揭示了哪些任務適合AI自動化,哪些仍需人類創意的不可替代性——這是每個試圖用AI重塑工作流的產品人都必須掌握的邊界判斷。

我手上有 52 篇神經科學經典論文的 PDF。我想把每一篇變成一篇中文深度解讀文章——不是摘要,是萬字級別的、帶概念工具箱、帶數據引用、帶獨立判斷的完整解讀,輸出為自包含的 HTML 檔案。

手動做?第一篇花了我 2 小時,第二篇還是 2 小時。52 篇就是 104 小時,不現實。

讓 AI 做?一個 prompt 搞不定。這個任務有五步:讀 PDF 全文、規劃文章結構、撰寫內容、組裝 HTML、檢查品質。每一步都依賴前一步的結果,而且「檢查品質」這件事不能跳過——AI 寫的東西品質波動很大,你不檢查就不知道它漏了什麼。

所以我寫了一個協定(Protocol):告訴 AI 對每篇論文執行這五步,做完一篇檢查一篇,不過關就修改,改完再檢查,過了就下一篇。

這就是 Loop——不是跑一次祈禱結果好,而是跑完就檢查、不行就重來

Loop 的核心不是「循環」這個動作,而是退出條件:什麼情況下算”夠好了,可以下一篇”?沒有退出條件的循環只是死循環。(當然不是說死循環沒有價值,現在死循環有死循環的價值

一個 Loop 長什麼樣

跑了三個 Loop 之後(兩個成功,一個失敗),我發現一個能跑起來的 Loop 由五個部分組成:

Protocol是寫給”沒見過這個項目的 AI”看的操作手冊。不是給你自己的備忘錄——路徑要寫絕對路徑,工具調用要給示例代碼,恢復邏輯要顯式寫明。判斷標準:如果你把這個文件發給一個完全不了解項目背景的朋友,他能不能照著跑起來?

  • Skill(Maker)是執行任務的指令模板。在我的例子裡是論文解讀 Skill,定義了五個階段的寫作流程和 HTML 模板。Skill 的品質直接決定首輪通過率——Skill 寫得好,Checker 幾乎沒事做。
  • Checker是獨立的評審 Agent,後面會詳細講為什麼「獨立」這兩個字是關鍵。
  • State是一個 JSON 檔案,追蹤每個 item 的狀態。它的作用不只是記錄進度,更重要的是讓 Loop 可以中斷和恢復——任何 AI 讀到這個檔案,都知道從哪裡繼續。
  • Reference是一個你手工做好的範例。它的約束力比規則強得多:規則說「概念工具箱要用人話解釋術語」,範例直接告訴你「人話」長什麼樣。

這五個部分裡,最重要的是評審標準(Rubric)

協議(Protocol)怎麼寫、狀態(State)用什麼格式、檢查器(Checker)怎麼調用——這些都是工程問題,花點時間就能搞定。但評審標準(Rubric)不一樣:它決定了「什麼算好」。評審標準(Rubric)清晰,循環(Loop)就順利;評審標準(Rubric)模糊,循環(Loop)就是在原地打轉。

我的論文解讀循環(Loop)之所以94%首輪通過,不是因為協議(Protocol)寫得多細,而是因為8條評審標準(Rubric)每一條都可以客觀判定——「術語有沒有中文翻譯」不需要主觀判斷,「HTML結構是不是.page > .layout > .main-content」看一眼 DOM 就知道。而我的微世界 Loop(循環)失敗,本質上是因為寫不出好的 Rubric(評量規準)——「這個預測問題是否能觸發認知衝突」無法客觀判定。

所以設計 Loop 的第一步不是寫 Protocol(協議),而是寫 Rubric。如果你能列出 5-10 條可以被一個陌生人(或陌生 AI)客觀判定 pass/fail 的標準,這個任務就適合 Loop。如果你列不出來,先別急著搭 Loop——先搞清楚你到底要什麼。

接下來三件事,就是我在圍繞 Rubric 搭建這個結構時踩過的坑。

第一件事:你的 Checker(檢查器)可能是假的。

設計 Loop 的第一個決定是:誰來檢查?

最直覺的做法是讓做事的 AI 自己檢查自己的輸出。很多教程也是這麼教的:在 prompt 裡加一句「現在忘掉你剛寫的內容,以一個嚴格評審員的身份重新審查這篇文章」。

我最初就是這麼做的。結果發現一個問題:它幾乎從不給自己打 fail。

原因很簡單——它知道自己的意圖。當它看到一個段落寫得含糊時,它能「腦補」出自己想說什麼,然後判定「雖然寫得不夠清楚,但意思到了」。它不是在評審一篇陌生的文章,它是在回憶自己幾秒鐘前的思考過程。

這就像讓一個學生批改自己的考卷——他知道自己想寫什麼,所以總覺得自己寫對了。

修復方法:用一個全新的、獨立的 AI 實例來做 Checker(檢查器)。在 Claude 裡,這意味著用 Agent(智能體)工具生成一個子 Agent(智能體)——它有自己獨立的上下文,完全沒見過主 Agent(智能體)的生成過程。給它的只有兩樣東西:

1. 生成好的 HTML 檔案

2. 八條評審標準(能不能獨立理解、數據是否精確、術語是否有中文翻譯、HTML 結構是否正確……)

它不知道這篇文章是怎麼寫出來的,不知道作者「想表達什麼」,它只看到成品。這才是真正的評審。

獨立上下文不是最佳化,是正確性要求。告訴同一個 Agent(智能體)「假裝忘記」不等於它真的忘了——上下文還在那裡,它的判斷必然受污染。這個錯誤在幾乎所有 Loop(迴圈)教程裡都存在,但很少有人點破。

第二件事:Checker攔住的不是「爛」,是「盲點」

協議寫好,跑起來。52篇論文全部完成後,我回頭看數據:

  • 49篇:在第一輪就通過了全部8條評審標準(pass 8/8)
  • 3篇:在第一輪被Checker打回,第二輪修改後通過

被打回的3篇分別是什麼問題?

  • 布利斯(Bliss) 和勒莫(Lømo)(1973),長時程增強(LTP)論文:概念工具箱裡漏了鈣調蛋白依賴性激酶II(CaMKII)的解釋
  • 沃靈頓(Warrington)& Shallice (1969),短時記憶論文:漏了 WAIS(韋氏成人智力量表)的中文翻譯和全稱
  • Felleman & Van Essen (1991),皮層層級論文:漏了 RGC(視網膜神經節細胞)等縮寫的解釋

三個全是同一類問題:特定專業術語沒有解釋全

這說明什麼?

第一,Maker(生成器)本身已經夠好了。94% 的首輪通過率意味著論文解讀的技能(Skill)寫得足夠詳細,AI 不需要反覆修改就能產出合格的文章。如果你的檢查器(Checker)每次都攔住大量問題,說明你的製造器(Maker)需要重寫——不是多跑幾輪能解決的。

第二,檢查器(Checker)的真正價值是抓系統性遺漏。這三次 fail 都不是「文章寫得爛」,而是在某個具體知識點上有盲區。這種盲區靠主代理(Agent)自檢是發現不了的——因為它如果知道 CaMKII 需要解釋,當初就會寫進去。只有一個「不知道作者意圖」的獨立檢查器(Checker),才會客觀地發現「這裡出現了一個沒解釋的縮寫」。

第三,檢查器(Checker)的成本是可控的。3/52 = 5.8% 的重審率代表 Checker 子 Agent 平均每 17 篇才需要多花一輪的 token。這比「不檢查直接發布然後人工返工」便宜得多。

第三件事:有些任務不該 Loop 化

同一批 52 篇論文,我還嘗試過另一個 Loop:給每篇論文生成一個「互動式微世界」——不是讓讀者讀文章,而是讓讀者親自體驗論文的論證過程。比如 FFA 論文,做成一個淘汰賽遊戲:給你看臉和物體的 fMRI 資料,讓你預測結果,逐步排除替代假說。

我設計了完整的協定:5 種互動模式(淘汰賽、雙重分離、證據累積、模擬體驗、概念建構)、7 條 Checker 標準、詳細的 HTML 元件規範。從協定設計的角度看,它比論文解讀的 Loop 還完善。

AI 跑出了第一個產出。我看了一眼,直接否掉了整個 Loop。

不是因為產出有 bug,而是因為它不是我想要的東西。交互體驗的設計空間太大了——同一篇論文可以做成 100 種完全不同的交互方式,每一種都”符合協議”,但大多數都不是好的學習體驗。協議能約束格式(必須有預測點、必須有計分板、必須有自測題),但約束不住創意(什麼樣的預測問題能真正觸發認知衝突?什麼樣的交互節奏能讓人”啊哈”?)。

這就是 Loop 的適用邊界:Loop 能工作的前提是,輸出空間小到 Checker 能覆蓋。

論文解讀的輸出空間很大,但被技能(Skill)的10個固定章節 + 8條檢查器(Checker)標準壓縮到了可管理的範圍。代碼的輸出空間更大,但被測試用例壓縮到了「通過/不通過」。而「設計一個學習體驗」的輸出空間幾乎是無限的——你可以檢查它是否有預測點,但你無法檢查這個預測點是否「問得好」。

如果你的檢查器(Checker)只能檢查格式不能檢查內容質量,那這個任務可能不適合循環(Loop)。先手工做一個滿意的範例,確認你能說清楚「好」長什麼樣,再決定是否循環化(Loop化)。

最後

循環(Loop)不難,難的是知道什麼時候該用、什麼時候不該用。

52 篇論文解讀告訴我:如果任務結構清晰、退出條件可檢查、有參考範例,Loop 的效果出奇的好——94% 首輪通過,剩下 6% 也在第二輪解決。總耗時從預估的 104 小時變成了"寫協議 2 小時 + 跑完等結果"。

但互動式微世界告訴我:如果任務本質上是創意性的,輸出好壞取決於品味而非標準,那再完善的協議也救不了你。這時候正確的做法不是設計更複雜的 Loop,而是承認這個任務需要人來做。

回過頭看,Loop 其實不是什麼 AI 時代的新發明。寫 Protocol 就是寫 SOP(標準作業程序),寫 Rubric 就是寫驗收標準,Checker 就是質檢,State 就是工單系統——這些東西在製造業和軟體工程裡存在了幾十年。變的只是執行者從人換成了 AI,以及因此帶來的一個新問題:怎麼讓一個沒有常識兜底的執行者在無人值守的情況下保持品質。所有關於 Loop 的技巧,歸根到底都在回答這一個問題。

知道邊界在哪,比知道怎麼寫 Loop 更重要。

本文由 @yan 原創發佈於人人都是產品經理。未經作者許可,禁止轉載

題圖來自 Unsplash,基於 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平台僅提供資訊存儲空間服務