止工程之提示：以评鉴为先之套件，使我等自主运出二十五算法版本

要言不烦——人巧于小补，拙于大改，盖因每变似善，实隐损于他处。吾辈制一AI之辔，其法有三：一曰不迁之验集，二曰多维之衡标，三曰广索之器，四曰独立之鉴者，五曰人目可察之评途。，知識恆久層——使智能體得自主迭代實算法，而人仍於適層貢獻直覺。十三日內，吾等色量化管線已出二十五版（git log無虛），其六最新者，僅五日而成，恰在裝置自升之後。非提示，非全自動，裝置之升，使此速成為安。

须先陈二要旨，盖其易改本文之旨趣也。

此乃闲时兼营旁务——夜与周末，间或午休之时。非专职之众，亦无专攻之程。

作者乃产品经理，竟无一字代码可识。 量之实流，皆由灵机所书。作者之功，在驭之、设之、察之。

二十五版之能成，其势如此，盖因驭具司察。既设其环，每度皆"启端，陈说于白话，瞥观仪表，可则允，否则撤。"此二者，实为建驭具之至论：能化非匠者所余之隙时，为可运之算法，此则常需专工之匠者为之。

此项目实为何事（简述背景）

此物也BM砖块(BMBrick)者，一無費之瀏覽器工具也，能化萬象之影為可築之LEGO式像素馬赛克。君可上傳犬影或婚禮之照，則得預覽、可印之PDF藍圖，及零件表，列LEGO 1×1磚之正色於每格，使君得購磚而築之。

此篇所謂"算法"，實為色量化之流也。者，决LEGO之~42物理1×1板色，置于最终马赛克之每像素者也。其难在所限：汝有1600万RGB输入值，欲映42物理积木色，而输出仍须若源图，俟人于实装配之。若映射失当，肤色转成硬色带，目失辨识，背景裂为星点——可建之果遂不可识为图中人矣。

下之缰式，乃吾辈围绕量化之流所建，欲续其迭代，而不废已成。此式可通；积木之璺，惟为例证耳。

1. "任由智能体自解"于实算之失

尔若与智能体共组数月，其粗式或已习见：

重构与界面之工：此代理乃星也。汝述其果，彼修其文，汝试其效，乃可发之。
文牍：事已解矣。代理所撰README，胜于凡人多多。
算法调适：大祸也。

灾变之态，殊有可观。汝命代理人曰："使此图之输出更洁。"代理人尝试之——譬如，增平滑之参数。观汝所呈之图，其输出果似更洁。乃遂承之。汝亦继进。

越三旬，乃觉所改之变复退于他七图。六者之"善"，亦如是。今代码之库，充斥自信而发之微调，必逐一辨析之。

此非代理之失，乃具装之失也。者，特指此智能体无以知其已退化他物。温言问之，不能解此困；工于提示，不能解此困。其弊在结构也。

欲解之者：需有评估之具，此智能体必先满足，而后方可更迭。此具即本文所论。

2. "AI之具"者何意

智能体自主性有三境：

提示工程 —汝制其妙示，智能体应之一次，汝察其果，复易其示。适于偶作；不堪于持续，盖无有积焉。
全自主智能体 —纵使役于库，冀其效。绿野雏形，或可应；而于生产之码，则溃败矣，盖役者无以察其弊也。
机具导引之自主 —汝构一自验之关，置于“役者拟变”与“变既行”之间。机具可速迭，然惟过此关者得存。尤要者，此具二评者——一为机评以通，一为人评以悟——而其评出之文，皆为二者所宜用也。

吾辈行积木之色量化之管，历十三日，已出二十五版。十一余次载于文之实验，皆弃之。尤异者，v18至v19同日发，继而v22、v23、v24、v25四日间连出——五日六版，适其具自升。此具既得升，复现过失于人目所察之码评，变数适于一图而破六图，且至少二"AI助吾改之愈洁"之试，皆生层叠之效，人莫见其独。

余文所述，乃食谱也.

3. 五件物

此五物，可成工具。其各显明；合之乃成环.

3.1 不可易之试集

择具代表性之输入，调校之际，永勿易之。

吾之流程，其测试之集乃十三图：四为肖像（人畜并具），二为众像并绘，二为婚典之景，二为山水之致，一为近物特写，一为故作模糊之输入（为负控），一为黑白之参照。每图之择，皆因其能显一特定之谬式（如渐变之纹、肤色之调、背景之斑驳等）。

关于测试之集，有二则之规：

新案唯增于大版之间，勿于迭代之中。迭次更易试集，使器（及汝）得拣取胜绩
。每案必专攻一物。勿滥增"更多输入"；当择输入，以显殊异之败式。吾辈十三案，所破之事略相正交。

最小之可用测试集，或五例耳。逾二十则优化于测试集，而非真实分布矣。

3.2 多轴评分标尺（非单一标量）

若将评估简化为一数，则智能体将优化此数，立见高德之律。当用多轴。

吾等：

轴	所摄之境
背景融合	平域恒平，抑或碎为斑驳？
主题详述	目鼻口形，犹可辨识否？
渐变质感	肤色天光，阴翳之色，岂无渐变？
砖纹之美	其出，似匠心独运，抑或算法之谬？
每像素误差	数值：源与量化输出间之OKLab距离

四感知轴（与基准对比评分±1/0/-1）加一数值轴。数值锚固使感知评分不失真；感知轴捕捉数值轴所失之所在（量化器或可平均误差低而观感极差，因误差集中于最要害处）。

制规于提示，使审者恒见之。勿恃"观之悦目"——诸工皆言何者悦目.

3.3 超参数扫掠之器

"探索"之半于探索/利用。一令运行N种算法变体于全测试集：

node scripts/eval/sweep.mjs \
  --param lightnessWeight \
  --values 0.5,1.0,1.5,2.0,2.5,3.0 \
  --cases all

一束目录，一变而备之，其内含：

eval/bundles/lw-sweep-1.5/
├── candidates/                # one PNG per test case
│   ├── pet-portrait-48x48.webp
│   ├── single-portrait-48-vs-64.webp
│   └── ... (one per case)
├── bundle.webp                # composite: [original | baseline | candidate] strip per case
├── manifest.md                # variant config + per-case metrics table
└── metrics.json               # machine-readable metrics

无扫具，则役者独点手调（"容吾试0.8"），其效约若尔手调——迟缓，依直觉，易陷困顿。

持此，代理可立假说（"L重量≥1.5当助"），一令即出六数据点。假说愈廉，故迭代愈速。

三、四、独立代理评审者（吞吐量之术）

此乃速之别也。

扫掠既毕，异司之境 考诸束。所谓异者：新唤之使，无得而窥焉：

原变之志也
变录也
玩谱也
既往之议，所以为此变者，亦不得闻焉

审者惟见：

变之 bundle.webp （目验之比）
manifest.md (量度表)
共通之评分标准 (即规范之评判准则)

评审者乃输出其一：

核准 — 全合阈限，可发运
否决 — 失一或数阈限，撰修案于手册，且返工
精修 — 有趣，然需调整，建议下一步

吾辈之核准标准：

像素平均误差不退步
于>三十之案例有进益
于<十五之案例有退步
进益与退步之比逾三比一

何以为要：同一名代理既为变改之笔，复为变改之评，则每成乐观之偏。此代理已投变改之资；纵使诚心之评，亦为是资所染。独立之评者——清境无前——破此循环。变改须能冷评而立。

然实践之中，吾辈所撰者，十有二成以为得，而审者多拒之。其得二成者，则稍加修饰。若无此筛，则皆可付梓矣。

3.5 人类可察之评语（直觉之术）

此乃"AI驱策之工"诸文所略，而略之实乃使器用周旋数周而止之最大之由也。

第3.4节之AI审稿者，于处理量之效甚佳，可昼夜不息、无偏私地处理束件。然其所失，乃人目一瞥即见之细。曰："眸若死寂。"曰："肤色转为微病之绿，虽无度量亦难察。"曰："斜向之伪迹，惟速续掠过三束方显。"人具万时之模式辨识，AI所无，而算法调适之直觉，多源于此。

故评估之输出，乃为既之用者设也：

于AI之评者：一独之图像（bundle.webp），含[original | baseline | anchor | candidate]行。简约，可机读之布局，宜于一次性之评。
于人之评：交互式HTML仪表盘。药丸式切换键以转换调色板（LEGO 42色与Webrick 60色）。诸变体并排陈列。每例指标（平均误差/边缘保留/孤立积木比率/色数）与图像并置。六类场景分组，俾可一卷扫视领域（肖像/宠物/婚礼/风光/IP角色）。

人仪表盘乃别脚本与AI包共生成。二者同享度数，共呈渲染；惟呈示异耳。

尔建此层，二事乃生：

人可瞬息三十识退，此退若AI审者五迭始显（盖AI一包一评；人目速察包间之趋）。
人云"此非其宜"，复入于使，为次迭之新设。使固不须自思。

显者之则：使拟议，AI审者分拣，人审者导引。使速乘人识式，相乘相益，非独力所能及。

若惟有暇建二者之一，当先建人可察者。AI评审者乃其上之优化也。

吾git日志中一具体例，足见此升格之廉，其提交曰116666f，"評估：42-case 套件，藥囊視圖切換，熱圖差異"。此提交前，較比候選輸出於原版或於錨點之差異，須開啟獨立 PNG 檔案。後，每案例三藥囊切換，就地更換視圖：

<div class="view-tabs">
  <button class="active" onclick="setView(pid,'candidate')">candidate</button>
  <button onclick="setView(pid,'diff')">diff</button>
  <button onclick="setView(pid,'anchor')">original</button>
</div>

益加 ~10 行 CSS 於藥囊之裝飾，及 6 行setView之功能，凡二十行码耳。后五日，成算法六版，较前速约四倍。其速之开，非因提示更善或模型更智，实因具之升也。

3.6 知识之恒

循环之旨，非为一善而发，乃欲使团队于N+1次迭代时，智于N次迭代。此需书之。

吾等用二物：

changelog.md— 已发之物。凡经核准，必立条目：载版本，记所改参数，录度数之变，系束之链。积之，逆时序而列。

playbook.md— 事有未成。每得一拒，必生一记。更易未复之前，摄其或然之境，摄其实然之境，摄其误之由。亦摄已验之理（屡试皆通之则），摄其参数之敏（何旋钮易触）。

要则：戏本之条，必先书而后可悔。若先悔，则所学随卷而散。吾辈尝为此两度受灼。

次迭代，始于使者在戏本中观览。所习非尽记诵，然能移所拟之变，去重试其不效者，此其义也.

附言：此具自亦迭代（有git日志为证）

上列六器非初日所发。评鉴之制与算法俱有显升，其速效皆载于吾之git日志。

一日至五日初版：一脚本，于每测试案运行量化器，并输出PNG图。比对之法，乃于文件间切换。AI审阅者，逐一阅原始图像。每数日，发一算法版本。
第七日 — 提交116666f eval: 42-case suite, capsule view toggle, heatmap diff。制交互式HTML观览器，盖因于Finder中连续扫描五候选束，甚苦，且所失甚多。药石切换，以易变异输出于原处。热图差异覆盖.
第八日 — 提交ce0b75e add --dual mode for LEGO+Webrick comparison及e72b6e3 dual mode per-cell 3-tab layout增第二调色板，且设每格一标签之布局，盖因机具须同时评异调色板相容性，兼算法更易也。
日第八至十三（升格后）：五日内送算法四版（v18、v19、v22、v23、v24、v25——其间有数版遭否决）。同队也。惟机具异耳。

升级前后之对比，锐利已足为是文中最有力之证也。缰具之升，启其速也。非更优之提示，非更睿智之模型，非更严明之纪律。凡此诸般评估之升，皆源于迭代算法时，吾辈所遇“此缓”与“此失”之摩擦。

视缰具若生灵，非仅装置。 周而复始，不进则退，算法之进止，亦然如是。

有益之则：若三周之内，手自复行同一步骤，此步当归诸器之列。

4. 调度之环

此乃一周之终始，环环相扣，周而复始。

┌─────────────────────────────────────────────────────────┐
│ 1. PROPOSE  (authoring agent, has full context)         │
│    Reads playbook + changelog                           │
│    Forms hypothesis ("L weight 2.0 should improve...")  │
│    Writes code change in scripts/lib/quantize-core.mjs  │
└────────────────────────┬────────────────────────────────┘
                         │
                         ▼
┌─────────────────────────────────────────────────────────┐
│ 2. SWEEP  (automated)                                   │
│    Runs candidate against 13-case test set              │
│    Produces bundle.webp + HTML dashboard + metrics.json │
└────────────────────────┬────────────────────────────────┘
                         │
            ┌────────────┴────────────┐
            ▼                         ▼
┌───────────────────────┐  ┌────────────────────────────┐
│ 3a. AI REVIEW         │  │ 3b. HUMAN SCAN             │
│ (independent agent,   │  │ (interactive HTML viewer,  │
│  clean context)       │  │  pill toggles, metrics)    │
│ Outputs APPROVE /     │  │ Outputs: "looks fine" /    │
│ REJECT / REFINE       │  │ "something off, try X"     │
└───────────┬───────────┘  └────────────┬───────────────┘
            │                            │
            │     Both feed into verdict │
            └────────────┬───────────────┘
                         │
            ┌────────────┼────────────┐
            ▼            ▼            ▼
        APPROVE       REFINE        REJECT
            │            │            │
            ▼            ▼            ▼
   ┌────────────┐ ┌────────────┐ ┌──────────────────────┐
   │ Merge code │ │ Adjust per │ │ Write playbook entry │
   │ Append to  │ │ reviewer's │ │ FIRST, then revert   │
   │ changelog  │ │ suggestion │ │ Append to changelog  │
   └────────────┘ └────────────┘ └──────────────────────┘
                         │
                         ▼
                   Next iteration
                   (human's "try X" becomes a hypothesis seed)

一周期之历时，自始至终：小变（一参数推演）约三十分钟，至若管路重构（多推演、多审议）则数小时。人目审之，熟变约二分钟，生地则久。

此协调整体——提议、扫视、复审、合并之间之脉络——乃少许代码耳。其难非在协调整体，而在六者于3.1至3.6实皆完备。多团队尝试此道者，仅得其一二而已。

5. 环所获

此乃概念实证之节，三图胜于万言。

是四行实值评估束叠成之教化观。同源之影，同案之试，四变之算法。自上而下观之：

源影 — 乃以积木所拟之形
拜尔八乘八序染 — 其八乘八之式，若以六十四像素之精，则显为可见之点阵。自出其意，自信以付于选者；而审者察之，遂拒之。
双边滤波，其色散σ_color为35 — 予期强预平滑可减杂色，然适得其反：使量化器所择之调色板选项骤减，致杂色益甚。遂拒之。
连续性惩罚为0.005 — 降自0.008，以予梯度更多自由。复引背景微斑。此参数显有硬底，凡下于0.008者，皆如开关之阖。拒之（二度 — 后试0.002，得同果，证此参数非枢机）。
今之流程（V25） — 此环约二十五周之果。色块净，面容可辨，肤理渐和。

凡败者，皆运于候选之构，历尽全评，而得审者之拒。每案中，作者之代理具合宜之设，且明其变乃进也。然具器者非然，而确是。

▲ AI暗审者所睹实为：一变一自造bundle.webp，十三案×[original | baseline | anchor | candidate]。无评注，无提交信息，无实现背景——唯此图像，度数之JSON，及评审之标准耳。(此乃扫掠工具之原始输出，非为本文手选。)

▲ 于机具升格之前，评审之HTML也（廿六日，岁在丙申，git提交先于116666f）。静态并置之图像。欲较候选与锚点及差异，则须启别之文件。可行，然迟缓。

▲ 升轭后之评HTML（五月十七日，116666f之提交），示v19→v22之较。每例之钥，或为候选，或为差×8，或为锚固。每例之平均误差、边缘、孤立指标，皆列于内。Δ%之概要，置于首。六类场景，聚为一组，使单卷显式，其于每束AI之审，所不能见之模式也。升轭者，启六版五日之内付梓之钥也。

六、回环所生何物

凡此回环十三日所出之数， 皆于他务之暇隙中成之 （夜分、周末、间或午休之时）：

凡二十五次之量化流程已发往
近七次之版本，皆于二至三日间发往 — 既系其辔，则迭代之速非所限；假设之质乃
11+弃验之术，皆载于手册，溯其本因
8验其理 — 乃存诸屡试屡破之则
A参数敏感表 — 每一旋钮，其安全范围与范围之外之失效模式
一开源参考文档 汇集上述所有内容

该开源文档在此处：github.com/Able-rip/agent-mosaic-skill/blob/main/docs/color-pipeline.md (中文版在此处)

所运行之活器，在bmbrick.com处。

非谓管道也。盖循环所生管道，远速于手调，且成文载之智识也。（此剧本也）历次迭加而成。及至二周，制作者初拟之策，已见佳境，盖因每迭之境，皆涵前此剧本中所有拒斥之条。败绩遂成可复用之输入，以应下次之试。

7. 谓此如何适于汝域

六要皆可无碍契合于“调硬系统”之诸般难题：

域	測試集	評分軸	掃描	AI審閱者	人視	持續性
圖像量化（us）	13參考照片	背景凝聚力／主體細節／漸變／審美／平均錯誤	超參數	清淨-上下文代理	互动HTML，药丸式切换调色板	剧本+变更日志
RL奖励塑形	修正评估回放	奖励+安全+自然度	奖励权重/塑形项	清理上下文代理	轨迹回放界面并排	奖励历史
图像生成之提示	固定提示集与参照	遵循性/审美/安全	提示模板与采样参数	洁净语境代理	网格视图，悬停以放大	提示荒冢
机器学习超参数调适	隔离验证集	精準度與校準及公允性	網格/貝葉斯超參數優化	唯指標檢查	指標儀表盤帶趨勢線	模型登記
編譯器優化	基準測試套件	速度與二進制大小及正確性	編譯器標記	唯基準測試檢查	火图差异观者	优化日志

二式以摹之

独行之评者于每字之码，劳作至极。若弃他务，但筑此物.
人目可察之评者，所以止循环之停滞也。若具AI之审而无人之鉴，则止于"于AI所评之量渐增，而失质变之跃"。当为人类设速览众变之法。

8. 元课之训

世人所谓"提示工程"者，多补漏之策也。若费两日之工，撰为完美之提示，令智能体"慎防回退之险"，此两日之劳，岂不若用以构作自动检测回退之评鉴乎？评鉴可泛化；提示则不然。

更进诘诎之论：众失败之代理项目，皆因团队既成代理又设界面，然弃其具也。代理仅治标，自诩功成。无具在，难辨其伪，而谬误渐积。有具在，则代理之信不足道，唯度数是重也

。至要之辨，在此。自主性非去人，乃置人于枢要。逐行著码非枢要，乃审评评果，导启新想。者，是也。其具使交接之洁。无之，则人必时时守之（迟缓，非其意也），或竟去之（而其器终流于退步之泽）。

吾辈行之有效之术：庖丁日献变本五至二十，机巧者顷刻间分拣其大半，而人君详察存者二三，悉心择其未彰于度者，以启新程。速由机巧之能，向由人君之明。缺一不可。

吾辈于此术，独运一法，已历十三日矣。闲时 — 夕阳之下，周末之时，偶有午休之际。吾等今以同法施诸此物之他几构件。设制之费甚实（约一周之工，筑评估之架，定评量之则，设AI审者之示，立人形之表），然既成，迭改之费减十倍——近六版皆五日而发，最盛者，一日而v18、v19俱过审也。

闲暇之际，构架之要，在隔离变数。十三日之内，全日工程，出二十五版，诚为可观，然亦非奇事。然若十三日之内，于夕，出二十五版——此乃一不能识码之产品经理所为，则事非所宜。者，谓此具负举之责，若专职之CV工程师所常为之。作者之任于是环，惟设论而审断，非施为也。此具书每行；作者验之；人择其趣于后。此劳役之分，故使侧业之速可持。

若于事之复杂逾于重构者，欲行代理所为之务，次所营建者非良之提示也。乃驭代理之具——且尤要者，此具须使人为之可读。

试之 / 探之深

生器，循此环所成之术而用之:BM Brick (bmbrick.com) — 自由，基于浏览器，无需上传。
全流程参考（开源)：github.com/Able-rip/agent-mosaic-skill/blob/main/docs/color-pipeline.md — 二十五版版本更新日志，已验证之原理，失败实验之缘由，参数敏感度表。(中文版)
MCP服务器（npm）：npx -y @bmbrick/photo-to-lego-mosaic-skill — 同一引擎，可自Claude桌面/游标/任何MCP客户端调用。汝之代理tools/list中所载工具名，乃generate_lego_mosaic。

汝之团队中，代理所发最劣之回归，此等装置当能察之否？吾甚欲于注文中览之。

推薦訂閱源

DEV Community