要言不烦——人巧于小补,拙于大改,盖因每变似善,实隐损于他处。吾辈制一AI之辔,其法有三:一曰不迁之验集,二曰多维之衡标,三曰广索之器,四曰独立之鉴者,五曰人目可察之评途。,知識恆久層——使智能體得自主迭代實算法,而人仍於適層貢獻直覺。十三日內,吾等色量化管線已出二十五版(git log無虛),其六最新者,僅五日而成,恰在裝置自升之後。非提示,非全自動,裝置之升,使此速成為安。
须先陈二要旨,盖其易改本文之旨趣也。
- 此乃闲时兼营旁务——夜与周末,间或午休之时。非专职之众,亦无专攻之程。
- 作者乃产品经理,竟无一字代码可识。 量之实流,皆由灵机所书。作者之功,在驭之、设之、察之。
二十五版之能成,其势如此,盖因驭具司察。既设其环,每度皆"启端,陈说于白话,瞥观仪表,可则允,否则撤。"此二者,实为建驭具之至论:能化非匠者所余之隙时,为可运之算法,此则常需专工之匠者为之。
此项目实为何事(简述背景)
此物也BM砖块(BMBrick)者,一無費之瀏覽器工具也,能化萬象之影為可築之LEGO式像素馬赛克。君可上傳犬影或婚禮之照,則得預覽、可印之PDF藍圖,及零件表,列LEGO 1×1磚之正色於每格,使君得購磚而築之。
此篇所謂"算法",實為色量化之流也。者,决LEGO之~42物理1×1板色,置于最终马赛克之每像素者也。其难在所限:汝有1600万RGB输入值,欲映42物理积木色,而输出仍须若源图,俟人于实装配之。若映射失当,肤色转成硬色带,目失辨识,背景裂为星点——可建之果遂不可识为图中人矣。
下之缰式,乃吾辈围绕量化之流所建,欲续其迭代,而不废已成。此式可通;积木之璺,惟为例证耳。
1. "任由智能体自解"于实算之失
尔若与智能体共组数月,其粗式或已习见:
- 重构与界面之工:此代理乃星也。汝述其果,彼修其文,汝试其效,乃可发之。
- 文牍:事已解矣。代理所撰README,胜于凡人多多。
- 算法调适:大祸也。
灾变之态,殊有可观。汝命代理人曰:"使此图之输出更洁。"代理人尝试之——譬如,增平滑之参数。观汝所呈之图,其输出果似更洁。乃遂承之。汝亦继进。
越三旬,乃觉所改之变复退于他七图。六者之"善",亦如是。今代码之库,充斥自信而发之微调,必逐一辨析之。
此非代理之失,乃具装之失也。者,特指此智能体无以知其已退化他物。温言问之,不能解此困;工于提示,不能解此困。其弊在结构也。
欲解之者:需有评估之具,此智能体必先满足,而后方可更迭。此具即本文所论。
2. "AI之具"者何意
智能体自主性有三境:
- 提示工程 —汝制其妙示,智能体应之一次,汝察其果,复易其示。适于偶作;不堪于持续,盖无有积焉。
- 全自主智能体 —纵使役于库,冀其效。绿野雏形,或可应;而于生产之码,则溃败矣,盖役者无以察其弊也。
- 机具导引之自主 —汝构一自验之关,置于“役者拟变”与“变既行”之间。机具可速迭,然惟过此关者得存。尤要者,此具二评者——一为机评以通,一为人评以悟——而其评出之文,皆为二者所宜用也。
吾辈行积木之色量化之管,历十三日,已出二十五版。十一余次载于文之实验,皆弃之。尤异者,v18至v19同日发,继而v22、v23、v24、v25四日间连出——五日六版,适其具自升。此具既得升,复现过失于人目所察之码评,变数适于一图而破六图,且至少二"AI助吾改之愈洁"之试,皆生层叠之效,人莫见其独。
余文所述,乃食谱也.
3. 五件物
此五物,可成工具。其各显明;合之乃成环.
3.1 不可易之试集
择具代表性之输入,调校之际,永勿易之。
吾之流程,其测试之集乃十三图:四为肖像(人畜并具),二为众像并绘,二为婚典之景,二为山水之致,一为近物特写,一为故作模糊之输入(为负控),一为黑白之参照。每图之择,皆因其能显一特定之谬式(如渐变之纹、肤色之调、背景之斑驳等)。
关于测试之集,有二则之规:
- 新案唯增于大版之间,勿于迭代之中。迭次更易试集,使器(及汝)得拣取胜绩
- 。每案必专攻一物。勿滥增"更多输入";当择输入,以显殊异之败式。吾辈十三案,所破之事略相正交。
最小之可用测试集,或五例耳。逾二十则优化于测试集,而非真实分布矣。
3.2 多轴评分标尺(非单一标量)
若将评估简化为一数,则智能体将优化此数,立见高德之律。当用多轴。
吾等:
| 轴 | 所摄之境 |
|---|---|
| 背景融合 | 平域恒平,抑或碎为斑驳? |
| 主题详述 | 目鼻口形,犹可辨识否? |
| 渐变质感 | 肤色天光,阴翳之色,岂无渐变? |
| 砖纹之美 | 其出,似匠心独运,抑或算法之谬? |
| 每像素误差 | 数值:源与量化输出间之OKLab距离 |
四感知轴(与基准对比评分±1/0/-1)加一数值轴。数值锚固使感知评分不失真;感知轴捕捉数值轴所失之所在(量化器或可平均误差低而观感极差,因误差集中于最要害处)。
制规于提示,使审者恒见之。勿恃"观之悦目"——诸工皆言何者悦目.
3.3 超参数扫掠之器
"探索"之半于探索/利用。一令运行N种算法变体于全测试集:
node scripts/eval/sweep.mjs \
--param lightnessWeight \
--values 0.5,1.0,1.5,2.0,2.5,3.0 \
--cases all
一束目录,一变而备之,其内含:
eval/bundles/lw-sweep-1.5/
├── candidates/ # one PNG per test case
│ ├── pet-portrait-48x48.webp
│ ├── single-portrait-48-vs-64.webp
│ └── ... (one per case)
├── bundle.webp # composite: [original | baseline | candidate] strip per case
├── manifest.md # variant config + per-case metrics table
└── metrics.json # machine-readable metrics
无扫具,则役者独点手调("容吾试0.8"),其效约若尔手调——迟缓,依直觉,易陷困顿。
持此,代理可立假说("L重量≥1.5当助"),一令即出六数据点。假说愈廉,故迭代愈速。
三、四、独立代理评审者(吞吐量之术)
此乃速之别也。
扫掠既毕,异司之境 考诸束。所谓异者:新唤之使,无得而窥焉:
- 原变之志也
- 变录也
- 玩谱也
- 既往之议,所以为此变者,亦不得闻焉
审者惟见:
- 变之
bundle.webp(目验之比) manifest.md(量度表)- 共通之评分标准 (即规范之评判准则)
评审者乃输出其一:
- 核准 — 全合阈限,可发运
- 否决 — 失一或数阈限,撰修案于手册,且返工
- 精修 — 有趣,然需调整,建议下一步
吾辈之核准标准:
- 像素平均误差不退步
- 于>三十之案例有进益
- 于<十五之案例有退步
- 进益与退步之比逾三比一
何以为要:同一名代理既为变改之笔,复为变改之评,则每成乐观之偏。此代理已投变改之资;纵使诚心之评,亦为是资所染。独立之评者——清境无前——破此循环。变改须能冷评而立。
然实践之中,吾辈所撰者,十有二成以为得,而审者多拒之。其得二成者,则稍加修饰。若无此筛,则皆可付梓矣。
3.5 人类可察之评语(直觉之术)
此乃"AI驱策之工"诸文所略,而略之实乃使器用周旋数周而止之最大之由也。
第3.4节之AI审稿者,于处理量之效甚佳,可昼夜不息、无偏私地处理束件。然其所失,乃人目一瞥即见之细。曰:"眸若死寂。"曰:"肤色转为微病之绿,虽无度量亦难察。"曰:"斜向之伪迹,惟速续掠过三束方显。"人具万时之模式辨识,AI所无,而算法调适之直觉,多源于此。
故评估之输出,乃为既之用者设也:
-
于AI之评者:一独之图像(
bundle.webp),含[original | baseline | anchor | candidate]行。简约,可机读之布局,宜于一次性之评。 - 于人之评:交互式HTML仪表盘。药丸式切换键以转换调色板(LEGO 42色与Webrick 60色)。诸变体并排陈列。每例指标(平均误差/边缘保留/孤立积木比率/色数)与图像并置。六类场景分组,俾可一卷扫视领域(肖像/宠物/婚礼/风光/IP角色)。
人仪表盘乃别脚本与AI包共生成。二者同享度数,共呈渲染;惟呈示异耳。
尔建此层,二事乃生:
- 人可瞬息三十识退,此退若AI审者五迭始显(盖AI一包一评;人目速察包间之趋)。
- 人云"此非其宜",复入于使,为次迭之新设。使固不须自思。
显者之则:使拟议,AI审者分拣,人审者导引。使速乘人识式,相乘相益,非独力所能及。
若惟有暇建二者之一,当先建人可察者。AI评审者乃其上之优化也。
吾git日志中一具体例,足见此升格之廉,其提交曰116666f,"評估:42-case 套件,藥囊視圖切換,熱圖差異"。此提交前,較比候選輸出於原版或於錨點之差異,須開啟獨立 PNG 檔案。後,每案例三藥囊切換,就地更換視圖:
<div class="view-tabs">
<button class="active" onclick="setView(pid,'candidate')">candidate</button>
<button onclick="setView(pid,'diff')">diff</button>
<button onclick="setView(pid,'anchor')">original</button>
</div>
益加 ~10 行 CSS 於藥囊之裝飾,及 6 行setView之功能,凡二十行码耳。后五日,成算法六版,较前速约四倍。其速之开,非因提示更善或模型更智,实因具之升也。
3.6 知识之恒
循环之旨,非为一善而发,乃欲使团队于N+1次迭代时,智于N次迭代。此需书之。
吾等用二物:
changelog.md— 已发之物。凡经核准,必立条目:载版本,记所改参数,录度数之变,系束之链。积之,逆时序而列。
playbook.md— 事有未成。每得一拒,必生一记。更易未复之前,摄其或然之境,摄其实然之境,摄其误之由。亦摄已验之理(屡试皆通之则),摄其参数之敏(何旋钮易触)。
要则:戏本之条,必先书而后可悔。若先悔,则所学随卷而散。吾辈尝为此两度受灼。
次迭代,始于使者在戏本中观览。所习非尽记诵,然能移所拟之变,去重试其不效者,此其义也.
附言:此具自亦迭代(有git日志为证)
上列六器非初日所发。评鉴之制与算法俱有显升,其速效皆载于吾之git日志。
- 一日至五日初版:一脚本,于每测试案运行量化器,并输出PNG图。比对之法,乃于文件间切换。AI审阅者,逐一阅原始图像。每数日,发一算法版本。
-
第七日 — 提交
116666f eval: 42-case suite, capsule view toggle, heatmap diff。制交互式HTML观览器,盖因于Finder中连续扫描五候选束,甚苦,且所失甚多。药石切换,以易变异输出于原处。热图差异覆盖. -
第八日 — 提交
ce0b75e add --dual mode for LEGO+Webrick comparison及e72b6e3 dual mode per-cell 3-tab layout增第二调色板,且设每格一标签之布局,盖因机具须同时评异调色板相容性,兼算法更易也。 - 日第八至十三(升格后):五日内送算法四版(v18、v19、v22、v23、v24、v25——其间有数版遭否决)。同队也。惟机具异耳。
升级前后之对比,锐利已足为是文中最有力之证也。缰具之升,启其速也。非更优之提示,非更睿智之模型,非更严明之纪律。凡此诸般评估之升,皆源于迭代算法时,吾辈所遇“此缓”与“此失”之摩擦。
视缰具若生灵,非仅装置。 周而复始,不进则退,算法之进止,亦然如是。
有益之则:若三周之内,手自复行同一步骤,此步当归诸器之列。
4. 调度之环
此乃一周之终始,环环相扣,周而复始。
┌─────────────────────────────────────────────────────────┐
│ 1. PROPOSE (authoring agent, has full context) │
│ Reads playbook + changelog │
│ Forms hypothesis ("L weight 2.0 should improve...") │
│ Writes code change in scripts/lib/quantize-core.mjs │
└────────────────────────┬────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ 2. SWEEP (automated) │
│ Runs candidate against 13-case test set │
│ Produces bundle.webp + HTML dashboard + metrics.json │
└────────────────────────┬────────────────────────────────┘
│
┌────────────┴────────────┐
▼ ▼
┌───────────────────────┐ ┌────────────────────────────┐
│ 3a. AI REVIEW │ │ 3b. HUMAN SCAN │
│ (independent agent, │ │ (interactive HTML viewer, │
│ clean context) │ │ pill toggles, metrics) │
│ Outputs APPROVE / │ │ Outputs: "looks fine" / │
│ REJECT / REFINE │ │ "something off, try X" │
└───────────┬───────────┘ └────────────┬───────────────┘
│ │
│ Both feed into verdict │
└────────────┬───────────────┘
│
┌────────────┼────────────┐
▼ ▼ ▼
APPROVE REFINE REJECT
│ │ │
▼ ▼ ▼
┌────────────┐ ┌────────────┐ ┌──────────────────────┐
│ Merge code │ │ Adjust per │ │ Write playbook entry │
│ Append to │ │ reviewer's │ │ FIRST, then revert │
│ changelog │ │ suggestion │ │ Append to changelog │
└────────────┘ └────────────┘ └──────────────────────┘
│
▼
Next iteration
(human's "try X" becomes a hypothesis seed)
一周期之历时,自始至终:小变(一参数推演)约三十分钟,至若管路重构(多推演、多审议)则数小时。人目审之,熟变约二分钟,生地则久。
此协调整体——提议、扫视、复审、合并之间之脉络——乃少许代码耳。其难非在协调整体,而在六者于3.1至3.6实皆完备。多团队尝试此道者,仅得其一二而已。
5. 环所获
此乃概念实证之节,三图胜于万言。
是四行实值评估束叠成之教化观。同源之影,同案之试,四变之算法。自上而下观之:
- 源影 — 乃以积木所拟之形
- 拜尔八乘八序染 — 其八乘八之式,若以六十四像素之精,则显为可见之点阵。自出其意,自信以付于选者;而审者察之,遂拒之。
- 双边滤波,其色散σ_color为35 — 予期强预平滑可减杂色,然适得其反:使量化器所择之调色板选项骤减,致杂色益甚。遂拒之。
- 连续性惩罚为0.005 — 降自0.008,以予梯度更多自由。复引背景微斑。此参数显有硬底,凡下于0.008者,皆如开关之阖。拒之(二度 — 后试0.002,得同果,证此参数非枢机)。
- 今之流程(V25) — 此环约二十五周之果。色块净,面容可辨,肤理渐和。
凡败者,皆运于候选之构,历尽全评,而得审者之拒。每案中,作者之代理具合宜之设,且明其变乃进也。然具器者非然,而确是。
▲ AI暗审者所睹实为:一变一自造
bundle.webp,十三案×[original | baseline | anchor | candidate]。无评注,无提交信息,无实现背景——唯此图像,度数之JSON,及评审之标准耳。(此乃扫掠工具之原始输出,非为本文手选。)▲ 于机具升格之前,评审之HTML也(廿六日,岁在丙申,git提交先于
116666f)。静态并置之图像。欲较候选与锚点及差异,则须启别之文件。可行,然迟缓。▲ 升轭后之评HTML(五月十七日,
116666f之提交),示v19→v22之较。每例之钥,或为候选,或为差×8,或为锚固。每例之平均误差、边缘、孤立指标,皆列于内。Δ%之概要,置于首。六类场景,聚为一组,使单卷显式,其于每束AI之审,所不能见之模式也。升轭者,启六版五日之内付梓之钥也。
六、回环所生何物
凡此回环十三日所出之数, 皆于他务之暇隙中成之 (夜分、周末、间或午休之时):
- 凡二十五次之量化流程已发往
- 近七次之版本,皆于二至三日间发往 — 既系其辔,则迭代之速非所限;假设之质乃
- 11+弃验之术,皆载于手册,溯其本因
- 8验其理 — 乃存诸屡试屡破之则
- A参数敏感表 — 每一旋钮,其安全范围与范围之外之失效模式
- 一开源参考文档 汇集上述所有内容
该开源文档在此处:github.com/Able-rip/agent-mosaic-skill/blob/main/docs/color-pipeline.md (中文版 在此处)
所运行之活器,在bmbrick.com处。
非谓管道也。盖循环所生管道,远速于手调,且成文载之智识也。(此剧本也)历次迭加而成。及至二周,制作者初拟之策,已见佳境,盖因每迭之境,皆涵前此剧本中所有拒斥之条。败绩遂成可复用之输入,以应下次之试。
7. 谓此如何适于汝域
六要皆可无碍契合于“调硬系统”之诸般难题:
| 域 | 測試集 | 評分軸 | 掃描 | AI審閱者 | 人視 | 持續性 |
|---|---|---|---|---|---|---|
| 圖像量化(us) | 13參考照片 | 背景凝聚力/主體細節/漸變/審美/平均錯誤 | 超參數 | 清淨-上下文代理 | 互动HTML,药丸式切换调色板 | 剧本+变更日志 |
| RL奖励塑形 | 修正评估回放 | 奖励+安全+自然度 | 奖励权重/塑形项 | 清理上下文代理 | 轨迹回放界面并排 | 奖励历史 |
| 图像生成之提示 | 固定提示集与参照 | 遵循性/审美/安全 | 提示模板与采样参数 | 洁净语境代理 | 网格视图,悬停以放大 | 提示荒冢 |
| 机器学习超参数调适 | 隔离验证集 | 精準度與校準及公允性 | 網格/貝葉斯超參數優化 | 唯指標檢查 | 指標儀表盤帶趨勢線 | 模型登記 |
| 編譯器優化 | 基準測試套件 | 速度與二進制大小及正確性 | 編譯器標記 | 唯基準測試檢查 | 火图差异观者 | 优化日志 |
二式以摹之
- 独行之评者于每字之码,劳作至极。若弃他务,但筑此物.
- 人目可察之评者,所以止循环之停滞也。若具AI之审而无人之鉴,则止于"于AI所评之量渐增,而失质变之跃"。当为人类设速览众变之法。
8. 元课之训
世人所谓"提示工程"者,多补漏之策也。若费两日之工,撰为完美之提示,令智能体"慎防回退之险",此两日之劳,岂不若用以构作自动检测回退之评鉴乎?评鉴可泛化;提示则不然。
更进诘诎之论:众失败之代理项目,皆因团队既成代理又设界面,然弃其具也。代理仅治标,自诩功成。无具在,难辨其伪,而谬误渐积。有具在,则代理之信不足道,唯度数是重也
。至要之辨,在此。自主性非去人,乃置人于枢要。逐行著码非枢要,乃审评评果,导启新想。者,是也。其具使交接之洁。无之,则人必时时守之(迟缓,非其意也),或竟去之(而其器终流于退步之泽)。
吾辈行之有效之术:庖丁日献变本五至二十,机巧者顷刻间分拣其大半,而人君详察存者二三,悉心择其未彰于度者,以启新程。速由机巧之能,向由人君之明。缺一不可。
吾辈于此术,独运一法,已历十三日矣。闲时 — 夕阳之下,周末之时,偶有午休之际。吾等今以同法施诸此物之他几构件。设制之费甚实(约一周之工,筑评估之架,定评量之则,设AI审者之示,立人形之表),然既成,迭改之费减十倍——近六版皆五日而发,最盛者,一日而v18、v19俱过审也。
闲暇之际,构架之要,在隔离变数。十三日之内,全日工程,出二十五版,诚为可观,然亦非奇事。然若十三日之内,于夕,出二十五版——此乃一不能识码之产品经理所为,则事非所宜。者,谓此具负举之责,若专职之CV工程师所常为之。作者之任于是环,惟设论而审断,非施为也。此具书每行;作者验之;人择其趣于后。此劳役之分,故使侧业之速可持。
若于事之复杂逾于重构者,欲行代理所为之务,次所营建者非良之提示也。乃驭代理之具——且尤要者,此具须使人为之可读。
试之 / 探之深
- 生器,循此环所成之术而用之:BM Brick (bmbrick.com) — 自由,基于浏览器,无需上传。
- 全流程参考(开源):github.com/Able-rip/agent-mosaic-skill/blob/main/docs/color-pipeline.md — 二十五版版本更新日志,已验证之原理,失败实验之缘由,参数敏感度表。(中文版)
-
MCP服务器(npm):
npx -y @bmbrick/photo-to-lego-mosaic-skill— 同一引擎,可自Claude桌面/游标/任何MCP客户端调用。汝之代理tools/list中所载工具名,乃generate_lego_mosaic。
汝之团队中,代理所发最劣之回归,此等装置当能察之否?吾甚欲于注文中览之。
















