自癸卯以降,创生之智械渐入诸业,已成共议。自民瘼咨询、内政庶务、医理诘问至金谷顾问,基于大语言模型之服务,其位日固,而其枢,几无例外,皆在RAG(检索增强生成)之术。
RAG者,使大语言模型得实时引最新之智识与组织独有之数据,以减幻象之弊,遂成补充之技。迨丙申之岁,RAG为创生之智械服务之标准架构,已非新流,乃为常态。
然实务之问,犹存未决。言RAG之引入,与RAG之得宜,非同一事也。
今之重,已自‘构建’移于‘运营’。
盖特纳(Gartner)曾预言,至2025年,约三十分之三十的生成式人工智能项目将停滞于概念验证(PoC)阶段。现实所见,亦无大异。初出之时,基于RAG的聊天机器人无不运行无碍,然运营数月之后,渐有报告称其回答质量有所下降。或因来源错乱,或因同一问题得异答,或因特定业务领域准确率低劣。
然问题在于,多数组织仅凭定性判断以识此质变。运营者之经验,实为唯一之性能指标,此情形所在多有。其果,分析原由、改良之道,耗时甚巨,且难以量述改之何物、如何改之,其成效几何。
RAG運營之三元結構性任務
欲使RAG運營維持可持續,必須解決三項任務
其一,無法測量性能。文檔屢屢增補,結構亦變。然此變化對於搜尋性能與回應質量之影響,無法客觀確證,手段匮乏
其二,優化之艱難。塊大小、Top-K、嵌入模型、提示、LLM組合等可調參數,數十種之多。欲手動窮盡所有組合,實非現實之所及
曰,其三,验变之缺也。若提某域之应质,则他域之质隳,所谓气球效应,于RAG之运,非所罕睹。无较变前后者之统系,则所试之效,终陷于不测之域。
此三者,非独模型之能之弊,实乃运法之空也。未补此空,欲持AI之务于公、金、医之域,其信实为核,则难以为继。
故需以标为基,以质为管。
昔彼得·德鲁克有言:"不可量者,不可驭也。"RAG之运,亦循此理。今国际间已立RAG评量之标,曰忠实、曰相关、曰文境之精。企业之境,更须加害之防、偏倚之察,此乃伦理之要。
尤以公权与规制之业为甚,一答之谬,可损制信。若言"AI所创,势所难免",此说未合。评量之基,非择之题,实责之务也。
且評質非止於發行之際,乃應為常期自動之評判循環。若察性能有損,必辨其源,在於搜檢階段抑或創造階段,然後乃可致改良之功效。
RAG之生命週期:籌劃·配布·運營·改良之循環
運營持續RAG服務之組織,其共通者,謂以項目為「建設之終點」非為「運營之始點」。
规划及开发之际,尝试诸模组合,以定技栈。临部署之先,必于类乎实运之境,从外察者之观,行验核之事。既部署,乃定期察其效能,以早辨其异。若需改良,则于试境验其变策之效,而后行之。
此四阶当循环为用,方使RAG之务,历久弥精。不然,则难脱“初成之务,质尤优”之悖论。
于公AI,尤重“量信之要”。
观于公共领域生成型人工智能之项目,则知以指标为基之质量管理,于斯域尤显其要。一错于应答,则政策之信立损;一失于文书,则行政之信亦隳。
故当辨应答止于"似是而非之句"耶,抑或可据本源而验之。须能定何域逾准,究其因,作量析,使用者与司者咸信AI之果。
转折点立生成AI之市
生成式AI导入已届三载,时移世易,市井之议亦随之流转。由“初试导入”之阶,渐迁至“永续运营”之境。来日,具RAG质量管理体系之组织与未备者,非惟技之异,恐更生信义之别。
相关报道
- 民官学共襄“数字之信”全民运动2026.04.07
- 惊魂未定之安全事故轶闻,共话机缘,赢MacBook Neo·AirPod之惠2026.04.16
- “AI之用,瞬息可制攻码……廿七秒而毕”2026.04.07
- 进化之独蘑菇...与钓鱼·烟幕之战2026.04.13
论更优之模,更精之示,更广之境,今后必将继续活跃。然欲使诸论于实境有所成,必先备可测可述之语。
"感生指标"。吾辈以为,创生之智欲逾试验之阶,入组织之常,需同业共筑之基。
*本栏之文,或与编者旨趣有异。












