RAG果真"幻覚"乎……生成之AI，无标可循，质之难驭。

自癸卯以降，创生之智械渐入诸业，已成共议。自民瘼咨询、内政庶务、医理诘问至金谷顾问，基于大语言模型之服务，其位日固，而其枢，几无例外，皆在RAG（检索增强生成）之术。

RAG者，使大语言模型得实时引最新之智识与组织独有之数据，以减幻象之弊，遂成补充之技。迨丙申之岁，RAG为创生之智械服务之标准架构，已非新流，乃为常态。

然实务之问，犹存未决。言RAG之引入，与RAG之得宜，非同一事也。

今之重，已自‘构建’移于‘运营’。

盖特纳（Gartner）曾预言，至2025年，约三十分之三十的生成式人工智能项目将停滞于概念验证（PoC）阶段。现实所见，亦无大异。初出之时，基于RAG的聊天机器人无不运行无碍，然运营数月之后，渐有报告称其回答质量有所下降。或因来源错乱，或因同一问题得异答，或因特定业务领域准确率低劣。

然问题在于，多数组织仅凭定性判断以识此质变。运营者之经验，实为唯一之性能指标，此情形所在多有。其果，分析原由、改良之道，耗时甚巨，且难以量述改之何物、如何改之，其成效几何。

RAG運營之三元結構性任務

欲使RAG運營維持可持續，必須解決三項任務

其一，無法測量性能。文檔屢屢增補，結構亦變。然此變化對於搜尋性能與回應質量之影響，無法客觀確證，手段匮乏

其二，優化之艱難。塊大小、Top-K、嵌入模型、提示、LLM組合等可調參數，數十種之多。欲手動窮盡所有組合，實非現實之所及

曰，其三，验变之缺也。若提某域之应质，则他域之质隳，所谓气球效应，于RAG之运，非所罕睹。无较变前后者之统系，则所试之效，终陷于不测之域。

此三者，非独模型之能之弊，实乃运法之空也。未补此空，欲持AI之务于公、金、医之域，其信实为核，则难以为继。

故需以标为基，以质为管。

昔彼得·德鲁克有言："不可量者，不可驭也。"RAG之运，亦循此理。今国际间已立RAG评量之标，曰忠实、曰相关、曰文境之精。企业之境，更须加害之防、偏倚之察，此乃伦理之要。

尤以公权与规制之业为甚，一答之谬，可损制信。若言"AI所创，势所难免"，此说未合。评量之基，非择之题，实责之务也。

且評質非止於發行之際，乃應為常期自動之評判循環。若察性能有損，必辨其源，在於搜檢階段抑或創造階段，然後乃可致改良之功效。

RAG之生命週期：籌劃·配布·運營·改良之循環

運營持續RAG服務之組織，其共通者，謂以項目為「建設之終點」非為「運營之始點」。

规划及开发之际，尝试诸模组合，以定技栈。临部署之先，必于类乎实运之境，从外察者之观，行验核之事。既部署，乃定期察其效能，以早辨其异。若需改良，则于试境验其变策之效，而后行之。

此四阶当循环为用，方使RAG之务，历久弥精。不然，则难脱“初成之务，质尤优”之悖论。

于公AI，尤重“量信之要”。

观于公共领域生成型人工智能之项目，则知以指标为基之质量管理，于斯域尤显其要。一错于应答，则政策之信立损；一失于文书，则行政之信亦隳。

故当辨应答止于"似是而非之句"耶，抑或可据本源而验之。须能定何域逾准，究其因，作量析，使用者与司者咸信AI之果。

转折点立生成AI之市

生成式AI导入已届三载，时移世易，市井之议亦随之流转。由“初试导入”之阶，渐迁至“永续运营”之境。来日，具RAG质量管理体系之组织与未备者，非惟技之异，恐更生信义之别。

推薦訂閱源