何察于AI之使，于发之先（及后）

与吾共事之创者，发其人工智能之器六月后，有短信来曰："有异事矣。今月之费，倍增至三，应时渐恶，然实不知系统何部为患。助我。"

此系统乃多智能体之客户支援构架，设三智能体，具四工具。其团队于多数方面建之甚善：提示坚实，工具融贯，启运前评估中规。然有一事未及：可察性。六周之生产交通，过此系统而无所踪，无每步延迟之追踪，无成本归因。

辨其症需旬日之劳，盖因当日所当置而未置，今乃溯而补之。而愈之，不过日暮。及至察得实症（一代理器，于供应商模型更新后频作循环），则团队已耗数千金于无谓之LLM，且失数周之客信矣。

此乃最可避免之代理失效类别。最低可观测栈于发布前安装几无成本，且当有变故时，可省数周之调试。此乃Sapota随每生产代理所附之内容。

可察之失有三

智能体于生产中，其败亡有三，皆结构迥异。非有监测之术，不可察焉。

默然之质渐落。代理之应时日愈劣。语料流移，模型供者更其本重，提示模板得修，用户询诘之分布亦迁。质之损，每周五分之壹，阃奥者两月方觉，是时客报之误已激，信义遂隳。

成本骤增。生产成本较测试预期高出三至十倍。或因生产查询较之测试查询更为繁复，或因特定用户滥用手法，或因多代理配置中某代理频现循环。无请求与代理之成本追踪，则难辨其由。

崩坏相续。器A始逾时。吏B复之。吏C候吏B之效。全系滞若蜗行，然无独器可警。九十五分位之迟滞倍三，然平均犹佳。无踪迹于吏系，崩状不可见。

此等崩状，皆耗真器之实财于吾所察之核。无有必至。

层一：追迹

最小追迹设置，每请求数据：

请求ID，遍历各步骤传递
用户ID，用于成本归属与滥用检测
各LLM调用之输入输出（输入符号、输出符号、延迟、成本）
工具调用之输入输出、延迟及错误
退出之由：成功，至多迭代次数已至，超时，中止

其实现非复复杂。Langfuse、Opik、LangSmith及Helicone，皆以十行之码，裹其LLM之客。其边际之费，约五分之迟滞，及储藏之费，约一成之LLM之费。此二者皆可忽而不计。

吾等多以Langfuse自建为本，此开源，无单次追踪计价，单于小VM运行。若已入LangChain之域，LangSmith亦可。欲简设者，Opik为善。择一而安之，俟启事之先。

实用之效：物有毁坏，其迹可明其处。创者之环代理人，现于迹中为“代理B退出因：最大迭代次数”，较基准多现四倍。无迹则此模式难察。

第二层：指标

以迹为基所建之汇总仪表盘。生产代理所重之指标：

品質之標準：

任务成事之率（指代理达至"成功"之出口，非最大迭代或中止之请求比例）
忠实度得分（若有忠实度之关卡，则追踪其输出）
用户满意（若具反馈收集，则计其赞许率）

性能指标：

p50、p95、p99之延迟（平均数隐匿尾部）
每任务迭代次数（高迭代或致循环终止）
工具调用频次

成本指标：

每任务成本（均值、p95、最大值）
每日每用户成本（防滥用与失控成本）
按模型成本（若多模型配置）

可靠性指标：

错误率按错误类型分（暂时的、永久的、验证的）
工具故障率按工具
备用使用率

有八至十二个指标的生产行政台，涵盖所需所见之大部分。吾辈通常建于Grafana之上，基于踪迹存储，或于Langfuse / Opik / LangSmith的原生行政台构建之。

第三层：警报

仪表盘上的指标有助于探究。警报则在客户察觉问题之前捕捉到它们。

最小警报设定：

錯誤率驟增。若錯誤率超過百分之五於任何五分鐘之間，則發警報。可察突發之故障，由工具停運、模型供應問題，或部署不良所致。

迟滞渐损。若p95迟滞逾越尔之SLA十分钟，则警。能察渐损之由，或增负、或重试、或下游之弊。

超支。若日耗逾预算之阈，则警。能察失控之环、滥用、或模型供者之价变。

质降。若周评分数跌逾五，则警。察客先觉之默损。

要务失应。若外依断路，则警。防倾颓之祸，俟其未倾。

警讯之规五则乃其下限。众司事之能，随团队渐悟所察，积规益多。其不效之式：无警讯之规，曰"偶检仪表盘耳"。

第四层：评估之流

第四层乃离线评估。踪迹示生产之状，评估明其状是否当实。

最小评估流程：

一百至五百之真确评估题，附预期答案
每周定时运行评估题于生产流程
追踪通过率之变迁
若通过率周降逾五，则发警报

吾等以Ragas为众客之度，其能于一试中，算诚信、答之切、境之忆、答之正。百题周试之算费，不逾五钱。

评估之集乃众团队所轻视之物。其当映真实之生产查询分布，非惟工程之师所思用户将询者。欲建良善之评估之集，当俟两星期之生产交通既成，采百实查询，撰所期之答，以之为将来之真凭。每季更新之.

吾辈于创始人之系统所察

启程六周后，吾等施以器测，迹立显：

有独一之器（即路由之器）出，频率较之启程，倍四焉
滞时之p95，自四秒迁至十二秒
每务之费，自四分迁至十三分
变更之始，恰逢彼时基础模型提供者推更新于三周之前

此策迅捷：新模版本解一指令异于旧者，而路由代理频求详释于旧模所直应之请。吾等增二例以砺路由之示。代理止其回环。费与迟复归原基。

既得踪迹，全案之查四时而已。无踪迹时，团队六周不能定其谬。

建议：宜于发布前安装

待观其明而后动之论曰："吾辈行速，俟发轫后加之。"先于发轫而施之论曰："后加之费甚巨（逆施之器，失其数，灾变之惊），今施之费几于无。"

至简之栈：

追踪（Langfuse / Opik / LangSmith）：一日可成，于代码中传布请求数。
仪表盘列八至十二之度：一日可建，于追踪之上。
五则警律：一日可立，并接于警讯之系。
评量之管（Ragas + 按时）：二日可设，于评量之集，每周行之。

一星期之功。不若排解一桩生产之谜所费之时。

若尔之代理人已投入生产而无痕迹

若汝之团队已发布人工智能之代理，而汝不能以数据应"何以上周响应时变慢"，则其隙在可察性。

萨波塔提供一周内可实现的观测性方案，安装Langfuse（或您所偏好的技术栈），对现有代理代码进行监测，构建生产看板，配置警报规则，并搭建评估流程。吾等已为六七代理系统完成此务，多见于未加监测即交付、后始遇神秘生产问题的团队。

通过人工智能工程页面联系吾等。当下代理栈之状，及所见之问题。首度交谈，常显出缺失之层，及当先安装者。

推薦訂閱源

DEV Community