四法以验生产AI之失

周五深夜，有创始人发来消息曰："吾之代理已坏。客有怨言。吾之值班工程师不知所措。汝可助我否？"

此代理乃上周一启之客服之器。及至周五薄暮，公司之客服箱已盈满用户报称，此AI或答非所问，或应答无期，或竟尔超时。工师视之为巨弊。实则乃四弊叠压而成。

此乃诸生产代理团队必至之败局。症象累积，团队惶惑，遂试种种无方之策。此乃萨波塔所演之勘验次第，及四类最常见之败式，其致发布后之变故者十之八九.

勘验次第：首溯踪迹

未调试他物，先观其迹。若尔之代理于生产而无迹，此乃首患，纵遇急事亦当先解。取一失败之请，察其迹，观其时之所在，及其败之由。

吾所求于迹者：

请实败于何处？一特定之工具呼？一特定之LLM步骤？一超时之事？
其败状何若？HTTP之误耶？LLM之幻耶？输出之范式不协耶？输出之合于验而实谬耶？
近何所变？较一败之请于一周前之善请，何异之有？

创者之例，迹显三异败式，现于同周。众视作一患，盖因客显之症同：曰"智机坏矣"。

败式一：外倚之劣

产中代理之败，最常者，乃外倚渐缓或失信。代理自无恙，唯周遭之世已变。

常見之弊：

大語言模型供應商速率限制。OpenAI或Anthropic因吾人流量超過等級限制而開始限制速率。每請求現需重試三回方得成功，延遲增三倍。
检索系統緩慢。吾人向量資料庫負載過重於啟動之初，p95查詢延遲自50毫秒增至800毫秒。
外部API渐变。汝所唤之器（CRM API、计费系统、检索服务）悄然更新，致应答之形或时序有变。
知识库增广。自启以来，汝之KB（知识库）增三倍，然检索之忆力渐衰，盖未调适于更宏大之文丛也。

诊之：察汝器之迟滞与谬误于曩周。若任器之p95迟滞倍于初启，或其谬率增逾一，斯为候也。

其治因所恃之异。限率：升汝级或行指数退避。取索迟缓：调索引或扩数据库。API渐移：更集成。KB滋长：复调分块与取索之度。

于创者之事，LLM之供者于曜日密更其模。新模解导引之示稍异，致使代理频回其思，而后定于答。平均之迭自2.3增至4.1。费与迟皆骤升。其解乃更严导引之示，增三例少射之例.

失状二：验证之闩未尝触发

逆败之象：验真之关本应格除谬误之输出，然不鸣者，盖门限逻辑有隙，或阈限失当也。

常弊之式：

忠实阈限过卑。设为0.5，门关纵容多属臆造之应。当为0.85以上方合生产之需。
模式校验允空值。输出模式需"answer"字段，然允其为空字符串。空应答者，用户得之，如"不知"，而代理未觉其失。
毒性滤除未载。滤除库本应导入，然重构移其导入，今默然无作。
PII隐匿失当，误于其域。隐匿用户输入，然于应答中泄PII之私.

诊断之道：察客所报恶应之样本，溯其应受制者。若此失状有验证之关，当验其是否果发。

创始人设诚信之阈为0.7，尚宽。吾等紧之，定为0.85，拒率自2%升为9%，而客诉误答者立减。其“拒”之应，易以诚言“吾无此知于库”，用户反右于误答。

失效式三：边例之费无度

生產查詢分發與測試分發異。特定查詢模式或遠昂於常，數者或主其費。

其式若此：少數用戶（常為1-5%）生大費（常為30-60%）。或由正當之繁詢，或由濫用，或因其入觸代理之退化途徑。

诊之：取上周每用户成本之数，降序排列。察前十用户。其发问是否常例？抑或一用户循环其集成为不良输入乎？或特定之问类（长文、输入错乱、多轮深涉罕题）耗尽预算乎？

其治之方各异：

每用户每日速率限制与费用上限。硬性限制，防滥而不碍正用.
输入长度上限。多数大语言模型费用随输入符号增。限用户输入于合理之极（如十万字符），并委婉请其简述以应长询。
查询类型路由。若特定查询类型耗费甚巨，则当有可能时，导之至简易/廉宜之处理器。如"生成详尽报告"即属此类；宜导至异步批处理，而非同步对话。
每请求迭代之限。防代理于单一请求上无限循环。吾辈默认以五至十次为限。

创始人之制，有二士频发长篇比物之请，日耗其费约四成。吾增一士一日之费限，且制输入之长。四十八时内，费减其三。二士未怨，盖皆试内之能，而限之宽，足敷常需。

失效之四：默然质迁

最难察之败：物无毁折，无谬误，迟滞尚可，耗损亦常。然应答日劣。客有诟病，众不能复现，诸表皆呈青色。

因由：

旨趣之移。工技者更易其范本，似微而实易行。去一例，易一令，明一义，而大智之解异焉。
模型提供者更新。如前所述，基础模型或可更易而君不知。君之特定应用场景，其质或升或降。
语料漂移。君之知识库积聚内容，致检索受染。旧文当废而犹居高位，新文与旧文相冲突。
评估集陈旧。尔之评估集乃六载前针对旧版产品所撰，未映今时用户所求。

诊断之法：以今时生产代理运行尔之评估流程，较之发布时之分数。若分数降，则质有迁流；若分数同而客有怨言，则评估集已陈腐。

其方：更易评集。取实产之问五十至百，为每问拟应，运评而调之。众队每季更易评集。速变之域，月更之。

为创始者所遇之变

周五夜四时之诊：

外部依存：察知大语言模型提供者之模型更新，收束路由提示，代理止于循环。迟滞与成本复归。
验证阈限：自0.7提至0.85，忠实度阈限收束，拒斥之应答现返诚实“吾不知”，非幻生妄语。
成本失控：增每用户日成本之限五元，输入长度限于一万字。成本降三成五。
质量渐变：初启时，试评，得分为0.84，后降为0.71。更新试评集，纳近产五十问，察得三类之问，使代理失之，遂增其类之文牍覆载。一周后，分数复归0.86。

顾客之诉，七十二时辰内止。团队之志，自"吾辈所建乃破器"转而为"吾辈所建乃需严谨操持，非所预者"。此第二之见，乃得良器之钥.

荐言：复演其案。

始创之众，未备"代理于产中已损"之策。惶然寻错，每步皆滞。事后，吾辈撰一页运行手册，列四失状，各状之诊，及最常之修。

既六周，复遇类此之变（工器API停用），当值之工师循手册而行，廿分钟内辨其由，施文载之方，一时而毕。无惶遽，无上闻，无值五夜召谘之役。

此乃产司代理之运于成熟之状也。非谓“无有乖谬”，实谓“乖谬既生，众有既知之程以索其本”。

若尔之代理发轫失宜

尔之众发人工智能之代理，初数旬之苦痛逾乎所期，其宜为之干预者，乃勘验之审计，非增益之开发也。多数发轫之问题，非代理代码之新谬，乃运营之隙，惟于生产之巨量方显。

萨波塔提供发售后一周之审，遍查踪迹、验证、依存及品质之迁，辨四失之何者致何症，并送修正及运行手册以应将来之变。吾等已为六七B2B SaaS之客，于其AI发后三月内行之此。

就AI工程页相询。乃述汝之智能所司，及所遇之失。初晤，多属诊察。

推薦訂閱源

DEV Community