去岁,一B2B SaaS之众,得客怒函。客之属吏,询公司AI助者,其计是否含SSO。助者对曰然。客之司事者,费二日之力,欲成其制,诉诸支持,乃知助者之误。盖SSO乃在企级之计,而客所持者,乃专业之计也。
助者索检文牍,未得确证何级含单点登录之事,乃据似可信者,依训练之数据,作流畅之答。用户无从知其乃幻生之语也。
此非"更优之模"。若LLM更巨,则同此不足之境,必更自信地妄生幻象。此之解,实乃本应自始即存之层:一忠信之关,用以验察代理之应,是否确根植于所取之境,方送诸用户。
此乃生产AI智能体最高杠杆干预之一。众团队多弃之,盖因其失效模式未显,直至客诉方知。
忠实度实测何物
忠实度一问而已:智能体之应,其言是否得乎其检索之境所证?
若使者在知识库中查之,得见"Pro层级含基本功能X、Y、Z。Enterprise层级则除X、Y、Z外,复有进阶功能A、B、C,兼有SSO",则应答言"尔之Pro计划含SSO"者,非其本真。所索之境,实不支此言。
此异于"应答是否正确"之问。正确需凭实据,忠实唯取所索之文。无需人介入,可自验之。
匠者:自应中析原子之断,核之与所取之境,计其分。若分不及阈,则应中非信,不可发。
门之实然运作何如
其理明矣:
- 代理据所索之境生成应答;
- 别以LLM(判者)析应答之原子主张;
- 每一主张,判者察所索之境是否佐之;
- 忠实之分数,乃所佐主张之比也。
- 若分数不及阈限(吾等默认为0.85),则应拒之。
- 或重试以改之境,或返"此非有据可答"
如Ragas之框架,直能为之。亦可用一LLM之呼,以结构化之提示,自建之。判者之模,不必为生产之模。吾辈常以GPT-4o-mini或Claude Haiku为判者,以节成本;其准确已足为此任。
何以此能及模型之大小
大模之幻,非减也,反增其信。设境不足,GPT-4o所出之谬,文辞愈工,结构愈整,声威愈重,较GPT-3.5尤甚。
忠信之关,作用于模型之上层。其不察模型之自信何如,惟察应答之主张,能否溯源于所取之境。
团队稽核,忠信之关得察顾客尝报为误之应答约四成。此多者,易模型而增价,亦不能察也。
其阈之问
定信实之阈于何处,乃产之决,非技之决也
- 九五以上:甚严。用于律法之谏、医道之讯、财策之荐、规约之遵。其费者,增"吾不能答"之应耳,此乃高风险域之宜价也
- 自0.85至0.95:此乃B2B SaaS之常规生产设置。能捕捉多数自信之幻觉,而不拒合法之应答,纵其有微末未获支持之辞藻。
- 自0.70至0.85:此则更为宽纵。宜用于用户可自验之内部工具,或初阶产品,盖因拒应过多,则损用户体验。
- 低于0.70:此实已失效。不荐用于面向客户。
吾所与共事之团队,业于 B2B SaaS。初立阈值为 0.88,察拒率(约应答之六成),一周后觉拒率过峻,有损用户体验,遂调阈为 0.85。
门坏何为
当应答未通过忠实度检验时,代理有三项选择:
重试,增以文脉。使者在败绩之问再索。或初索未足,再巡乃显阙文。一重可,再重止。过此则勿复。
返曰:"此非敢决也。"诚陈其限。显一实弊,可由众解(文牍不足,诘问不明),胜于自信而误。
转托于人。使者呈问于司事,附以所索之文。宜于接客之制,盖"不知"非可终局也。
诸生产之队,皆运其三。初试(价廉,常可解),次用诚然“吾不知”(低局可容),大事或复问,则升之。
吾所运于队者
原制乃客服之吏,兼用RAG于文牍。吾增:
- 每应皆验其诚,以GPT-4o-mini为判之模。
- 產生回應之閾值定於0.85。
- 若初回應未合檢核,則增強檢索重試一次。
- 兩次檢核皆失敗之回應,則以誠實之退讓應之(「吾等文獻中未載此項特定資訊。君欲否命人手處理?」)。
- 每次失敗之忠實檢核皆記錄之,俾團隊得審察趨勢,增進文獻涵蓋。
客报之误答,首月减六成。诚信之阍,未增正误,惟止系统自信而贻误于客。诚实之"吾不知"初引忧惧(客将怏怏乎?),然终受嘉纳。客择"吾不知"胜于误答,纵欲速答也。
不期之益,乃失检之录。今团队得列每问,文牍不能确答者。此遂为文牍积案。半载之内,客报之患,较之关前基线,已减八成,其半由关之设,其半由文牍之进,关之所显也。
门不足时
忠信之关,可防一弊:言而无据,境迁而失。然不察二事:
- 境之谬也。若 RAG 之流,引文有误,则应答必从谬本。须审之。
- 境之陈也。忠信于六月前之文,今已陈腐。须版本之序,时鲜之察。
- 言辞微妙而谬误。虽事由境生,然推论之间,失其真谛。需更审慎之评,或需人力复审之。
此门虽为生产之要,然非其全备。乃最高杠杆之单干预,然非唯一干预之策。
桃子之荐
凡司事之属,掌实问者(如客问、内知、合规,误则损):
- 于应答之途设诚信之关
- 用廉判之模(GPT-4o-mini、Haiku),以节费
- 初定阈于0.85,依拒率调之
- 施重试一遭、诚退之策
- 每次失败皆录以备档之进
基础设施之费,约计每应答一元之万分之一。客所报之误,首月通常减四至六成
此非生产之B2B代理者可择,乃化演示为产品之层也
若尔代理自信而误
若君之团队有客报AI助人答非所问,而"吾将易以更优之模"未能解之,则所缺之层,殆必为忠实之验也。
萨波塔提供一周之约,于尔既有之代理添忠诚之验,校准阈限以尔往昔之报,并运重试与回退之理作为可行之 PR。吾等已为之于客服代理、内蕴知识库及合规之器。
经由人工智能工程之页相接。 並舉數例,以見吾代理所給非是之答。診斷之對話,常能顯信實之隙與記錄之罅,此門將助以揭示之。




















