论大语言模型之安,常沦于语义提示之辨或泛泛之旁路规约。然若汝之护栏策,全恃异步推理后之API呼或粗浅之字符串匹配,则非筑安全之界,乃设虚饰之貌也。
若运机关乎变态之系,安危非后制之能,乃根本之约也。
确然之控,必超默察,内植显层之御,直入执行之脉。此吾析定序、系先之工构之法也。
核心论点:未验证之意图即远程代码执行
汝以函数调用、原生工具集成或数据库连接之方式授LLM基础设施以权柄,则汝之应用程序之威胁态势根本转变。汝自静态数据检索移至动态、非确定性之执行生成。
若使代理得自动态构建其下游执行路径,则提示注入非复寻常之文本处理谬误。乃成功能未授权之远程代码执行(RCE)或未经验证、破坏性之数据库写入。
欲应此,必隔离AI之非确定性输出于严整、确定性之系统边界内。此需四层运行时栈,直接映射于数据路径。
┌────────────────────────────────────────────────────────┐
│ 1. INGRESS SURFACE (Payload Parsing, Input Gating) │
├────────────────────────────────────────────────────────┤
│ 2. OUTPUT BOUNDARY (Type Enforcement, Token Slicing) │
├────────────────────────────────────────────────────────┤
│ 3. EXECUTION GATE (Tool Interception, Scope Blocks) │
├────────────────────────────────────────────────────────┤
│ 4. POLICY TRACE (Deterministic State Auditing) │
└────────────────────────────────────────────────────────┘
一、入口之表
守卫之设,必先于单符触及推论之端。入口之表,若严疆之界,亦为负载之筛。
非直纳未解之用户输入于调序之核,入口之表,乃为内断之设,以应:
- 结构输入验证: 验证传入之遥测数据、上下文负载及用户字符串,确其符合严苛之类型预期,而后始入编排管道。
- 主动负载净化: 探查文数据流,察知间接注入之向量,逸出恶意字符,并涤除结构分隔符,以防其操纵底层系统提示。
- 飞行前政策评估化解政策之逻辑冲突,中止请命先为启昂昂贵、非确定性之模型推演之环。
二、输出之界
勿信原模之出。纵使精调专模,犹或幻生结构之句,于重压下失其类一,或泄内系之境。
输出边界者,乃显性出口验证之代理也。
- 键入&制式严明 依机解析匹配所生模型应答,对 JSON 范式、Zod 类型或 Protobuf 定义。若应答结构违制编译之规,则代理立时捕获之。
- 确定输出切片:以程序之法,截断、删削或阻隔数据流,使其不得逾越应用疆界,漏泄非所愿之个人身份信息,或于帧抵下游服务或客户端界面之前,输出系统配置之数据。
三、行刑门
此乃任何运用函数调用或工具调用之能动系统之关键执行核。能动者必永无直窥尔底层数据之执行层。
非然,此代理发执行意欲(工具调用之请),为执行之门所截,而审之:
- 严控参数之门。严行函数名之硬性白名单,核验参数于显式编译时边界约束。若代理试图供未获准之参数,或唤用越界之法,则执行线程立时断绝。
- 有状态授权之循环 须止高冲或毁性作业(如数据变易或外向API网钩),待人力环验或独立密码验证无碍,方可命令发遣。
4. 政策追迹
非确定性管道破应用之态,则标准之非结构syslog文件或非结构文块,于调试无益。需确定性、高结构之诊断可观测性。
政策追迹,乃执行全周期之不可易、逐步之审计实录也。
- 陈情&藏符之术: 捕捉系统提示之确态,原始符文之入构,匹配策令之触发,中继函数之负载,及执行门之精应.
- 确定性可复现: 整理执行之志为确定性之重演图,俾工师得将故障之确参数反哺于开发之境,辨析构架之漏,补正策令之置。
自理论至码库迁化
自被动验证迁至主动运行时强制,即当尔之安全逻辑直入数据路径。非运行异步之cron检视或带外评估,尔须构建低延迟之基础架构:
- 内联网络代理: 断流未至编排之层,截取原味HTTP/gRPC之请,去其恶载,或中止不遵之唤。
- 政策机解耦: 将验理之智卸于孤机(如Open Policy Agent或专司WASM之模),使政策更易,不须重布核心之用。
- 运时拦截者:于汝之智能体工具调用SDK中注入确定性钩子,以在执行内核触发之前拦截、检视并变异函数参数。
吾今正营此确凿之运行栈之技术架构、核心代理及SDK整合于彼处也。开AI之规绳.
尔若今正撰制运行时验证之中介,将规约条则编译为码,或构建确定性隔离界于智能作业之流程,吾甚欲闻尔如何权衡迟滞之得失。诸君于下文详述实施之细。












