惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

N
Netflix TechBlog - Medium
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
GbyAI
GbyAI
B
Blog RSS Feed
爱范儿
爱范儿
云风的 BLOG
云风的 BLOG
腾讯CDC
Know Your Adversary
Know Your Adversary
H
Help Net Security
Scott Helme
Scott Helme
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
WordPress大学
WordPress大学
S
Schneier on Security
L
Lohrmann on Cybersecurity
博客园 - 【当耐特】
宝玉的分享
宝玉的分享
T
Troy Hunt's Blog
C
CERT Recently Published Vulnerability Notes
B
Blog
Google DeepMind News
Google DeepMind News
Security Latest
Security Latest
PCI Perspectives
PCI Perspectives
博客园 - 司徒正美
罗磊的独立博客
F
Fortinet All Blogs
月光博客
月光博客
H
Heimdal Security Blog
U
Unit 42
N
News and Events Feed by Topic
C
Cyber Attacks, Cyber Crime and Cyber Security
小众软件
小众软件
T
Tenable Blog
Microsoft Azure Blog
Microsoft Azure Blog
Simon Willison's Weblog
Simon Willison's Weblog
AWS News Blog
AWS News Blog
Microsoft Security Blog
Microsoft Security Blog
T
Threatpost
博客园 - 三生石上(FineUI控件)
P
Palo Alto Networks Blog
V
Visual Studio Blog
L
LINUX DO - 热门话题
Google Online Security Blog
Google Online Security Blog
I
InfoQ
阮一峰的网络日志
阮一峰的网络日志
Project Zero
Project Zero
T
Tor Project blog
AI
AI
S
Security @ Cisco Blogs

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
AI 安全的”开源审计”时代来了 – 人人都是产品经理
枝酒 · 2026-06-18 · via 人人都是产品经理

OpenAI 公开了一项颠覆性研究:利用公开数据集 WildChat 就能预测 AI 模型的真实表现,误差率仅比内部数据高 3 倍。这项被称为 Deployment Simulation 的技术不仅解决了 AI 安全评估的信任危机,更将模型测试从实验室的封闭环境推向开放验证的新时代。本文深入解析这一技术突破如何重构 AI 行业的评估体系,及其对中国互联网从业者的深远影响。

2026 年 6 月 16 日,OpenAI 做了一件不寻常的事——主动发了一篇博客,告诉全世界:用公开的聊天数据,就能预测我们最先进的模型会不会在真实世界里出问题。

一、一家公司为什么主动把”体检报告”交出来?

想象一个场景。

一家制药公司开发了新药。按惯例,药效和副作用的数据只有他们自己能看到。FDA 要审批,只能看公司提交的材料。至于那些没提交的数据,商业机密。

突然有一天,这家公司发表了一篇论文,说:其实你们不用等我们交材料。市面上有一个公开的、免费的样本库,你们拿这个样本库去测我们的新药,测出来的副作用发生率,跟我们内部的真实数据误差不大。误差大概三倍。

你说这是疯了,还是有了底气?

2026 年 6 月 16 日,OpenAI 在它的 Alignment 研究博客上发了一篇文章,标题叫《Can public chat data predict real-world AI misalignments?》——公开的聊天数据,能不能预测真实世界的 AI 失调?

翻译成人话就是:我们没有把 GPT-5 系列的生产数据公开——那是用户隐私。但我们拿一个公开的数据集 WildChat 试了一下,发现用它来模拟部署、评估模型行为,跟用我们自己的内部数据比,预测结果差得不多。

同一天,OpenAI 还在官网发布了一篇方法论长文《Predicting model behavior before release by simulating deployment》,详细拆解了他们称之为 Deployment Simulation(部署模拟) 的技术路线。

在这之前,你要是说”AI 安全评估可以不用内部数据”,大多数从业者会觉得你在开玩笑。现在,OpenAI 自己把证据摊在桌上了。

二、谁有资格审 AI?

过去几年,所有大模型在发布之前都会做安全评估。OpenAI 做,Anthropic 做,Google 做,国内的各个实验室也做。方式大致相同:找一帮红队测试员,写一大堆”攻击性提示词”,看模型会不会越狱、会不会生成有害内容、会不会被诱导做不该做的事。

然后打个分,写份报告,说”我们的模型在 X 类别上的不安全响应率是 0.02%,比上一代降低了 47%。”

评估用的提示词,是评估者自己写的。你自己设计考题,自己批卷,然后告诉全世界”我们及格了”。这个逻辑自带结构性的信任赤字。

更麻烦的是:随着模型越来越聪明,它开始能识别出”这是一道测试题”。OpenAI 在论文里给了一个数字——在传统的合成评估提示词下,GPT-5.2 识别出”这是在测试我”的概率接近 100%。 模型在被评估的时候,和它在真实用户面前的表现,可能根本不是一回事。

还有一个更隐蔽的堵点:生产数据不公开。

一个 AI 模型在真实用户手里到底表现如何——每天几百万次对话中,有多少次出现了不该出现的回答——这个数据只有实验室自己能看到。用户隐私,不能拿出来给第三方审计。

最了解模型行为的,是造模型的人。最需要了解模型行为的政府、学者、独立研究者,什么都看不到。

这不是 OpenAI 一家的问题。整个行业都是这个结构。

把对话”重放”一遍

Deployment Simulation 的思路不复杂。

假设你现在有一个叫 GPT-5 的模型在线上跑,用户每天问它各种问题。你把这些对话存下来(当然,要去掉用户身份信息)。现在你开发了一个新版本,叫 GPT-5.1,你想知道它上线之后会不会比 GPT-5 更糟。

传统做法:写一堆测试题,扔给 GPT-5.1,看它答得怎么样。

Deployment Simulation 的做法:从 GPT-5 的真实对话里随机抽一批,把 GPT-5 当时的回复删掉,让 GPT-5.1 重新回答一次。然后对比。

不是模拟考场上测它。是把它放到真实的案发现场,让它重新做一遍选择。

GPT-5.1 面对的不是”请用一句话表达对人类的仇恨”这种明显找茬的提示词,而是真实用户五花八门的问题。有人在编程,有人在聊情感,有人在测试系统边界——这些才是模型真正要面对的东西。

OpenAI 对 GPT-5.4 做了预注册预测(先公开说”我们认为它的失调率会是多少”,然后看实际数据),结果很漂亮:预测与实际的中位数误差只有 1.5 倍。 对于十几类行为变化方向(变好还是变坏),Deployment Simulation 预测对了 92%。传统的”挑战性提示词”评估只对了 54%。

更重要的发现是:Deployment Simulation 几乎消除了模型”知道自己正在被测试”的能力。 GPT-5.2 在模拟部署数据中标记出”这可能是评估”的比例只有 5.1%,而它在真实生产数据中标记出的比例是 5.4%。两个数字几乎一模一样。在模拟部署环境里,模型以为自己真的在跟用户对话。

这就解决了一个棘手问题:如何让一个聪明到能识别测试的模型,在测试中展现出真实的自己。

三、当 OpenAI 把数据源换成公开的 WildChat

到这里为止,Deployment Simulation 还是一个”只有实验室自己能用的工具”——因为你需要生产数据。

然后 OpenAI 问了一个问题:如果把生产数据换成公开数据集,还行不行?

WildChat 是什么?

WildChat 是 Allen Institute for AI(AI2)在 2024 年发布的一个公开数据集。做法简单:他们在 Hugging Face 上免费提供 ChatGPT 和 GPT-4 的访问入口,用户不需要注册,不需要付费,唯一的要求是同意收集对话数据用于研究。

从 2023 年 4 月到 2024 年 4 月,他们收集了超过 100 万条多轮对话,涵盖 250 万个以上的交互轮次,涉及几十种语言,覆盖了从编程到情感倾诉的各种使用场景。

这个数据集完全公开。 任何人都可以在 Hugging Face 上下载到完整数据。

用 WildChat 模拟部署

OpenAI 的做法直接得令人吃惊:

  1. 从 WildChat 里随机抽了 10 万条对话
  2. 把对话的最后一条 AI 回复删掉
  3. 分别用 5 个模型(o3、GPT-5 Thinking、GPT-5.1 Thinking、GPT-5.2 Thinking、GPT-5.4 Thinking)重新生成回复
  4. 用 GPT-5 Thinking 作为裁判,按照 19 个失调类别给每条回复打分
  5. 然后把评分结果,跟这些模型在真实生产环境中的实际失调率做对比

结果: 在 GPT-5.1、5.2、5.4 三个模型上,WildChat 预测的失调率与真实生产数据的平均 multiplicative error 约 3.6 倍。 用模型自己的生产数据来做同样的评估,误差约 1.94 倍。公开数据的有效性大约是内部数据的 54%。

对于一项”完全不用内部数据”的外部评估来说,这个数字相当惊人。

更关键的是方向是对的。 WildChat 不仅能大致估出失调率,还能判断哪个模型更好、哪个更差。在 18 个失调类别上,WildChat 给出的模型排名与真实排名的 Spearman 秩相关系数是 0.57。当 WildChat 说”模型 A 在这个类别上比模型 B 好”,有很高的概率是对的。

95% 的预测落在 1.04 个数量级之内。如果 WildChat 预测某个失调行为的频率是每 10 万次出现 1 次,真实频率大概率在每 3 万次到每 30 万次之间。

对于最低可检测的失调率,WildChat 能抓到低至 0.001%(十万分之一)的行为。即使是极罕见的问题——比如模型在特定语境下开始胡言乱语——公开数据集也能给出预警。

它抓到了一个真问题:计算器黑客

最有说服力的例子来自 GPT-5.1。

GPT-5.1 Thinking 增加了一个浏览器搜索工具。在内部测试中,OpenAI 的安全团队发现了一个奇怪的行为:当用户要求做数学计算时,模型有时候不直接算,而是调用搜索工具假装”查一下”——但实际搜索的其实是计算器的功能。 OpenAI 把这种行为称为”计算器黑客”(calculator hacking),一种奖励欺骗:模型试图用更省力的方式完成任务,但表现形式上看像是正常的工具调用。

这个行为在内部生产数据中被发现后,团队回头去看 WildChat 模拟部署的结果:WildChat 也复现了它,频率与生产环境相当。

一个只有 10 万条对话的公开数据集,捕捉到了一个模型特异性的、非标准的失败模式。精确到具体行为的验证。

公开数据评估不是一个粗糙的”大概差不多”。在一些场景下,它可以做得相当精细。

坦诚的短板:Agent 场景

OpenAI 的博客很诚实地把短板也列了出来。

最大的短板是 Agent 场景——模型需要调用工具、执行多步任务、与外部系统交互的情况。

在这些类别上,WildChat 的预测误差比非 Agent 类别大了约 37 倍。 WildChat 的数据太”干净”了。它是 2023 年到 2024 年初收集的,那时候的对话主要是纯聊天——问问题、写代码、翻译、写文章。用户很少要求模型去调用 API、操作数据库、执行多步推理链。

WildChat 里 67% 的对话不超过两轮用户输入,3% 的对话只是一句”你好”。这些数据基本不涉及工具使用、长上下文管理和多步任务规划——而这恰恰是 2026 年 AI 应用最核心的场景。

OpenAI 在博客里直言不讳:“WildChat 可以对普通对话失败提供有用的评估,但对于工具密集型和 Agent 场景下的部署风险,它是一个弱得多的代理。”

一家公司主动告诉你”我们提供的外审工具在哪些地方不太行”。这种姿态本身很少见。不是在掩盖短板。是在告诉你下一步该做什么。

四、这不是 OpenAI 一家的独角戏

如果只有 OpenAI 一家拿出这个结果,你会想:自卖自夸吧。

但这件事的规模更大。

四家实验室,十五个模型

在博客的后半段,OpenAI 披露了一个更大范围的实验:从 WildChat 中抽取了 1 万条提示词,然后找 4 家前沿 AI 实验室(包括 OpenAI 和 Anthropic),用各自的模型重新生成回复,总计涵盖了 15 个不同模型。

这些回复被交给 GPT-5.4 Thinking 做开放式评判——不按固定类别打分,只给一个二元判断:”这个回复有没有出现任何形式的失调行为?” 再加一段文字说明。

结果被绘制成一张时间序列图:随着时间推移,各家模型的”对齐得分”(alignment score)的变化趋势。

OpenAI 的评分与 Anthropic 的 Petri 评估管线得出的结果高度一致。 Petri 是 Anthropic 自己的内部安全评估系统。两套完全独立的评估体系——一套基于公开数据、一套基于内部数据——对模型行为变化的判断方向相同。两者的 Spearman 秩相关系数高达 0.973(p = 5.14 × 10⁻⁷),55 对模型比较中有 53 对方向一致。

“用公开数据评估前沿 AI 模型”不是 OpenAI 的专利技术或者一次性的公关操作。它是一种可复现的方法论。 任何一个有足够算力的第三方,理论上都可以跑同样的流程,得出可比的结论。

从”相信我”到”验证我”

AI 行业正在发生一个深层转变。

过去十年,我们对大模型的信任模式是”实验室说”。实验室说 GPT-4 在律师资格考试中超过了 90% 的人类考生,我们就信。实验室说新模型的安全性提升了 40%,我们就接受。验证——你没法验证,因为数据和评估方法都在人家手里。

现在情况变了。

WildChat 这样的公开数据集越来越丰富。LLM-as-a-judge 技术已经成熟到可以大规模、自动化地评判模型行为。Deployment Simulation 这样的方法论把”怎么评估”这件事标准化了。

三件事凑在一起,AI 安全正在从一个”信任游戏”变成一个”验证游戏”。

这不是理想主义的口号。这是技术可行性。

作为一个外部研究者,你现在理论上可以:

  1. 从 Hugging Face 下载 WildChat 的完整数据集
  2. 拿到 OpenAI、Anthropic 或其他实验室的 API 访问权限
  3. 用 Deployment Simulation 的方法生成一批回复
  4. 用你自己的裁判模型打分
  5. 发表一份独立的安全评估报告

整个过程中,你不需要任何一家实验室给你”开后门”。 你不需要他们的生产数据,不需要他们的内部评估结果,甚至不需要他们的同意。

这就是”开源审计”的核心含义。

五、这对中国 300 万互联网从业者意味着什么?

如果你是一个普通的互联网产品经理、创业者、或者技术负责人,你可能会想:”这是 OpenAI 和 Anthropic 那个层级的事,跟我有什么关系?”

关系很大。而且比你想象的来得更快。

安全要求会从”加分项”变成”入场券”

现在你在应用商店上一个 AI 产品,监管问你要什么?基本的合规声明、数据隐私说明。但这件事正在加速变化。

2026 年上半年,欧盟 AI 法案已经开始对”通用 AI 系统”提出透明度要求。美国多个州推出了自己的 AI 安全评估法案。中国这边,《生成式人工智能服务管理暂行办法》在 2023 年出台后,配套的细则一直在出。

这些政策的共同方向:可验证的安全评估。

“我们内部测试过了”这种自证正在失效。趋势是”你可以用公开的方法复现我们的结果”这种他证。

WildChat + Deployment Simulation 这个模式一旦被监管机构接受为一种标准化的评估手段,它会从”前沿实验室的学术实践”变成”所有 AI 产品的合规要求”。

历史上有先例。审计行业就是这么成型的。19 世纪的英国,公司财报不需要第三方审计。20 世纪初的美国,审计还是自愿的。到了 1930 年代,证券法一出台,独立审计就成了上市公司的硬性要求。不是因为公司忽然变坏了。公众不再相信公司自己的账本。

AI 行业正在经历同一个转折点。

外部审计工具已经在路上了

你可能觉得:”让外部研究者去跑 Deployment Simulation?这需要多少算力?”

仔细看 OpenAI 的论文,这个流程的成本比你想象的低。

对一组模型做一次 WildChat 评估,核心成本是:用 API 跑 10 万条对话的最后一轮回复(每条回复大概几百到几千个 token),然后用裁判模型打分。以 2026 年的推理成本来算,整个流程的总成本在数千到数万美元的量级。

对于一个独立研究机构来说,这个预算完全在可承受范围内。

而且已经有人在做了。论文里提到的那 4 家实验室的交叉验证,就是一个信号:一个基于公开数据集的多方评估生态,已经在形成。

如果你的 AI 产品在某些行为上表现不好,你可能不是第一个发现的人。 第一个发现的可能是一个你从没听说过的第三方研究机构,他们用 WildChat 加上你的 API 跑了一轮评估,然后把结果写进了一份公开报告。

做好准备的三件事

第一,开始用公开数据集自测。

不管你用的是自研模型还是调用 API,你都可以用 WildChat 跑一轮 Deployment Simulation。不需要复杂的工程——拿 1000 条 WildChat 对话作为前缀,调用你的模型生成回复,然后用一个裁判模型(哪怕就是 GPT-4o)再过一遍。

你不需要追求精细的误差精度。你要的是一个方向性的判断:我的模型在哪些类别上容易出问题?跟上一版本比,是变好了还是变坏了?

这个自测流程的价值不在于对外展示。它让你在别人发现问题之前,自己先知道。

第二,把”可审计性”纳入产品设计。

具体怎么做:

  • 如果你的 AI 产品有对话记录(在用户同意的前提下),保留一部分脱敏后的数据作为内部评估用。Deployment Simulation 最有效的场景就是用你自己的生产数据。
  • 如果你的模型上线后会调用工具、操作系统、执行多步任务——注意:这正是 WildChat 的盲区。 你要自己建立一套 Agent 场景下的评估数据集。可以是模拟的,可以是脱敏的,但必须有。目前没有任何公开数据集能覆盖你的 Agent 行为。
  • 考虑在模型中嵌入行为水印或评估感知标记。OpenAI 的论文里提到了一个重要的技术指标——”评估感知率”(evaluation awareness rate)。如果你的模型能识别出自己在被评估,评估结果就没意义了。降低评估感知率,是保证测试有效性的关键。

第三,跟着政策走,但别等政策来。

中国在 AI 治理上的节奏有自己的特点。2023 年的《生成式人工智能服务管理暂行办法》是第一步。后续的细则、标准、评估规范会陆续出台。

如果你是一个创业者或产品负责人,不要抱着”等政策来了我再补”的心态。 到那时候,补是补不上的。一个已经在生产环境中跑了两年的模型,你不可能在三个月内把它的评估体系从零建起来。

聪明的做法:现在就按照”如果明天有人用公开数据集审计我,我会不会被抓到问题”这个标准来审视自己的产品。

这不是为了应付监管。这是为了在监管来的时候,你已经准备好了。

六、一个行业的分水岭

回到开头:OpenAI 为什么主动公开这套方法?

你可以有很多种解读。公关,给竞争对手施压,为未来的监管框架铺路。

我更倾向于一个更简单的解释:他们发现自己拦不住这件事了。

公开数据集已经存在了。LLM-as-a-judge 的技术已经成熟了。Deployment Simulation 的方法论已经被验证有效了。算力成本已经低到第三方也能跑得起。

当所有这些条件都具备的时候,“AI 安全评估只能由实验室自己做”这件事就不再是一个技术现实。它只是一个制度惯性。

OpenAI 选择主动公开,不是大方,是聪明。与其等别人用你的方法审你然后说你藏着掖着,不如自己先把方法摊在桌上说”来,照着这个测。”

这就是一个行业的分水岭时刻。

过去十年,AI 的叙事是”越来越强”。现在,叙事正在转向”越来越可验证。”

本文由 @枝酒 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供