惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

H
Help Net Security
T
ThreatConnect
SecWiki News
SecWiki News
F
Future of Privacy Forum
AWS News Blog
AWS News Blog
C
Cisco Blogs
A
Arctic Wolf
Vercel News
Vercel News
The GitHub Blog
The GitHub Blog
Scott Helme
Scott Helme
V
V2EX
博客园 - 叶小钗
阮一峰的网络日志
阮一峰的网络日志
K
Kaspersky official blog
G
Google Developers Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
P
Privacy International News Feed
C
Cyber Attacks, Cyber Crime and Cyber Security
N
News | PayPal Newsroom
Schneier on Security
Schneier on Security
NISL@THU
NISL@THU
Microsoft Azure Blog
Microsoft Azure Blog
量子位
The Hacker News
The Hacker News
Stack Overflow Blog
Stack Overflow Blog
Security Latest
Security Latest
M
Microsoft Research Blog - Microsoft Research
Google Online Security Blog
Google Online Security Blog
博客园_首页
C
CXSECURITY Database RSS Feed - CXSecurity.com
I
InfoQ
Google DeepMind News
Google DeepMind News
Y
Y Combinator Blog
The Cloudflare Blog
Microsoft Security Blog
Microsoft Security Blog
Martin Fowler
Martin Fowler
Cisco Talos Blog
Cisco Talos Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Troy Hunt's Blog
F
Fox-IT International blog
S
Security @ Cisco Blogs
博客园 - 司徒正美
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
C
Comments on: Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
L
LINUX DO - 最新话题
GbyAI
GbyAI
Project Zero
Project Zero
腾讯CDC
T
Tailwind CSS Blog

人人都是产品经理

大模型交互的底层原理:给模型造一个临时执行环境 酒店配送机器人・软性动态场景全流程思辨复盘 工业数字化与行业软件产品,如何从客户愿意购买的商品,变成公司能持续经营的业务? 小红书郑州帮打法进化成什么样了? – 人人都是产品经理, 第一个游戏项目,别急着把 AI 塞进工作流 – 人人都是产品经理, AI时代,产品经理如何设计更懂用户的大屏可视化产品 – 人人都是产品经理, 寻找Token之上的硬资产:2026年AI应用层的去泡沫与范式转移 – 人人都是产品经理, 会计引擎原理及流程 从传统 PM 到AI PM,我们如何用一套框架复盘自己的项目(四步法),让面试官能认可和点头 – 人人都是产品经理, HarmonyOS 6.0/6.1 核心新特性:空间、智能、全场景全面革新 – 人人都是产品经理, 最近几个月的AI大模型独立应用实践-2-岗位已经模糊 – 人人都是产品经理, 最近几个月的AI大模型独立应用实践-2-岗位已经模糊 – 人人都是产品经理, 从0到量产:汽车IPD全流程落地实战案例(内含阶段详解) – 人人都是产品经理, AI评测如何避坑?从信息聚合到独立标准的产品逻辑 – 人人都是产品经理, AI互联网日报:DeepSeek调用量登顶/小米新机或新增AI键/Google伙伴Xreal继续押注智能眼镜 – 人人都是产品经理, 小红书博主管理与深度链接 – 人人都是产品经理, 企业经营分析・财务指标全景地图 – 人人都是产品经理, AI用户体验要素三:“Agent to UI”设计组件新范式 – 人人都是产品经理, DTC 衰落,网红品牌大衰退 – 人人都是产品经理, AI生产力:从效率到工作流重构 – 人人都是产品经理, LinkedIn废掉APM那天,我撕掉了团队的产品经理招聘JD – 人人都是产品经理, AI 正在从功能插件变成行动单元,AI PM你准备好重建“系统感”了吗? – 人人都是产品经理, 你认为很low的蜜雪冰城,才是做品牌的风向标。 – 人人都是产品经理, 没有人推拉勾一下,它只是自己倒下了 – 人人都是产品经理, OpenAI急着上市,但ChatGPT不是它的王牌,Codex才是 – 人人都是产品经理, 产品经理如何进行需求优先级排序? – 人人都是产品经理, Gemini 3.5:谷歌的 Agentic 时代宣言,我们该怎么接? – 人人都是产品经理, AI 抢走了”有”,抢不走”无” – 人人都是产品经理, 系统 Prompt 写了 3000 字,用户只问了你好 – 人人都是产品经理, 「传统企业数字化升级」系列第三篇——传统服务型企业如何互联网升级 – 人人都是产品经理 HappyOyster、Genie 3、混元 HY-World 的产品逻辑与战略博弈 – 人人都是产品经理, 【运营思考】人与人之间最大的区别,就是思想的不同 – 人人都是产品经理, 不会写代码的我,是怎么一个人跑通五个产品的 – 人人都是产品经理, Prompt 工程在 Agent 里怎么跑 – 人人都是产品经理 从0开始vibe coding,产品上线一个月1500+用户,我的一些思考 – 人人都是产品经理, 为了给我的AI团队造间”办公室”,我开发了这套本地多Agent协作系统 – 人人都是产品经理, 中小品牌开拓新渠道的正确姿势! – 人人都是产品经理, 半年前我就在做Harness Engineering – 人人都是产品经理, 拉勾破产:一段互联网创业简史 – 人人都是产品经理, 从一次面试的“卡壳”,看全球化浪潮下tob市场人的能力重构 – 人人都是产品经理, AI执行规范只有70%?剩下的30%靠系统“护栏”兜底,一个AI产品经理的可靠性设计笔记 – 人人都是产品经理, 中企赴波兰展业:财税数字化蓝图 – 人人都是产品经理, AI互联网日报:Anthropic盈利和OpenAI上市,AI行业要变天了/今日头条对头条百科业务进行裁员调整 – 人人都是产品经理, 2026重塑产品-周期篇:它是静止的还是动态的? – 人人都是产品经理, 当90%的工程师用AI写代码,AI 组织的管理者要怎么办? – 人人都是产品经理, 货代单证模板实战:如何把「排版权」还给业务,又不丢掉数据准确性? – 人人都是产品经理, AI 时代,构建本地AI知识库 – 人人都是产品经理, 面试、述职、汇报时,总有人问:“你的分析结论,怎么落地闭环?”三种模式,轻松回答! – 人人都是产品经理, 一张图讲透:预算治理架构 – 人人都是产品经理, 我们是行业里最早拥抱AIGC的一批,三年后却越来越差 – 人人都是产品经理, AI 应用搭建平台的知识库竞品分析:RAG 功能为什么会这样设计? ——以百度千帆与 Lyzr AI 为例 – 人人都是产品经理, 中国Agent产业面临的四重不确定性挑战——《重构与崛起——OpenClaw时代的中国Agent产业生态报告》解读六 – 人人都是产品经理, 单枪匹马年入百万美金:拆透海外顶流创客 Dan Koe 的产品逻辑与超级个体法则 – 人人都是产品经理, 产品经理的AI护城河:不是写Prompt,是接住那颗从未变过的人 – 人人都是产品经理, AI时代,产品经理的AI落地指南! – 人人都是产品经理, AI互联网日报:Spotify把AI翻唱推向版权灰区/Google AI眼镜接近可用/京东或20亿英镑竞购英国电商 – 人人都是产品经理, 一文看懂VLA:自动驾驶的下一个范式 – 人人都是产品经理, 终于,微信公众号也不让你留个人微信号了 – 人人都是产品经理, 中国Agent产业发展趋势——《重构与崛起——OpenClaw时代的中国Agent产业生态报告》解读五 – 人人都是产品经理, AI还原页面设计怎么做?我实测后总结了这套「块状精修法」! – 人人都是产品经理, AI用户体验要素二:那些无法忽略的UI交互行为 – 人人都是产品经理, 货代员工管理实战:如何把考勤、加班和人力成本做成可控的经营数据? – 人人都是产品经理, 月薪5万也招不到?AI产品经理的真实薪资与隐形门槛 – 人人都是产品经理, 大多数AI产品,其实是在给自己人做的 – 人人都是产品经理, 运营人必懂的3步数据分析逻辑,一线业务应用指南 – 人人都是产品经理, 我的AI写稿全流程公开 – 人人都是产品经理, 从 Gemini 实时多模态狂欢降温:B 端产品经理该怎么看这场 Omni 进化 – 人人都是产品经理, AI搜索没有杀死广告。它只是把广告藏进了你信任的那句话里 – 人人都是产品经理, 跨境税务系统:边界、能力与风险前置06 如何创建一家AI Native公司?Anthropic刚发的这份手册,把答案说清楚了 – 人人都是产品经理, 跨境账务系统:在不确定中形成可解释结果05 – 人人都是产品经理, Electron-OH 37.2.1 正式发布:鸿蒙PC开发体验全面升级,跨端开发再提速 – 人人都是产品经理, Notion CEO重新定义了一件事:什么样的人在AI时代真正值钱 – 人人都是产品经理, Notion CEO重新定义了一件事:什么样的人在AI时代真正值钱 – 人人都是产品经理, AI搜索的广告比你想象中更危险:它连你的怀疑都省了 – 人人都是产品经理, 做了一年客服型外呼 Agent,我发现旧的效果评估体系正在失效 – 人人都是产品经理 我以为用户好评是成功,直到我发现它背后藏着一个致命的陷阱… – 人人都是产品经理, 谷歌 I/O 炸场看完了:别再用百万级的自嗨对话框去增加企业的翻译税 – 人人都是产品经理, AI写代码的速率是人的10倍,端到端却只快了2倍:产品经理视角下,没人讲清楚的3件事 – 人人都是产品经理, 提示词的本质:不是“咒语”,而是 AI 产品设计中的需求表达能力 – 人人都是产品经理, 和代运营合作5年后,我真的不建议大健康私域再找代运营了! – 人人都是产品经理, 场景不同,测评方法需要因地制宜:最新摸索的测评“四象限法则”分享 – 人人都是产品经理, 为什么很多人抄爆款,越抄越不像? – 人人都是产品经理, 妙鸭AI生图团队解散:从”时代宠儿”到”被遗忘者”的启示 – 人人都是产品经理 构建数字孪生生态:从封闭系统到开放平台 – 人人都是产品经理, 一文讲透医疗 AI 的隐私合规:技术、场景、落地、避坑 90%的模型微调是浪费钱的——我说“不调” – 人人都是产品经理, 企业可以这样落地 AI 能力(二):技能蒸馏 – 人人都是产品经理 鸿蒙 HarmonyOS 6.1.1 (API 24) Beta1 发布:开发能力全面升级,构建更高效智能生态 – 人人都是产品经理, Claude 三件套:从想清楚,到看得见,到做出来。它要把”想法变产品”全包了 Claude 三件套:从想清楚,到看得见,到做出来。它要把”想法变产品”全包了 – 人人都是产品经理 为什么餐厅都在劝你去买团购券? – 人人都是产品经理, 最近几个月的AI大模型独立应用实践-1 – 人人都是产品经理, 最近几个月的AI大模型独立应用实践-1 – 人人都是产品经理, 别让模型拖后腿:我用6年产品经验总结的AI选型法则 – 人人都是产品经理, 我做了一个对比实验:为什么同一个模型,两个 AI 工具产出差距如此巨大 – 人人都是产品经理, AI用户体验要素一:从“操作工具”到“委托代理人” – 人人都是产品经理, 不是教你用 AI 写 PPT,是把 AI 训练成”你自己” – 人人都是产品经理 Google I/O 2026 XR篇:最轻的眼镜没有界面 – 人人都是产品经理, 深聊100家教育企业后,我总结了7种链路拆解线索获客链路 – 人人都是产品经理,
AI 产品经理手记:一份能跟模型团队 battle 的评测框架(上) – 人人都是产品经理
是AD · 2026-05-26 · via 人人都是产品经理

AI产品的评测标准究竟应该由谁来定义?本文深度剖析AI客服项目中模型团队与业务方的评测标准之争,揭示现有评测体系的三大致命缺陷,并给出包含12项硬性指标和5大多轮对话维度的全新评测框架。从致命错误一票否决到多轮会话目标达成度,这套让业务能看懂、能扣分、能复现的评测体系,正在重新定义AI产品的成功标准。

一个 AI 功能到底什么时候算”做好了”?做 AI 产品的人,迟早会被这个问题绊一跤。

准确率?92% 听起来很高,但用户问十句答错一句,已经够投诉一整天的了。召回率?88% 看着也行,但漏掉的那 12% 如果全是用户最想问的高频问题呢?F1、BLEU、ROUGE?这些指标在 paper 里很漂亮,落到一个具体的业务功能上,没人能直接告诉你答案

更扎心的是:模型团队拿着一张评测报告说”指标达标了,可以上线”,业务侧翻几条真实对话,第一反应是”这都能上线?”。两边都觉得对方不讲理,但谁也说服不了谁。

这件事的本质,是评测体系本身有问题——不是模型答得不够好,是这把尺子根本没量在用户真正在意的地方。

而评测体系这把尺子由谁定、量什么、怎么扣分,决定了你这个 AI 产品的天花板。

背景:最近在做 AI 客服项目,下面所有的例子都来自这个场景。但写出来的东西不限定于客服——任何需要”业务判断模型好坏”的 AI 落地项目,逻辑是相通的。

一、先看现在的评测有多”温柔”

最近一批的标注表(单轮对话),标签TOP 5如下:

1、完美无暇 2、缺乏办理入口 3、答非所问 4、无效反问 5、模型拒答

打分分布更夸张:0.5 分占 57%,1 分占 28%,0 分只占 14%。

我把看出的问题列了一下:

一、”完美无瑕” 28% 是假象。

我抽了 10 条所谓完美无瑕,至少 4 条都属于”没明显错误所以打满分”,但里面其实没说办理入口、没确认用户身份、用了”建议联系客服”这种甩锅话术。没扣分不等于满分。

二、0.5 分占 57% 等于失去区分度。

要么是 0.5(小毛病),要么是 0(明显错),评测没法告诉模型团队”哪些 0.5 比另一些 0.5 更严重”。

三、完全没有业务硬指标。

标签里没有 “金额/产品名错误” “合约期未说明” “未给出可点击办理路径” 这种业务一眼能看出来的硬伤项。

更要命的是多轮,整张表只有”回答效果 0/1″+”模型/数据/业务”三个原因桶。没有任何一个字段是多轮对话特有的——上下文继承了没有?指代消解对了没有?用户中途换意图认出来了没有?这些一个都没评。

所以我跟模型团队 battle 时其实很被动:他们说”按现有标准你看准确率多高”,我只能说”我感觉不太行”。“感觉”是赢不了”准确率”的。得换一把尺子。

二、新评测框架:让业务能看懂、能扣分、能复现

我重新捋了一下,评测一条 AI 客服回复,本质上是在回答三个问题:

1)它说对了吗?

(事实正确性)

2)它解决问题了吗?

(任务完成度)

3)用户能不能立刻用上?

(可操作性 / 业务闭环)

这三层从下到上,越往上业务侧越在意。模型团队习惯只评第一层,所以才会出现”准确率高但业务不满意”的撕扣。

2.1 单轮评测:分层维度 + 业务硬扣项

按照”难度 / 业务场景 / 客户问题 / 评估要点”四列建了一张测试集骨架和示例:

关键点:评估要点是预先定义的、可逐项打钩的。不是评测时再发挥,是出题时就锁死。这样模型团队没法回避——你交付的答案有没有覆盖这 3 个要点,业务一眼能看出来。

在此基础上,我把扣分项重新归并成3 层 12 项

L1 · 致命错误(直接 0 分,一票否决)

L2 · 严重不达标(扣 0.5 分,需复核能否上线)

L3 · 体验问题(扣 0.2~0.3 分,可上线但需迭代)

这套维度跟当前评测最大的区别有两个:

L1 是一票否决。

模型团队不能用”100 条里只有 6 条暴力拒答”这种平均数糊过去——只要有 6 条致命错误,这版就不能全量。

L2 / L3 分开记。

L2 是阻塞上线的问题,L3 是迭代项。跟模型 battle 时,我可以说”L1 + L2 加权不达标,上线先停”,比一句”感觉不行”硬气一万倍。

2.2 多轮评测:5 个多轮特有维度

多轮是当前评测的重灾区。我看了那 102 条多轮标注,发现大部分扣分理由都是”答非所问””意图错”——这些指标其实是单轮指标的延伸,没有任何一个评在了”多轮”本身。

多轮对话和单轮的核心区别是:它有历史、有指代、有状态、有切换。我提了 5 个多轮专属维度:

M1 · 上下文继承(Context Carrying)

第 N 轮的回复有没有用上前面 N-1 轮的信息?

举个真实例子(多轮表第 5~7 条,青海):用户先说”你把我套餐改一下”,再说”最便宜的”,再说”5 块那个”——这里指代的是「最便宜的套餐里 5 块那个」。模型如果在第三轮重新推了一遍 79、99 元套餐,上下文继承就是 0 分。

评分方式:第 N 轮的回复中,是否正确引用了前 N-1 轮的至少 1 个关键实体(产品名/号码/金额/时间)。0/1 二分。

M2 · 指代消解(Reference Resolution)

“这个” “那个” “刚才说的那款” 有没有正确对应到具体对象?

模型经常把”这个套餐”理解成上一轮系统推荐的套餐,而不是用户点名的套餐。打分:完全正确 1,部分正确 0.5,错指 0。

M3 · 意图切换识别(Intent Switching)

用户中途换话题了,AI 认出来了吗?

例如多轮表第 13 条(重庆):先报障”连不上网络”,AI 索要手机号;用户下一句”谢谢”。AI 应识别意图已切换为礼貌性结束,而不是继续追问手机号。打分:识别并响应 1,未识别但回复尚可 0.5,仍在原意图死循环 0。

M4 · 澄清能力(Clarification Quality)

用户描述模糊时,AI 问的澄清问题有没有价值?

反例:用户问”299 可以办副卡吗”,AI 反问”请问您是想了解 299 套餐的哪个方面”——这是无效反问,因为用户已经问得很清楚了。打分维度:是否真的需要澄清(必要性)× 澄清问题问得是否精准(针对性)。

M5 · 会话目标达成度(Task Completion)

整段对话结束时,用户的诉求被解决了吗?

这是最终极的指标,也是业务侧最在意但最难量化的。我的做法是:对每一段多轮对话,预先定义”成功状态”——比如”用户得到了办副卡的明确结论 + 办理链接”。会话结束时人工对照成功状态打分(达成 1 / 部分达成 0.5 / 未达成 0)。

这五个维度组合下来,多轮评测的颗粒度直接从原来的”对/错”变成“哪个环节出了问题”。对模型团队来说,他们也终于能定位优化点——是上下文丢了?还是指代错了?还是兜底太死?而不是笼统地”再训训”。

三、让评测标准本身可以被 challenge

这是我最近补的一条原则,单独拎出来说。

每个扣分案例,模型团队都可以质疑,但必须给出对应规则的解读,而不是”我觉得这条不该扣”。

比如某条被打了”任务未闭环”,模型团队说”这条用户没明说要办理”。OK,那我们坐下来看:评估要点里写了”需给出办理入口”吗?如果写了,扣分成立;如果没写,是出题的人锅。规则有问题就改规则,但不能凭个人感受推翻。

这个机制建立起来之后,battle 的对象从”人对人”变成了”规则对规则”。氛围一下就好了很多。

四、我的一些观察和私货

写到这里其实方法论已经说完了。最后讲点更主观的东西。

第一,评测权在业务手里,不在模型团队手里。模型团队负责把分数搞上去,但”分数衡量什么”这件事的定义权,必须在业务。

第二,AI 产品经理的核心活儿之一就是定义评测。在大模型落地项目里,评测体系的设计能力 > Prompt 能力 > 模型调优能力。Prompt 写得好的人很多,能写出一份让模型团队没法甩锅、让业务能复用的评测表的人,少得多。

第三,”准确率”在业务侧场景里几乎是个伪指标。因为它默认了”每个问题只有一个正确答案”。但真实客服场景里,一个用户问”299 能办副卡吗”,正确答案不是”能”或”不能”——是”能,且这是办理入口,且这是规则提示”。准确率衡量的是单点正确,业务在意的是任务闭环。这两件事在评测里要分开看。

第四,模型永远会拟合你的评测标准。所以评测标准的健壮性,决定了你这个产品的天花板。一份糟糕的评测,会让模型团队把全部精力优化在错的方向上,浪费几个月。

评测框架搭好只是第一步。真正的问题在于:标完了一堆 badcase,然后呢?哪些该改知识库、哪些该训模型、哪些其实是兜底策略的问题?这部分我下一篇接着写。

本文由 @是AD 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自 unsplash,基于CC0协议