惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

L
LINUX DO - 最新话题
云风的 BLOG
云风的 BLOG
博客园 - 三生石上(FineUI控件)
人人都是产品经理
人人都是产品经理
美团技术团队
V
Visual Studio Blog
有赞技术团队
有赞技术团队
WordPress大学
WordPress大学
Hugging Face - Blog
Hugging Face - Blog
博客园 - 司徒正美
D
Docker
宝玉的分享
宝玉的分享
小众软件
小众软件
U
Unit 42
A
About on SuperTechFans
I
InfoQ
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
F
Fortinet All Blogs
Microsoft Security Blog
Microsoft Security Blog
月光博客
月光博客
G
Google Developers Blog
The Cloudflare Blog
H
Help Net Security
B
Blog
The GitHub Blog
The GitHub Blog
T
The Blog of Author Tim Ferriss
I
Intezer
P
Privacy International News Feed
V
Vulnerabilities – Threatpost
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Cyberwarzone
Cyberwarzone
C
Cyber Attacks, Cyber Crime and Cyber Security
Blog — PlanetScale
Blog — PlanetScale
C
Cisco Blogs
Project Zero
Project Zero
腾讯CDC
Help Net Security
Help Net Security
Latest news
Latest news
A
Arctic Wolf
T
The Exploit Database - CXSecurity.com
B
Blog RSS Feed
D
Darknet – Hacking Tools, Hacker News & Cyber Security
The Hacker News
The Hacker News
P
Palo Alto Networks Blog
AI
AI
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
P
Proofpoint News Feed
J
Java Code Geeks
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
如何平衡实验效率与准确性?关键点在这里
小黑哥 · 2024-06-03 · via 人人都是产品经理

在产品的工作流程中,其实也要做不少的实验和测试,比如AB测试、黑盒测试等。不少人认为实验的结果和准确性是靠方法和执行,实际上,界定实验受众和样本量才是关键,魔鬼往往藏在细节中……

很多人认为实验的成功取决于创意和执行。但其实,关键在于如何界定实验受众和样本量。魔鬼往往藏在细节中……

01 确定实验受众

1. 实验受众的选择标准

(1)全体用户 vs. 特定条件的用户

确定实验受众主要回答两个问题:

  1. 哪些用户会被包含在实验中
  2. 需要多大样本数和多长时间才能得到可信的结果

针对第一个问题,具体情况需具体分析。

有时希望所有用户都参与实验,就无需特别设置受众;如果只想让特定条件的用户参与,才需要设置实验受众。

设置实验受众的目的,是针对某个用户群体生成更精细的产品优化方案。

第二个问题,本文后续会展开说明。

(2)案例分析:新闻APP广告点击率实验

举个例子,一个新闻APP的用户分两类:看新闻赚零钱的,和喜欢游戏玩乐的。该APP想测试不同广告banner的点击率。

假设是,”喜欢玩乐”的人看到”葛优躺”的banner,点击率会更高。所以进行这个实验时,就应该单独摘取”喜好玩乐”的用户。

针对”喜欢玩乐”的用户,分别投放”葛优躺”创意banner和其他banner,测试点击效果。

2. 实验受众的分类方法

(1)默认分组:操作系统、iOS版本

通过第三方AB测试工具设置实验受众非常容易。工具里有一些默认的受众分组可供选择,比如操作系统、iOS版本等。

假设某个实验只针对iOS 12用户,比如测试一个自动填表单的功能。那进行实验时,就可以选择默认方式,只针对iOS 12用户,因为其他用户就看不到这个功能。

(2)自定义分组:特定渠道来源、产品使用情况

除了默认分组,还可以定制分组。产品经理或增长黑客提需求给研发,由研发来完成自定义受众分组。

比如只想针对某个渠道来源的用户(如信息流广告或百度搜索)给出不同的首页设置,就可以通过自定义受众方式完成设置。

再比如,招行有各种用户:有的有信用卡,有的买了理财。

如果招行想在首页做个实验,但只针对有基金账号的用户,也可以通过自定义受众分组找出这部分人,针对性地做实验。

02 估计所需样本数

1. 样本数的重要性

我们再来看第二个问题:如何预估实验所需的样本数。这里有个例子,一个公司想测试把首页的蓝色按钮改成红色,看看点击率如何。

实验上线3小时后,初步统计100个用户样本数据,发现蓝按钮的转化率是20%,红按钮只有12%。此时很多人就要下结论了:蓝按钮更好。

但等等,这个样本数太小了!不可能根据这么小的样本得出可靠结论。

于是公司继续实验。上线3天后,样本数已经比一开始大很多了,上千个样本,点击数也有好几百。

这时蓝按钮的转化率掉到6%,红按钮的转化率升到9%。感觉差不多了,红按钮应该更好,但还不能完全确定。

如果实验跑300天,样本数非常大。可以看到,两种按钮的转化率都有所下降,但蓝按钮稳定在4.8%,红按钮稳定在7.2%。有了如此大的样本,才可以比较有把握地得出结论。

但在实际的操作中,不可能等 300 天再对一个实验进行分析得出结论。

可见,只有精确界定实验受众与合理预估样本量,才能确保实验快速迭代与结果的可靠性。

2. 影响样本数的因素

如果从结果的可靠性出发的话,样本量越大,实验时间越长,那么实验结果就越可靠。

但是如果从实际工作出发,样本量越小,实验时间越短,才能保证快速上线新实验,试错的成本也越小。

所以想要在这两者之间找一个平衡,其实就是要找到一个最小的样本量,保证达到实验结果可靠,但是又不会浪费过多的时间和样本数。

影响实验所需样本数有三大因素:原版本(对照组)的转化率、新版本(实验组)的转化率,以及统计显著性要求。

(1)对照组和实验组的转化率

两组测试的转化率越小,所需的样本量就越大;反之,两组的转化率越大,所需样本量就越小。因为需要足够的转化用户样本数,这个很好理解。

同时,实验组相比对照组转化率提升幅度越大,需要的样本量就越小;反之,提升幅度越小,比如从1%提高到1.05%,检测的敏感度要求就越高,需要的样本量就越大。

(2)统计显著性的要求

什么是统计显著性?其实就是进行增长实验的时候,通过检验对照组和实验组的转化率差异,来确认这个差别是真实存在的,还是随机误差导致的。这就是”统计显著性”的概念。

如果检验发现某个指标的转化率差异,且统计显著性达到95%,就说明有95%的可能性这个差异是真实存在的。也就是说实验组确实比对照组好,只有5%的可能性是随机误差导致的。

统计显著性越高,随机误差的可能性越低,结果就越可靠。一般做增长实验,建议至少要求95%的统计显著性。

3. 实用工具:AB测试样本计算器

介绍一个工具:AB测试样本计算器,网址是https://www.eyeofcloud.com/abtest-widget/124.html

它主要有三个输入字段:原始版本(对照组)的转化率、优化版本(实验组)的转化率,以及统计显著性要求(可以在90%-100%之间选择)。

输入这三个数字后,它会自动计算出每个版本所需的样本数量。

比如,原始版本转化率15%,优化版本转化率18%,统计显著性要求95%,它会算出每个版本需要1700个样本。

如何平衡实验效率与准确性?关键点在这里

如果新版本的预期转化率与原始版本差别很小,比如只有16%,那每个版本所需的样本数就会大幅增加。

如何平衡实验效率与准确性?关键点在这里

03 估计实验时长

1. 实验时长的计算方法

学会预估实验样本后,我们进一步预估实验需要多长时间。也就是收集到足够样本以确认统计显著性所需的时间。

计算公式很简单:预估实验时长=实验总样本数(各版本所需样本数之和)÷实验页面或路径的日访问量

举例,如果分两个版本实验,每个版本所需样本总量是2900,则所需总样本是2900*2(两个版本),即5800个。

假设该页面每日访问量是580,那预计需要实验10天才能得到统计显著的结论。

如果要分4个版本测试,所需总样本加倍,预估实验时间也就加倍到20天。

2. 实验设计的合理性检查

(1)样本数量与实验时长的平衡

为什么要预估实验样本和时长?就是为了检查实验设计是否合理。

通过预估,我们可以知道达到统计显著需要多大样本,有没有那么多流量或用户量,实验要跑多久,时间是否过长。

如果一个200多天才能完成的实验,基本就等于判了死刑。

(2)反思:小流量情况下的实验设计

所以,如果发现实验样本不够或时间冗长,就得想办法:

a.减少实验版本数。能不能减少实验版本数?比如不要测四个版本,只测两个版本,版本数越少,所需总样本就越小,所需时间也越短。

b.更换实验页面。假如想测试在下单转化路径中加入其他用户的推荐,如果放在最后几步,那里流量可能很少,不如放到产品详情页,同样的思路,那里的流量会大很多,有助于快速得出结论。

c.增加流量。如果面临样本量太小的问题,是不是应该先设法吸引更多用户,留存更多用户,再去做实验?

d.加大改动幅度。在小流量情况下做一些很小的改动,预期变化很小,其实意义不大。因为流量或用户数越少,实验改动就要越大,小修小补作用不明显。

04 大公司与小公司的实验策略

我们经常听说Facebook、抖音每时每刻都有成千上万个实验在跑,Google把一个蓝色按钮测了20多个色号,得出了非常好的结果。

背后的逻辑是,这些产品的用户量巨大,可以进行大量细小的实验。即使每个实验的结果提升不大,但基数庞大,最终对利润和营收的贡献也很可观。

但如果你在一个小公司,流量和用户没那么多,也去测20个按钮色号,很可能的结果是,等到地老天荒也没等到统计显著的结果,公司都黄了。

所以建议流量和用户少的情况下,要做大的改动,同时想办法提升用户基数和流量。

最后总结一下,”要致力于品质的提升,而不是数量的增加。”这句话同样适用于AB实验设计。

通过精细化设定实验受众,合理预估样本量和实验时间,可以在保证数据质量的前提下,有效地减少实验的盲目性,提高实验的成功率和效率,进而为产品和用户体验的优化提供可靠的数据支持。

本文由 @小黑哥 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。