惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Project Zero
Project Zero
WordPress大学
WordPress大学
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
V
Visual Studio Blog
爱范儿
爱范儿
P
Proofpoint News Feed
F
Fortinet All Blogs
雷峰网
雷峰网
小众软件
小众软件
Jina AI
Jina AI
人人都是产品经理
人人都是产品经理
TaoSecurity Blog
TaoSecurity Blog
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
S
Secure Thoughts
Recent Commits to openclaw:main
Recent Commits to openclaw:main
博客园 - 司徒正美
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Microsoft Azure Blog
Microsoft Azure Blog
IT之家
IT之家
S
Security @ Cisco Blogs
Help Net Security
Help Net Security
GbyAI
GbyAI
Webroot Blog
Webroot Blog
T
Troy Hunt's Blog
B
Blog
MongoDB | Blog
MongoDB | Blog
月光博客
月光博客
H
Heimdal Security Blog
Google Online Security Blog
Google Online Security Blog
S
Security Affairs
云风的 BLOG
云风的 BLOG
Engineering at Meta
Engineering at Meta
www.infosecurity-magazine.com
www.infosecurity-magazine.com
H
Help Net Security
O
OpenAI News
H
Hacker News: Front Page
博客园 - 叶小钗
Last Week in AI
Last Week in AI
S
Schneier on Security
The Last Watchdog
The Last Watchdog
C
Cyber Attacks, Cyber Crime and Cyber Security
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
MyScale Blog
MyScale Blog
Recorded Future
Recorded Future
博客园 - 【当耐特】
V
Vulnerabilities – Threatpost
大猫的无限游戏
大猫的无限游戏
N
News | PayPal Newsroom
The Hacker News
The Hacker News
A
Arctic Wolf

人人都是产品经理

为什么你的产品找不到差异化?90%的失败都卡在第一步上(下) – 人人都是产品经理, 3年从30万到1300万用户、获2200万美元融资,这个AI教育产品用“抽卡”破解了获客难题 – 人人都是产品经理, 园区招商系统怎么做才能真正帮到去化?我加了这一个功能,推广链接转发400次阅读过万 – 人人都是产品经理, AI大事件:OpenAI发完网络安全模型又搞药物研发,小鹏汽车要抓”DeepSeek时刻” – 人人都是产品经理, 电商不是卖货,是一场更残酷的产品经理实战 – 人人都是产品经理, 没想到,活动营销又回来了! – 人人都是产品经理, 为何All-in海外KOC:一场关于AI时代窗口期的豪赌 – 人人都是产品经理, 重新理解企业的内部协作 – 人人都是产品经理, 苹果的 AI 战略到底是什么? – 人人都是产品经理, 医疗智能体·第2讲——合规护城河:等保、PIPL与HIPAA的架构实战 – 人人都是产品经理, 向量知识库五步法:从“答非所问”到“精准回复” – 人人都是产品经理, 鸿蒙PC三方库构建总指挥HPKBUILD(sha)库为例 – 人人都是产品经理, 何时该用LLM?AI产品经理的LLM设计指南 – 人人都是产品经理, 医疗信息领域的需求方、决策方、准入方以及关注点(二) – 人人都是产品经理, 即梦涨价:一场被误读的「傲慢」 – 人人都是产品经理, 面试AI PM必答题:Hermes和OpenClaw的区别,如何讲清楚业务价值 – 人人都是产品经理, AI的下一张船票:世界模型——AI产品经理必须理解的技术拐点 – 人人都是产品经理, 小红书做GEO,怎么让AI信你?记住这 3 个重要信息 – 人人都是产品经理, 5 家印度 AI 初创公司,看看印度 AI 再做什么 – 人人都是产品经理, AI项目跨团队协作:产品技术业务如何不打架 – 人人都是产品经理, Agentic Workflow(智能体工作流):让AI从”答案生成器”变成”数字员工” – 人人都是产品经理, lycium_plusplus 项目全景解读:OpenHarmony 三方库构建的“大管家” – 人人都是产品经理, 从爆单救火到前置履约:两套预采策略,把生鲜大促履约效率拉满 – 人人都是产品经理, 什么时候该补货?我用一轮数据做了一个决定 – 人人都是产品经理, 从“机械兜底”到“动态分流”:AI客服重复进线治理的4大底层逻辑 – 人人都是产品经理, 抖音拼效率,红书拼洞察 – 人人都是产品经理, 全民狂欢与退潮——为什么龙虾这波热潮冷却得如此之快? – 人人都是产品经理, Stripe押注!MPP重塑全球支付 – 人人都是产品经理, 小红书GEO:AI引用你的内容,不是因为你对,而是因为你看起来可信 – 人人都是产品经理, 前百度副总裁押注办公Agent,日韩付费爆发,Manus迎来强劲对手 – 人人都是产品经理, 企事业单位数字化的业务供需本质 – 人人都是产品经理, 医疗智能体·第1讲——医疗信息化重构:从“辅助软件”到“自主智能体”的范式转移 – 人人都是产品经理, 粉丝量就是空气!!! – 人人都是产品经理, 用户说“薯片碎了”,机器回“要买吗?”:意图识别的翻车与破局 – 人人都是产品经理, RAG召回准确率从75到90 我做对了这三件事 – 人人都是产品经理, AI大事件:Anthropic改收费、OpenAI发安全版、手术机器人纳入医保、阿里发布”秒悟” – 人人都是产品经理, Chrome 推出 Skills 新功能,Agent 重塑上网方式 – 人人都是产品经理, GitHub前创始人拿了a16z的1700万美元,做Agent时代的Git – 人人都是产品经理 拷贝或克隆其他 Flutter OH 项目到本地后无法运行 – 人人都是产品经理, 优惠券设计:优惠券创建 – 人人都是产品经理, 不用死磕文档!AI 助手 1 小时搞定飞书 CLI 安装 + 配置 + 知识库 – 人人都是产品经理, 用小龙虾做竞品分析报告:从2天到20分钟,我是怎么做到的 – 人人都是产品经理 用小龙虾做市场分析报告:搞懂这3个公式,市场规模不再靠猜 – 人人都是产品经理, 你早就在做 Harness 工程,只是不知道它叫这个名字 – 人人都是产品经理, Think Long就够?你可能想多了! – 人人都是产品经理, 货代SRM实战:供应商准入怎么做,才能让资源池不是通讯录而是可交付网络? – 人人都是产品经理, 如何做好用户调研?详解基本技巧 – 人人都是产品经理, 木鸟、途家、美团对打,平台春天行动开“卷” – 人人都是产品经理, 入职才发现公司不靠谱?小红书从业者求职避坑指南 – 人人都是产品经理, 美国 AI 三巨头联手封堵,中国 AI 突围之路在何方 – 人人都是产品经理, 小红书,放在需求对面的镜子 – 人人都是产品经理, AI 会带来大规模失业吗? – 人人都是产品经理, 从出单到补货前,我第一次犹豫:该不该放大? – 人人都是产品经理, Flutter 三方库鸿蒙化适配:5 种高效检查方式,快速判断是否需要适配 – 人人都是产品经理, 从做产品进阶拿结果:医美机构产品经理转岗科室运营经理 – 人人都是产品经理, 阿里HappyHorse,一场关于“Token经济”的阳谋 – 人人都是产品经理, To B AI:客户留存落地的观察与思考 – 人人都是产品经理, AI产品的“生命线”——数据采集、标注、清洗的产品化设计 – 人人都是产品经理, 谈谈AI Agent(二):当“孩子”能自己“体验世界”时,你该学什么? – 人人都是产品经理, UI/UX设计师的3层能力进阶,前两层让你活下来,第三层…才是真正的分水岭 – 人人都是产品经理, 2分钟 → 30秒,效率提升75%:B端产品经理如何用「规则枷锁」驯服AI幻觉? – 人人都是产品经理, 还没来得及学OpenClaw,来了个更猛的:Hermes Agent – 人人都是产品经理, AI日报:宇树机器人跑出10m/s刷新世界纪录 – 人人都是产品经理, 一文说透基金互金如何用情绪价值引导用户决策做转化 – 人人都是产品经理, 当浏览器开始替你”看”网页:AI 浏览器正在亲手拆掉它脚下的那张网 – 人人都是产品经理, 0代码,一天时间我Vibe Coding了个网站 – 人人都是产品经理, Hermes 和 OpenClaw 之争,Agent 的能力应该“装上去”还是“长出来”? – 人人都是产品经理 视频生成的“桌子”,字节Seedance 2掀完,阿里快乐马掀 – 人人都是产品经理, 从听不懂到完全信任:我的 Codex 深度产品体验 – 人人都是产品经理, 当虚拟偶像有了北京户口,与真人偶像还有什么区别? – 人人都是产品经理, 会说,远远比会做更重要 —— 对 SBTI 爆火现象的五层观察 – 人人都是产品经理, AI产品经理必看:当“搭环境”比“选模型”更重要,你的认知还在2024年吗? – 人人都是产品经理, 2026年AI产品商业化核心逻辑:从功能demo到规模化营收的3个必破卡点 – 人人都是产品经理, 京东围绕供应链,卷起裤腿下场的那些事儿 – 人人都是产品经理, SBTI一夜刷屏:它赢在了“太会说人话” – 人人都是产品经理, 折扣零售的真相:不是便宜,而是价值感! – 人人都是产品经理, 和甲方吵了一架,最后加钱做了——我学到的ToB产品经理生存法则 – 人人都是产品经理, 和几位小红书操盘手聊了8小时,干货全在这 – 人人都是产品经理, 智谱GLM-5.1登场,开源模型首超Opus4.6!!! – 人人都是产品经理 Anthropic收入凭什么反超OpenAI,终于有人把这事说清楚了 – 人人都是产品经理, 史上最有故事感的技术报告——Claude最强模型Mythos 7个极其精彩的细节 – 人人都是产品经理, 模型不是壁垒,Harness 也不是 – 人人都是产品经理, 抖音本地生活业务思考21 – 人人都是产品经理, Superpowers:145k Star的AI编码框架,到底是什么来头? Superpowers:145k Star的AI编码框架,到底是什么来头? – 人人都是产品经理, OpenAI 的路走错了,Anthropic Harness 解法启示:模型需要实践专科生 – 人人都是产品经理, 画原型图的前一步:设计站点地图 – 人人都是产品经理, 给 DeepSeek 的最后一封催更信 – 人人都是产品经理, 手把手教你用 Claude Code 搭建 AI 营销团队:5 个 Agent、12 项技能,独立完成研究、写作、设计全流程 – 人人都是产品经理, 你以为大模型在学语言?不,它在重新发明语言学 – 人人都是产品经理 所谓Skill,不过是AI时代的工业垃圾 – 人人都是产品经理, 聊一聊内容传播的几个方法 – 人人都是产品经理, 当平台开始吃掉生态:从 OpenClaw 被封杀,读懂 Anthropic 的这盘棋 – 人人都是产品经理, 你装了 10 个 AI 插件,Obsidian 还是一个文件夹 – 人人都是产品经理 关于AI智能体架构演进的系统性思考:从单体试水到多体协同的重构 – 人人都是产品经理, 当“人”变成Skill,我们又该何去何从? – 人人都是产品经理 Mythos 事件:前沿 AI 治理的意外实验 – 人人都是产品经理, 货代CRM:信用与风险管理怎么做,才能把坏账风险拦在放货之前? – 人人都是产品经理, 从HR收集自拍照到员工自助录入——我见证了园区人脸识别从”不可用”到”真好用”的全过程 – 人人都是产品经理 千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭? – 人人都是产品经理,
数据分析之前知道这 7 件事,少花 80% 时间
龙国富 · 2022-04-16 · via 人人都是产品经理

编辑导语:在进行数据分析前,需要耗费不少的时间在数据的清洗过程中。那么,有什么方法可以提高数据清洗的效率?作者通过总结自己的工作经历,分享了在数据分析之前你需要了解的7件事情,希望对你有所启发。

写在前面

在进行数据分析之前,常常需要耗费大量的心力在对数据的清洗过程,比如,需要针对缺失数据、重复数据或错误数据等等进行预处理。还有很多小伙伴,在没想好想要获取哪些数据来验证何种假设的情况下,就贸然开展采集工作。这些都是在进入数据分析环节前,非常重要但很容易被忽略的问题。

如前美国首席数据科学家 DJ Patil 所说:“不过分的说:任何数据项目中 80% 的工作都在采集清理数据。”

为了更好的避免这类问题的出现,在开展数据分析之前,需要围绕在“问题的具体化描述”、“确立假设”中进行深入的剖析,这个时期的“慢即是快”。如果无法正确地定义问题、合理地拆解问题、抓住关键问题,后续的环节都是徒劳。

所以,正确的问题是指引你找到可靠解决的路标,而高质量的数据是数据分析的基石。我依据实际工作中的经历,梳理了数据分析前你要知道的 7 件事,希望对你有所启发。

以下,Enjoy~

通过本文,你可以了解:

  1. 5W1H 让问题具体化
  2. 将商业思考拆解成可量化的数字
  3. 从假设出发采集数据
  4. 什么是第一、二、三方数据?
  5. 哪些是可以直接利用的数据?
  6. 结构化和非结构化数据有什么不同?
  7. 你采集的是好数据吗?

一、5W1H 让问题具体化,清晰需要采集什么数据

在所有的研究工作开始之前,厘清目标问题是什么,这是整个研究的核心。运用 5W1H (who -谁、when-时间、where-地点、what-什么事、why-为什么发生、how-如何发生),针对问题进行提问,有助于把问题具体化。

? 某预约管理 SaaS 公司:

  • Who:客户是谁?- 线下服务业商户Why:商户为什么需要?- 有服务资源配置需求
  • Where:商户在哪里使用?- 网页、商户小程序、线下门店等
  • When:商户使用的阶段?- 商户的生命周期
  • What:商户使用工具来做什么事?- 管理消费者预约动态
  • How:商户怎么使用?- 注册账号 > 授权小程序 > 上架服务 > 发布小程序 > 销售服务 > 核销服务

以「某SaaS公司今年在线预约管理产品续费率下降」为背景思考应对策略,「续费率下降」只是问题呈现出来的结果,不能就这个结果设想解决方案,应该先思考,背后造成这个结果的原因有哪些可能,以及为什么。

如果你认为主要的原因是「商户的员工不能迅速上手使用」,那么在经过上面分析后,可以重新整理为「是否因为在上手阶段(when)缺少对商户的使用指导(what),导致商户不续费?」,让问题更加具体。

通过具体的问题,才能运用数据分析来回答问题。当你怀疑「缺乏使用指导」与「续费率」有关时,就可以去观察和收集客户服务或客户成功部门,在上手阶段指导次数、工单提交次数等指标。

接着进行分析比较,观察两者走势:比方从折线图观察,是否指导次数增加、老客户的续费率也跟着增加?或者,即使指导次数增加,续费率率也没有太大差异,藉此验证假设是否正确。

二、将商业思考拆解成可量化的数字

数据分析的基础功夫,来自于正确的问题。在提出问题时,要抱持着让「问题」更具体、明确化的精神,试着将脑海中想到的问题,拆解成可量化的信息,培养数字导向的思维。

最近续费率下降,怎么办?

1)最近:是哪段时期?与去年比,或与上个月、上星期比?

2)续费率:整体续费率,或者特定产品线续费率?还是增值模块续费率?

3)下降:同业续费率变化程度为何?下降幅度是多少?

4)怎么办:哪个部门、哪个环节可以做哪些改善?

可能是商户缺乏指导很难上手使用。

1)商户:指的是多大比例的商户?是流失的客群吗?还是特定行业的商户?

2)缺乏指导:在什么阶段缺乏指导?是缺乏图文类型、视频类型还是人工客服类型的指导?

3)很难:是和其他 SaaS 工具相比吗?还是和预约类的工具比?还是超过 30 分钟就算久?

4)上手使用:指的是完成服务上架?还是完成小程序发布?还是消费者到店核销才算上手使用?还是营销、推广、拓客?

三、从假设出发采集数据

“大胆假设,小心求证”,是进行数据分析研究的基本模式。很多时候,有了假设需要进行求证的过程中,现有数据可能无法提供所需视角厘清问题,或者数据相对有限,需要采集新维度数据。又或者收集的样本存在异常,不一定在一次分析就能找到其中的关联。

哪怕做了分析后发现原假设与问题不存在关联,这也是一种有效的分析,毕竟你排除了一种可能,对于你进行假设的修改,逼近核心问题都是有助益的。一次就把问题解决,需要依赖的不仅仅是专业的知识储备,有的时候运气也是很重要的因素。

《简单用数据,做出好决策》表示,很多人以为,观察现有数据就能能提出假设,但最佳来源是在业务一线的人,比如,产品经理、客服与销售人员。因为他们是在决策方针之下,实际行动的人。

在进行假设确立前,最好能号召到所有利害关系人,召开头脑风暴会议,分享他们认为什么原因会造成目前的状况,在这个阶段,目标是要产生出好几个可能的假设。

四、什么是第一、二、三方数据?

在《普华永道全零售调查》报告中指出,与其他国家消费者相比,中国消费者更多地通过各种数字化方式与零售商进行互动。和其他国家的消费者一样的是,中国消费者也展现出了非线性的消费行为,在各种渠道之间不断切换以寻求便利性、一致性,增加选择面和可及性。

在复杂商业环境中,企业采集数据的方式不能像从前只记录自己手中的数据。在原本各直营渠道的互动数据整合、存储和分析的基础上,还要观察消费者在合作渠道中的消费行为,以及在其他渠道中是否展现出对品牌的兴趣,才能清楚掌握用户画像。更了解消费者,才有机会对客户进一步细分,提供个性化解决方案。

这些类型的数据,就是数据分析中常提到的第一方、第二方与第三方数据。

1)第一方数据。是企业直接从消费者采集而来的数据,此类数据具备高度精确性和相关性,但通常缺乏规模。

一般会包括客户关系数据,联络资料、手机号码、电子邮箱等,也包括用户在网站或应用程序上的行为数据,访问时间、频率与停留时间,以及社交媒体数据、客户反馈等。

2)第二方数据。是与合作伙伴交换、彼此共用的第一方数据。此类可以弥补第一方数据无法获得的信息和见解,由于数据来源多元,数据也更具备解释力。

比如,你把产品上架到淘宝、京东等电商平台,你可以通过店铺平台提供的管理后台观察客户在电商平台上的购买数据,如客户特性、购买产品组合等等,以此优化自身产品。简单说就是合作对象给你提供的二手数据。

3)第三方数据。是从外部获得的数据来源(可以是免费或付费获得),非数据原始采集者。此类数据在企业想要扩展目标客群时,可以提供非常重要的参考意见。

一般会包括像是投放网络广告,取得潜在消费者对品牌的关注数据,购买现成的数据库,或者在统计局或行研报告免费下载等等。从各方采集可以补充第一、第二方数据,但用户画像也相对不精准。

五、哪些是我可以直接利用的数据?

现在物联网的快速发展,很多基础数据采集工作无须经由人工,通过机器设定采集任务就可以自动记录,如此长时间的沉淀就会产生海量的数据。比如,iPhone 记录每日 App 使用量、Wacth 记录心率和睡眠、信用卡记录消费、滴滴记录打车情况等等。

对于企业来说,可以根据自己的业务需要,进行常规的数据自动化采集计划,长时间监测消费者的喜好和消费行为数据。

  • 像有些商家会在门店出、入口安装摄像头,消费者在进、出店的瞬间,摄像头就已经及时抓拍消费者并自动生成一个新的 ID,记录消费者进、出店的时间。
  • 同时还可以记录消费者进店频次、消费总额、客单价、常购商品等信息。
  • 还有企业开给客户的发票明细,清楚记载消费者的购买时间、会员等级、产品项目与类别、结账方式等。

这类型常规数据,基本可以直接使用。也可以与其他数据进行交叉比对,洞察理解消费者的重要信息。

另外,在《用数字做决策的思考术》一书中,将采集数据的方法分为采集世界上既存数据与世界上尚不存在的数据。搜寻既存数据,可以透过网络、数据库与研究报告,再藉由具有产业经验的人过滤值得信赖的信息。若没有相关人员,可以参考官方机构或学术资料,作为分析依据。

至于搜寻不存在的数据,就需要透过亲身观察与询问,像是直接观察消费者的购买行为、询问消费者对于新口味的满意度,也可以通过焦点访谈、发放问卷的形式了解客户的声音(VoC)。

六、结构化和非结构化数据有什么不同?

区别于采集数据的原始归属,在数据采集到统一的集成数据管理平台(DMP)后,可以采用“企业内部和外部”、“结构化与非结构化” 4 种组合进行数据类型区分,识别数据的可用性。

1)企业内部的结构化数据。是指企业自有、可用数值量化表现的数据。比如今年总营收 = 30万、客单价 = 700元/人、整体退货率 = 7% 等等。

2)企业内部的非结构化数据。一般表现为视频、音频、图片、图像、文档、文本等文件系统中的信息,属于难以单纯用数值量化表达的信息,需要经过整理才能分门别类。比如,包含业务销售经验、客户常见问题等等。

3)外部的结构化数据。这些数据同样具备用数值量化表现,差别是企业并不直接拥有这些数据。比如,在百度投放广告的曝光量、在知乎发布文章的阅读量等等。

4)外部的非结构化数据。这些数据一般以企业主体的名义在其他平台运营过程中产生。比如,在淘宝平台上商品的评价、微博上用户的评论、产品的口碑、用户自行录制的开箱视频等等。

七、你收集的是好数据吗?

在统计学里,数据分为内部效度和外部效度,前者指数据能否反应研究领域的状况,即是否具有内部代表性;后者是指能否把结果推论到其他人或其他环境中,也就是研究结果的普遍性。唯有数据具有内外部效度,才代表数据采集过程正确,而且适用在其他领域。

1) 缺乏内部效度

新品发布时,只调查营销部门的想法。

应调查各业务单位,并依照部门人数比例,随机抽取调查意见。

2)缺乏外部效度

新品上市后无法满足客户期待。

留意在内部调查时,是否具备足够多元性。

数据不怕少,主要怕不好。

在日常收集数据的过程中,有时候需要数据具备时效性,过时的数据无法验证新时期的问题。有时候会因为隐私问题或者收集渠道问题,会收集到不完整的数据,条件允许就需要想办法补全。

对于量性可以采取策略性补值,比如,平均数。如果数据样本足够大,亦可选择直接删除。但在数据样本规模小,且属于稀缺数据的情况下,就要想尽一些办法利用。

还有采集到不规则或异质性的数据时,需要谨慎甄别,先从采集统计口径切入,了解具体数据的定义和计算方法,要不结果会产生极大的差异,导致决策失误。

写在最后

在数据分析的语境中,保持客观、批判性的视角是开始工作的必要条件。通过找到正确的问题,恰当地表述问题、理解这些结果与业务的关系以及推导结论的研究过程和假设,是落地分析工作的充分条件。

藉由数据采集前多方面保障数据的真实性、有效性、时效性和一致性,可以在真正进入分析阶段时,有更大可能性找到问题表征背后的“推手”。

还是那句话,前期的“慢即是快”,在数据分析之前,多思考,不厌其烦的假设、验证、修正,自然会找到数字背后真正的意义。

所以,开始数据分析前,先问问自己:

  1. 我清楚理解问题了吗?
  2.  我把问题拆解成可量化的数字了吗?
  3.  我想要验证哪些假设?
  4.  我可以从哪里获取数据?
  5.  我可以怎么归类数据?
  6.  我可以怎么处理结构化程度不同的数据?
  7.  我采集的数据是好数据吗?

#专栏作家#

龙国富,公众号:龙国富,人人都是产品经理专栏作家,人因工程硕士。致力于终身学习和自我提升,分享用户研究、客户体验、服务科学等领域资讯,观点和个人见解。

本文原创发布于人人都是产品经理,未经授权,禁止转载。

题图来自Unsplash,基于CC0协议。