惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园 - Franky
Hacker News - Newest:
Hacker News - Newest: "LLM"
雷峰网
雷峰网
人人都是产品经理
人人都是产品经理
Last Week in AI
Last Week in AI
爱范儿
爱范儿
美团技术团队
V
Visual Studio Blog
P
Proofpoint News Feed
GbyAI
GbyAI
Y
Y Combinator Blog
博客园 - 司徒正美
IT之家
IT之家
Google DeepMind News
Google DeepMind News
F
Full Disclosure
aimingoo的专栏
aimingoo的专栏
宝玉的分享
宝玉的分享
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
博客园_首页
M
MIT News - Artificial intelligence
V
V2EX
C
CXSECURITY Database RSS Feed - CXSecurity.com
A
Arctic Wolf
B
Blog
P
Proofpoint News Feed
MongoDB | Blog
MongoDB | Blog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
The GitHub Blog
The GitHub Blog
SecWiki News
SecWiki News
I
Intezer
P
Palo Alto Networks Blog
S
Security Affairs
L
LangChain Blog
C
Cisco Blogs
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
The Cloudflare Blog
Martin Fowler
Martin Fowler
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Webroot Blog
Webroot Blog
Schneier on Security
Schneier on Security
Spread Privacy
Spread Privacy
H
Heimdal Security Blog
有赞技术团队
有赞技术团队
量子位
D
Docker
S
Secure Thoughts
N
News | PayPal Newsroom
The Last Watchdog
The Last Watchdog
H
Hacker News: Front Page
H
Hackread – Cybersecurity News, Data Breaches, AI and More

东东's Blog

Memos: MacOS 下编译安装 Aseprite 脚本 日本关西系列|Day 2 京都的半日闲逛 美国Apple官网购买礼品卡订阅 ChatGPT Plus 北京・中关村森林公园(2026) 日本关西系列|Day 1 抵达临空城与大阪首日 Memos: 查询 Apple ID 注册时间 Memos: Ghostty 开箱即用配置 代码考古:用 gitcharts 挖掘 Git 仓库的演变轨迹 烹饪日记:香煎罗非鱼 Memos: 新时代程序员的顶级焦虑 Memos: 博客新增图文布局和轮播图效果支持 Memos: 最适合空气炸锅烤着吃的红薯品类 Memos: 记录「95分」好吃的‘小帅香菇面’ 妻子爷爷的‘朝鲜军功奖章’ Memos: 博客切换为 Shiki 代码高亮方案 Memos: 博客新增划线、重点及荧光笔效果支持 记录博客字体分包与字体子集化 Memos: 邻座吃饭的一家三口 人在囧途之哈囧 哈尔滨・乡村的冬季 查看香烟生产日期 哈尔滨・东北虎林园 Memos: 来自日本的 ndjp 提供免费的三级子域名 Memos: 刚听说 autojump, 真的好用 Memos: 体验 OpenCode + Superpowers + GPT 5.2 开发需求 Memos: 杰我睿爆雷 GoReleaser 自动发布 Go 镜像到 DockerHub & GitHub Release 初识 Volta & Corepack 前端版本管理工具 部署 Beszel 把 “小鸡们” 归拢起来 Memos: Claude Code in Action 中文版教程 2025 年度回顾 Memos: 体验 tanaos-text-anonymizer-v1 NER 模型 Memos: 查询 Google 账号注册时间 Memos: 关于 Z30 在室内摄像被手机降维打击这点儿事儿 阅读《我与地坛》 Memos: Ghostty + Neovim + LazyVim Memos: 找到 Cursor 运行巨慢的一个原因 Memos: 京东家政 哈尔滨灵活就业人员医保退休待遇申领条件 记地暖不热的维修过程 Memos: 赛博菩萨 Cloudflare 又挂了 AnyTLS 软件的配置与使用 阅读《在巴东》 Memos: Web Archive 暂时离线 忆时光:十五年前我的家(动迁前夕) macOS 系统部署 Valkey 集群模式 阅读《一个名叫欧维的男人决定去死》 Memos: Cursor 服务故障部分功能不可用 阅读《丰乳肥臀》 爱人回家送奶奶 Memos: AWS 美东可用区 P0 故障(us-east-1) 2025 北京社保下限上调|个体户缴费随之上涨 铁锅重生记 不锈钢盆与放心水源改造计划 阅读《不被大风吹倒》 基于 Supabase 构建示例应用(中篇):实现 Vue 前端页面 基于 Supabase 构建示例应用(上篇):数据库与接口 阅读《三体》之地球往事 Oracle Free 实例重装系统 非京籍个体户缴纳社保(补充):“无有效的汇总预处理信息” 解决办法 阅读《芯片简史》 阅读《简约至上:交互式设计四策略(第2版)》 阅读《审判》 达达秒送骑士 日本关西系列|在动物园前站找到海南本线 观影《长安的荔枝》 Memos: 记录两个在线工具 地球 Online:外卖骑手体验报告 杜师傅夜话:附身与归途 日本关西系列|使用投放硬币的行李寄存箱 日本关西系列|将多余零钱充值到西瓜卡 日本关西系列|网上购买大阪往返白滨高速巴士 乌鲁木齐・赛里木湖 “778 老哥” 摄影摘选(转载) 使用 Restic 来备份重要数据 Backing Up Important Data with Restic Sauvegarder des données importantes avec Restic Resticで重要なデータをバックアップする Cursor 开发 Obsidian 插件记录 非京籍个体户缴纳社保(十):新增并缴纳个人所得税-工资薪金 非京籍个体户缴纳社保(九):公积金开户增员与缴费 非京籍个体户缴纳社保(八):税务申报与工商年报 非京籍个体户缴纳社保(七):社保费用申报与缴纳 非京籍个体户缴纳社保(六):医保公共服务平台 - 增员确认 非京籍个体户缴纳社保(五):北京电子税务局 - 税务报道 非京籍个体户缴纳社保(四):北京市社会保险网上服务平台 - 增员与社保卡领取 非京籍个体户缴纳社保(三):社会保险网上服务平台 - 单位信息登记 非京籍个体户缴纳社保(二):北京 e 窗通平台提交申请 非京籍个体户缴纳社保(一):概览与先期准备 养老保险零基础入门指南(速通版) 了解北京门诊看病工会“二次报销”互助金 注册 US.KG 免费域名(dpdns.org) 白嫖 Cloudflare R2 + Worker 搭建私有镜像仓库 再思 JWT 的使用场景和算法选择 黑龙江・木兰县属小村落的星空(2024) Nginx 启用 HTTPS/3 优化网站的 SSL Labs 总体评级为 A+(禁用旧协议 & 启用 HSTS) 了解 OCSP Stapling 证书吊销验证机制 山东・烟台中秋两三日(2024) 分享改造后的博客发布流程和访问链路 边缘网络:白嫖 Cloudflare R2 博客图床(DNS 国内外分流)
阅读《统计数字会撒谎》
2025-07-28 · via 东东's Blog

阅读《统计数字会撒谎》

Chapter 1:内在有偏的样本

案例:“记者在火车上调查大家都买到了回家过节的车票”

第一章讲的是样本因自身特性或选择方式而无法代表总体,导致统计结果失真。

最基本的样本是随机样本,它是指完全遵循随机原则从总体中选出的样本。总体即形成样本的母体。 随机样本的检验方法是:总体中的每个名字或每个事物是否具有相同的几率被选进样本? 纯随机样本是惟一有足够把握经受统计理论审查的样本。但它也有不足之处,在很多情况下,获得这种样本的难度很大并且十分昂贵,以至于单纯考虑成本就会排除它。

Chapter 2:精心挑选的平均数

案例:一个富豪年薪 1000 万,他有 9 个朋友穷光蛋,平均一看,各个年薪百万。

当你听到公司执行总裁或企业所有者宣称,在他的企业中员工的平均收人是多少时,你应该好好思考一下其中的原因。如果这个数是中位数,你可以获得一些显而易见的信息:一半员工赚得比它多,一半比它少。但如果是均值(请相信我,没有确切指出它的种类时,多半是均值),它仅仅是所有者 25000 英镑的高收入与全体工人低水平收入的平均数,根本没有什么意义。“平均年收入为 3800 英镑”既隐瞒了1400英镑的低收人,又隐瞒了所有者以巨额薪金形式抽取的高额利润。

所以,当你被告知某个数是平均数时,除非能说出它的具体种类——均值,中位数,还是众数,否则你对它的具体涵义仍知之甚少。

Chapter 3:没有披露的数据

案例:某人宣称抛硬币正反面的比例是 5:1,但是没有披露他做了 100 次试验,只选择了其中的 5 次试验结果作为样本进行统计

还有另一类没有透露的数据,它的遗漏也同样具有破坏性。这类数据表明了事物的变动范围以及与给定平均数的偏离水平。通常情况下,单凭一个平均数来描述事物过于简单,起不到作用,不管这个平均数是均值还是中位数,也不管平均数的具体类型是否已知。

Chapter 4:毫无意义的工作

案例:某公司投入巨额资金,部署了多条国际专线,调整了 BGP 路由策略,优化了跨境访问链路,最终成功地将国际网络访问速度从 300 毫秒降低了 2% —— 相当于 6 毫秒的提升。

只有当差别有意义时才能称之为差别

换句话说:

只有在毫无意义时,这个差别才如此值得强调

Chapter 5:令人惊奇的图形

案例:(见以下图像)

只需要改变横坐标与纵坐标的比例关系,将纵坐标的每一个刻度缩减为原来的1/10即可,没有人规定不能这么做,而这将会产生一张更加完美的图形。

显然图形比文字更有效,因为图形中不存在任何形容词和副词来破坏它所具有的客观性幻觉,而且谁也无法指责你。

搜索到某龙江省历年出生率数据(21 世纪),这是一个稀疏平常的折线统计图

已经可以看到出生率下降比较多,如果我修改为下图的形式,宽高对调,同时 Y 轴间隔从 0.2 调整为 0.05,图像将更有震撼效果

Chapter 6:一维图的滥用

案例:(见以下 AI 提供的说明)

在图表的世界里,只要敢缩轴、敢立体、敢堆图标,你就能让“微涨”看起来像“暴涨”

跟「令人惊奇的图形」类似,一维图像想要突出或降低一些视觉效果,可以做的文章很多

Chapter 7:不完全匹配的资料

案例:某诺贝尔奖得主每天都喝这种牛奶,但没有提及他也吃面包、鸡肉和沙拉,每天晨跑、骑自行车

如果你想要人相信 “结论A”,但拿不出证据,就展示一个听起来很像、但其实只是“相关”的 B。

这就是“不完全匹配的资料” —— 一种披着数据外衣的偷换概念

Chapter 8:相关关系的误解

案例:研究发现冰淇淋销量高的时候,溺水事件也多。

实际上是因为夏天到了,吃冰淇淋的人变多,游泳的人也变多,共同原因是 “气温升高”,不是冰淇淋和溺水互为因果。

重要的概念即:相关 ≠ 因果

“相关性”(correlation)只是两个变量一同变化,而“因果性”(causation)意味着一个是另一个的原因

但是,很多时候人们会误把 “同时发生” 当作 “有因果关系”——这是一个统计思维中的致命误区

Chapter 9:如何进行统计操控

案例:产品满意率达到 100%,其实只调查了 5 个人,这五个人还是公司的员工

任何建立在小样本容量上的百分数都可能产生误导,直接给出调查对象规模(样本容量)的大小将更有价值。

案例:股票跌了 10%,但是需要上涨百分之 11.11% 才能回到原来水平,下跌的越多,涨回去越难

50%的削减量需要通过提高100%才能加以补偿。

案例:商场打折,折上折的数字陷阱

份“50%折扣再打20%折扣”的报价单时,那并不意味着70%的折扣,实际上只有60%

案例:(这个案例就很经典)

人们询问他的兔肉三明治为什么能卖到如此便宜的价格时,“哦,”他说,“我当然得掺一些马肉,但我的比例是一比一:一匹马,一只兔子。”

Chapter 10:如何反驳统计资料

省流:数字不是事实,只是说故事的工具,别轻信涨幅和图标,多问问数据怎么来的,多问问 AI 怎么看