假设检验 (hypothesis testing)

又见苍岚

COLMAP PatchMatch Stereo 算法详解事件驱动的状态机框架：从理论到工程实践 Git 在国内网络环境下无法 Push 的排查与修复 —— 配置 Clash 代理分段五次多项式插值原理详解路径插值方法深度对比研究 Claude Code 使用指南 OpenClaw 记忆管理与技能创建指南 CBS(Conflict-Based Search)算法详解 A* 算法及其变种详解 OpenClaw 配置多 Agents Windows Powershell 无法加载文件，因为在此系统上禁止运行脚本问题的解决方案 MaxClaw 安装流程大模型 AI 名词介绍 AList 网盘聚合工具简介 Protobuf 简介与测试 Claude Code 简介以及 GLM 4.7 模型接入 Github 歌词下载工具 163MusicLyrics Python __getattr__ 懒加载 Python TypedDict 机器人仿真平台 Gazebo 安装记录机器人仿真平台 Gazebo 简介多机器人路径规划问题(Multi-Agent Path Finding, MAPF)简介 Python exifread 读取修改过的 jpeg 信息错误问题修复 3D 坐标系变换的理解 3D 旋转矩阵基本概念 MongoDB Compass 介绍 Python 环境管理工具 uv Flutter 开发指南 Snipaste 安装下载与黑屏问题解决方案全局路径规划算法记录 2025 Python 版本性能测试 Flutter Hello World Flutter 安装环境配置 Ubuntu VMware 硬盘扩容后 SMBus Host controller not enabled 报错问题解决 Python NetworkX 教程 Docker GPU 报错 - Failed to initialize NVML Unknown Error 解决方案 Python matplotlib 图表绘制 cuda-toolkit 安装替代 Cuda 与 Cudnn Jinja2 Python 利用 docxtpl 和 Jinja2 生成基于模板的 Word 文档 Docker 实现 CPU 核心隔离 LoFTR 基于 Transformer 的特征提取匹配算法 OmniGlue 特征匹配 SuperGlue 使用图神经网络学习特征匹配 Ubuntu 下将 xlsx 文件按照 sheet 转换为图片 Python 使用 SQLAlchemy Python FastAPI 教程 openwrt 软路由配置安装 Nav2 地图文件（PGM/YAML）规范标准 3D OBJ 模型转换为 glb 瓦片格式 Python 源码 Redis 数据库介绍 Ubuntu 22.04 内核自动升级导致 MongoDB 7.0.12 错误记录 ubuntu 20.04 安装 ROS Noetic ubuntu 18.04 安装 ROS Melodic VMware Workstation Pro 个人免费版下载、安装、使用指南 Hybrid A-star 路径规划 Reeds-Shepp 曲线 Dubins 曲线 Linux kvm 虚拟机网络不通的问题解决方法 Ubuntu 自动内存清理 BiliBili 缓存视频转 mp4 Python 求解线性规划 3D Gaussian Splatting 官方源码实践记录 ImageMagick 教程 Ubuntu 22.04 安装 Colmap 对数几率 odds Ubuntu nmcli 网络管理工具使用指南 SuperPoint 自监督深度学习特征点提取 SyncTV Music Tag Web 在线音乐信息整理工具 ncm 格式转 mp3 MusicBrainz 音乐元数据百科数据库 Ubuntu 网络流量监控工具私人云音乐平台 Navidrome 入门手眼标定四元数（Quaternions） OHTTPS 实现免费自动 https 证书申请、更新、部署 ubuntu 22.04 安装 CloudCompare 单机 KVM 虚拟机冷迁移 Ubuntu 22.04 使用 mdadm 实现软 raid 小鱼一键安装 ROS-humble Fluid -46- 基于 Simpletex API 构建公式识别页面公式识别 API 简介 -- Simpletex 使用 Python web 部署库 waitress 3D Gaussian Splatting for Real-Time Radiance Field Rendering Ubuntu Swap 简介与空间扩展 Ubuntu 24.04 安装 forticlient Clash Verge 使用 MongoDB 7.0.17 集群 Docker 构建源码 Error code - 2013. Lost connection to MySQL server during query 问题解决 Python 日志记录库 loguru 使用指北 Python 实现 Web 日志查看服务 MySQL LOAD DATA LOCAL INFILE 极速数据加载 Image size exceeds limit of 89478485 pixels 解决方案 Docker 使用 NVIDIA GPU 驱动错误解决阿里云 docker 镜像仓库 Ubuntu中没有wired connected的解决方案 MinIO 简介 subconverter 代理订阅格式转换修复 node –openssl-legacy-provider is not allowed in NODE_OPTIONS 错误

Yiwei Zhang · 2023-11-06 · via 又见苍岚

假设检验（hypothesis testing）是指从对总体参数所做的一个假设开始，然后搜集样本数据，计算出样本统计量，进而运用这些数据测定假设的总体参数在多大程度上是可靠的，并做出承认还是拒绝该假设的判断。

简介

假设检验（hypothesis testing）是指从对总体参数所做的一个假设开始，然后搜集样本数据，计算出样本统计量，进而运用这些数据测定假设的总体参数在多大程度上是可靠的，并做出承认还是拒绝该假设的判断。如果进行假设检验时总体的分布形式已知，需要对总体的未知参数进行假设检验，称其为参数假设检验；若对总体分布形式所知甚少，需要对未知分布函数的形式及其他特征进行假设检验，通常称之为非参数假设检验。此外，根据研究者感兴趣的备择假设的内容不同，假设检验还可分为单侧检验（单尾检验）和双侧检验（双尾检验），而单侧检验又分为左侧检验和右侧检验。

假设检验的基本思想是反证法思想和小概率事件原理。反证法的思想是首先提出假设（由于未经检验是否成立，所以称为零假设、原假设或无效假设），然后用适当的统计方法确定假设成立的可能性大小，如果可能性小，则认为假设不成立，拒绝它；如果可能性大，还不能认为它不成立。小概率事件原理，是指小概率事件在一次随机试验中几乎不可能发生，小概率事件发生的概率一般称之为“显著性水平”或“检验水平”，用 $\alpha$ 表示，而概率小于多少算小概率是相对的，在进行统计分析时要事先规定，通常取$\alpha=0.01、0.05、0.10$等。

—— 国家统计局

用例

学而思网校App进行了改版迭代，现在有以下两个版本

版本1: 首页为一屏课程列表；

版本2: 首页为信息流。

如果我们想区分两个版本，哪个版本用户更喜欢，转化率会更高。我们就需要对总体（全部用户）进行评估，但是并不是全部存量用户都会访问App，并且每天还会新增很多用户，所以我们无法对总体（全部用户）进行评估，我们只能从总体的用户中随机抽取样本（访问App）的用户进行分析，用样本数据表现情况来充当总体数据表现情况，以此来评估哪个版本转化率更高。

定义

假设检验是先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立

假设

由定义可知，我们需要对结果进行假设，然后拿样本数据去验证这个假设。

所以做假设检验时会设置两个假设：

一种叫原假设，也叫零假设，用 $H_0$ 表示。原假设一般是统计者想要拒绝的假设。

原假设的设置一般为：等于、大于等于、小于等于。

另外一种叫备择假设，用 $H_1$ 表示。备则假设是统计者想要接受的假设。备择假设的设置一般为：不等于、大于、小于。

用例在进行假设检验时，我们希望接受版本2的假设，想拒绝接受版本1的假设。所以我们的假设设置为：

$$ H_0 ：μ_{版本1} >= μ_{版本2} \quad \quad H_1 : μ_{版本1} < μ_{版本2}。 $$

为什么统计者想要拒绝的假设放在原假设呢？因为原假设备被拒绝如果出错的话，只能犯第I类错误，而犯第I类错误的概率已经被规定的显著性水平所控制。

两类错误

我们通过样本数据来判断总体参数的假设是否成立，但样本时随机的，因而有可能出现小概率的错误。这种错误分两种，一种是弃真错误，另一种是取伪错误。

弃真错误

弃真错误也叫第I类错误或α错误：它是指原假设实际上是真的，但通过样本估计总体后，拒绝了原假设。明显这是错误的，我们拒绝了真实的原假设，所以叫弃真错误，这个错误的概率我们记为α。这个值也是显著性水平，在假设检验之前我们会规定这个概率的大小。

取伪错误

取伪错误也叫第II类错误或β错误：它是指原假设实际上假的，但通过样本估计总体后，接受了原假设。明显这是错误的，我们接受的原假设实际上是假的，所以叫取伪错误，这个错误的概率我们记为β。

因为原假设备被拒绝，如果出错的话，只能犯弃真错误，而犯弃真错误的概率已经被规定的显著性水平所控制了。这样对统计者来说更容易控制，将错误影响降到最小。因此 原假设一般都是想要拒绝的假设 。

显著性水平

显著性水平是指当原假设实际上正确时，检验统计量落在拒绝域的概率，简单理解就是犯弃真错误的概率。这个值是我们做假设检验之前统计者根据业务情况定好的。

显著性水平α越小，犯第I类错误的概率自然越小，一般取值：0.01、0.05、0.1等

检验方式

检验方式分为两种：双侧检验和单侧检验。单侧检验又分为两种：左侧检验和右侧检验。

双侧检验

备择假设没有特定的方向性，形式为“≠”这种检验假设称为双侧检验

单侧检验

备择假设带有特定的方向性形式为">“”<"的假设检验，称为单侧检验 "<"称为左侧检验 ">"称为右侧检验

检验统计量

根据原假设和备择假设作出决策的某个样本统计量，称为检验统计量。

一般都会根据假设推导出一个服从某个标准分布的变量，然后根据该标准分布查表积分，比较统计量和显著水平对应的统计量来判定是否拒绝原假设。

拒绝域

定义：拒绝域是由显著性水平围成的区域

拒绝域的功能主要用来判断假设检验是否拒绝原假设的。如果样本观测计算出来的检验统计量的具体数值落在拒绝域内，就拒绝原假设，否则不拒绝原假设。给定显著性水平α后，查表就可以得到具体临界值，将检验统计量与临界值进行比较，判断是否拒绝原假设。

假设检验步骤

提出原假设与备择假设
从所研究总体中出抽取一个随机样本
构造检验统计量
根据显著性水平确定拒绝域临界值
计算检验统计量与临界值进行比较

两种假设检验

假设检验根据业务数据分为两种：一个总体参数的假设检验和两个总体参数的假设检验

一个总体参数的假设检验：只有一个总体的假设检验

举个例子：学而思App原版本1转化率为 19%，学而思App版本2开发完成后，直接全量发布整体上线，过一段时间后统计转化率为27%，我们想判断版本2是否比版本1好，这时我们做的假设检验总体只有1个，全部用户。对于总体只有一个的称为一个总体参数的假设检验。

两个总体参数的假设检验：有两个总体的假设检验

同样的例子：学而思App版本1和学而思App版本2同时上线，流量各50%，这时我们做的假设检验总体有2个，分别为命中版本1的全部用户与命中版本2的全部用户。

两种假设检验的检验统计量计算方式有所不同，所以做区分描述。

一个大样本总体参数的假设检验

大小样本：样本量大于等于30的样本称为大样本，样本量小于30的样本称为小样本。

总体参数的大样本 ($n\ge30$) 假设检验方法：

假设形式

形式	假设
双侧检验	$ \mathrm{H} 0: \mu=\mu 0, \mathrm{H} 1: \mu \neq \mu 0 $
左侧检验	$\mathrm{H} 0: \mu \geq \mu 0, \mathrm{H} 1: \mu<\mu 0$
右侧检验	$\mathrm{H} 0: \mu \leq \mu 0 , \mathrm{H} 1: \mu>\mu 0$

相关变量

变量	描述
统计量分布	标准正态分布
$\bar{x}$	样本均值
$\mu$	假设的总体均值
$s$	样本标准差
$\sigma$	总体标准差
$n$	样本量
$z $ ($\sigma$ 已知)	检验统计量： $z=\frac{\bar{x}-\mu 0}{\sigma / \sqrt{n}}$
$z $ ($\sigma$ 未知)	检验统计量： $z=\frac{\bar{x}-\mu 0}{s / \sqrt{n}}$

$\alpha$ 与拒绝域

检验方式	拒绝域
双侧检验	$
左侧检验	$Z<-Z_\alpha$
右侧检验	$Z >Z_\alpha$

P 值决策

$ \mathrm{P}<\alpha $ ，拒绝 $ {H0} $

一个总体参数的小样本假设检验方法

总体参数的大样本 ($n<30$) 假设检验方法：

假设形式

形式	假设
双侧检验	$ \mathrm{H} 0: \mu=\mu 0, \mathrm{H} 1: \mu \neq \mu 0 $
左侧检验	$\mathrm{H} 0: \mu \geq \mu 0, \mathrm{H} 1: \mu<\mu 0$
右侧检验	$\mathrm{H} 0: \mu \leq \mu 0, \mathrm{H} 1: \mu>\mu 0$

相关变量

变量	描述
统计量分布	t 分布
$\bar{x}$	样本均值
$\mu$	假设的总体均值
$s$	样本标准差
$\sigma$	总体标准差
$n$	样本量
$t $ ($\sigma$ 已知)	检验统计量： $t=\frac{\bar{x}-\mu 0}{\sigma / \sqrt{n}}$
$t $ ($\sigma$ 未知)	检验统计量： $t=\frac{\bar{x}-\mu 0}{s / \sqrt{n}}$

$\alpha$ 与拒绝域

检验方式	拒绝域
双侧检验	$
左侧检验	$t<-t_\alpha(n-1)$
右侧检验	$t >t_\alpha(n-1)$

t值

$n$ 是样本量=10、自由度=$n-1$。当$α=0.05$时，临界值-双侧检验：$t0.025(9)$ 单侧检验 $t0.05(9)$

P值决策

一个总体成数的假设检验

样本成数：它是指样本中具有某一相同标志表现的单位数占样本容量的比重,记为p.

总体成数：它是指总体中具有某一相同标志表现的单位数占全部总体单位数的比重,一般用π表示.

方差估计：

样本可以分为具有该标志和不具有该标志的两种形式，具有该标志在整体样本中的比例为$\pi$，则随机选择整体中的一个样本，则该样本具有标志的概率为 $\pi$，则可以看做整体服从概率为 $\pi$ 的二项分布，因此方差为 $n\pi(1-\pi)$，同时根据棣莫佛－拉普拉斯定理，$n$ 充分大时可以用正态分布来计算二项分布的概率，因此此类问题可以转化为标准正态分布统计量 $z$。

假设形式

形式	假设
双侧检验	$ \mathrm{H} 0: \pi=\pi 0, \mathrm{H} 1: \pi \neq \pi 0 $
左侧检验	$\mathrm{H} 0: \pi \geq \pi 0, \mathrm{H} 1: \pi<\pi 0$
右侧检验	$\mathrm{H} 0: \pi \leq \pi 0, \mathrm{H} 1: \pi>\pi 0$

相关变量

变量	描述
统计量分布	标准正态分布
$P$	样本成数
$\pi0$	总体成数
$n$	样本量
$z $	检验统计量： $z=\frac{P-\pi 0}{\sqrt{\frac{\pi 0(1-\pi 0)}{n}}}$

$\alpha$ 与拒绝域

检验方式	拒绝域
双侧检验	$
左侧检验	$Z<-Z_\alpha$
右侧检验	$Z >Z_\alpha$

P值决策

$ \mathrm{P}<\alpha $ ，拒绝 $ \mathrm{H} 0 $

两个总体大样本参数的假设检验

大小样本：样本量大于等于30的样本称为大样本，样本量小于30的样本称为小样本。

假设形式

形式	假设
双侧检验	$ H 0: \quad \mu 1-\mu 2=0,\quad H 1: \quad \mu 1-\mu 2 \neq 0 $
左侧检验	$H 0: \quad \mu 1-\mu 2 \geq 0, \quad H 1: \quad \mu 1-\mu 2<0$
右侧检验	$H 0: \quad \mu 1-\mu 2 \leq 0, \quad H 1:\quad \mu 1-\mu 2>0$

相关变量

变量	描述
统计量分布	标准正态分布
$\bar{x}$	两个总体样本均值
$\mu$	两个总体的均值
$s$	样本标准差
$\sigma$	总体标准差
$n$	两个样本量
$z $ ($\sigma$ 已知)	检验统计量： $t=\frac{(\bar{x} 1-\bar{x} 2)-(\mu 1-\mu 2)}{\sqrt{\sigma1^{2} / n 1+\sigma 2^{2} / n 2}}$
$z $ ($\sigma$ 未知)	检验统计量： $z=\frac{(\bar{x} 1-\bar{x} 2)-(\mu 1-\mu 2)}{\sqrt{s 1^{2} / n 1+s 2^{2} / n 2}}$

$\alpha$ 与拒绝域

检验方式	拒绝域
双侧检验	$
左侧检验	$Z<-Z_\alpha$
右侧检验	$Z >Z_\alpha$

P 值决策：

$ \mathrm{P}<\alpha $ ，拒绝 $ \mathrm{H} 0 $

两个总体成数的假设检验

当$n_1P_1、n_1(1-P_1)、n_2P_2、n_2(1-p_2)$ 都大于或等于 5 时，就可以称为大样本。

假设形式

形式	假设
双侧检验	$H0 : π1-π2 =0 ，H1 : π1-π2≠0$
左侧检验	$H0 : π1-π2 ≥0 ，H1 : π1-π2<0$
右侧检验	$H0 : π1-π2 ≤0 ，H1 : π1-π2>0$

原假设若为： $H0: \pi1-\pi2=0 $ 或 $\pi1-\pi2\ge0$ 、$\pi1-\pi2\le0$

相关变量

变量	描述
统计量分布	标准正态分布
$p1,p2$	两个样本成数
$p$	两个样本的合并成数 $p=\frac{p 1 * n 1+p 2 * n 2}{n 1+n 2}$
$n1,n2$	两个样本量
$z $	检验统计量： $z=\frac{p 1-p 2}{\sqrt{p(1-p)(1 / n 1+1 / n 2)}}$

若原假设为: $ H 0: \quad \pi 1-\pi 2=d 0(d 0 \neq 0) $

相关变量

变量	描述
统计量分布	标准正态分布
$p1,p2$	两个样本成数
$n1,n2$	两个样本量
$z $	检验统计量： $z=\frac{(p 1-p 2)-d 0}{\sqrt{p 1(1-p 1) / n 1+p 2(1-p 2) / n 2}}$

$\alpha$ 与拒绝域

检验方式	拒绝域
双侧检验	$
左侧检验	$Z<-Z_\alpha$
右侧检验	$Z >Z_\alpha$

课件资料

参考资料

文章链接：
https://www.zywvvd.com/notes/study/probability/hypothesis-test/hypothesis-test/

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

又见苍岚

简介

用例

定义

假设

两类错误

弃真错误

取伪错误

显著性水平

检验方式

双侧检验

单侧检验

检验统计量

拒绝域

假设检验步骤

两种假设检验

一个大样本总体参数的假设检验

一个总体参数的小样本假设检验方法

一个总体成数的假设检验

两个总体大样本参数的假设检验

两个总体成数的假设检验

课件资料

参考资料