假设检验原理二:卡方检验

      假设检验原理一介绍了t检验,这篇博客则介绍另一个重要检验——卡方检验。卡方检验用于检验观测到的数据是否服从特定多项分布。

卡方检验操作过程

      假设一组服从多项分布的数据样本
\begin{eqnarray}
1,\quad 2,\quad 3,\quad 1,\quad 2
\end{eqnarray}
即有2个整数"1",2个整数"2"和1个整数"3"。如果要判断这个多项分布的概率是否等于 p=(0.4,0.5,0.1) ,便需要使用卡方检验了。卡方检验的主要步骤如下:

      步骤1. 建立零假设 \pmb{H}_0 和备选假设 \pmb{H}_1
\begin{eqnarray}
&\pmb{H}_0: \pmb{p} = (0.4,0.5,0.1) &\quad\quad \pmb{H}_1: p \neq (0.4,0.5,0.1) &
\end{eqnarray}
并限定显著性水平为 \alpha=0.05

      步骤2. 我们选择一个合适统计量 s
\begin{eqnarray}
s &=& \sum_{i \in \{1,2,3\}} \frac{(\bar{E_i}-E_i)^2}{E_i} \nonumber \\
&=& \frac{(2-5*0.4)^2}{5*0.4}+\frac{(2-5*0.5)^2}{5*0.5}+\frac{(1-5*0.1)^2}{5*0.1} \nonumber \\
&=& 0.6
\end{eqnarray}

      步骤3. 查卡方检验临界值表。待检测多项分布是3维概率,我们采用n=2(自由度为2)所对应的行;显著性水平为 \alpha=0.05 ,我们采用 \alpha=0.05 所对应的列。

Snip20151122_3

查表所得值为5.991。 s = 0.6 > 5.991 ,故我们拒绝零假设,认为 \pmb{H}_0:p != (0.4,0.5,0.1)

卡方检验导出

      导出卡方检验的关键是证明命题:一组相互独立的样本 x_1,...,x_n 服从多项分布 \pmb{p}=(p_1,...,p_k) (即零假设成立),统计量 s_n 依分布收敛于自由度为k-1的卡方分布。
\begin{eqnarray}
s_n = \sum_{j=1}^{k} \frac{(v_j - np_j)^2}{np_j} \rightarrow \chi^2_{k-1}
\end{eqnarray}
其中n是样本数, v_j 表示样本中等于第j个值的频数。如果统计量 s_n 服从自由度为k的卡方分布当然是极好的,但事实确实不是这样啊。

      证明过程有点繁琐,我们慢慢来。在证明之前,我们先引入如下三个引理。其中引理1是关于正态分布的性质,引理2和引理3是关于卡方分布的性质。

引理1:如果向量 \pmb{x} = (x_1,...,x_m) 的元素 x_i 相互独立并服从标准正态分布,将 \pmb{x} 转化到另一标准正交坐标系得到新坐标 \pmb{x}'=(x_1',...,x_m') ,新坐标的元素 x_i' 也相互独立并服从标准正态分布
引理2:如果一个随机变量X服从标准正态分布N(0,1),那么 X^2 服从自由度为1的卡方分布 \chi^2_1
引理3:如果 X_1,...,X_n 相互独立并且 X_i \sim \chi^2_{p_i} ,那么 X_1+...+X_n \sim \chi^2_{p_1+...+p_n}

      样本数据等于第j个值服从伯努利分布,概率为 p_j 。根据中心极限定理,我们有 \frac{v_j - np_j}{\sqrt{np_j(1-p_j)}} \rightarrow N(0,1) ,令 Z_{n,j} = \frac{v_j - np_j}{\sqrt{np_j}} ,我们有
\begin{eqnarray}
Z_{n,j} \rightarrow Z_{j} \sim N(0, 1-p_j)
\end{eqnarray}

      值得注意的是,因为 v_{j_1} 越大, v_{j_2} 就应该越小,从而 Z_{n,j_1} 值比较大则 z_{n,j_2} 值应该比较少。也就是说,随机变量 Z_{n,j_1} 和随机变量 z_{n,j_2} 会呈现负相关系。
\begin{eqnarray}
cov(Z_{n,j_1},Z_{n,j_2}) &=& E(Z_{n,j_1}Z_{n,j_2}) \nonumber \\
&=& \frac{E(v_{j_1}v_{j_2}) - n^2p_{j_1}p_{j_2}}{ n\sqrt{p_{j_1}p_{j_2}} } \nonumber \\
&=& -\sqrt{p_{j_1}p_{j_2}}
\end{eqnarray}
我们发现 cov(Z_{n,j_1},Z_{n,j_2}) 和n无关,得 Cov(Z_{j_1},Z_{j_2}) = -\sqrt{p_{j_1}p_{j_2}}

      综上所述,我们有
\begin{eqnarray}
s_n = \sum_{j=1}^{k}Z_{n,j}^2 \rightarrow \sum_{j=1}^{k}Z_{j}^2
\label{eq}
\end{eqnarray}
其中 Z_{j} 服从正态分布 N(0,1-p_j) ,并且 Cov(Z_{j_1},Z_{j_2}) = -\sqrt{p_{j_1}p_{j_2}} 。这时我们好像看到了曙光——应用引理2和引理3就能导出卡方统计量服从卡方分布。但注意到 Z_{j_1}Z_{j_2} 之间的负相关性,我们的希望破灭了。为此,我们得另辟蹊径。

      令向量 \pmb{g}=(g_1,...,g_k) 中的元素相互独立并且服从标准正态分布N(0,1),以及 \pmb{q}=(\sqrt{p_1},...,\sqrt{p_k}) 。再令 \pmb{u} = \pmb{g} - (\pmb{q}^{T}\pmb{g})\pmb{q} 。显然地, u_j 是期望为零的正态分布。为了证明 u_jZ_j 具有同样的分布,需证明下面两个命题:

            1, Var(u_j) = 1- p_j =Var(Z_j) 。证明如下:
\begin{eqnarray}
u_j &=& g_j - (\sum_{i=1}^{k}g_i \sqrt{p_i})\sqrt{p_j} \nonumber \\
&=& (1-p_j)g_j - \sum_{i!=j} \sqrt{p_i}\sqrt{p_j} g_i
\end{eqnarray}
计算随机变量 u_j 的特征函数 M_{u_j}(t) = \exp(-(1-p_j)t^2) ,从而 Var(u_j)=1-p_j

            2, Cov(u_{j_1},u_{j_2})=-\sqrt{p_{j_1}p_{j_2}} = Cov  (Z_{j_1},Z_{j_2}) 。证明如下:
\begin{eqnarray}
Cov(u_{j_1},u_{j_2}) &=& E[(u_{j_1} - E(u_{j_1}))(u_{j_2} - E(u_{j_2}))] \nonumber \\
&=& E[u_{j_1}u_{j_2}] \nonumber \\
&=& E[-g_{j_1}^2(1-p_{j_1})\sqrt{p_{j_1}p_{j_2}} - g_{j_2}^2(1-p_{j_2})\sqrt{p_{j_1}p_{j_2}} + \sum_{i \neq j_1, i\neq j_2}g_i^2p_i\sqrt{p_{j_1}p_{j_2} } ] \nonumber \\
&=& -\sqrt{p_{j_1}p_{j_2}}
\end{eqnarray}

      综上所述, u_jZ_j 具有一样的分布
\begin{eqnarray}
\sum_{j=1}^{k}Z_j^2 = \sum_{j=1}^{k}u_j^2
\label{two}
\end{eqnarray}

      设定一个标准正交坐标系的第一个基向量为 \pmb{q} (因为 ||\pmb{q}||=1 )。将向量 \pmb{g} 转化到这个标准正交坐标系得 \pmb{g}'=(g_1',...,g_k') 。根据引理1, \pmb{g}' 中的元素相互独立并且服从标准正态分布。令向量 \pmb{g} 转化到这个标准正交坐标系得 \pmb{g}'=(g_1',...,g_k') 的过程可以这么理解:

            1. \pmb{g}\pmb{q} 投影为 (\pmb{g}^t\pmb{q})\pmb{q} ,即得 g_1'=\pmb{g}^t\pmb{q}

            2. \pmb{g} 减去其在 \pmb{q} 的投影,得 \pmb{g} - (\pmb{q}^{T}\pmb{g})\pmb{q}=\pmb{u}\pmb{u} 投影到其他基向量,便可得到 g_2',...,g_k'

      这个两个步骤告诉我们, \pmb{u} 在新坐标系中的坐标为 (0,g_2',...,g_k') ,又因为 \pmb{g}' 中的元素相互独立并且服从标准正态分布。根据引理2和引理3,我们有
\begin{eqnarray}
\sum_{j=1}^{k}u_j^2 = \sum_{j=2}^{k}(g_j')^2 \sim \chi^2_{k-1}
\label{tran}
\end{eqnarray}

      结合公式 7,10 和 11,可得 s_n \rightarrow chi^2_{k-1} ,命题得证。

      总结一下证明思路:1)证明卡方统计量依分布收敛于 \sum_{j=1}^{k}Z_{j}^2 ,其中 Z_{j} 服从正态分布并且两两之间呈负相关,即得公式7;2)通过坐标变换, \sum_{j=1}^{k}Z_{j}^2 等于 k-1 个相互独立的服从标准正态分布的变量平方和,即得公式 10 和 11。结合公式这两部分,便可证明命题。

      下图便是卡方分布的概率密度分布图。大家随意感受一下。
                                                  Snip20151122_1

卡方检验应用于特征选择

      卡方检验可以应用于特征选择。基于卡方检验的特征选择,计算每一个特征的卡方统计量,然后选择卡方统计量比较大的特征。假设文本分类中,类别一共只有两种“体育类”和“非体育类”。比如其中一个特征是文章是否包含词“篮球”。那么如下所示,会有四个项目——包括“篮球”体育类、包括“篮球”非体育类、不包括“篮球”体育类、不包括“篮球”非体育类。

词\类别体育非体育类合计
包含“篮球”文章ABA+B
不包含“篮球”文章CDC+D
合计A+CB+DN=A+B+C+D

其中N表示文章总数。如果零假设成立,特征“篮球”和类别相互独立,那么我们有
\begin{eqnarray}
p(篮球,体育)&=& p(篮球)p(体育) = \frac{A+B}{N}\frac{A+C}{N} \nonumber \\
p(篮球,非体育)&=& \frac{A+B}{N}\frac{B+D}{N} \nonumber \\
p(不包含篮球,体育)&=& \frac{C+D}{N}\frac{A+C}{N} \nonumber \\
p(不包含篮球,非体育)&=& \frac{C+D}{N}\frac{B+D}{N} \nonumber
\end{eqnarray}
这时候,卡方统计量如下公式所示
\begin{eqnarray}
s(篮球,体育) &=& \frac{(A-Np(篮球,体育))^2}{Np(篮球,体育)} \nonumber \\
& \quad+ & \frac{(B-Np(篮球,非体育))^2}{Np(篮球,非体育)} \nonumber \\
& \quad+ & \frac{(C-Np(不包含篮球,体育))^2}{Np(不包含篮球,体育)} \nonumber \\
& \quad+ & \frac{(D-Np(不包含篮球,非体育))^2}{Np(不包含篮球,非体育)} \nonumber \\
&=& \frac{N(AD-BC)^2}{(A+B)(A+C)(B+D)(C+D)}
\end{eqnarray}
按照这种方法,我们还可以计算s(排球,体育),s(战斗机,体育),s(电视剧,体育)等不同特征的卡方统计量。一个特征的卡方统计量比较大,我们倾向于拒绝零假设(换句话说,我们倾向于认为该特征变量和类别变量不是相互独立的),从而保留这个特征。

      应用于特征选择的卡方检验,关注特征变量和类别变量是否相互独立。因此某些资料也认为卡方检验是独立性检验。上面的卡方检验涉及四个项目(即表中 A, B, C 和 D ),故而上面的卡方检验又称四格表资料检验。

      文章结尾欢迎关注我的公众号 AlgorithmDog,每周日的更新就会有提醒哦~

weixin_saomiao

      

假设检验系列系列文章

此条目发表在假设检验, 数学基础分类目录,贴了标签。将固定链接加入收藏夹。

假设检验原理二:卡方检验》有 2 条评论

  1. 陈辰说:

    请教一下:(9)Cov(uj1,uj2)的第三步为何可以直接得到结果−开方(pj1·pj2)。

  2. 陈辰说:

    还有,方程(6)中间步骤分子上是不是个n,而不是标注出的n的平方?

发表评论

电子邮件地址不会被公开。