假设检验原理三: F 检验

      这篇博客介绍第三个重要检验——F检验。

      在介绍t分布的时候,我们提到“根据两个正态分布的反差是否相等,非配对双体t检验可以分为两种,一种方差相等而另一种方差不相等”。观察到两组不同正态分布生成的数据,怎么判断是这两组正态分布的方差是否一致呢?这就要用到F检验了。F检验又叫方差齐性检验,用于检验两组服从正态分布的样本是否具有相同的总体方差,即方差齐性。

F检验操作过程

      假设两组服从不同正态分布的数据样本

(1)   \begin{eqnarray*} \pmb{x}:&1,\quad 2,\quad 3,\quad 1,\quad 2 \nonumber \ \pmb{y}:&1,\quad 3,\quad 2,\quad 2 \nonumber \end{eqnarray*}

我们使用F检验检查这两组数据的总体方差是否相等。F 检验的主要步骤如下:

      步骤1. 设(\pmb{x} \sim N(u_1,\sigma^2_1))以及(\pmb{y} \sim N(u_2,\sigma^2_2))。建立零假设(\pmb{H}_0)和备选假设(\pmb{H}_1)。

(2)   \begin{eqnarray*} &\pmb{H}_0: \sigma_1^2 = \sigma_2^2 &\quad\quad \pmb{H}_1:  \sigma_1^2 \neq \sigma_2^2 & \end{eqnarray*}

显著性水平设为(\alpha=0.10)

      步骤2. 我们选择一个合适统计量(s = \frac{s_x^2}{s_y^2}),其中(s_x^2)为(\pmb{x})的样本方差,(s_y^2)为(\pmb{y})的样本方差。

(3)   \begin{eqnarray*} s_x^2    &=& 0.7  \nonumber \ s_y^2    &=& 0.72 \nonumber \ s &=&\frac{s_x^2}{s_y^2} = 0.972 \end{eqnarray*}

      步骤3. 查F检验临界值表。样本(\pmb{x})有5个数据,因此我们采用分子自由度为4所对应的列;样本(\pmb{y})有4个数据,因此我们采用分母自由度为3所对应的大行;显著性水平为(\alpha=0.10),我们采用(p=0.10)所对应的小行。

                                          F_criteria

查表所得值为28.71。(s = 0.972 < 28.71),故我们介绍零假设,认为(\pmb{H}_0: \sigma_1^2 = \sigma_2^2 )。

F检验的导出

      导出 F 检验的关键是证明命题:(\pmb{x} \sim N(u_1,\sigma^2))以及(\pmb{y} \sim N(u_1,\sigma^2))(即零假设成立),统计量s

(4)   \begin{eqnarray*} s=\frac{s_x^2}{s_y^2} \sim F(n_1-1,n_2-1) \end{eqnarray*}

其中(n_1)是样本(\pmb{x})的样本数量,(n_2)是样本(\pmb{y})的样本数量。

      证明:令(p_1=n_1-1)和(p_2=n_2-1)。(\pmb{x})中的元素相互独立并且服从正态分布(N(0,\sigma^2)),因此(p_1s_x^2/\sigma^2)服从自由度为(p_1)的 F 分布(t检验导出也用到了这个命题,具体证明见http://www.math.uah.edu/stat/sample/Normal.html第六个性质)。同理(p_2s_y^2/\sigma^2)服从自由度为(p_2)的 F 分布。

(5)   \begin{eqnarray*} s=\frac{s_x^2}{s_y^2} = \frac{p_1s_x^2/\sigma^2}{p_2s_y^2/\sigma^2} \frac{p_2}{p_1} \end{eqnarray*}

即(s)可以写成(\frac{u}{v}\frac{p_2}{p_1})的形式,其中u服从自由度为(p_1)的 F 分布,v服从自由度为(p_2)的 F 分布。再令(t=v),我们有

(6)   \begin{eqnarray*} s = \frac{u}{v}\frac{p_2}{p_1},\quad t = v \nonumber \ \Rightarrow u = \frac{p_1}{p_2} st,\quad v = t \nonumber  \end{eqnarray*}

此时,这个随机变量转换的雅克比矩阵行列式为(\frac{p_1}{p_2}t),可求得s和t的联合概率为

(7)   \begin{eqnarray*} p(s,t) &=& \frac{p_1}{p_2} t \frac{1}{\Gamma(\frac{p_1}{2})\Gamma(\frac{p_2}{2})2^{\frac{p_1+p_2}{2}}}  \nonumber \        &&  (\frac{p_1}{p_2} st) ^{\frac{p_1}{2}-1} \exp(-\frac{p_1}{p_2} st/2) t^{\frac{p_2}{2}-1}\exp(-t/2) \nonumber \        &=& \frac{p_1}{p_2} ^{\frac{p_1}{2}} \frac{1}{\Gamma(\frac{p_1}{2})\Gamma(\frac{p_2}{2})2^{\frac{p_1+p_2}{2}}} s ^{\frac{p_1}{2}-1} [ t^{\frac{p_1+p_2}{2}} \exp(-\frac{p_1}{p_2} st/2-t/2)] \end{eqnarray*}

再对t求积分。我们发现上面公式只有中括号里面的项和t有关,而且中括号项可以看成(\alpha=\frac{p_1+p_2}{2},\beta=\frac{2p_2}{p_1s+p_2})的伽马分布的变量部分,从而求得s的概率密度函数。

(8)   \begin{eqnarray*} p(s) = \frac{p_1}{p_2} ^{\frac{p_1}{2}} \frac{1}{\Gamma(\frac{p_1}{2})\Gamma(\frac{p_2}{2})2^{\frac{p_1+p_2}{2}}} s ^{\frac{p_1}{2}-1} \Gamma(\frac{p_1+p_2}{2})(\frac{2p_2}{p_1s+p_2})^{\frac{p_1+p_2}{2}} \end{eqnarray*}

化简得

(9)   \begin{eqnarray*} p(s) &=& \frac{\Gamma(\frac{p_1+p_2}{2})}{\Gamma(\frac{p_1}{2})\Gamma(\frac{p_2}{2})} p_1^{\frac{p_1}{2}}  p_2^{\frac{p_2}{2}} (\frac{1}{p_1s+p_2})^{\frac{p_1+p_2}{2}} s^{\frac{p_1}{2}-1} \nonumber \     &=& \frac{\Gamma(\frac{p_1+p_2}{2})}{\Gamma(\frac{p_1}{2})\Gamma(\frac{p_2}{2})} (\frac{p_1}{p_2})^{\frac{p_1}{2}}(1+\frac{p_1}{p_2}s)^{-\frac{p_1+p_2}{2}} s^{\frac{p_1}{2}-1}  \end{eqnarray*}

这个就是(F(p_1,p_2))的概率密度函数,从而导出了F检验。

      F-分布的概率密度分布图如下所示,大家感受下。

                                          F检验之F分布

      文章结尾欢迎关注我的公众号 AlgorithmDog,每周日的更新就会有提醒哦~

weixin_saomiao

      

假设检验系列系列文章

此条目发表在假设检验, 数学基础分类目录,贴了标签。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。