一张图的故事——概率分布之间的关系(上)

      概率分布之间的关系是个有趣的话题。若要一张图简要概述概率分布之间的关系,下图是经典。本文将从上到下,从左到右解释这张图。本来要全部写完才发布的。不过考虑到明天就回家了,家里没有网肯定写不了,所以先发布一部分,剩余部分国庆之后补上。另外求该图的原始出处。

relationships among distributions

      1. \(M(n,\pi_1,\pi_2,..\pi_n) \overset{J=2}{\rightarrow} Bin(n,\pi)\)。多项分布的项数等于二,则变成二项分布。

      2. \(Bb(n,\alpha,\beta) \overset{\pi=\frac{\alpha}{\alpha+\beta}}{\rightarrow} Bin(n,\pi)\)。Beta-binomial分布,就是Beta分布和二项分布这一对共轭分布的结合。假设
\begin{eqnarray}
\pi \sim beta(\alpha,\beta) \nonumber \\
X \sim binomial(n,\pi) \nonumber
\end{eqnarray}
则\(X|n,\alpha,\beta\)就是满足Beta-binomial分布。我们可以计算Beta-binomial的概率
\begin{eqnarray}
p(x|n,\alpha,\beta) & = & \int_{0}^{1} C_{n}^{x}\pi^x(1-\pi)^{(n-x)} \frac{1}{B(\alpha,\beta)} \pi^{(\alpha-1)}(1-\pi)^{(\beta-1)}d_{\pi} \nonumber \\
&=& C_{n}^{x}\frac{B(\alpha+x,\beta+n-x)}{B(\alpha,\beta)}
\end{eqnarray}
后面推不下去了(囧里个囧)。等我有能力看懂文献1,再补全。

      3. \(NBin(r,\theta) \overset{r->\infty,u=r(1-\theta)}{\rightarrow} po(u) \) 。Negative Binomial描述这样的场景:我们不停地做抛银币实验,每次正面概率为\(\theta\)。我们经历了第X次反面之后得到第r次正面, 则X符合Negative Binomial分布。易知概率公式如下所示
\begin{eqnarray}
p(x|r,\theta)
&= & C_{r+x-1}^{x}\theta^r(1-\theta)^{x} \nonumber \\
&= & \frac{(r+x-1)!}{x!(r-1)!}(1-\frac{u}{r})^r(\frac{u}{r})^{x} \qquad u=r(1-\theta) \nonumber \\
&= & \frac{(r+x-1)…r}{r^x}\frac{(1-\frac{u}{r})^{r}u^{x}}{x!} \nonumber \\
&= & 1*(1+\frac{1}{r})…(1+\frac{x-1}{r})\frac{(1-\frac{u}{r})^{r}u^{x}}{x!}
\end{eqnarray}

      因为\(1*(1+\frac{1}{r})…(1+\frac{x-1}{r}) \overset{r->\infty}{\rightarrow} 1\), \( (1-\frac{u}{r})^{r} \overset{r->\infty}{\rightarrow} e^{-u}\)。
\begin{eqnarray}
lim_{r->\infty}p(x|r,\theta) = \frac{u^xe^{-u}}{x!}
\end{eqnarray}

      4. \(Bin(n,\theta) \overset{n->\infty,u=n\theta}{\rightarrow} po(u) \) ,即二项分布随着n趋近于无穷而趋近于泊松分布。
\begin{eqnarray}
&& lim_{n->\infty}p(x|n,\theta) \nonumber \\
&= &lim_{n->\infty}C_{n}^{x}\theta^x(1-\theta)^{n-x} \nonumber \\
& = & lim_{n->\infty}\frac{n!}{x!(n-x)!} (\frac{u}{n})^x (1 – \frac{u}{n})^{n} (1 – \frac{u}{n})^{-x} \qquad u=n\theta \nonumber \\
& = & lim_{n->\infty}\frac{n!}{n^x(n-x)!} \frac{u^x}{x!} (1 – \frac{u}{n})^{n} (1 – \frac{u}{n})^{-x} \nonumber \\
& = & \frac{u^xe^{-u}}{x!} \qquad 参照NBin->po的证明过程
\end{eqnarray}

      历史上,泊松分布是这样推导出来的。实际上,我们可以这么理解:1个小时内通过某个路口的车辆数符合泊松分布。1个小时是由60分钟内组成的,每分钟通过某个路口的车辆数也满足泊松分布。1分钟是由60秒内组成的,每秒通过某个路口的车辆数也满足泊松分布。。。但是,当我们不停的细分下去,一段时间变成无数多个时刻之后,每个时刻只能以一定概率通过一辆车(一个时刻只能通过一辆)。这时通过的汽车数就变成n为无穷的二项分布了。

      5. \(Bin(n,\theta) \leftrightarrow B(\pi) \) 。二项分布的每次实验都是伯努利实验。

      6. \(po(u) \overset{\sigma^2=u,u>15}{\rightarrow} N(u,\sigma^2) \) 。泊松分布近似正态分布。在证明这个近似之前,我们先介绍一个统计学上个概念,Moment Generation Function (MGF)。随机变量\(X\)服从任意分布,如下定义MGF:
\begin{eqnarray}
M_X(t)=E[e^{tX}]
\end{eqnarray}

      MGF有一个重要的性质:如果两个分布的MGF相等,则这两个分布是相同的。因此,只要我们证明泊松分布的MGF趋近于正态分布的MGF,就证明泊松分布近似正态分布。泊松分布\(po(u)\)的MGF:
\begin{eqnarray}
&&M_X(t) \nonumber \\
&=& \sum_{x=0}^{\infty}\frac{u^x e^{-u+tx}}{x!} \nonumber \\
&=& e^{-u }\sum_{x=0}^{\infty}\frac{(u e^{t})^x}{x!} \nonumber \\
&=& e^{u e^t – u} \qquad \sum_{x=0}^{\infty}\frac{(u e^{t})^x}{x!}是e^{u e^t}的泰勒展开 \nonumber \\
&\approx& e^{u t + \frac{1}{2}ut^2} \qquad e^t= \sum_{x=0}^{\infty}\frac{(t)^x}{x!} \approx 1+ t + \frac{1}{2} t^2
\label{eq:possionmgf}
\end{eqnarray}
正态分布的MGF:
\begin{eqnarray}
M_X(t) &=& \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-u)^2}{2\sigma^2}} e^{tx}d_x \nonumber \\
&=& e^{ut+\frac{\sigma^2 t^2 }{2}} \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-u-\sigma^2 t)^2}{2\sigma^2}} e^{tx}d_x = e^{ut+\frac{\sigma^2 t^2 }{2}}
\label{eq:normalmgf}
\end{eqnarray}
根据公式\ref{eq:possionmgf}和\ref{eq:normalmgf},易知当\(\sigma^2=u\)时,泊松分布的MGF近似于正态分布的MGF,因此泊松分布近似于正态分布。

      7. \(Bin(n,\pi) \overset{u=n\pi,\sigma^2=n\pi(1-\pi),u>15,n\pi(1-\pi)>15}{\rightarrow} N(u,\sigma^2) \)。 这里我们需要用到中心极限定理。 假设X_1,X_2,…,X_n是服从任意分布的独立同分布样本,\(E(X_i) = u\)并且\(Var(X_i)=\sigma^2 > 0\), 则随着\(n \rightarrow \infty\),\(\frac{\sum_{i=1}^{n}X_i – nu}{\sqrt{n}\sigma} \sim N(0,1)\)。 我们进行n次成功的概率为\(\pi\)的bernouli实验,成功的次数为\(X\),则根据二项分布的定义,
\begin{eqnarray}
X \sim Bin(n,\pi)
\label{eq:n1}
\end{eqnarray}
而根据中心极限定理,随着n趋近无穷,\(\frac{X – n\pi}{\sqrt{n\pi(1-\pi)}} \sim N(0,1)\),即
\begin{eqnarray}
X \sim N(n\pi, n\pi(1-\pi))
\label{eq:n2}
\end{eqnarray}
综合公式\ref{eq:n1}和\ref{eq:n2}便可得到结论。

      8. \(N(0,1) \leftrightarrow N(u,\sigma^2) \)。标准正态分布和一般正态分布的关系。

      9. \(MVN(\pmb{u},\pmb{\sigma}) \leftrightarrow N(u,\sigma^2) \)。正态分布是多元正态分布的一种特例。

      10. \(t(n) \overset{n \rightarrow \infty}{\rightarrow} N(0,1) \)。\(t(n)\)表示自由度为n的Student t分布。Student t-分布可简称为t分布。其推导由威廉·戈塞于1908年首先发表,当时他在酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了学生(Student)这一笔名。之后t检验以及相关理论经由罗纳德·费雪的工作发扬光大,而正是他将此分布称为Student t 分布。

      如果\(X1,X2,…,X_n\)是服从\(n(u,\sigma)\)的独立同分布的样本。我们知道\(\frac{\bar{X}-u} {\sigma/\sqrt{n}} \)服从\(u(0,1)\)分布,其中\(\bar{X}=\sum_{i=1}^nX_i\)。由于\(\sigma\)一般是未知的,我们不能用\(\frac{\bar{X}-u} {\sigma/\sqrt{n}} \)估计u。但是如果我们知道\(\frac{\bar{X}-u} {S/\sqrt{n}} \)的分布,其中\(S=\frac{1}{n-1}\sum_{i=1}^nX_i\),我们就能估计u了。事实上,\(\frac{\bar{X}-u} {S/\sqrt{n}} \)满足t分布。t分布的公式:
\begin{eqnarray}
p(t) = \frac{\Gamma(\frac{n+1}{2})} {\Gamma(\frac{n}{2})} \frac{1}{\sqrt{n\pi}} \frac{1}{(1+t^2/n)^{(n+1)/2}}
\end{eqnarray}

      我们先处理t分布公式的前半部分。先假设n为偶数的情况,即\(n = 2k\)。n为奇数的情况类似,不详述。
\begin{eqnarray}
&&\frac{\Gamma(\frac{n+1}{2})} {\Gamma(\frac{n}{2})} \frac{1}{\sqrt{n\pi}}\nonumber \\
&=& \frac{\Gamma(k+\frac{1}{2})}{\Gamma(k)} \frac{1}{\sqrt{n\pi}} \nonumber \\
&=& \frac{(2k)!\sqrt{\pi} } { (k!)^2 4^k } \frac{1}{\sqrt{n\pi}} \quad \Gamma(k+\frac{1}{2}) = \frac{(2k)!\sqrt{\pi} } { (k!) 4^k } \nonumber \\
&\approx& \frac{\sqrt{2\pi 2k} e^{-2k} (2k)^{2k} \sqrt{\pi}}{(\sqrt{2\pi k} e^{-k} k^k)^2 4^k} \frac{1}{\sqrt{n\pi}} \quad Stirling公式 n! \approx \sqrt{2\pi n} e^{-n} n^n \nonumber \\
&=& \frac{1}{\sqrt{2\pi}}
\label{eq:tfore}
\end{eqnarray}

      我们接着处理t分布公式的后半部分。
\begin{eqnarray}
&&\frac{1}{(1+t^2/n)^{(n+1)/2}} \nonumber \\
&=& \frac{1}{(1+\frac{t^2/2}{n/2})^{n/2}} \frac{1}{(1+t^2/n)^{1/2}} \nonumber \\
&\overset{n \rightarrow \infty} {\rightarrow}& e^{-t^2/2}
\label{eq:tlatter}
\end{eqnarray}

      综合公式\ref{eq:tfore}和公式\ref{eq:tlatter},得出结论:当n很大时,t分布近似于标准正态分布。

      11. \(N(0,1) \overset{X_1^2+X_2^2+…+X_n^2}{\rightarrow} \chi^2(n) \)。\(\chi^2(n)\)是自由度为n的卡方分布。标准正态分布和卡方分布的关系是天然的,因为卡方分布就是这么定义出来(囧里个囧)。根据这个定义,可以推导出卡方分布的概率密度公式。
\begin{eqnarray}
p(x) = \frac{1}{\Gamma(n/2)2^{n/2}}x^{n/2-1}e^{-x/2}
\end{eqnarray}

      12. \(G(\alpha,\beta) \overset{\alpha = n/2,\beta = 2} {\rightarrow}\chi^2(n) \)。 卡方分布是Gamma分布的一种特殊形式。Gamma分布的概率密度公式:
\begin{eqnarray}
p(x|\alpha,\beta) = \frac{1}{\Gamma(\alpha)\beta^{\alpha}}x^{\alpha-1}e^{-x/\beta} \quad x \ge 0
\end{eqnarray}

需要说明的是,原图的转化条件有错。正确的转化条件是\(\alpha = n/2,\beta = 2\), 而不是\(\beta = n/2,\alpha = 2\)。

      13. \(G(\alpha,\beta) \overset{u=\alpha\beta, \sigma^2 = \alpha\beta^2, \alpha \rightarrow \infty} {\rightarrow}N(u,\sigma^2) \)。Gamma分布有一个重要性质:可加性。即假设X_1,X_2,…,X_n是服从\(Gamma(\bar{\alpha},\beta)\)的独立同分布样本,则有\(\sum_{i=1}^{n}X_i \sim Gamma(\alpha,\beta) \), 其中\(\alpha=n\bar{\alpha}\)。易求得Gamma分布的期望和方差:\(E(X_i) = \bar{\alpha}\beta, Var(X_i) = \bar{\alpha}\beta^2\), 根据中心极限定理, 随着\(n \rightarrow \infty\),
\begin{eqnarray}
\frac{\sum_{i=1}^{n}X_i – n\bar{\alpha}\beta}{\sqrt{n\bar{\alpha}\beta^2}} \sim N(0,1)
=>\sum_{i=1}^{n}X_i \sim N(\alpha\beta, n\alpha\beta^2)
\end{eqnarray}
因此我们很容易得出:
\begin{eqnarray}
Gamma(n\alpha,\beta) \rightarrow N(n\alpha\beta,\alpha\beta^2)
\end{eqnarray}

      需要说明的是,原图的转化条件有错。正确的转化条件是\(u=\alpha\beta, \sigma^2 = \alpha\beta^2, \alpha \rightarrow \infty\), 而不是\(u=\alpha/\beta, \sigma^2 = \alpha/\beta^2, \alpha \rightarrow \infty\)。写到这,我回过味来了,难道是原图中的Gamma分布用了不一样的形式? 满地打滚,再次求原图的出处!

1 Teerapabolarn, K. “A bound on the binomial approximation to the beta binomial distribution.” International Mathematical Forum. Vol. 3. No. 28. 2008.

此条目发表在数学基础分类目录,贴了标签。将固定链接加入收藏夹。

一张图的故事——概率分布之间的关系(上)》有 5 条评论

  1. acs说:

    请问下主图源自哪篇论文呢?

  2. 好的,了解。谢谢您~。

发表评论

电子邮件地址不会被公开。