一张图的故事——概率分布之间的关系(上)

      概率分布之间的关系是个有趣的话题。若要一张图简要概述概率分布之间的关系,下图是经典。本文将从上到下,从左到右解释这张图。本来要全部写完才发布的。不过考虑到明天就回家了,家里没有网肯定写不了,所以先发布一部分,剩余部分国庆之后补上。另外求该图的原始出处。

relationships among distributions

      1. (M(n,\pi_1,\pi_2,..\pi_n) \overset{J=2}{\rightarrow} Bin(n,\pi))。多项分布的项数等于二,则变成二项分布。

      2. (Bb(n,\alpha,\beta) \overset{\pi=\frac{\alpha}{\alpha+\beta}}{\rightarrow} Bin(n,\pi))。Beta-binomial分布,就是Beta分布和二项分布这一对共轭分布的结合。假设
\begin{eqnarray}
\pi \sim beta(\alpha,\beta) \nonumber \
X \sim binomial(n,\pi) \nonumber
\end{eqnarray}
则(X|n,\alpha,\beta)就是满足Beta-binomial分布。我们可以计算Beta-binomial的概率
\begin{eqnarray}
p(x|n,\alpha,\beta) & = & \int_{0}^{1} C_{n}^{x}\pi^x(1-\pi)^{(n-x)} \frac{1}{B(\alpha,\beta)} \pi^{(\alpha-1)}(1-\pi)^{(\beta-1)}d_{\pi} \nonumber \
&=& C_{n}^{x}\frac{B(\alpha+x,\beta+n-x)}{B(\alpha,\beta)}
\end{eqnarray}
后面推不下去了(囧里个囧)。等我有能力看懂文献1,再补全。

      3. (NBin(r,\theta) \overset{r->\infty,u=r(1-\theta)}{\rightarrow} po(u) ) 。Negative Binomial描述这样的场景:我们不停地做抛银币实验,每次正面概率为(\theta)。我们经历了第X次反面之后得到第r次正面, 则X符合Negative Binomial分布。易知概率公式如下所示
\begin{eqnarray}
p(x|r,\theta)
&= & C_{r+x-1}^{x}\theta^r(1-\theta)^{x} \nonumber \
&= & \frac{(r+x-1)!}{x!(r-1)!}(1-\frac{u}{r})^r(\frac{u}{r})^{x} \qquad u=r(1-\theta) \nonumber \
&= & \frac{(r+x-1)…r}{r^x}\frac{(1-\frac{u}{r})^{r}u^{x}}{x!} \nonumber \
&= & 1*(1+\frac{1}{r})…(1+\frac{x-1}{r})\frac{(1-\frac{u}{r})^{r}u^{x}}{x!}
\end{eqnarray}

      因为(1*(1+\frac{1}{r})…(1+\frac{x-1}{r}) \overset{r->\infty}{\rightarrow} 1), ( (1-\frac{u}{r})^{r} \overset{r->\infty}{\rightarrow} e^{-u})。
\begin{eqnarray}
lim_{r->\infty}p(x|r,\theta) = \frac{u^xe^{-u}}{x!}
\end{eqnarray}

      4. (Bin(n,\theta) \overset{n->\infty,u=n\theta}{\rightarrow} po(u) ) ,即二项分布随着n趋近于无穷而趋近于泊松分布。
\begin{eqnarray}
&& lim_{n->\infty}p(x|n,\theta) \nonumber \
&= &lim_{n->\infty}C_{n}^{x}\theta^x(1-\theta)^{n-x} \nonumber \
& = & lim_{n->\infty}\frac{n!}{x!(n-x)!} (\frac{u}{n})^x (1 – \frac{u}{n})^{n} (1 – \frac{u}{n})^{-x} \qquad u=n\theta \nonumber \
& = & lim_{n->\infty}\frac{n!}{n^x(n-x)!} \frac{u^x}{x!} (1 – \frac{u}{n})^{n} (1 – \frac{u}{n})^{-x} \nonumber \
& = & \frac{u^xe^{-u}}{x!} \qquad 参照NBin->po的证明过程
\end{eqnarray}

      历史上,泊松分布是这样推导出来的。实际上,我们可以这么理解:1个小时内通过某个路口的车辆数符合泊松分布。1个小时是由60分钟内组成的,每分钟通过某个路口的车辆数也满足泊松分布。1分钟是由60秒内组成的,每秒通过某个路口的车辆数也满足泊松分布。。。但是,当我们不停的细分下去,一段时间变成无数多个时刻之后,每个时刻只能以一定概率通过一辆车(一个时刻只能通过一辆)。这时通过的汽车数就变成n为无穷的二项分布了。

      5. (Bin(n,\theta) \leftrightarrow B(\pi) ) 。二项分布的每次实验都是伯努利实验。

      6. (po(u) \overset{\sigma^2=u,u>15}{\rightarrow} N(u,\sigma^2) ) 。泊松分布近似正态分布。在证明这个近似之前,我们先介绍一个统计学上个概念,Moment Generation Function (MGF)。随机变量(X)服从任意分布,如下定义MGF:
\begin{eqnarray}
M_X(t)=E[e^{tX}]
\end{eqnarray}

      MGF有一个重要的性质:如果两个分布的MGF相等,则这两个分布是相同的。因此,只要我们证明泊松分布的MGF趋近于正态分布的MGF,就证明泊松分布近似正态分布。泊松分布(po(u))的MGF:
\begin{eqnarray}
&&M_X(t) \nonumber \
&=& \sum_{x=0}^{\infty}\frac{u^x e^{-u+tx}}{x!} \nonumber \
&=& e^{-u }\sum_{x=0}^{\infty}\frac{(u e^{t})^x}{x!} \nonumber \
&=& e^{u e^t – u} \qquad \sum_{x=0}^{\infty}\frac{(u e^{t})^x}{x!}是e^{u e^t}的泰勒展开 \nonumber \
&\approx& e^{u t + \frac{1}{2}ut^2} \qquad e^t= \sum_{x=0}^{\infty}\frac{(t)^x}{x!} \approx 1+ t + \frac{1}{2} t^2
\label{eq:possionmgf}
\end{eqnarray}
正态分布的MGF:
\begin{eqnarray}
M_X(t) &=& \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-u)^2}{2\sigma^2}} e^{tx}d_x \nonumber \
&=& e^{ut+\frac{\sigma^2 t^2 }{2}} \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-u-\sigma^2 t)^2}{2\sigma^2}} e^{tx}d_x = e^{ut+\frac{\sigma^2 t^2 }{2}}
\label{eq:normalmgf}
\end{eqnarray}
根据公式\ref{eq:possionmgf}和\ref{eq:normalmgf},易知当(\sigma^2=u)时,泊松分布的MGF近似于正态分布的MGF,因此泊松分布近似于正态分布。

      7. (Bin(n,\pi) \overset{u=n\pi,\sigma^2=n\pi(1-\pi),u>15,n\pi(1-\pi)>15}{\rightarrow} N(u,\sigma^2) )。 这里我们需要用到中心极限定理。 假设X_1,X_2,…,X_n是服从任意分布的独立同分布样本,(E(X_i) = u)并且(Var(X_i)=\sigma^2 > 0), 则随着(n \rightarrow \infty),(\frac{\sum_{i=1}^{n}X_i – nu}{\sqrt{n}\sigma} \sim N(0,1))。 我们进行n次成功的概率为(\pi)的bernouli实验,成功的次数为(X),则根据二项分布的定义,
\begin{eqnarray}
X \sim Bin(n,\pi)
\label{eq:n1}
\end{eqnarray}
而根据中心极限定理,随着n趋近无穷,(\frac{X – n\pi}{\sqrt{n\pi(1-\pi)}} \sim N(0,1)),即
\begin{eqnarray}
X \sim N(n\pi, n\pi(1-\pi))
\label{eq:n2}
\end{eqnarray}
综合公式\ref{eq:n1}和\ref{eq:n2}便可得到结论。

      8. (N(0,1) \leftrightarrow N(u,\sigma^2) )。标准正态分布和一般正态分布的关系。

      9. (MVN(\pmb{u},\pmb{\sigma}) \leftrightarrow N(u,\sigma^2) )。正态分布是多元正态分布的一种特例。

      10. (t(n) \overset{n \rightarrow \infty}{\rightarrow} N(0,1) )。(t(n))表示自由度为n的Student t分布。Student t-分布可简称为t分布。其推导由威廉·戈塞于1908年首先发表,当时他在酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了学生(Student)这一笔名。之后t检验以及相关理论经由罗纳德·费雪的工作发扬光大,而正是他将此分布称为Student t 分布。

      如果(X1,X2,…,X_n)是服从(n(u,\sigma))的独立同分布的样本。我们知道(\frac{\bar{X}-u} {\sigma/\sqrt{n}} )服从(u(0,1))分布,其中(\bar{X}=\sum_{i=1}^nX_i)。由于(\sigma)一般是未知的,我们不能用(\frac{\bar{X}-u} {\sigma/\sqrt{n}} )估计u。但是如果我们知道(\frac{\bar{X}-u} {S/\sqrt{n}} )的分布,其中(S=\frac{1}{n-1}\sum_{i=1}^nX_i),我们就能估计u了。事实上,(\frac{\bar{X}-u} {S/\sqrt{n}} )满足t分布。t分布的公式:
\begin{eqnarray}
p(t) = \frac{\Gamma(\frac{n+1}{2})} {\Gamma(\frac{n}{2})} \frac{1}{\sqrt{n\pi}} \frac{1}{(1+t^2/n)^{(n+1)/2}}
\end{eqnarray}

      我们先处理t分布公式的前半部分。先假设n为偶数的情况,即(n = 2k)。n为奇数的情况类似,不详述。
\begin{eqnarray}
&&\frac{\Gamma(\frac{n+1}{2})} {\Gamma(\frac{n}{2})} \frac{1}{\sqrt{n\pi}}\nonumber \
&=& \frac{\Gamma(k+\frac{1}{2})}{\Gamma(k)} \frac{1}{\sqrt{n\pi}} \nonumber \
&=& \frac{(2k)!\sqrt{\pi} } { (k!)^2 4^k } \frac{1}{\sqrt{n\pi}} \quad \Gamma(k+\frac{1}{2}) = \frac{(2k)!\sqrt{\pi} } { (k!) 4^k } \nonumber \
&\approx& \frac{\sqrt{2\pi 2k} e^{-2k} (2k)^{2k} \sqrt{\pi}}{(\sqrt{2\pi k} e^{-k} k^k)^2 4^k} \frac{1}{\sqrt{n\pi}} \quad Stirling公式 n! \approx \sqrt{2\pi n} e^{-n} n^n \nonumber \
&=& \frac{1}{\sqrt{2\pi}}
\label{eq:tfore}
\end{eqnarray}

      我们接着处理t分布公式的后半部分。
\begin{eqnarray}
&&\frac{1}{(1+t^2/n)^{(n+1)/2}} \nonumber \
&=& \frac{1}{(1+\frac{t^2/2}{n/2})^{n/2}} \frac{1}{(1+t^2/n)^{1/2}} \nonumber \
&\overset{n \rightarrow \infty} {\rightarrow}& e^{-t^2/2}
\label{eq:tlatter}
\end{eqnarray}

      综合公式\ref{eq:tfore}和公式\ref{eq:tlatter},得出结论:当n很大时,t分布近似于标准正态分布。

      11. (N(0,1) \overset{X_1^2+X_2^2+…+X_n^2}{\rightarrow} \chi^2(n) )。(\chi^2(n))是自由度为n的卡方分布。标准正态分布和卡方分布的关系是天然的,因为卡方分布就是这么定义出来(囧里个囧)。根据这个定义,可以推导出卡方分布的概率密度公式。
\begin{eqnarray}
p(x) = \frac{1}{\Gamma(n/2)2^{n/2}}x^{n/2-1}e^{-x/2}
\end{eqnarray}

      12. (G(\alpha,\beta) \overset{\alpha = n/2,\beta = 2} {\rightarrow}\chi^2(n) )。 卡方分布是Gamma分布的一种特殊形式。Gamma分布的概率密度公式:
\begin{eqnarray}
p(x|\alpha,\beta) = \frac{1}{\Gamma(\alpha)\beta^{\alpha}}x^{\alpha-1}e^{-x/\beta} \quad x \ge 0
\end{eqnarray}

需要说明的是,原图的转化条件有错。正确的转化条件是(\alpha = n/2,\beta = 2), 而不是(\beta = n/2,\alpha = 2)。

      13. (G(\alpha,\beta) \overset{u=\alpha\beta, \sigma^2 = \alpha\beta^2, \alpha \rightarrow \infty} {\rightarrow}N(u,\sigma^2) )。Gamma分布有一个重要性质:可加性。即假设X_1,X_2,…,X_n是服从(Gamma(\bar{\alpha},\beta))的独立同分布样本,则有(\sum_{i=1}^{n}X_i \sim Gamma(\alpha,\beta) ), 其中(\alpha=n\bar{\alpha})。易求得Gamma分布的期望和方差:(E(X_i) = \bar{\alpha}\beta, Var(X_i) = \bar{\alpha}\beta^2), 根据中心极限定理, 随着(n \rightarrow \infty),
\begin{eqnarray}
\frac{\sum_{i=1}^{n}X_i – n\bar{\alpha}\beta}{\sqrt{n\bar{\alpha}\beta^2}} \sim N(0,1)
=>\sum_{i=1}^{n}X_i \sim N(\alpha\beta, n\alpha\beta^2)
\end{eqnarray}
因此我们很容易得出:
\begin{eqnarray}
Gamma(n\alpha,\beta) \rightarrow N(n\alpha\beta,\alpha\beta^2)
\end{eqnarray}

      需要说明的是,原图的转化条件有错。正确的转化条件是(u=\alpha\beta, \sigma^2 = \alpha\beta^2, \alpha \rightarrow \infty), 而不是(u=\alpha/\beta, \sigma^2 = \alpha/\beta^2, \alpha \rightarrow \infty)。写到这,我回过味来了,难道是原图中的Gamma分布用了不一样的形式? 满地打滚,再次求原图的出处!

1 Teerapabolarn, K. “A bound on the binomial approximation to the beta binomial distribution.” International Mathematical Forum. Vol. 3. No. 28. 2008.

此条目发表在数学基础分类目录,贴了标签。将固定链接加入收藏夹。

一张图的故事——概率分布之间的关系(上)》有 7 条评论

  1. acs说:

    请问下主图源自哪篇论文呢?

  2. 好的,了解。谢谢您~。

  3. stkkk说:

    博主,图看不了

发表评论

电子邮件地址不会被公开。