朴素贝叶斯分类器本质上是线性分类器

      朴素贝叶斯分类器是一种应用贝叶斯定理的分类器。线性分类器是通过特征的线性组合来做出分类决定的分类器。本质上,朴素贝叶斯分类器是一种线性分类器。

朴素贝叶斯分类器是建立在属性变量相互独立的基础上,后验概率为判定准则的分类器。下面不等式成立,样例 \(\pmb{x}=(x_1,x_2,x_3,…,x_n)\) 为正类;否则样例为负类。
\begin{eqnarray}
\prod_{i=1}^{n}p(x_i|T)p(T) – \prod_{i=1}^{n}p(x_i|F)p(F) > 0
\end{eqnarray}

线性分类器则是直观地来说,是在高维样本空间中找到一组超平面,将样本空间划分了两个区域。每个区域对应于不同的类别。数学上来说,线性分类器能找到权值向量 \(\pmb{w}\), 使得判别公式可以写成特征值的线性加权组合。

\begin{eqnarray}
\sum_{i=1}^{n}w_i x_i – w_0 > 0
\label{linear}
\end{eqnarray}

如果上面的不等式成立,则样本属于正类;反之,则样本属于负类。

离散特征的朴素贝叶斯分类器


      一般离散特征的取值范围有两种,\({0,1}\) 或者 \({-1,1}\)。这两种取值方式不会影响分析。不妨假设离散特征的取值范围为 \({-1,1}\)。下面的不等式成立,样例 \(\pmb{x}=(x_1,x_2,x_3,…,x_n)\) 为正类。

\begin{eqnarray}
&&\prod_{i=1}^{n}p(x_i|T)p(T) – \prod_{i=1}^{n}p(x_i|F)p(F) > 0 \nonumber\\
&\Rightarrow& \sum_{i=1}^{n}[lnp(x_i|T) – lnp(x_i|F)] > lnp(F) – lnp(T)
\label{dnb}
\end{eqnarray}

对于某个特征\(x\),我们很容易推导出下面的公式
\begin{eqnarray}
&& p(x|T) \nonumber \\
&=& \frac{1}{2}[p(x=1|T)-p(x=-1|T)]*x + \frac{1}{2}[p(x=1|T)+p(x=-1|T)] \nonumber
\end{eqnarray}
其中\(p(x|F)\)也有类似的结果,从而有
\begin{eqnarray}
&&p(x|T) – p(x|F) \nonumber\\
& = &\frac{1}{2}[p(x=1|T)-p(x=1|F) + p(x=-1|F) – p(x=1|F)] \nonumber\\
&+ &\frac{1}{2}[p(x=1|T)+p(x=-1|T)- p(x=-1|T) – p(x=-1|F)]
\label{tminusf}
\end{eqnarray}
因此我们容易得到如下公式
\begin{eqnarray}
\sum_{i=1}^{n}\frac{1}{2}[p(x_i=1|T)-p(x_i=1|F) + p(x_i=-1|F) – p(x_i=1|F)] x_i &&\nonumber \\
+\sum_{i=1}^{n}\frac{1}{2}[p(x_i=1|T)+p(x_i=-1|T)- p(x_i=-1|T) – p(x_i=-1|F)] &&\nonumber \\
> lnp(F) – lnp(T)
\label{linearnb}
\end{eqnarray}

      上面的公式意味着,离散特征的朴素贝叶斯分类器判别公式能够写成特征值的加权线性组合。也就是说,离散特征的朴素贝叶斯分类器本质上是线性分类器。

连续特征的朴素贝叶斯分类器


      朴素贝叶斯分类器也适用于连续特征。一般情况下,连续特征的朴素贝叶斯分类假设条件概率 \(p(x|T)\) 满足高斯分布。
\begin{eqnarray}
p(x_i|T) \sim N(u_{i,T},\sigma_{i,T}^2)
\end{eqnarray}

      如果同一个特征的条件概率方差相同,连续特征的朴素贝叶斯分类器也是线性分类器。条件概率的方差是指,在不同类别的条件下某属性值成立的条件概率的方差相同。
\begin{eqnarray}
\sigma_{i,T} = \sigma_{i,F}
\end{eqnarray}

因此我们有
\begin{eqnarray}
&& \sum_{i=1}^{n}[lnp(x_i|T) – lnp(x_i|F)] > lnp(F) – lnp(T) \nonumber \\
&\Rightarrow& \sum_{i=1}^{n}[ -\frac{(x_i-u_{i,T})^2}{2\sigma_{i,T}^2}-ln(\sqrt{2\pi}\sigma_{i,T}) +\frac{(x_i-u_{i,F})^2}{2\sigma_{i,F}^2} +ln(\sqrt{2\pi}\sigma_{i,F}) ] \nonumber \\
&&> lnp(F) – lnp(T) \nonumber \\
&\Rightarrow& \sum_{i=1}^{n}(\frac{u_{i,T}}{\sigma_{i,T}^2}-\frac{u_{i,F}}{\sigma_{i,F}^2})x_i > lnp(F) – lnp(T) + \sum_{i=1}^{n}(\frac{u_{i,T}^2}{\sigma_{i,T}}-\frac{u_{i,F}^2}{\sigma_{i,F}})
\end{eqnarray}

      方差相同的情况下,连续特征的朴素贝叶斯分类器可以写成特征值的线性加权组合。方差相同的情况下,连续特征的朴素贝叶斯分布本质上是线性分类器。直观上看,方差相同的情况下,两个类别的特征和类别的联合分布(即 p(\(\pmb{x}\)|T)*p(T) 和 p(\(\pmb{x}\)|F)*p(F) )如下图的左图所示。判别准则其实就是下图右图中的黑色直线。
 朴素贝叶斯分类器 判别直线示意图
               

不是线性分类器的朴素贝叶斯分类器


      其实并不是所有的朴素贝叶斯分类器都是线性分类器。如果连续特征的朴素贝叶斯分类器中方差不相同,那我们就会发现判别公式不能写成特征值的线性加权组合。
\begin{eqnarray}
&& \sum_{i=1}^{n}[lnp(x_i|T) – lnp(x_i|F)] > lnp(F) – lnp(T) \nonumber \\
&\Rightarrow& \sum_{i=1}^{n}[ -\frac{(x_i-u_{i,T})^2}{2\sigma_{i,T}^2}-ln(\sqrt{2\pi}\sigma_{i,T}) +\frac{(x_i-u_{i,F})^2}{2\sigma_{i,F}^2} +ln(\sqrt{2\pi}\sigma_{i,F}) ] \nonumber \\
&&> lnp(F) – lnp(T) \nonumber \\
&\Rightarrow& \sum_{i=1}^{n}[(\frac{1}{2\sigma_{i,F}^2}-\frac{1}{2\sigma_{i,T}^2})x_i^2 + (\frac{u_{i,T}}{\sigma_{i,T}^2}-\frac{u_{i,F}}{\sigma_{i,F}^2})x_i] \nonumber \\
&>& lnp(F) – lnp(T) +\sum_{i=1}^{n}(ln(\sqrt{2\pi}\sigma_{i,T}) – ln(\sqrt{2\pi}\sigma_{i,F})) + \sum_{i=1}^{n}(\frac{u_{i,T}^2}{\sigma_{i,T}}-\frac{u_{i,F}^2}{\sigma_{i,F}})
\end{eqnarray}

      上面的不等式表明,方差不相等的情况下,连续特征的朴素贝叶斯分类器判别公式不能写成特征值的线性加权组合(判别公式与特征值 \(x_i\) 的二次方有关)。这个例子表明,只有某些具有特定属性的朴素贝叶斯分类器才是线性分类器。

      文章结尾欢迎关注我的公众号,每周日的更新就会有提醒哦~

weixin_saomiao

      

此条目发表在算法荟萃分类目录,贴了标签。将固定链接加入收藏夹。

朴素贝叶斯分类器本质上是线性分类器》有 5 条评论

  1. 24a说:

    显示有乱码。。

  2. Pingback引用通告: 朴素贝叶斯分类器本质上是线性分类器 - 技术 - 爱好博客

  3. 匿名说:

    大神,文章里的图挂了

  4. DDDDD说:

    对于某个特征x,我们很容易推导出下面的公式
    =p(x|T)12[p(x=1|T)−p(x=−1|T)]∗x+12[p(x=1|T)+p(x=−1|T)]
    这一段楼主可以po出推导过程吗?不是很理解,如果x作为离散特征是3维、4维、…等等,这个公式又该怎么推广呢?

发表评论

电子邮件地址不会被公开。