频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值.

贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布.

我们以一个小实验来开启频率学派与贝叶斯学派的讨论:

一个抛硬币实验,小明抛了100次后,发现20次正面朝上,80次反面朝上,问这枚硬币正面朝上的概率是多少?

频率学派与最大似然估计(MLE)

我相信初中生都可以解决上述抛硬币的问题,正面朝上的概率为:

P(head) = \frac{20}{100} = 0.2

这就是频率学派的思想,我们认为硬币正面朝上的概率是客观存在,不会改变,而我们现在求出了这个值.

当然,我们的例子太过简单,以至于一眼就能看出答案,如果模型很复杂的话,就需要用极大似然法来估计模型的参数,它基于一个最基本的理论概率最大的事件,最可能发生:

\begin{aligned} \hat { p } & = \arg \max P ( X ; p ) \\
 & = \arg \max \prod _ { i = 1 } ^ { n } P \left( x _ { i } ; p \right) \\
& = \arg \max \sum _ { i = 1 } ^ { n } \log P \left( x _ { i } ; p \right)\end{aligned}

其中取对数是防止连乘导致结果过小,导致数值下溢.值的注意的是,P ( X ; p )表示参数p是一个待估参数(是固定的,只是当前未知),而P ( X | p )表示参数p是随机变量,取值有一定概率.

对于抛硬币的例子,既然20次正面朝上,80次反面朝上的事实已经发生了,那么发生这种情况的概率就应该是最大的,设:

P(head) = p,P(back) = 1-p

极大化已经发生的事件概率:

\begin{aligned} \hat { p } &= \arg \max p^{20}(1-p)^ { 80} \\
& = \arg \max [20\log p +80\log (1-p)]\end{aligned}

p求导,并令导数为0可求出:

\hat { p } = 0.2

贝叶斯学派与最大后验估计(MAP)

如果把抛硬币的实验改成抛5次得到5次正面,这时使用最大似然估计你会得出正面向上的概率为100%的荒谬结论,这显然不可信,因为"经验"告诉我们硬币正面朝上的概率不会是100%,有没有什么办法让"经验"帮助我们做概率估计呢?这就要讲到贝叶斯学派.

贝叶斯学派认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。 他们不试图对事件本身进行建模,而是从旁观者的角度来说。因此对于同一个事件,不同的人掌握的先验不同的话,那么他们所认为的事件状态也会不同。

生活中大部分硬币都是均匀的,所以我们认为硬币是均匀的可能性比较大.即:硬币正面朝上的概率为0.5的概率为0.9,正面朝上的概率是0.4的概率是0.05,正面朝上的概率是0.6的概率是0.05.这个根据经验得来的概率称作先验概率.先验概率的概率分布为先验分布.

随着实验的进行,小明发现抛了100次后,居然只有20次是正面朝上,小明开始怀疑这枚硬币究竟是不是均匀的,随即小明根据实验修正先验分布,这个过程叫似然.似然后得到的概率为后验概率.似然后的概率分布为后验分布.

先验分布 + 数据(似然)= 后验分布

最大后验估计会极大化后验概率以估计参数:

\begin{aligned} \hat { p } & = \arg \max P ( p | X ) \\
& = \arg \max \frac {  P ( X | p )P ( p )   } { P ( X ) }\\
& = \arg \max P ( p )  P ( X | p ) \end{aligned}

上式中,因为X已经发生了,所以P(X)相当于常数,所以极大化过程中可以省略P(X).

对于抛硬币实验我们假设先验分布服从Beta分布,后面会讲解Beta分布,他是概率的概率分布.

\operatorname { P} ( p ) = \operatorname { Beta } ( p | \alpha , \beta ) = \frac { 1 } { B ( \alpha , \beta ) } \cdot p ^ { \alpha - 1 } ( 1 - p ) ^ { \beta - 1 }

每次抛硬币服从二项分布:

P ( X | p ) =Binom(k|n,p) = {n \choose k}p^k(1-p)^{n-k}

那么,后验概率为:

P ( p | X ) = \left( \begin{array} { l } { n } \\ { k } \end{array} \right) p ^ { k } ( 1 - p ) ^ { n - k } \times \frac { 1 } { B ( \alpha , \beta ) } \cdot p ^ { \alpha - 1 } ( 1 - p ) ^ { \beta - 1 }

令导数为0,求解为:

\hat { p } = \frac { k + \alpha - 1 } { n + \beta + \alpha - 2 }

这里看以看出,MLE与MAP的不同之处在于,MAP的结果多了一些先验分布的参数。

补充知识: Beta分布

最大后验估计需要提供一个先验分布,而先验分布是概率的概率分布.

Beta分布由两个参数\alpha , \beta决定:

f ( x ; \alpha , \beta ) = \frac { 1 } { \mathrm { B } ( \alpha , \beta ) } x ^ { \alpha - 1 } ( 1 - x ) ^ { \beta - 1 }

其中B函数是一个标准化函数,它只是为了使得这个分布的概率密度积分等于1才加上的。

Beta分布的图像可谓百变星君:
image.png

正是因为Beta分布的这个特性使它非常适合做先验分布.举个例子:硬币正面朝上概率大的时候取图中蓝色的分布,硬币均匀取图中紫色的分布,硬币正面朝上概率低取图中橙色的分布.

Beta分布还有一个重要的特性就是它与二项分布共轭先验,所谓共轭先验就是先验分布是beta分布,而后验分布同样是beta分布。这个特性很重要因为我们每次使用数据修正先验分布后,得到的后验分布会作为下次的先验分布.

证明很简单:

\begin{aligned} P ( p | d a t a ) &\propto P ( \operatorname { data } | p ) P ( p )\\& \propto p ^ { z } ( 1 - p ) ^ { N - z } * p ^ { a - 1 } ( 1 - p ) ^ { b - 1 } \\ & \propto p ^ { a + z - 1 } ( 1 - p ) ^ { b + N - z - 1 } \end{aligned}

a′=a+z,b′=b+N−z可得:

P ( p | d a t a ) = \frac { p ^ { a ^ { \prime } - 1 } ( 1 - p ) ^ { b ^ { \prime } - 1 } } { B \left( a ^ { \prime } , b ^ { \prime } \right) }

补充知识: Dirichlet 分布

上面介绍了Beta分布,它是二项分布的共轭先验,那么如果我们掷的不是硬币是筛子呢?

将二项分布推广到多项分布:

P \left\{ X _ { 1 } = k _ { 1 } , X _ { 2 } = k _ { 2} ,..., X _ { n } = k _ { n } \right\} = \frac { n ! } { k _ { 1 } ! k _ { 2 } !... k _ { n } ! } \prod _ { i = 1 } ^ { n } p _ { i } ^ { k_ i }

多项分布的共轭先验为Dirichlet分布:

Dirichlet(\vec p| \vec \alpha) = \frac{\Gamma(\sum\limits_{k=1}^K\alpha_k)}{\prod_{k=1}^K\Gamma(\alpha_k)}\prod_{k=1}^Kp_k^{\alpha_k-1}


参考:
https://www.zhihu.com/question/30269898
https://www.cnblogs.com/sylvanas2012/p/5058065.html

posted @ 2018-12-26 12:12:07
评论加载中...

发表评论