高斯判别分析模型的英文为The Gaussian Discriminant Analysis model.

看下面这组数据,如果按照逻辑回归来分离的话,很可能得到的是这样的一条直线.

生成学习算法分布多两类数据建立模型,然后根据两个模型的概率通过高斯分布计算出,如果说我们也来画一条线的话,应该是这样:

假设y属于伯努利分布,而y的每个类别都属于高斯分布,即


写成概率的形式:

使用最大似然法,来确定参数:

得到高斯分布的参数为:

GDA vs 逻辑回归

如果p(x|y)是一个多维的高斯分布,那么p(y|x)可以推出一个logistic函数


反之则不一定正确,p(y|x)是一个logistic函数并不能推出p(x|y)服从高斯分布.这说明GDA比logistic回归做了更强的模型假设.

如果p(x|y)真的服从或者趋近于服从高斯分布,则GDA比logistic回归效率高.

当训练样本很大时,严格意义上来说并没有比GDA更好的算法(不管预测的多么精确).

事实证明即使样本数量很小,GDA相对logisic都是一个更好的算法.

但是,logistic回归做了更弱的假设,相对于不正确的模型假设,具有更好的鲁棒性(robust)

posted @ 2018-07-24 08:51:11
评论加载中...

发表评论