我们来看这样一组数据

如果用线性回归的话,可能找到的线性方程式这样的:

这显然不能准确的描述数据的特征.

局部加权回归可以解决上述问题,核心思想是只使用预测点附近的数据进行建模,这样的话模型可以很好的表达曲线上每一处的特性.

在线性回归中我们会最小化系统的误差
J(\theta) = \frac{1}{2} \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2

最后可以得到线性方程的参数:
\theta = (X^TX)^{-1}X^T\vec{y}

如果你对线性回归不了解的话,可以看我的另一篇文章线性回归.

在局部加权回归中我们只关心处理点附近的数据,所以在线性回归的基础上加一个参数
J(\theta) = \frac{1}{2} \sum_{i=1}^m \omega^{(i)}(h_\theta(x^{(i)}) - y^{(i)})^2
其中\omega^{(i)}为权值:
\omega^{(i)} = exp(- \frac{(x^{(i)} - x)^2}{2\tau^2})

\omega 的方程式这个样子的:

离x越近的地方权值会越大,离x越远的地方权值会越小.这样我们就通过权值来选取到x附近的数据.\tau决定权值函数开口的大小.权值函数与正太分布没有关系,只是样子像正太分布而已,它只是一个指数函数.你也可以换成其他的函数,不过普遍认为指数函数比较合理.

posted @ 2018-07-11 09:06:52
评论加载中...

发表评论