线性回归与贝叶斯推理——漫谈机器学习

1. 从观察出发——回归问题

在统计学中,我们认为一个变量是服从某种理想分布的,称为理想变量。而为了获得理想变量的值,我们需要去观察这个世界,并得到观察数据,称为观察变量。观察变量与理想变量之间的函数关系被称为观察模型。

设观察数据为x_i \in R^p,理想数据为y_i \in R,观察模型为线性模型

y_i = x_i^T \beta + \eta_i
\tag{1}

其中\beta \in R^p为参数向量,\eta_i \in R是独立同分布的随机变量。在应用中,\eta_i代表观察噪声。且通常假定它服从正态(高斯)分布:

\eta_i \sim N(0, \sigma^2)
\tag{2}

上面的观察模型可以引出两个问题:

  1. 已知理想和观察变量y_i,x_i,求模型参数\beta,\sigma。这被称为参数估计(Paremeter Estimation)问题。
  2. 已知观察变量x_i和模型参数\beta,\sigma,求理想变量y_i。这被称为回归(Regression)问题。如果观察模型是线性的,例如(1),则称为线性回归问题。

回归的概念非常宽泛,它泛指研究一组变量和另一组变量之间的关系的统计分析方法。考虑变量和参数之间的对称性,不难发现,参数估计也是回归问题。

2. 参数估计——也是回归问题

在统计学习中,参数估计是一个学习样本所蕴含信息的过程。而学习的结果,就是观察模型(包括最优参数)。

继续阅读