1. 从观察出发——回归问题
在统计学中,我们认为一个变量是服从某种理想分布的,称为理想变量。而为了获得理想变量的值,我们需要去观察这个世界,并得到观察数据,称为观察变量。观察变量与理想变量之间的函数关系被称为观察模型。
设观察数据为x_i \in R^p
,理想数据为y_i \in R
,观察模型为线性模型
y_i = x_i^T \beta + \eta_i
\tag{1}
其中\beta \in R^p
为参数向量,\eta_i \in R
是独立同分布的随机变量。在应用中,\eta_i
代表观察噪声。且通常假定它服从正态(高斯)分布:
\eta_i \sim N(0, \sigma^2)
\tag{2}
上面的观察模型可以引出两个问题:
- 已知理想和观察变量
y_i,x_i
,求模型参数\beta,\sigma
。这被称为参数估计(Paremeter Estimation)问题。 - 已知观察变量
x_i
和模型参数\beta,\sigma
,求理想变量y_i
。这被称为回归(Regression)问题。如果观察模型是线性的,例如(1),则称为线性回归问题。
回归的概念非常宽泛,它泛指研究一组变量和另一组变量之间的关系的统计分析方法。考虑变量和参数之间的对称性,不难发现,参数估计也是回归问题。
2. 参数估计——也是回归问题
在统计学习中,参数估计是一个学习样本所蕴含信息的过程。而学习的结果,就是观察模型(包括最优参数)。