在参数估计和统计中,Cramer-Rao界限(Cramer-Rao bound, CRB)或者Cramer-Rao下界(CRLB),表示一个确定性参数的估计的方差下界。命名是为了纪念Harald Cramer和Calyampudi Radhakrishna Rao。这个界限也称为Cramer-Rao不等式或者信息不等式。
它的最简单形式是:任何无偏估计的方差至少大于Fisher信息的倒数。一个达到了下界的无偏估计被称为完全高效的(fully efficient)。这样的估计达到了所有无偏估计中的最小均方误差(MSE,mean square error),因此是最小方差无偏(MVU,minimum variance unbiased)估计。
给定偏倚,Cramer-Rao界限还可以用于确定有偏估计的界限。在一些情况下,有偏估计方法的结果可能方差和均方差都小于无偏估计的Cramer-Rao下界。
标量情形
标量的无偏情形
假设\theta
是一个位置确定性参数。我们需要从观察变量x
估计它。而它们满足一个概率密度函数f(x;\theta)
。任何\theta
的无偏估计\hat{\theta}
的方差的下界为Fisher信息I(\theta)
的倒数:
\mathrm{Var}{\hat{\theta}} \ge \frac{1}{I(\theta)} \tag{1}
其中Fisher信息定义为
I(\theta) = \mathrm{E}[(\frac{\partial \ln f(x;\theta)}{\partial \theta})^2] =-\mathrm{E}[\frac{\partial^2 \ln f(x;\theta)}{\partial \theta^2}] \tag{2}
其中\mathrm{E}
表示求期望。
无偏估计\hat{\theta}
的效率描述估计的方差有多接近下限,定义为
e(\theta) = \frac{I(\theta)^{-1}}{\mathrm{Var} (\hat \sigma)} \tag{3}
显然有
0 \le e(\hat{\sigma}) \le 1 \tag{4}
标量的一般情形
更一般的情况是考虑参数$\theta$的无偏估计$T(X)$。这里的无偏性理解为\mathrm{E} [ T(X)] = \phi (\theta)
。这种情况下,方差的下界为
\mathrm{Var}(T) \ge \frac{[\phi'(\theta)]^2}{I(\theta)} \tag{5}
其中\phi'(\theta)
表示\phi(\theta)
关于\theta
的导数,I(\theta)
仍然是Fisher信息。
有偏估计的界限
考虑估计\hat\theta
,设其偏倚b(\theta) = \mathrm{E}[\hat\theta] - \theta
,令\phi(\theta) = b(\theta) + \theta
。利用上式,任何期望为\phi(\theta)
的无偏估计的方差都大于等于(\phi'(\theta)^2) / I(\theta))
。于是
\mathrm{Var} (\hat\theta) \ge \frac{[1 + b'(\theta)]^2}{I(\theta)} \tag{6}
当b(\theta) = 0
,上式退化为无偏估计得方差界限。当估计\hat\theta
退化为常数(概率密度函数为脉冲函数),则方差退化为0。
从上式,利用标准分解可以推出有偏估计的均方误差下界为
\mathrm{E}[(\hat\theta - \theta)^2] \ge \frac{[1 + b'(\theta)]^2}{I(\theta)} + b(\theta)^2
\tag{7}
注意,如果1+b'(\theta) < 1
,那么上式右端的下界可能小于Cramer-Rao下界。例如,当1+b'(\theta) = \frac{n}{n+2} < 1
。
多元变量的情形
定义向量\theta =[\theta_1, \theta_2, \cdots, \theta_d]^T \in R^d
,它的概率密度函数为f(x; \theta)
满足后面的两个正则化条件。Fisher信息矩阵是一个d \times d
的矩阵,元素I_{m,k}
定义为
I_{m, k} = \mathrm{E}[\frac{\partial}{\partial \theta_m} \ln f(x;\theta) \frac{\partial}{\partial \theta_k} \ln f(x;\theta) ] = -\mathrm{E}[ \frac{\partial^2}{\partial \theta_m \partial \theta_k} \ln f(x;\theta) ]
\tag{8}
令T(X)
为一个向量函数的估计,T(X) = (T_1(X), T_2(X), \cdots, T_d(X))^T
,记它的期望向量\mathrm{E}[T(X)]
为\phi(\theta)
。Cramer-Rao下界认为T(X)的协方差矩阵满足
\mathrm{Cov}_\theta (T(X)) \ge \frac{\partial \phi(\theta)}{\partial \theta} [I(\theta)]^{-1} ( \frac{\partial \phi(\theta)}{\partial \theta})^T
\tag{9}
其中
- 矩阵大于等于符号
A \ge B
表示A - B
是一个半正定矩阵; \partial \phi(\theta) / \partial \theta
是雅克比矩阵,它的第ij
个元素为\partial \phi_i(\theta) / \partial \theta_j
。
当T(X)
为\theta
的无偏估计(例如T(\theta) = \theta
),则Cramer-Rao法则退化为
\mathrm{Cov_\theta}(T(X)) \ge I(\theta)^{-1} \tag{10}
两个正则化条件
边界依赖两个关于f(x;\theta)
和T(X)
的弱正则化条件:
- Fisher信息矩阵总是存在。等价地说,对于所有
x
,如果f(x;\theta) > 0
,则\partial \ln f(x; \theta) / \partial \theta
存在并且有限。 - 对
x
的积分和对\theta
的微分可以交换顺序。也就是说,在下式右侧有限时,有
\frac{\partial}{\partial \theta} [\int T(x) f(x;\theta) dx] = \int T(x) [\frac{\partial}{\partial \theta} f(x; \theta)] dx \tag{11}
上述条件通常可以通过以下任意一个条件来确认:
- 函数
f(x; \theta)
在x
中有边界支持,并且边界不依赖于\theta
。 - 函数
f(x; \theta)
有有限的支持,连续可微,并且对于所有\theta
积分收敛。
标量情形的证明
假设T = t(X)
是一个$\phi(\theta)$的无偏估计,且E(T) = \phi(\theta)
。目标是证明,对于所有\theta
,
Var(t(X)) \ge \frac{[\phi' (\theta)]^2}{I(\theta)} \tag{12}
令X
为随机变量,且概率密度函数为f(x;\theta)
. T = t(X)
为统计量,且作为\phi (\theta)
的估计。定义V
为概率密度函数关于\theta
的偏导数
V = \frac{\partial}{\partial \theta} \ln f(X; \theta) = \frac{1}{f(X; \theta)} \frac{\partial}{\partial \theta} f(X; \theta) \tag{13}
可以发现,$V$的概率密度函数也是f(X;\theta)
。利用第二个正则化条件,可以得到V
的期望为0。即
\mathrm{E}(V) = \int f(x;\theta)[ \frac{1}{f(x; \theta)} \frac{\partial}{\partial \theta} f(x; \theta)]dx= \frac{\partial}{\partial \theta} [\int f(x;\theta) dx] = 0
\tag{14}
因为\mathrm{E}(V)=0
,由协方差定义式可以推出\mathrm{Cov}(V, T) = \mathrm{E}(VT)
。展开可以得到
\begin{aligned}
\mathrm{Cov}(V, T) =& \mathrm{E}(T \cdot [ \frac{1}{f(X; \theta)} \frac{\partial}{\partial \theta} f(X; \theta) ]) \\
=& \int t(x)[\frac{1}{f(x; \theta)} \frac{\partial}{\partial \theta} f(x; \theta)] f(x; \theta) dx \\
=& \frac{\partial}{\partial \theta} [\int t(x) f(x;\theta) dx] \\
= & \phi'(\theta)
\end{aligned} \tag{15}
由柯西-施瓦茨不等式可得
\sqrt{\mathrm{Var}(T)\mathrm{Var}(V) } \ge \vert \mathrm{Cov}(V, T) \vert = \vert \phi'(\theta) \vert \tag{16}
因此
\mathrm{Var}(T) \ge \frac{[\phi'(\theta)]^2}{\mathrm{Var}(V)} = \frac{[\phi'(\theta)]^2}{I(\theta)} \tag{17}
参考文献
https://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93Rao_bound#Regularity_conditions