图像分类问题与成像回归问题的异同

图像信号处理与回归

在图像处理中,最传统的问题是成像,用术语说是“图像信号处理(Image Signal Processing, ISP)”,也就是解决从光传感器采集的电信号数据到输出数字图像的问题。设采集到的数据(raw数据,通常是Bayer图像)为z \in R^{n \times 1},输出数字图像为x \in R^{3n \times 1},表达ISP过程的函数为f,则

f:z \rightarrow x \tag{1}

我们知道机器学习问题可以分为分类(Classification)和回归(Regression)问题,那么上述问题是一个回归问题。它求取的是zx之间的函数关系f。注意到z仅有n个实数数据,x3n个实数或者[0, 255]的离散数据,这是一个以少预测多的问题。仅从数据入手问题是病态的。因此,在ISP过程中,我们必须穷尽所有已知知识去为问题添加先验约束,使得输出的x具有最大似然性。添加先验约束可以从以下角度去考虑:

  • 图像x的统计信息,这包括人工获得的统计分布和机器学习得到的统计规律,它们都利用Bayer图像z的相似图像簇获得x的预测。
  • 图像x的空间结构先验,这包括图像单通道的空间先验和交叉通道先验。广义上,可以认为空间先验是人工获得的统计分布,但是由于图像的二维矩阵和三通道结构具有的特殊性,从空间位置挖掘像素关联具有特别重要的作用,因此单独列出。
  • 最后,x忠于Bayer图像z

计算机视觉与分类

得到图像后,最重要的问题是理解图像——图像的内容是什么?最简单的回答是这张图像属于某个类别,也就是机器学习中的分类问题。设数字图像为x \in R^{3n \times 1},图像类别是y \in \{1,\cdots,K\},其中K为正整数,则图像分类问题是求取一个函数

g: x \rightarrow y \tag{2}

注意x依然具有3n个变量,而y是一个离散变量。这是一个从多预测少的问题。从数据量来看,问题本身的病态性没有ISP那么大,但是也没有ISP那样的图像空间结构先验,g的求取完全依赖已有的图像数据,即

  • 利用与x相似的图像及其类别获得x类别的预测。

总结

成像问题(回归)与图像分类(分类)相比,成像问题有图像空间结构先验但是问题更病态,而图像分类仅依靠图像数据但问题病态性相对较低。目前效果比较好的机器学习方法多数仅仅使用数据而不是规则,适合解决图像分类问题而不适合解决成像回归问题。这种不适合的表现在于:方法少,性能不好,结果不稳定。不适合的内因在于问题本身的病态性,使得仅从有限数据学习统计规律去超越人工规则的困难大。不适合的外因在于机器学习的模型设计没有充分利用图像空间结构信息,没有充分学习到空间结构与图像数值的关联。

因此,如果从机器学习的角度来改进现有的成像算法,最重要的是改进模型,使得模型能学习到学习到空间结构与图像数值的关联。一种直接的思路是利用优化模型将已有规则先验与机器学习先验融合在一个模型中,另一种是改进具体的机器学习模型(如深度网络结构),强化图象空间结构约束,其具体形式还有待研究。