- 综述了稀疏表示方法在目标检测领域的下列应用:
- 目标特征学习
- 目标分类器
- 多源信息融合目标检测
- 稀疏表示方法以符合人类视觉系统的描述方式能有效捕捉图像的结构特征,可实现图像的有效表示
- 大量研究表明视觉皮层复杂刺激的表达采用的是稀疏编码原则[1 ~ 4],以稀疏编码为基础的稀疏表示方法能较好刻画人类视觉系统对图像的认知特性
- 稀疏表示研究脉络
- 单一基方法
- 主要是多尺度几何分析理论
- 认为图像具有非平稳性和非高斯性,用线性算法很难处理,应建立适合处理边缘及纹理各层面几何结构的图像模型
- 以脊波(Ridgelet) [7] 、曲波(Curvelet) [8] 等变换为代表
- 多基方法
- 以 Mallat 和 Zhang 提出的过完备字典分解理论为基础 [9]
- 根据信号本身的特点自适应选取能够稀疏表示信号的冗余基
- 单一基方法
- 稀疏表示的基础是稀疏编码,所谓稀疏编码就是在一组过完备基向量中选择少数基向量的线性组合来表示样本数据
- 就是说 稀疏表示 不等于 稀疏编码咯,稀疏编码只是求解稀疏表示系数那一步吧,范围更小
- 常用的稀疏编码算法
- 正交匹配追踪算法 OMP
- 特征符号搜索算法
- 常用的稀疏编码算法
- K-SVD
- 在线字典学习算法(SPAMS)
普通稀疏编码方法只考虑了表示向量的整体稀疏性,由于稀疏系数通常存在某种结构属性,人们又引入解释性更强的结构稀疏性,常见的有
-
组稀疏性(Group Sparsity)
-
将稀疏系数向量里的元素划分为不重叠的 H 个组
-
目的是为了有效描述元素之间存在的相关性
-
Huang 等[17]将组稀疏性定义为
- 我觉得吧,利用的就是 (1 + 1) > sqrt(1 + 1) 这样,根号(二范数)的性质,让相关的系数在一起,从而减少整体的值
- 也称为 组 Lasso 模型,(7)里面的 2 范数只是组内是 2 范数,每个组作为一个整体和其他组还是用 1 范数,也就是累加结合起来的,所以本质上有点像 2,1 范数
-
在此基础 上,又相继发展了重叠组稀疏性 [18] 、块稀疏性 [19] 等.
-
组稀疏性优化算法有块坐标下降算法( Block-Coordinate Descent Algorithm, BCD) [20] 等.
-
-
联合稀疏性(Joint Sparsity)
-
将组稀疏性、联合稀疏性融入到字典学习模型中,相应的可以学习到结构化字典[24]
- 复杂背景
- 噪声干扰
- 光照变化
- 非刚体形变
- 遮挡
- 弱特征
- 尺度变化
- 视角变化
- 姿态变化
- 特征提取
- 获取能够表示目标的有效特征
- 分类器(或检测器) 设计
- 构建分类器或者检测器判断符合某种规则的特征是否是目标
- 稀疏表示在上面两方面也都有应用,因此,稀疏表示在目标检测中的作用可以分为
- 基于稀疏表示的目标特征学习(对应 特征提取)
- 基于稀疏表示的目标分类器和检测器设计(对应 分类器或检测器设计)
- 稀疏表示是一种包容性强的数据描述方法,可以灵活设计字典等参数
- 稀疏性有利于突出目标特征,使其与背景更加线性可分,为目标检测研究提供了新的思路.
-
提取具有鲁棒性和可区分性的特征描述目标
-
词袋特征( BOW) [45,46]
- 在尺度不变特征变换描述子( SIFT) [44]等底层局部特征基础上建立起来
- 将目标的底层局部特征转化为能够描述目标整体的中层特征
- 对目标的尺度变化、旋转等具有较好的鲁棒性
- 构造过程
- 通常是先对训练样本的局部特征描述子进行聚类
- 得到的聚类中心形成一个码本(Codebook)
- 统计各聚类中心中描述子出现的频率,得到的频率直方图称为词袋
- 常用的纹理基元(Textons) 就属于 BOW 的一种
- Textons 所用的底层局部特征描述子是滤波器组响应向量[47],主要用于描述纹理特征和检测纹理目标
- Yang 等[49]采用稀疏编码方法扩展传统 K 均值聚类算法用于构造 BOW 特征
- 将码本作为需要学习的字典
- 把提取的 SIFT 描述子作为训练样本去学习字典和稀疏系数向量
- 字典中的原子对应于聚类中心
- 稀疏系数向量中的非零元素指示原子(等价于聚类中心) 是否被激活,元素值大小反映了描述子对原子的归属度
- 本来 K-SVD 就是 K-Means 的扩展
-
SIFT、HOG 等特征只能描述关键点、边缘等信息,对受复杂干扰的图像来说,这些特征不一定有效. 一种更为理想的思路是从数据中学习解释性更强的目标特征用于检测
- Ren 等[56]基于稀疏表示方法学习的稀疏编码直方图特征(HSC) ,在目标检测中明显优于 HOG 特征
- 也就是说,不仅仅是 Deep Learning 可以自己学到特征,Shallow 的 稀疏表示也可以的
- Ren 等[56]基于稀疏表示方法学习的稀疏编码直方图特征(HSC) ,在目标检测中明显优于 HOG 特征
-
当前常用的基于稀疏编码和字典学习的方法 [16],是对图像块进行建模
-
可以学习出类似 Gabor 滤波器的原子,仅能捕捉不同方向的边缘信息等,而且巨大的计算量使其只能处理较小的图像块.
-
最近,Rigamonti 等 [57,58] 、Kavukcuoglu 等 [59] 将卷积方法与稀疏编码思想相结合相继提出了卷积稀疏编码模型,将稀疏编码模型中的字典看成是卷积滤波器组,对图像整体进行稀疏编码,代价函数表示为:
- 每个滤波器被称为隐含特征图( Feature map )
- 相对于只能对较小图像块进行处理的稀疏编码算法,卷积稀疏编码模型更有优势,能有效处理图像整体,而且可以捕捉角点( Corner) 、中心-周围( Center-surround) 等图像中固有的多种模态,在目标检测领域中具有广泛的应用前景
-
-
人工特征抽取的不足
- SIFT、HOG 等特征只能描述关键点、边缘信息等,难以整合原始图像信息描述对象、场景等,会造成特征信息提取的不完备;
- 除了算法本身的不足外,SIFT 等还需要巧妙的构造思路,并且在不同场景下 对不同具体数据所起的作用不同,适应性较差,需要较多的人工干预,增加了特征的不确定性,难以满足实际应用中目标检测方法的鲁棒性要求,在检测性能上难以保证满意的检测效果.
- 所以要 Deep Learning 啊
-
Sparse Representation 融入到 Deep Learning 中的几项工作:
- Lecun 等[64]提出的卷积神经网络模型
- 通过稀疏编码得到的稀疏系数向量训练非线性前向反馈预测器,完成无监督特征学习,是一个多层结构学习算法
- Zeiler 等[66]借助定义的稀疏潜在特征图提出的解卷积网络深度学习模型
- Lecun 等[64]提出的卷积神经网络模型
-
卷积神经网络和去卷积网络深度学习模型是基于最小化预处理数据要求而产生的,将图像的局部作为分层结构的最底层输入,通过不同网络层次传递信息,在每一层能够获取对平移、缩放和旋转不变的观测数据的显著特征. 对于具有潜在复杂结构规则的图像,深度学习算法先 从原始图像去学习得到它的一个低层次表示,然后通过线性或者非线性运算组合这些低层次表示形成更加抽象的高层次表示( 属性类别或特征) ,重复这个过程, 可以提取数据中潜在( 隐含) 分布的特征表示,通过深度学习获取的本质特征非常适合解决旋转、几何形变 及尺度变化的目标检测问题.
-
针对 Deep Learning 难以训练的问题,,Ngiam 等[68]提出了一个值得参考的思想: 稀疏滤波方法
- 需要学习的只有特征数目一个参数
- 该方法的核心思想是认为每个样本特征是稀疏的、样本间的特征是稀疏的以及特征的分布是均匀的等 3 个描述特征分布的准则
- 什么叫样本间的特征?
- 设计了一个简单的
$l_2$ 范数稀疏约束的特征学习代价函数,避免了对数据分布的显式建模,通过优化特征分布的稀疏性得到好的特征表 达,能有效处理高维输入,并可扩展为多层结构.
- 稀疏表示方法可以作为一种良好的分类器,用于对目标进行检测识别
- 就是 SRC 嘛
-
(1)对每类样本单独训练一个字典,将测试样本在相同稀疏性约束下对各类别的字典分别进行稀疏编码,根据测试样本对各类别字典的重构误差大小进行分类
- Mairal 等 [25] 以局部图像块为样本,在字典学习过程中加入了判别性重构误差约束项训练出一组判别性字典,使得每类样本对该类别字典的重构误差较小,对其它类别字典的重构误差较大,将测试样本对学习到的判别性类别字典分别进行稀疏编码,根据测试样本 对各类别字典的重构误差大小进行判断
-
(2)Wright 等 [69] 提出的稀疏表示分类器( SRC) ,其思想是把所有类别的训练样本直接组合成为一个字典,将测试样本在该字典上进行稀疏编码获得稀疏系数向量,分别只保留稀疏系数向量中对应某一类别训练样本的元素,其余设为 0,得到测试样本对该类别的稀疏系数向量,再与原字典进行重构,计算该类别重构项与测试样本的重构误差,依此计算所有类别对测试样本的重构误差,比较重构误差大小进行分类
- 稀疏表示分类器的潜在含义是: 同类样本处于同一线性子空间中,每类训练样本的数量要足够多,能够张成该类样本的子空间,使得测试样本能在该类训练样本上进行线性表示,这样测试样本在所有训练样本所构成的字典上的表示是稀疏的,对应的稀疏系数向量也包含了样本的类别信息.
- 因此,稀疏表示分类器要求样本图像已经对齐,而且同类训练样本的数量充分多,能张成该类样本子空间
- 研究图像对齐的论文 [70]、[71]、[72]
-
基于稀疏表示设计滤波器
- 文献 [75-79]
-
基于稀疏约束度量重构误差的显著性检测
单源信息进行目标检测的不足
- 从场景中获取的信息有限,面临一些难以克服的困难,比如在光照变化下的可见光运动目标检测等,单纯依赖设计新的和复杂的算法很难提高目标检测性能
- 一种可行的方法是融合诸如多帧、多传感器、多光谱、多视角等多源信息进行检测,以弥补单源信息的不足
- 如何利用多帧图像、多传感器图像、多光谱图像以及多视角图像等提供的冗余性、互补性与合作性信息
- 对于多帧图像,人们感兴趣的是利用多帧图像信息检测其中的运动目标
- DECOLOR [40]
- 考虑到不同帧的背景之间存在很强的线性相关性,将所有帧的背景图像向量化后组成的背景项矩阵建模为低秩矩阵;
- 而前景运动目标项相对背景来说数量较少,采用稀疏性约束; 并通过图剪切方法加入空间约束,保持目标区域的完整性;
- 另外,引入二维参数变换补偿由于视觉传感器震动引起的图像晃动
- 大气湍流干扰下的红外运动目标检测问题 [41]
- 将图像序列分解为稀疏约束的运动目标项、低秩约束的背景项和 F 范数约束的湍流干扰项(稠密误差矩阵)
- 其中考虑到湍流干扰项在运动域和强度域呈现的类似高斯分布特性,构造目标可信图用于约束目标检测模型,在湍流干扰复杂背景下能较好检测出红外运动目标,由于没有考虑目标的空间一致性约束,目标轮廓还不够完整.
- 擦,做红外运动目标检测的 TPAMI 我竟然没有看过。。。
- 目前方法值得改进的地方
- 当前基于低秩和稀疏分解的目标检测方法能较好处理非平稳背景下的运动目标检测问题,但大都只考虑了目标的稀疏性和背景的低秩性,忽略了目标和背景固有特征的使用,而且是离线处理方式,难以在线处理新输入数据的目标检测问题,同时在实际应用中还面临着模型参数的选取问题.
- 擦,你怎么都这么一针见血啊
- 当前基于低秩和稀疏分解的目标检测方法能较好处理非平稳背景下的运动目标检测问题,但大都只考虑了目标的稀疏性和背景的低秩性,忽略了目标和背景固有特征的使用,而且是离线处理方式,难以在线处理新输入数据的目标检测问题,同时在实际应用中还面临着模型参数的选取问题.
- 多传感器融合的难点
- 不同传感器提供的数据及其特征很难归一化到相同的尺度和空间下,融合这些不均等的复杂数据及其特征是一个困难的任务
- 需要对不同传感器数据及其特征做各种变换和组合,变换和组合方式的不同对检测结果影响很大
- 因此,人们很少在数据层和特征层上进行融合检测,通常更愿意在决策层上融合多传感器信息进行目标检测
- 但决策层上的融合方式很难利用目标的原始互补和合作信息,影响目标检测性能.
- 这就是为什么觉得 WLDM 最后 weighted 方式不好的原因
- 稀疏表示为什么能用于多传感器图像融合目标检测?
- 稀疏表示方法能通过稀疏系数向量中的非零元素建立不同传感器数据及其特征之间的关系
- 将不同类型数据及其特征的融合问题转化到稀疏系数向量这个新的均等空间下进行处理
- 构建鲁棒的目标检测模型
- 需要在深入分析目标成像机理
- 目前大部分研究集中在稀疏表示的传统模型上,没有充分考虑目标的固有特性和内在结构
- 探索结构化的稀疏表示目标检测模型是将来的重要研究方向,如组稀疏性、联合稀疏性及结构化字典等
- 算法实时性,大规模数据及在线处理
- 考虑稀疏表示的在线处理方式,能够根据实时数据实时检测目标
- 稀疏表示度量空间
- 目前基于稀疏表示的算法大都是基于欧式距离
- 数据本身的复杂模式使得欧式空间难以描述数据的内在关系
- 根据数据本身的特点,将稀疏表示进一步扩展到流形空间或核空间中是今后的一个研究方向.
- 多线性、多尺度稀疏表示研究
- 很好的启发啊,Low-Rank 不就有 Multiscale Low-Rank 了么
- 建立二阶甚至高阶张量的稀疏表示框架
- 将稀疏表示与多尺度相结合,构建多尺度稀疏表示模型
- 目标鲁棒特征学习
- 通过稀疏表示如何从数据中有监督和无监督的学习较好的目标底层特征、中层特征及高层特征
- 将深度学习概念与稀疏表示方法深入的结合,提取更为本质的目标特征改进目标的检测识别效果
@article{Gao2015DetectionSR,
title={面向目标检测的稀疏表示方法研究进展},
author={高仕博 and 程咏梅 and 肖利平 and 韦海萍 and others},
journal={电子学报},
volume={43},
number={2},
pages={320--332},
year={2015},
publisher={中国电子学会}
}