2016-自动化学报-基于视觉的目标检测与跟踪综述

摘要

根据所处理对象的不同，将目标检测分为：
- 基于背景建模的方法
- 基于前景建模的方法
根据跟踪过程有无目标检测的参与，将跟踪方法分为：
- 生成式
- 判别式

引言

目标检测与跟踪相关综述文献

手势识别中的目标跟踪
目标表观建模方面
- 2013 - PR - Sparse coding based visual tracking Review and experimental comparison
- ACM TIST - 2013 - A survey of appearance models in visual object tracking
- 2015 - 电子学报 - 面向目标检测的稀疏表示方法研究进展
- Computer Science Review - Bouwmans - 2017 - Decomposition into low-rank plus additive matrices for backgroundforeground separation A review for a comparative evaluation with a large-scale dataset
- Bouwmans - 2012 - Robust Principal Component Analysis for Background Subtraction Systemati
- CVIU - 2014 - Robust PCA via Principal Component Pursuit A review for a comparative evaluation in video surveillance
- Computer Science Review - 2014 - Bouwmans - Traditional and recent approaches in background modeling for foreground detection An overview
- TPAMI - 2013 - Visual Tracking An Experimental Survey

运动目标的检测和跟踪主要用于获取运动目标的位置、姿态、轨迹等基本运动信息, 是理解服务对象或对目标进行控制的前提和基础.

目标检测

目标检测的任务是要
- 分割“我们不关心”的背景
- 从而获取“我们所关心”的前景目标.
因此, 按算法处理对象的不同, 目标检测方法可以分为
- 基于背景建模的目标检测方法
  - 通过对背景进行估计, 建立起背景模型与时间的关联关系, 将当前帧与所建背景模型进行对比作差, 间接地分离出运动前景, 最后经过前景分割得到跟踪目标
- 前景建模的目标检测方法.
  - 采用灰度、颜色、纹理等同质特征,建立起跟踪目标的表观模型, 并设计适当的分类器对其进行分类与检测.

基于背景建模的目标检测

概念

基于背景建模的方法将当前帧与背景参考模型进行比对, 再通过阈值法来判断各个像素是否属于运动前景, 最终对检测出的运动前景进行分割得到跟踪目标.

流程

基于背景建模的目标检测方法一般包含：
- 背景模型的初始化
- 模型维护
- 前景检测与分割
其处理的一般流程如图 2 所示，N 表示用于背景模型初始化的视频帧数.

背景初始化(Background initialization)

最简单的初始化方法是得到一帧不包含任何运动目标的背景图像
通常的初始化模型可以从一段较短且不包含前景目标的训练序列中获取.
然而, 实际场景却较难满足不包含前景目标的纯背景特性
- 这就要求我们使用包含前景目标的一组序列去获取背景初始模型
  - 如果背景在动，还能够这么初始化吗？
- 实际场景中背景因受光照变化、场景中目标的进入或退出等因素的影响而时刻发生变化, 准确的背景模型变得难以获取. 因此如何构造鲁棒、自适应的背景模型是基于背景建模的运动目标检测算法的关键.
  - 既要鲁棒，又要自适应
背景模型中
- 高斯模型 [41] 和支持向量模型 [42] 通常用于处理动态背景
- 子空间学习模型 [37] 多用于处理光照变化问题
- 模糊模型 [36] 能同时处理光照变化和动态背景
- 鲁棒子空间模型 [37] 特别 RPCA 能利用视频帧间的关联关系, 较好地处理时空约束, 在前背景的分离上潜力巨大
  - 但该类模型通常不能较好地满足实时性能, 需要更多的研究提升算法的时效性
- 神经网络模型 [33] 在精确性能和计算成本上寻求了一个折中
  - 该类模型中的空间相干性自组织背景减除法(SC-SOBS)[43]与 3D 自组织背景减除改进算法(3dSOBS+)[44]在 ChangeDetection.Net 数据集 [45] 上取得领先的检测结果.
  - 此外, 在该数据集上检测结果较好的算法还有统计模型中的视觉背景提取器 (ViBe) [46] 、像素自适应分割 (PBAS) [47] 算法等, 它们都使用了鲁棒更新模型, 能同时处理光照变化和背景动态变化等情况.

基于前景目标建模的目标检测

基于目标建模的目标检测方法的两个阶段

离线训练阶段
- 对训练样本中的前景目标与背景分别进行特征表达
- 建立起目标或背景表观模型
- 再进行分类器训练得到分类器模型
在线检测阶段
- 对测试样本在多个尺度上进行滑动窗口扫描后, 采用同样的特征表达方法建立起表观模型
- 然后再用离线阶段训练得到的分类器模型对其进行分类, 从而判断各个窗口是否为前景目标

基于前景目标建模的目标检测方法的一般处理流程

特征表达

图像的特征表达就是将原始图像像素映射到一个可区分维度空间数据的过程, 它是打破底层像素与高层语义之间的语义鸿沟至关重要的一步.
图像特征按其能否通过自学习得到, 可以分为
- 基于人工设计的特征
  - 利用人类先验知识与智慧, 并将这类知识应用于目标检测、识别等任务的很好的方式.
  - 这类方法实现相对容易、计算也比较简单
  - 但其极大地依赖了人类知识、经验的总结, 且不能做到对图像或目标模型最本质的刻画.
- 基于学习的特征
  - 基于学习的特征表达主要是通过无监督学习的方式, 让机器自动地从样本中学习到表征这些样本更加本质的特征.

基于人工设计的特征表达

基于人工设计的特征是人们通过手动设计提取得到的特征, 即存在一个对输入信号 “显式” 的预处理过程.
目前, 人工设计的特征按视觉特性与特征计算的不同可以大致分为四类:
- 梯度特征
  - 通过计算空间区域上的梯度强度和方向等的分布来描述目标
  - SIFT [4]、PCA-SIFT [49]、GLOH [50]、SURF [51]、DAISY [52]
  - HOG 、v-HOG [53]、CoHOG [54]、GIST [55]
- 模式特征
  - 通过分析图像局部区域的相对差异而得出的一种特征描述, 通常被用于对图像纹理信息的表示
  - Gabor [56]、LBP [57]、CS-LBP [58]、NR-LBP [59]
  - Haar-like [60]、CENTRIST [61]、Poselets [62]、稀疏表示目标描述 Sparselets [63]、Shuﬄets [64]、局部区域描述、局部组合二值
  - 相对于梯度特征而言, 模式特征的数据维度较高
  - 在特征选择与分类学习时计算负担相对较大.
- 形状特征
  - 来源于基于模型的目标检测，用于对目标轮廓的描述
  - 形状特征具有优良的尺度、旋转、平移不变特性, 可用于描述形变表观
  - 但其优良性能很大程度上依赖了如边界检测及分割等预处理步骤
  - 另外, 许多不同类型的目标也可能会拥有相似的形状, 因此基于形状特征的检测方法在应用层面上受到了一定的限制.
  - 此外, 形状特征表达忽略了纹理和颜色等有用信息, 这在一定程度上降低了其目标检测的可靠性.
    - SR-MPCM 加入的 Gaussian Weight，是 shape prior
- 颜色特征
  - 通过计算局部的图像属性 (如灰度、颜色等) 的概率分布而得到一种特征描述
  - 颜色 SIFT 特征 [76]、颜色属性 (Color names) [77]、颜色共生矩阵 (Color co-occurrence matrix, CCM) [78]、颜色自相似 (Color self-similarity, CSS) [79] 、局部自相似 (Local self-similarity, LSS) [80]、全局自相似(Global self-similarity, GSS) [81]、协方差特征 (Covariance feature) [82]、C-SIFT [83] 、HSV 颜色空间 SIFT 特征(HSV-SIFT) [84]、色调直方图 SIFT 特征 (Hue-SIFT) [85]
  - 颜色特征能得到对光照不敏感的颜色表达, 近年来广泛地应用于目标检测、目标跟踪
典型的基于人工设计的特征表达方法
基于人工设计的特征表达充分利用了人类知识与智慧, 这类特征已经能够很好地应用于目标检测、识别等任务, 但它们对于目标的描述存在着一个 “显式” 的处理过程, 对目标的刻画不够本质.
根据神经科学关于哺乳动物的信息表达的研究 [89−90] 表明,哺乳动物大脑中关于执行识别等任务的大脑皮层并没有一个对信号进行“显式”预处理的过程, 而是将输入信号在一个大脑的复杂的层次结构中传播, 通过每一层次对输入信号进行重新提取和表达, 最终让哺乳动物感知世界.

基于学习的特征表达

基于学习的特征表达就是通过无监督学习的方式让机器自动地, 从样本中学习到表征样本更加本质的特征, 从而使计算机模拟人脑感知视觉信号的机制, 实现目标检测与跟踪等视觉功能.
最常用的是基于深度学习的特征表达方法, 其通过逐层地构建一个多层网络,使机器自动地学习隐含在数据内部的关系.
基于深度学习的特征表达按其构成单元的不同, 一般可以分为
- 基于限制玻尔兹曼机 (Restricted Boltzmann machine, RBM) [99] 的特征表达方法
- 基于自编码机 (Auto encoder, AE) [100] 的特征表达方法
- 基于卷积神经网络(Convolutional neural network, CNN) [101] 的特征表达方法
RBM 是深度置信网络 (Deep belief nets, DBN) 的基本单元, 基于玻尔兹曼机的特征表达通过使学习到的模型产生符合条件的样本的概率最大进行特征表达.
基于自编码机的特征表达将输入信号进行编码得到表达特征, 将该特征输入解码器后得到的重构信号与原始信号满足最小残差的约束.
基于卷积神经网络的特征表达通过应用不同的卷积核, 提取不同的观测特征, 同时引入了子采样过程进行特征降维.

基于限制玻尔兹曼机的特征表达

RBM 是一个双层的无向图模型, 它是玻尔兹曼机的简化模型.
RBM 的示意图如图 4 所示, 其中 v是可见层单元, h 是隐层单元, 其层内单元间没有连接关系, 层间单元呈全连接关系, 这种层间独立的条件使得 RBM 的训练显得十分高效 [99] .

将 RBM 逐层叠加, 就构成了 DBN, 底层的输出特征作为上一层的输入信号, 对每层分别使用对比散度的方法单独进行训练.
- 2006 年, Hinton 等 [99] 提出了 DBN 的高效训练方法.
- Lee 等 [102] 将卷积概念引入 RBM, 提出了卷积深度置信网络 (Convo- lutional deep belief network, CDBN) 用于分层的特征表达, 得到很好的高层视觉特征.
- 受 Lee 等 [102] 的启发, Nair 等 [103] 将生成式梯度与判别式梯度相结合, 提出一种 3 阶 RBM 的高层模型, 用于对 3D 目标的识别中.
- Eslami 等 [104] 将深度玻尔兹曼机 (Deep Boltzmann machine, DBM) [105] 引入对目标形状的描述, 提出形状玻尔兹曼机 (Shape Boltz- mann machine, SBM), 消除了背景中与目标形状相似的物体的干扰.

基于自编码机的特征表达

基于自编码机的特征表达方法通过对输入信号的自动编码, 能有效地去除冗余信息, 获取输入信号的主要信息, 使输入信号得以更加简洁的表达.
- 这个主要信息可以理解为跟低秩背景一样的么？所以也能用于小目标检测？
自编码机的主要结构如图 5 所示, 其中 v 是可见的输入层单元, h 是特征隐层单元.
将自编码机逐层堆叠, 就构成了深度自编码机 (Stacked auto-encoder).
与 DBN 一样, 深度自编码机的底层输出特征作为上一层的输入信号, 每一层单独地进行优化.
- 文献 [106] 将 K 均值聚类、稀疏编码、主成分分析也理解为一个自编码机.
  - 这就写的不对了，这不是 [106] 的理解，这个是 Bengio 那篇 TPAMI 的理解。

基于卷积神经网络的特征表达

单层卷积神经网络包含了卷积与子采样 2 个过程, 其实现过程如图 6 所示.
- 其中, 卷积过程通过引入不同的卷积核提取信号的不同特征, 实现对输入信号特定模式的观测;
- 子采样过程主要用于对特征图的降维, 通常采用平均池化或最大值池化操作, 该过程虽然降低了特征图的分辨率, 但能较好地保持高分辨率特征图的特征描述

为方便与前两种基本构成单元相对比, 将上述过程等价为图 7. 其中, 每两个节点之间的连线, 表示从输入节点经历卷积、子采样变为输出节点的过程.
根据 Hubel 等 [111] 对猫视觉皮层的研究表明, 视觉系统对外界的认知是局部感知的.
受此生物学研究启发, CNN 也采用了局部连接, 这与层间全连接的 RBM 有所不同.
- 每个 v 只跟距离小于等于 1 的 h 节点相连接，同样的，每个 h 也只跟距离小于等于 1 的 v 节点相连接。
CNN 采用这种局部连接与权值共享的思想, 极大地减少了网络参数, 加快了训练速度, 使其对网络的训练变得切实可行.
将单层卷积神经网络进行逐层堆叠, 就构成了 CNN, 底层的输出特征作为上一层的输入信号.
- 底层的输出特征作为上一层的输入信号，这一条是 Deep Learning 所有模型都共同的，看来这是 Deep Learning 的核心思想啊

小结

与人工设计的特征相比, 由于深度学习特征是通过构建深层的网络结构, 直接从原始图像像素中提取得到, 故其将特征设计问题转换为了网络架构问题.
这种自学习的方法极大地减少了不必要的特征设计细节, 同时深度神经网络的高层特征映射也显示出了一定的语义属性
虽然深度学习特征表达具有更本质的特征表现, 但由于学习深层神经网络涉及了大量的参数, 网络的训练需要大量的数据, 因此计算过程比较繁重, 需要进一步优化.

分类器

稀疏编码对特征变化非常敏感 [136] , 且稀疏编码过程忽略了局部特征之间的相关性
核方法的使用使 SVM 分类性能得以极大提升, 然而, 其最大的优点也是其最致命的弱点, 分类器的分类性能也会极大地依赖核的选取.

小结

基于背景建模的检测方法

优点：
- 实现简单、运算效率较高
缺点：
- 其适用范围比较狭小, 通常只能用在固定摄像机拍摄的场景下
- 固定场景也存在诸多干扰因素, 如光照变化、阴影、局部动态背景 (摇晃的树枝、波动的水面) 等, 这些因素都将极大地影响算法的性能
  - 那些 online 方法就是用来克服这些缺点的吧

基于目标建模的检测方法

优点：
- 克服了基于背景建模的方法固定场景的缺点, 可以用于动态环境 (如车载摄像头等) 的目标检测
- 一般检测出的运动区域不需再度进行分割, 扩展了目标检测的应用范围.
缺点：
- 但其应用过程中也存在诸多的挑战, 如较大的遮挡与光照变化, 较小的类间差与较大的类内差, 较大的目标形变与尺度变化, 较低的图像分辨率等.
  - 因为是刻画目标的，目标变化了就不好了
- 另外, 特征学习需要依赖大量的学习样本, 且不同场景需要训练不同的分类器, 在实际应用中一般较难满足实时要求.
- 研究者仍然需要从特征表达与分类器设计上进行思考, 提高算法的精确度、鲁棒性, 同时也不能忽略算法的时效性能.

目标跟踪

运动目标跟踪问题可以等价为在连续的图像帧之间, 构建基于目标位置、速度、形状、纹理、色彩等有关特征的对应匹配问题.
一般处理流程
- 目标状态初始化
  - 一般采用人工标定或目标检测的方法进行实现
- 表观建模
  - 包括了对目标的视觉特征 (颜色、纹理、边缘等) 的描述, 以及如何度量视觉特征之间的相似性, 它是实现鲁棒跟踪的关键所在.
- 运动估计
  - 运动估计则是采用某种运动假设来预估目标可能出现的位置
  - 常用的运动估计方法主要有线性回归 [146] 、均值漂移 [147] 、隐马尔科夫模型 [148] 、卡尔曼滤波 [149] 以及粒子滤波 [150] 等
  - 所以说起跟踪提到的均值漂移、卡尔曼滤波、粒子滤波，他们的重点其实是落在运动估计上的啊
- 目标定位
  - 在表观建模与运动估计的基础上, 采用某种最优化策略获取目标最可能的位置, 实现对跟踪目标的定位.
  其中 N 表示用于跟踪初始化的视频帧数.
表观建模可以分为
- 特征表达
- 统计建模
  - 特征表达我知道，上面讲了，可以是人工设计，也可以是学习得到的
  - 这个统计建模是个什么鬼？
目标跟踪按有无检测过程的参与, 可以分为
- 生成式跟踪
  - 在目标检测的基础上, 对前景目标进行表观建模后, 按照一定的跟踪策略估计跟踪目标的最优位置
- 判别式跟踪
  - 通过对每一帧图像进行目标检测来获取跟踪目标状态, 因此这类方法也常被称为基于检测的跟踪方法（跟踪前检测）
生成式跟踪和判别式跟踪的比较：
- 生成式跟踪方法采用一定的跟踪策略, 估计下一帧中跟踪目标的状态, 其跟踪过程与检测过程是相互独立的, 二者有一定的时间先后顺序
- 判别式跟踪方法将跟踪问题看作前景与背景的二分类问题, 通过学习分类器, 在当前帧中搜索与背景区分最大的前景区域, 其跟踪过程与检测过程彼此联系, 二者是同时进行的.

生成式跟踪方法

生成式跟踪方法假设跟踪目标可以由某种生成过程所描述, 其目标是从众多候选目标中寻找最优的候选目标.
生成式跟踪方法的关键在于如何精确地对跟踪目标进行重构表达, 采用在线学习方法对跟踪目标进行表观建模以适应目标表观的变化, 实现对目标的跟踪.
- 在线学习非常重要，是这些方法改进的重头
目前, 生成式表观模型的建立可以分为
- 基于核的方法
- 基于子空间的方法
- 基于稀疏表示的方法

基于核的方法

基于核的方法通常采用核密度估计的方式构建表观模型, 并使用 Mean shift 方法 [147] 对运动目标位置进行估计.

基于子空间的方法

基于子空间的方法的关键在于如何构建相关的基以及它们所张成的子空间, 对目标表观进行表示.

基于稀疏表示的方法

基于稀疏表示的方法通常假设跟踪目标在一个由目标模板所构成的子空间内, 其跟踪结果是通过寻求与模板重构误差最小而得到的最佳候选目标.
- 子空间方法和稀疏表示方法的不同在哪里?在我看来都是用基来表示啊，难道差别在冗余与否？
Zhang 等 [172] 认为大多数基于稀疏表示的跟踪方法, 仅考虑了多特征融合或局部表观建模, 而忽略了候选目标的内在结构. 为此他们提出了结构稀疏跟踪器 (Structural sparse tracking, SST), 充分地利用了候选目标的内在结构及其局部分块间的空间布局信息

小结

生成式跟踪方法使用了丰富的图像表示, 能精确地拟合目标的表观模型. 然而, 由于实际应用中跟踪目标通常没有特定的表观形式, 因此对此类方法的正确性的验证显得极其困难.
- 啊哈，生成式是对目标建模，估计小目标不行，所以这就是为什么张教主让我用 DCF（判别式相关滤波）的原因了。
- 真的不行吗？Ammy 不是说只要够 power 就够了吗？
同时, 该类方法忽略了背景信息, 当场景中出现与目标表观相似的物体时, 跟踪算法极易受到干扰, 出现跟踪失败. 为能充分地利用背景信息, 克服生成式跟踪方法的不足, 通常采用判别式跟踪方法.
- 这也就是为什么那篇 Correlation filter 综述立说判别式跟踪效果更好的原因吧

判别式跟踪方法

判别式跟踪方法将视觉目标跟踪视为一个二分类问题, 其基本思路是寻求跟踪目标与背景间的决策边界.
判别式跟踪方法通常采用在线增量学习的方法, 获取前景目标与背景的分界面, 降低计算成本, 提升计算效率.
由于该方法通常是对每一帧图像进行目标检测来获取目标状态, 因此这类方法也常被称为基于检测的跟踪方法.
目前, 判别式跟踪方法可以分为
- 基于在线 Boosting 的方法
- 基于支持向量机的方法
- 基于随机学习的方法
- 基于判别分析的方法

基于在线 Boosting 的方法

基于在线 Boosting 的方法 [178] 来源于 Valiant 提出的 PAC 学习模型 [179]
- 是 PAC，不是 PCA 啊，看清楚
其基本思路是通过对弱分类器进行重新整合来提升分类性能.
由于该类方法具有较强的判别学习能力, 因此其已广泛地应用于目标跟踪任务中 [180].
一般地, 此类算法通过自适应地选择区分性较强的特征, 根据目标的变化, 自适应地改变分类器完成跟踪任务.

基于支持向量机的方法

基于 SVM 的方法通过引入最大化分类间隔约束, 学习到具有较强分类性能的 SVM 分类器, 对目标与非目标进行划分, 最终实现对运动目标的跟踪.
上述表观模型的更新, 通常是在上次跟踪结果附近, 启发式地获取正负样本数据进行训练得到的,其训练样本的选取策略存在着极大的不确定性、随机性、不可靠性.
- 为了尽可能地提高样本选取的可靠性, 研究者提出了一系列相应的策略, 可以分为
  - 基于结构化输出的策略 [190]
  - 基于 Ranking SVM 的策略

基于随机学习的方法

基于随机学习的方法 [196] 通过对随机特征与输入的选取建立跟踪目标的表观模型
- 还是没看懂
典型的方法主要有
- 在线随机森林 [197]
- MIForests [198]
- 随机朴素贝叶斯 [199]
优点
- 由于随机学习的方法通常可以使用 GPU 实现并行加速计算, 故相比于基于在线 Boosting 和基于 SVM 的方法, 基于随机学习的方法处理速度更快、效率更高
- 且易扩展到对多分类问题的处理.
缺点
- 但由于该类方法的特征选取比较随机, 故在不同的应用环境下, 该类方法的跟踪性能不够稳定.
  - 注意是不同的应用环境，意思是说，对同一种应用，表现还是稳定的？
  - 不对，应用环境不都是跟踪么？所以说背景和目标还是不能有大变化

基于判别分析的方法

基于判别分析的方法的基本思路是通过寻找一个具有高类间差异的低维子空间对跟踪目标表观进行建模
这类方法主要有
- 线性判别分析
- 基于度量学习的判别分析
  - 基本思想是在满足样本类内距离最小、类间距离最大的约束下, 将图像原始特征空间映射至另一个可度量的空间来完成表观模型的构建.
  - 什么叫可度量的空间？原来的不可以度量么？
- 基于图的判别分析方法
  - 基于图嵌入的方法
    - 通过将高维样本嵌入到一个具有判别能力的低维空间,实现对运动目标的判别与跟踪.
  - 基于图直推学习的方法
    - 通过估计候选样本属于目标类的似然概率对目标或背景进行分类
有趣的一点是，这篇综述里，用于目标检测和用于目标跟踪的序列是分开的，这个我就不太明白，既然都是序列，不管是检测还是跟踪，不都是一回事么？
在数据集 VOT2015 上对典型的跟踪算法进行了评测
- 把下面的论文都要好好看看，还有代码，能否实现

小结

目标跟踪是在目标检测的基础上对运动目标的状态进行连续估计的过程.
将目标跟踪按其与检测的关系的不同分为了
- 生成式跟踪方法
- 判别式跟踪方法
生成式跟踪方法
- 优点：
  - 使用了丰富的图像表示, 在复杂环境中通常会得到更加精确的拟合结果.
- 缺点：
  - 但其在参数估计上容易受到局部极值的影响
  - 忽略了背景信息, 易受背景干扰, 场景中出现与目标相似的背景时容易出现跟踪漂移
判别式跟踪方法
- 优点:
  - 克服了生成式跟踪方法的缺陷, 考虑了背景信息, 对较大的遮挡和变化具有更强的鲁棒性.
- 缺点：
  - 对训练样本的依赖程度相对较高, 样本的选取会极大地影响这类方法的性能表现.

结束语

运动目标检测和跟踪的意义
- 主要用于获取运动目标的位置、姿态、轨迹等基本运动信息, 是理解服务对象或对目标实施控制的前提和基础.
场景与方法选择
- 在场景较固定、环境较简单时, 通常采用基于背景建模的方法, 就能够很好地进行运动目标的检测与跟踪任务.
- 在动态背景下, 环境较复杂时, 一般需要对运动目标进行表观建模, 实现其检测与跟踪任务.
  - 运动目标检测与跟踪的准确性与鲁棒性, 很大程度上依赖于精确的表观建模.
- 本文对背景建模讲得比较少，重点在表观建模上，特征表达是表观建模的重点内容
表观建模中的特征表达
- 传统的特征表达
  - 通常是依靠人类智慧、先验知识, 通过人工的总结设计用于视觉任务的特征
  - 能够较好地用于检测与跟踪任务, 且实现比较容易, 实时性能较强.
  - 设计难度大、表现不够本质
- 基于自学习的特征
  - 集中体现为基于深度学习的特征
  - 通过对样本的自学习, 获取更加本质的特征表达, 极大地提升了检测与跟踪的精度.
现有算法的不足
- 大多还只是停留在对特定场景下的运动目标的分析与建模, 较难实现对复杂自然环境下运动目标的精确检测与跟踪.
  - 这点对于小目标，我也可以说是，大多还只是停留在对较为理想的场景下的运动目标的分析与建模, 较难实现对极端复杂环境下运动目标的精确检测与跟踪.
- 在算法实时性能上也较难保证
- 努力的目标
  - 复杂自然场景下的运动目标检测与跟踪及其实时性能

目标检测与跟踪的研究热点以及发展趋势

场景信息与目标状态的融合
- 场景信息包含了丰富的环境上下文信息, 对场景信息进行分析及充分利用, 能够有效地获取场景的先验知识, 降低复杂的背景环境以及场景中与目标相似的物体的干扰
  - 这点是否可以用于小目标呢？红外图像之间差异实在太大，如果能用 input 的场景信息，对算法有些自适应的调整的话，会很好啊，我想的，在单帧检测里面用 online learning 是不是就有点融合场景信息的味道呢？
- 同样地, 对目标的准确描述有助于提升检测与跟踪算法的准确性与鲁棒性.
- 总之, 尝试研究结合背景信息和前景目标信息的分析方法, 融合场景信息与目标状态, 将有助于提高算法的实用性能.
  - 哈哈，这个不就是 CWRPCE 和 RIPT 的思路么
多维度、多层级信息融合
- 为了提高对运动目标表观描述的准确度与可信性, 现有的检测与跟踪算法通常对时域、空域、频域等不同特征信息进行融合, 综合利用各种冗余、互补信息提升算法的精确性与鲁棒性.
  - 哈哈，这不就是我 SR-MPCM 的思路么？
  - PFT 是频域的特征信息，MPCM 是时域的特征信息
  - 不相干性强调的就是特征信息差异要大
- 然而, 目前大多算法还只是对单一时间、单一空间的多尺度信息进行融合, 研究者可以考虑从时间、推理等不同维度, 对特征、决策等不同层级的多源互补信息进行融合, 提升检测与跟踪的准确性.
基于深度学习的特征表达
- 基于深度学习的特征表达具有强大的分层自学习能力, 能深度地挖掘隐含在数据内部间的潜在关系.
- 其中, 基于卷积神经网络的特征表达方法效果尤为突出, 近年来取得了显著的检测效果 [126−128]
- 然而, 基于深度学习的特征表达方法也存在一些问题尚未定论, 如
  - 深度学习的层数以及隐层节点个数如何确定
  - 深度学习所学得特征的优劣如何评价等
基于核的支持向量机分类方法
- 支持向量机 (SVM) 因其分类性能优良、操作实现简单等特性
- 其分类性能也会极大地依赖于核的选取
- 如何根据实际分类需求, 选取合适的核方法仍需进一步探索
高维数据的分类方法

@article{尹宏鹏2016基于视觉的目标检测与跟踪综述,
  title={基于视觉的目标检测与跟踪综述},
  author={尹宏鹏 and 陈波 and 柴毅 and 刘兆栋},
  journal={自动化学报},
  volume={42},
  number={10},
  pages={1466--1489},
  year={2016}
}

YimianDai/Yi2016ObjectDA.md

2016-自动化学报-基于视觉的目标检测与跟踪综述

摘要

引言

目标检测与跟踪相关综述文献

目标检测

基于背景建模的目标检测

概念

流程

背景初始化(Background initialization)

基于前景目标建模的目标检测

基于目标建模的目标检测方法的两个阶段

基于前景目标建模的目标检测方法的一般处理流程

特征表达

基于人工设计的特征表达

基于学习的特征表达

基于限制玻尔兹曼机的特征表达

基于自编码机的特征表达

基于卷积神经网络的特征表达

小结

分类器

小结

基于背景建模的检测方法

基于目标建模的检测方法

目标跟踪

生成式跟踪方法

基于核的方法

基于子空间的方法

基于稀疏表示的方法

小结

判别式跟踪方法

基于在线 Boosting 的方法

基于支持向量机的方法

基于随机学习的方法

基于判别分析的方法

小结

结束语

目标检测与跟踪的研究热点以及发展趋势