- 由于目标外观和环境的变化, 以及背景干扰等因素的存在, 使得复杂场景下的鲁棒实时的目标跟踪成为一项极具挑战性的任务.
- 视觉注意是人类视觉信息处理过程中的一项重要的心理调节机制, 在视觉注意的引导下, 人类能够从众多的视觉信息中快速地选择那些最重要、最有用、与当前行为最相关的感兴趣的视觉信息,
- 看中的就是 HVS 快速的筛选性
- 特别地, 人类能够快速指向感兴趣的目标, 从而可以轻松地实现对目标的稳定跟踪.
- 还有 知道什么感兴趣(先验、自顶而下),而且稳定跟踪(对遮挡、自身形态变化的鲁棒性强)
- 因此,将视觉注意机制引入到复杂场景下的目标跟踪中, 有利于实现更为稳定和接近于人类认知机制的视觉跟踪算法.
- 说白了,就是要借鉴 HVS 的能够有这么多优点的机制,并不一定是要完全模拟 HVS
- 目标自身
- 目标自身形态的变化
- 目标的突变运动
- 复杂外界环境的干扰
- 场景的动态变化
- 遮挡
- 相似物干扰
- 光线剧烈变化
- 研究表明, 人类具有异常突出的数据筛选能力, 而视觉注意机制是保证人眼高效率工作的重要机制.
- 在人类视觉信息处理中, 总是迅速选择少数几个显著对象进行优先处理, 而忽略或舍弃其他的非显著对象, 这使我们能够有选择地分配计算资源, 从而极大地提高视觉信息处理的工作效率.
- 感觉这就是我在 MILLRACE(LP-PSSV)里面要先用 HVS 的原因了
- 人类能够轻松地实现对目标的稳定跟踪, 视觉注意机制扮演了重要的角色. 因此, 将视觉注意机制引入到目标跟踪算法中, 以提高跟踪的鲁棒性和实时性, 具有重要的意义.
- 说白了,就是借鉴 HVS
-
注意是人类信息加工过程中一项重要的心理调节机制, 是指选择性地指向环境中的某一方面而忽视其他事物的认知过程 [18] , 它能够对有限的信息加工资源进行分配, 使感知具备选择能力.
-
因为人类往往需要在同一时间应对庞大数量的视觉数据, 以至于难以完全地进行详细处理, 这就使得人们必须高效地在众多的视觉数据中按重要性进行优先选择. 机器感知同样面临人类类似的挑战, 它们必须处理大量的数据, 从而需要选择最有用的部分.
- 所以对于小目标,我一直在强调目标不一定是显著的,所以说,HVS 方法都不靠谱。
- 现在看来,上面这个想法其实有点以偏概全了,目标不显著,采用 HVS 方法并不能再直接假设目标是最显著的那个了,但是 HVS 可以用来剔除冗余信息,为其他方法创造条件,这就是 MILLRACE(LP-PSSV)的 motivation 啊
- HVS 不好直接用于不显著的小目标,但用来剔除图像中的冗余信息还是可以的,所以还是很有用的
-
人类视觉系统指导注意力分配的因素
- 自下而上 (Bottom-up) 的注意
- 也称为数据驱动的注意选择, 仅受感知数据的驱动, 将人的视点指导到场景中的显著区域.
- 通常与周围具有较强对比度或与周围有明显不同的区域吸引自下而上的注意;
- 自上而下 (Top-down) 的注意
- 也称做任务驱动的注意选择, 由人的 “认知因素” 决定, 比如知识、预期和当前的目标.
- 自下而上 (Bottom-up) 的注意
- 方法流程
- 对于一幅输入的图像, 该模型提取初级视觉特征: 颜色、亮度和方位
- 在多种尺度下使用中央周边 (Center-surround) 操作产生体现显著性度量的特征图
- 将这些特征图合并得到最终的显著图 (Saliency map)
- 利用生物学中赢者取全(Winner-take-all) 的竞争机制得到图像中最显著的空间位置, 用来向导注意位置的选取,
- 最后采用返回抑制 (Inhibition of return) 的方法来完成注意焦点的转移.
- 四种模型实现
- Itti等 [24] 的 iNVT
- Walther [25] 的 Saliency Toolbox (STB)
- Frintrop [26] 的用于视觉物体检测的计算注意系统 (Visual object detection with a computational attention system, VOCUS)
- Harel [27] 实现的 Matlab 代码
- 决策论的观点认为, 不断进化的感知系统能产生关于周围环境的、在决策论意义下的最优决策.要点在于视觉注意应被与当前任务有关的最优性所驱动.
- 判别显著性模型
- 把显著性问题看作是两类视觉刺激的最优决策, 这两类刺激为:
- 感兴趣的刺激
- 包含了不显著刺激的背景或零假设.
- 显著性的计算通过确定一个二分类问题得以实现. 视野内每个位置的显著性等同于一个视觉特征集在该位置上的判别力 (即期望分类误差).
- 把显著性问题看作是两类视觉刺激的最优决策, 这两类刺激为:
- 在 SR 方法提出后, Guo 等 [31] 发现, 直接丢弃输入图像的幅度谱而只保留相位谱信息能得到更好的显著性预测, 该方法称为相位谱傅里叶变换
- 优点:
- 基于频谱分析的显著性模型, 形式简洁, 易于解释和实现
- 并且在注意焦点预测和显著区域检测方面取得了很大的成功
- 由于基于快速傅里叶变换实现, 能够满足实时要求
- 缺点:
- 其生物合理性不是非常清楚
- 通过对信号进行频域分析发现, 幅度谱上的尖峰 (Spike) 对应原始信号中的重复模式, 进而可以通过对幅度谱进行低通滤波 — 谱滤波 (Spectral filtering, SF) 达到抑制重复模式, 突出显著信号的作用.
- 该文表明, “图像的幅度谱与一个低通高斯核之间的卷积操作, 相当于图像显著性检测器”.
- 使用在合适尺度进行低通滤波后的幅度谱和原始相位谱, 进行傅里叶逆变换重建的二维信号, 即为图像的显著图.
- 跟 SR、PFT 一样的套路
- SR 和 PFT 均是该方法的特例, 相当于谱滤波的尺度参数趋于无穷时的情况;
- 频率调谐法 [32] 在一定程度上也是该方法的特例, 相当于谱滤波的尺度参数比较小时, 和均值对应的成分得到了明显抑制.
- 谱滤波方法以自下向上的方式计算图像的显著图, 并取得了很好的效果.
- 图模型是一个使用图对随机变量之间的条件依赖结构进行表示的概率框架.
- 图模型可以对复杂的注意机制建模, 因此能取得较好的预测能力, 缺点在于模型的高复杂度
- 注意在人类的目标跟踪中扮演了十分重要的角色, 主要体现在
- 目标维持
- 错误恢复
- 目标增强
- 干扰抑制
- 目标增强和干扰抑制这两点也为 MILLRACE(LP-PSSV)为什么要先做 HVS 提供了理论支撑
- 另外, 计算机视觉领域的研究者对 “显著性与跟踪的关系” 提出目标跟踪的显著性假说 [36] — “跟踪是通过判别性的中央 – 周边显著性机制进行自上而下调节完成的,该调节基于目标的特征”, 并进行了一定程度的证实.
- Yantis [37] 声称, 注意在跟踪过程中, 涉及了视觉目标的维持.
- 文献 [39] 指出, 注意过程通过参与跟踪过程, 或作为一种错误恢复机制, 起到促进跟踪的作用 (另见文献 [40]).
- Makovski 等 [41] 指出, 人类视觉的跟踪依赖于目标外观特征的辨别性, 外观特征对跟踪的性能具有增强作用, 这种增强作用是基于特征的, 从而体现了跟踪中的一定程度的特征绑定.
- Doran 等 [42] 提供的证据表明, 视觉注意在跟踪中的作用主要体现在对目标的增强和对干扰的抑制上, 尤其在干扰物稠密的情况下.
- 也就是上面讲到的注意在人类的目标跟踪中扮演的角色:目标维持、错误恢复、目标增强、干扰抑制
-
假设跟踪是通过判别性的中央 – 周边显著性机制进行自上而下调节完成的, 该调节基于目标的特征
-
文献 [44] 给出了关于该假说的了三个断言,如果 “目标跟踪的显著性假说” 成立, 则这三个断言 必然成立
-
- 显著目标的跟踪可靠性比非显著目标的高;
-
- 跟踪可靠性依赖于显著性的定义变量: 特征对比度和干扰物异质性, 并类似于显著性对这些 变量的依赖;
-
- 显著性和跟踪均可使用普通的低级神经机制实现,并符合
-
- 初级视觉皮层 (V1)和后顶叶皮层区 (MT) 的标准生理学模型;
-
- 外侧顶内沟区 (LIP) 的注意控制,
-
-
分类标准与跟踪方法涉及的注意计算方式有关, 或者与所计算得到的显著图、提取的显著区域或显著点在跟踪中所起的作用有关
-
自下而上 vs. 自上而下
- 注意力的分配依赖于自下而上的因素还是自上而下的影响或者是两者兼而有之
-
空间 vs. 时空
- 估计显著性时仅使用空间信息还是时空信息都使用
-
基于空间 vs. 基于物体 (或特征)
- 所使用的注意模型, 其注意的单元是空间位置还是物体 (或特征). 由于视觉特征与物体有着密切的关系, 因此把基于特征的和基于物体的归为一类.
- 什么叫空间位置啊?不应该都是基于物体的么?
-
估计显著性时所使用的特征
- 该标准指明计算显著性时使用哪些特征. 常用的特征有颜色、亮度、方位、轮廓等静态特征, 以及深度、物体尺寸、物体运动等动态特征
-
注意计算模型的输出在跟踪中的作用
- 注意计算模型的输出通常为指明注意力分布情况的显著图、提取出的显著区域集或显著点集.
- 显著图、显著区域集、显著点集在跟踪算法中常见的作用包括:
- 目标检测或搜索;
- 目标外观表示;
- 作为一种加权方式; 作为一种特征增加到原来跟踪框架中,如结合别的指标中用于训练样本的选择、衡量粒子的权重.
- SR-MPCM 要传达的,其实就是把原先 HVS 直接将显著性图用作目标检测,改为作为一种加权方式
-
按照获得显著性的机制将方法分类为
- 基于自下而上的视觉注意, 只能跟踪场景里的显著区域, 即那些在颜色或灰度上具有很高对比度的物体或者运动显著的区域才能被跟踪到
- 视觉注意的生物机制并没有完全研究清楚, 尤其是自上而下的任务驱动型注意的机制及计算原理, 而目标跟踪是任务驱动的, 因此, 需要对自上而下的任务驱动型视觉注意计算模型展开进一步的研究, 并将其应用到目标跟踪中, 以进一步提升目标跟踪的性能.
- 使用显著区域进行跟踪
- 其优点在于能在一定程度上处理外观变化、伪装环境及相似物干扰.
- 不足之处在于, 通常依赖大量显著区域的共同出现 [76] ,计算代价较为昂贵, 此外, 目标必须足够大 [77] .
- 使用显著点的跟踪, 把目标表示为一系列显著点, 目标的跟踪通过显著点集的跟踪得到实现.
- 快速的信息选择
- 自动初始化
- 自动恢复机制
- 由于存在诸如背景杂乱、运动突变、完全遮挡等各种原因可能导致跟踪失效, 事先设计好的跟踪系统通常不能应对引发跟踪失效的所有可能原因, 因此, 对失效的自动恢复显得尤为重要.
- 通过可靠的验证模块自动地确定跟踪是否失效, 一旦失效, 在注意机制的辅助下, 跟踪系统可以快速地进行全局搜索,达到目标重检测的目的.
- 判别特征选择
- 这块是怎么体现的?
- 完整的目标区域
- 基于物体的注意机制可以获得完整目标区域, 为在线学习提供完整的纯净的训练样本.
- 应该就是说不会在样本内引入背景的东西这个意思吧
- 稳定的特征提取
- 目前提出的基于注意机制的方法, 大多直接把注意到的区域作为跟踪结果, 这与人的跟踪过程不符
- 人的视觉系统通过注意机制选择与当前任务相关度高的信息后, 送入工作区进行处理;
- 未来的研究应体现出注意对目标的保持能力, 选择后的信息送入保持有稳定的目标特征的验证模块作精细处理, 并对验证后的样本在线学习.
- 目前的大多数视觉注意计算模型主要集中在自下而上方面, 尚缺乏任务驱动注意 (即自上而下注意) 的计算原理, 而跟踪是任务驱动的, 因此, 研究适用于包括跟踪在内的, 满足时变任务需求的任务驱动注意模型, 以进一步提升目标跟踪的性能, 是一个很有前景的研究方向
- 认知心理学、计算机视觉、机器学习
- 我的研究方向就这 3 个吧
@article{Li2014TrackingVA,
title={引入视觉注意机制的目标跟踪方法综述},
author={黎万义 and 王鹏 and 乔红 and others},
year={2014}
}