Localization 虽说都要给出 Bounding Box,但是不同于 Detection 有专门的 Detection 数据集,Localization 用的还是 Classification 的数据集,也就是每幅图像中只有一个占据主要区域面积的物体,而 Detection 的数据集中一幅图像内可以有任意多个物体,也可以没有。
ICLR-2014-Overfeat 那篇论文提到了两者的区别。
- Loss 要可微分,这样才可以做 SGD;Metric 则没有这个要求
- Loss 最后是变成一个 scalar (某种程度上对 Overall Accuracy 的反应),在 Class Imbalance 的情况下,数量小的类别会 get less prioritised in an effort to achieve the best overall accuracy,这就是 Focal Loss 的动机;而在 Metric 里面,比如 mAP,如果一个类很低,就会特别拉低。
[1] 1. ICLR-2014-OverFeat Integrated Recognition, Localization and Detection using Convolutional Networks