任何一篇做 Attention 的论文都应该回答一个问题,就是这个指导 Attention Module 该关注、抑制什么的信息来自于什么?为什么可以指导有效?
不需要啊,就是最后网络的全局损失函数,比如 SENet,就是希望建模通道之间的相互依赖关系,通过网络的全局损失函数自适应的重新矫正通道之间的特征相应强度。
如果要学好 attention, 就必须要有一个比较好的初始化, 不然容易陷入到一个糟糕的点。
最近读过的 Attention 的文章:
Attention 竟然也会有 起落:70 年代中期的时候,由于计算资源极其有限,Attention 作为一个可以聚焦、节省资源的方式得到了很大的关注;但到了 80 年代,Attention 变得很冷了,因为人们不相信 Attention。现在 Attention 变得更受关注了。本书出版于 2011 年,作者肯定想不到在深度学习统治的现在,Attention 更火了。
这帮认知、AI 交叉的人感兴趣的都是 develop models and systems that are biologically plausible
attention 通常要么被认为是 **selection of a region of interest to guide eye movements **要么被认为是 single-neuron modulation,看作者的意思是这两者是相关的,会有一个 overarching theory of attention 将两者统一起来。
高斯过程我觉得问题主要有两个, 一是不适合刻画不平滑的分布, 二是仍然解决不了 N^3 的复杂度的问题. 除此以外 data efficiency 这种优点简直完美. 第一个问题我觉得可以通过 kernel 尽量解决,至于第二问题就是硬伤了,没有办法了。所以现在 GP 方面的大神都在研究这个如何快速实现 GP。 N^3 的复杂度可以用 zoubin 提出的 sparseGP 来变成 M^2N,M 是 inducing points,M<<N,跟 SVM 的 support vector 类似 对,这就是我最近在研究的 variational inference