Deep convolutional Gaussian processes

杂记

高斯过程我觉得问题主要有两个, 一是不适合刻画不平滑的分布, 二是仍然解决不了 N^3 的复杂度的问题. 除此以外 data efficiency 这种优点简直完美. 第一个问题我觉得可以通过 kernel 尽量解决，至于第二问题就是硬伤了，没有办法了。所以现在 GP 方面的大神都在研究这个如何快速实现 GP。 N^3 的复杂度可以用 zoubin 提出的 sparseGP 来变成 M^2N，M 是 inducing points,M<<N，跟 SVM 的 support vector 类似对，这就是我最近在研究的 variational inference

Gaussian processes are a family of Bayesian models that characterize distributions of functions，以前随机变量是一个变量的分布，现在的高斯过程是一个函数的分布

Reddit 上的讨论：https://www.reddit.com/r/MachineLearning/comments/9moilm/r_deep_convolutional_gaussian_processes/

Variation Inference 之所以是 Approximate，是因为逼近的函数族是比较简单的，不具有万能逼近能力，那有没有既逼近比较简单又具有万能逼近能力的呢？

什么是高斯过程？

先了解什么是随机过程？我已经很清楚什么是随机变量了，每个随机变量有一个分布；至于随机过程，就是随机变量的集合，比如时间 t 的集合，因此也可以看成是随机变量关于时间的函数（在每个时间点上都是一个新的、不同的随机变量）。举一个例子，比如具体某一天 PGM 课程的出勤人数是一个随机变量，那一段时间内每次 PGM 课程出勤人数的集合就是一个随机过程。

用数学语言来说，就是事物变化的过程不能用一个（或几个）时间 t 的确定的函数来描述。不可重复性。也就是说，如果对事物变化的全过程进行一次观测得到一次观察结果是一个时间 t 的函数，但对同一事物的变化过程独立地重复进行多次观测所得的结果是不相同的。如果对于每一特定的 t 属于 T（T 是时间集合），X(t) 是一个随机变量，则称这一族无穷多个随机变量 {X(t),t 属于 T} 是一个随机过程。对于随机过程 {X(t)}，如果是由一个不相关的随机变量的序列构成的，即对所有 s 不等于 t，随机变量 Xs 和 Xt 的协方差均为 0，则称其为纯随机过程。对于一个纯随机过程来说，若其期望和方差均为常数，则称之为白噪声过程（White noise）所谓平稳过程就是其统计特性不随时间的平移而变化的过程。

再来看高斯过程，高斯过程是随机过程 (Stochastic process) 中一个特殊例子。先看看 wiki 上的定义：

在概率论和统计学中，高斯过程（英语：Gaussian process）是观测值出现在一个连续域（例如时间或空间）的统计模型。在高斯过程中，连续输入空间中每个点都是与一个正态分布的随机变量相关联。此外，这些随机变量的每个有限集合都有一个多元正态分布。高斯过程的分布是所有那些（无限多个）随机变量的联合分布，正因如此，它是连续域（例如时间或空间）的分布。

关键词：连续域，正态分布，多元正态分布。

什么是高斯过程？

简单的说，就是一系列关于连续域（时间或空间）的随机变量的联合，而且针对每一个时间或是空间点上的随机变量都是服从高斯分布的,因此 GP 的分布就是对于时间域上所有随机变量的联合分布。

一个高斯分布可以被一对 mean value 和 variance value 共同唯一决定；一个多元高斯分布可以被一对 mean vector 和 covariance matrix 共同唯一决定；一个 高斯过程 可以被一对 mean function 和 covariance function 共同唯一决定

感觉就是无限长、无限密集的 vector 就变成了 function 了

当然这个所谓的唯一是指的是表达形式，而不是样本唯一（因为样本是从随机变量里面采样出来的）

那么整体来说，mean 和 covariance function 分别在画出来的样本中扮演着什么样的角色呢？

正如之前描述的，事实上，mean function 决定的样本出现的整体位置，即基准线，若是 0 的话就是在 y=0 就是基准线。当然这也是常用的的 mean function，其中原因就是它强调于刻画出现样本的整体的位置。另一个原因是在之后我们要说的 GP 在机器学习中的应用中，一般数据需要进行预处理，而归零中心常常是必须做的。不过，除了 0 以外，一些线性的 mean function 也是可以被考虑的。

至于 covariance function 么，这个才是之后在 machine learning 的应用中被广为探讨的部分，因而就被称为了核函数 kernel，原因就是它捕捉了不同输入点之间的关系，并且反映在了之后样本的位置上。这样的话，就可以做到，利用点与点之间关系，以从输入的训练数据预测未知点的值。

covariance function 就是核函数 kernel，捕捉了不同输入点之间的这个关系是一个 pair-wise 的关系

什么是 Evidence？

Model evidence 和 Likelihood 有什么区别？

The model evidence is sometimes also called the marginal likelihood because it can be viewed as a likelihood function over the space of models, in which the parameters have been marginalized out.

Model evidence 也叫做 marginal likelihood，看来是把参数积分掉后只剩下

evidence p(y) 这个 y 是什么？y 是 label，这里说 p(y) 是 evidence，应该是把超参数省略掉了

函数是一个映射：输入是一个变量的数值，输出是函数的数值泛函也是一个映射：输入是一个函数，输出是这个泛函的数值

泛函是函数的函数，输入是函数，但输出还是数值

Many problems can be expressed in terms of an optimization problem in which the quantity being optimized is a functional. The solution is obtained by exploring all possible input functions to find the one that maximizes, or minimizes, the functional.

这是对的，因为我们把我们要找的东西都刻画成了一个函数，比如把图像看出函数，把机器学习的分类面看出函数，把 data -> label 的映射看成一个函数，而优化任务就是找能够使得 cost function 最小的函数，因此，这就是个标准的泛函优化问题

Primer on Gaussian Process

f(x) 表示什么东西？

x 是输入的图像，f(x) 就是对应层的激活值吧，所以 f(x) 肯定是个标量

f | u, Z 说是 Gaussian function posterior，那这个 Gaussian function posterior 究竟是个什么东西？

首先，明确一点，这里的后验并不是参数的后验，这里是函数的后验，其实是和参数的后验一样的，因为当我们说参数后验的时候，是因为我们在用参数刻画函数，所以函数的后验就是参数的后验，只不过这篇文章里一直都没有出现参数，因为真实的函数我们不知道，而用来逼近的函数我们还没有指定具体的形式，所以这里就用广义的函数了

Variational Inference

为什么 VI 和 EM 一个参数是固定的 theta，一个是跟样本数相关的，而且被吸收进了 Z 里面？

后面又提到 q(Z | w) 可以是 w 的函数，那又是什么吗？本来不是说参数收到 Z 里面去了吗？

3.1 Convolutional GP layers

从公式 (12) 可以看出，CNN 里面的 Conv + RelU，这里是用一个高斯过程来代替了

YimianDai/Deep-Convolutional-Gaussian-Processes.md

Deep convolutional Gaussian processes

杂记

什么是高斯过程？

什么是高斯过程？

什么是 Evidence？

Primer on Gaussian Process

Variational Inference

3.1 Convolutional GP layers