Abstract
提出non-local operations 加入到NN中用于获取long-range dependencies(间断时间画面之间的联系)。如图所示,在Xi点的response为所有箭头指向特征的加权和。与Xi相关性越强的特征,权重越大。
Introduction
常用的Conv和recurrent操作都是基于local neighborhood获取long-range dependencies,其缺点为计算低效,optimization困难,难以利用多个远距离block间的联系信息。因此提出non-local 操作加入到NN中,
NL操作不考虑2个位置间的距离,直接计算两者间的关联以获取long-range dependence。
Related Work
self attention
Non-local Neural Networks
Formulation
DNN中non-local操作定义如下: yi=1C(x)∑∀jf(xi,xj)g(xj).
式(1)表示所有位置在一个operation中都会考虑到,只是赋予的权重不同,所有叫non-local。而conv只关注相邻,而recurrent只关注之前的time step。
Instantiations
举一些g(),f()采用函数的例子,g()可以是linear embedding:g(xj)=Wgxj。
Gaussian f(xi,xj)=exTixj.
Embeded Guassian f(xi,xj)=eθ(xi)Tϕ(xj).
Dot product f(xi,xj)=θ(xi)Tϕ(xj).
Concatenation f(xi,xj)=ReLU(wTf[θ(xi),ϕ(xj)]).
Non-local Block
将式(1)的non-local operation 加入到non-local block,block的定义如下: zi=Wzyi+xi,
reference
https://walkccc.github.io/blog/2018/10/27/Papers/nonlocal-nn/