[略读]LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION

INTRODUCTION

本文关注移动设备上的推理加速，即Mult-Adds限制在500M以下。

首先，本能想法是减少embedding的尺寸，但会弱化模型捕捉长短距离关系的能力，导致性能下降；

然后，我们发现瓶颈结构的transformer效率不高，因此去除了FFN(feed-forward network)；

另外，在结构上并行，引入卷积捕捉局部信息。

本文贡献如下：

对于1-D特征的attention，瓶颈结构的压缩通道数并不能带来明显的参数量和计算量的降低，反而会导致模型泛化能力不足。本文将ffn的结构修改为前后通道数相同的形式，