2020年11月26日

[略读]LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION

INTRODUCTION

本文关注移动设备上的推理加速,即Mult-Adds限制在500M以下。

首先,本能想法是减少embedding的尺寸,但会弱化模型捕捉长短距离关系的能力,导致性能下降;

然后,我们发现瓶颈结构的transformer效率不高,因此去除了FFN(feed-forward network);

另外,在结构上并行,引入卷积捕捉局部信息。

本文贡献如下:

  1. 在计算量上,瓶颈结构对1-D注意力机制不友好
  2. 提出LSRA结构
  3. 依托LSRA结构建立的网络不仅进行了模型压缩还提高了性能
  4. 比AutoML搜索到的网络效果更好,减少了碳排放

对贡献1的解释

对于1-D特征的attention,瓶颈结构的压缩通道数并不能带来明显的参数量和计算量的降低,反而会导致模型泛化能力不足。本文将ffn的结构修改为前后通道数相同的形式,

Share

发表评论

您的电子邮箱地址不会被公开。