INTRODUCTION
本文关注移动设备上的推理加速,即Mult-Adds限制在500M以下。
首先,本能想法是减少embedding的尺寸,但会弱化模型捕捉长短距离关系的能力,导致性能下降;
然后,我们发现瓶颈结构的transformer效率不高,因此去除了FFN(feed-forward network);
另外,在结构上并行,引入卷积捕捉局部信息。
本文贡献如下:
- 在计算量上,瓶颈结构对1-D注意力机制不友好
- 提出LSRA结构
- 依托LSRA结构建立的网络不仅进行了模型压缩还提高了性能
- 比AutoML搜索到的网络效果更好,减少了碳排放
对贡献1的解释
对于1-D特征的attention,瓶颈结构的压缩通道数并不能带来明显的参数量和计算量的降低,反而会导致模型泛化能力不足。本文将ffn的结构修改为前后通道数相同的形式,