1,261 0
[略读]LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION
INTRODUCTION 本文关注移动设备上的推理加速,即Mult-Adds限制在500M以下。 首先,本能想法是减少embedding的尺寸,但会弱化模型捕捉长短距离关系的能力,导致性能下降; 然后...
INTRODUCTION 本文关注移动设备上的推理加速,即Mult-Adds限制在500M以下。 首先,本能想法是减少embedding的尺寸,但会弱化模型捕捉长短距离关系的能力,导致性能下降; 然后...