Tagged: 长文本

204  0

[略读]Big Bird: Transformers for Longer Sequences

Abstract 基于Transformer的模型,例如BERT,已成为自然语言处理中最成功的深度学习模型之一。不幸的是,它有一个核心限制是全局注意力机制对序列长度具有二次方的依赖性(主要是在显存方面...