【24h】

Adaptive Attention Span in Transformers

机译:变压器的自适应注意力跨度

获取原文

摘要

We propose a novel self-attention mechanism that can learn its optimal attention span. This allows us to extend significantly the maximum context size used in Transformer, while maintaining control over their memory footprint and computational time. We show the effectiveness of our approach on the task of character level language modeling, where we achieve state-of-the-art performances on text8 and enwiki8 by using a maximum context of 8k characters.
机译:我们提出了一种新颖的自我关注机制,可以学习其最佳关注跨度。这允许我们显着扩展变压器中使用的最大上下文尺寸,同时保持对存储空间和计算时间的控制。我们展示了我们对字符级语言建模任务的方法的有效性,在那里我们通过使用8K字符的最大上下文来实现Text8和EnWiki8上的最先进的表演。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号