【24h】

Adaptive Attention Span in Transformers

机译:变压器中的自适应注意范围

获取原文

摘要

We propose a novel self-attention mechanism that can learn its optimal attention span. This allows us to extend significantly the maximum context size used in Transformer, while maintaining control over their memory footprint and computational time. We show the effectiveness of our approach on the task of character level language modeling, where we achieve state-of-the-art performances on text8 and enwiki8 by using a maximum context of 8k characters.
机译:我们提出了一种新颖的自我注意机制,可以学习其最佳注意范围。这使我们可以显着扩展Transformer中使用的最大上下文大小,同时保持对它们的内存占用量和计算时间的控制。我们展示了我们的方法在字符级语言建模任务上的有效性,其中通过使用8k个字符的最大上下文,在text8和enwiki8上实现了最新的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号