arXiv:2304.12345cs.CL4/15/2023

Attention Is All You Need

作者：Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit

目录

Transformer架构详解核心贡献 1. 自注意力机制（Self-Attention）2. 位置编码（Positional Encoding）3. 架构优势实验结果

Transformer架构详解

核心贡献

纸条你好！

这篇开创性的论文提出了Transformer架构，彻底改变了自然语言处理领域。主要创新点包括：

1. 自注意力机制（Self-Attention）

•多头注意力：允许模型同时关注不同位置的信息
•并行计算：相比RNN，可以并行处理序列中的所有位置
•长距离依赖：有效捕获序列中远距离元素之间的关系

2. 位置编码（Positional Encoding）

PE(pos, 2i) = sin(pos/10000^(2i/d_model)) PE(pos, 2i+1) = cos(pos/10000^(2i/d_model))

3. 架构优势

•可并行化：训练效率比RNN高数倍
•可解释性：注意力权重提供了模型决策的洞察
•迁移学习：为后续的BERT、GPT等模型奠定基础

实验结果

在机器翻译任务上：

•WMT 2014 英德翻译：BLEU分数达到28.4
•WMT 2014 英法翻译：BLEU分数达到41.8
•训练时间：相比最佳RNN模型减少了75%

这一工作开启了"Attention is All You Need"的时代，成为现代大语言模型的基石。