Transformer架构详解：机器学习最重要的进展，改变NLP与CV领域-智慧文博士

Transformer是过去十年机器学习最重要的进展，通过自注意力机制解决了RNN的长程依赖和并行化问题。它由编码器和解码器组成，使用词嵌入和位置编码处理输入，通过自注意力机制和多头注意力机制捕捉单词间关系。现代Transformer包括BERT（仅编码器）、GPT（仅解码器）和ViT（应用于计算机视觉），已在NLP和CV等领域展现出强大能力。

Transformer 架构可以说是过去十年机器学习中最重要的进展之一，它彻底改变了自然语言处理（NLP），如今也正扩展到计算机视觉及其他领域。这个主题比较复杂，因此我们先聚焦核心概念。

你也可以跳过其余内容，直接阅读 https://kikaben.com/transformers-encoder-decoder。这篇文章对这一概念解释得非常清楚。

1. 前 Transformer 时代：为什么需要一种新架构？

在 Transformer 出现之前，序列数据（如文本）的最先进方法主要依赖循环神经网络（RNN），以及它们更强大的变体——长短期记忆网络（LSTM）和门控循环单元（GRU）。

RNN 会按顺序处理数据。要理解一句话中的第五个单词，RNN 必须先处理第一个、第二个、第三个和第四个单词。这种顺序处理方式带来了两个主要瓶颈：

1. 长程依赖问题（Long-Range Dependency Problem）：在一段长文本中，第一句话的信息可能对理解最后一句话至关重要。对于 RNN 来说，这意味着最初的信息必须经过整个序列的处理步骤才能传递到最后。但到最后，这条信号可能变得非常微弱或“消失”，使模型难以关联远距离的单词。
1. 并行化问题（Parallelization Problem）：由于必须先处理单词 N 才能处理单词 N+1，无法一次性处理整句话。这会导致在大规模数据集上的训练非常缓慢且低效，因为无法充分利用擅长并行计算的现代硬件（如 GPU 和 TPU）。

Transformer 的目标是设计一种既能处理长程依赖，又高度可并行化的架构。它通过完全舍弃循环结构，引入了称为注意力机制（attention）的方法，实现了这一目标。

2. Transformer 概览：高层次视图

最初的 Transformer 由开创性论文《Attention Is All You Need》提出，最初用于机器翻译（例如，将英语翻译成法语）。

它由两部分组成：

编码器（Encoder）：读取输入句子（例如 “The cat sat on the mat”），并构建其丰富的上下文数值表示。

解码器（Decoder）：接收编码器生成的表示，并一次生成一个单词，构建输出句子（例如 “Le chat était assis sur le tapis”）。

编码器和解码器都是由多个相同的层堆叠而成。接下来，我们将详细拆解这些层内部的结构。

3. 核心概念 1：输入处理（Embedding 与位置编码）

计算机无法理解自然语言单词，因此我们首先需要将单词转换为数字。

a) 分词与词向量（Tokenization and Word Embeddings）

首先，将句子拆分成 token（通常是单词或子词）。每个 token 通过 embedding 层映射为一个数值向量。这个向量不仅仅是一个随机 ID，而是一个稠密表示，具有语义相似性的单词会被映射到相近的向量。例如，“king” 与 “queen”的向量会比它们与“apple”的向量更接近。

b) 位置编码（Positional Encoding）：缺失的顺序感

由于 Transformer 没有循环连接，如果直接输入词向量，它无法知道单词的顺序。“The cat chased the dog” 与 “The dog chased the cat” 会看起来完全相同。

为了解决这个问题，我们将位置编码注入输入的词向量中。这些向量为序列中的每个单词提供了独特的“时间戳”或位置信号。原始论文使用了一个巧妙的方法：对不同频率的正弦和余弦函数进行编码。

直观理解：每个位置都会获得一个独特的标记。该方法还允许模型轻松学习相对位置，因为位置 pos+k 的编码可以用位置 pos 的编码通过线性函数表示。

4. 核心概念 2：自注意力机制（Transformer 的核心）

这是使模型在处理特定单词时能够衡量序列中不同单词重要性的机制。它允许每个单词直接“查看”序列中的每一个其他单词。

想象翻译句子：“The animal didn’t cross the street because it was too tired.”

“it” 指代什么？答案是 the animal。自注意力机制帮助模型学习这种联系。

a) 查询、键和值（Q、K、V）

注意力机制基于三个为每个输入词嵌入生成的向量：

•Query (Q)：表示当前单词正在“寻找”的上下文。它提出一个问题：“我应该关注哪些其他单词？”
•Key (K)：表示单词的“标签”或它提供的信息。它像一个广告：“这是我持有的信息。”
•Value (V)：表示单词的实际内容。它是信息载体：“如果你关注我，你会得到这些信息。”

这三个向量是通过将输入嵌入分别乘以三个可学习的权重矩阵（Wq、Wk、Wv）得到的，这些矩阵在训练过程中学习。

b) 缩放点积注意力公式

这个过程分几个步骤：

•计算得分（Score）：对于我们正在处理的单词（用其 Query Q 表示），与句子中每个其他单词（用其 Key K 表示）计算得分。通过 Q 和每个 K 的点积实现。得分高表示单词之间高度相关。
•缩放（Scale）：将得分除以 Key 向量维度的平方根 (√d_k)。这个缩放步骤对训练中梯度稳定非常关键。
•权重（Softmax）：将缩放后的得分通过 softmax 函数，将其转化为概率，所有权重之和为 1。结果就是每个单词的“注意力权重”。权重高表示该单词对理解当前单词非常重要。
•输出（Output）：当前单词的最终输出是句子中所有 Value (V) 向量的加权和，使用来自 softmax 的注意力权重。

这个过程会对句子中的每个单词并行执行，为每个单词生成一个新的表示，这个表示融合了整个序列的丰富信息。

5. 核心概念 3：多头注意力机制（Multi-Head Attention）

单个自注意力机制可能只关注一种类型的关系（例如主语-动词）。但如果我们想同时捕捉多种关系（例如代词-先行词、形容词-名词等）怎么办？

这就是多头注意力机制的理念。

工作原理：

• 与其只有一组 Q、K、V 矩阵，我们有多组矩阵（例如 8 个“头”）。
• 输入嵌入被拆分，每个“头”获得自己的一组 Q、K、V 矩阵，并并行执行注意力计算。
• 每个头生成自己的输出向量，这些向量随后被拼接起来，并通过最终的线性层。

直观理解：就像让八个人同时看同一句话。一个人可能是语法学家，关注句法结构；另一个可能是诗人，关注韵律；还有一个可能是讲故事的人，关注情节。多头注意力机制允许模型在不同位置关注来自不同表示子空间的信息。

6. 核心概念 4：完整结构（编码器与解码器模块）

现在，让我们用前面介绍的组件组装完整的模块。

a) 编码器模块（Encoder Block）

单个编码器模块包含两个主要子层：

•多头注意力层（Multi-Head Attention）
•逐位置前馈网络（Feed-Forward Network, FFN）：这是一个两层全连接网络，用于分别处理注意力层在每个位置的输出。

每个子层都有残差连接（Residual Connection），并在其后进行层归一化（Layer Normalization），即图中的“Add & Norm”部分。这对训练深层 Transformer 至关重要，可防止梯度消失。

b) 解码器模块（Decoder Block）

解码器模块类似，但包含三个子层：

1. 掩码多头注意力（Masked Multi-Head Attention）
  这是一个自注意力层，关注已生成的句子。它被“掩码”以防止某个位置看到未来位置的信息。例如，在预测第 4 个词时，它只能访问词 1–3，而看不到句子的其余部分。这对文本生成至关重要。
1. 编码器-解码器注意力（Encoder-Decoder Attention）
  这是连接编码器和解码器的关键层。它将编码器输出作为 Key（K）和 Value（V），将前一层掩码注意力输出作为 Query（Q）。解码器通过这一层“查看”输入句子，以决定生成下一个词时哪些部分最相关。
1. 前馈网络（Feed-Forward Network）
  与编码器中的 FFN 相同。

同样，每个子层都有残差连接和层归一化。

7. 超越原始 Transformer：现代 Transformer 生态

原始 Transformer 只是一个起点，其核心思想已被改造成多种专业而强大的模型：

BERT（仅编码器，Encoder-Only）
全称 Bidirectional Encoder Representations from Transformers。BERT 仅使用编码器堆栈，预训练在海量文本上以理解语言。它不用于生成文本，而是用于文本分类、问答和情感分析等任务。

GPT（仅解码器，Decoder-Only）
全称 Generative Pre-trained Transformer。GPT 仅使用解码器堆栈，专为生成类似人类文本而设计。它通过预测句子中的下一个词进行预训练，非常适合创意写作、摘要生成和聊天机器人。

Vision Transformer（ViT）
证明 Transformer 不仅适用于文本。ViT 将图像分割为网格补丁，将它们展平并视为一系列“令牌”，然后使用标准 Transformer 编码器处理该序列以进行图像分类，其效果可与 CNN 相媲美。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

Transformer架构详解：机器学习最重要的进展，改变NLP与CV领域

1. 前 Transformer 时代：为什么需要一种新架构？

2. Transformer 概览：高层次视图

3. 核心概念 1：输入处理（Embedding 与位置编码）

a) 分词与词向量（Tokenization and Word Embeddings）

b) 位置编码（Positional Encoding）：缺失的顺序感

4. 核心概念 2：自注意力机制（Transformer 的核心）

a) 查询、键和值（Q、K、V）

b) 缩放点积注意力公式

5. 核心概念 3：多头注意力机制（Multi-Head Attention）

6. 核心概念 4：完整结构（编码器与解码器模块）

a) 编码器模块（Encoder Block）

b) 解码器模块（Decoder Block）

7. 超越原始 Transformer：现代 Transformer 生态

最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

Kotaemon向量数据库选型建议：Milvus vs Weaviate vs Qdrant

UM CRH3型高铁车辆模型，采用um软件建立，模型精细化程度高，可用作学习、科研参考使用

40、高效实践：知识应用与心智成长

开源BIM工具实战指南：从模型解析到智能应用

36、高效实践：掌握知识的秘诀

2026年AI人才争夺战白热化：薪资飙升，这些技能让你成为抢手货！

1. 前 Transformer 时代：为什么需要一种新架构？

2. Transformer 概览：高层次视图

3. 核心概念 1：输入处理（Embedding 与位置编码）

a) 分词与词向量（Tokenization and Word Embeddings）

b) 位置编码（Positional Encoding）：缺失的顺序感

4. 核心概念 2：自注意力机制（Transformer 的核心）

a) 查询、键和值（Q、K、V）

b) 缩放点积注意力公式

5. 核心概念 3：多头注意力机制（Multi-Head Attention）

6. 核心概念 4：完整结构（编码器与解码器模块）

a) 编码器模块（Encoder Block）

b) 解码器模块（Decoder Block）

7. 超越原始 Transformer：现代 Transformer 生态

​最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

Kotaemon向量数据库选型建议：Milvus vs Weaviate vs Qdrant

UM CRH3型高铁车辆模型，采用um软件建立，模型精细化程度高，可用作学习、科研参考使用

40、高效实践：知识应用与心智成长

开源BIM工具实战指南：从模型解析到智能应用

36、高效实践：掌握知识的秘诀

2026年AI人才争夺战白热化：薪资飙升，这些技能让你成为抢手货！

最后