【值得珍藏】LLM推理优化技术详解：从数据级到系统级的全面解析-智慧文博士

导读

LLMs通常在推理过程中需要更高的计算成本、内存访问成本以及内存使用，这直接导致资源受限场景下的部署困难，直接影响推理部署指标，比如：延迟、吞吐、功耗以及存储等。目前已经提出了大量技术来实现LLM的高效推理，主要优化方向可以分为数据级优化、模型级优化和系统级优化。

基础知识

Transformer架构的LLMs

目前主流LLMs基于Transformer架构设计，尤其是decoder-only架构。具体而言，一个典型的Transformer架构由多个堆叠的Transformer块组成。通常，Transformer块由多头自注意力（MHSA）块、前馈网络（FFN）和LayerNorm（LN）操作组成。对于每个块，它接收前一个块的输出特征作为输入，并通过每个子模块传递特征以获得输出。

LLMs的推理过程

Decode-only架构的LLMs通常采用自回归方法来生成输出句子。具体而言，自回归方法逐个生成tokens。在每个生成步骤中，LLM接收整个token序列（包括输入tokens和先前生成的tokens）作为输入，并生成下一个tfcoken。随着序列长度的增加，生成过程的时间成本迅速增长。

为了解决这个挑战，引入了一个关键技术——键值（Key-Value, KV）缓存，以加速生成过程。KV缓存技术顾名思义，涉及在多头自注意力（MHSA）块中存储和重用先前的键（K）和值（V）对。由于该技术显著优化了生成延迟，它已被广泛用于LLM推理引擎和系统。

基于上述方法和技术，LLMs的推理过程可分为两个阶段：

Prefilling阶段（预填充阶段）：LLM计算并存储初始输入tokens的KV缓存，并生成第一个输出token。

Decoding阶段（解码阶段）：LLM使用KV缓存逐个生成输出tokens，然后将新生成token的键（K）和值（V）对加入缓存。

关于延迟，我们用首token延迟表示prefilling阶段生成第一个输出token的延迟，用每输出token延迟表示在decoding阶段生成一个输出token的平均延迟。此外，我们使用生成延迟表示生成整个输出token序列的延迟。

关于内存，我们使用模型大小来表示存储模型权重所使用的内存大小，使用KV缓存大小来表示存储KV缓存使用的内存大小。此外，峰值内存表示生成过程中的最大内存使用量，大约等于模型权重和KV缓存的内存总和。

除了延迟和内存，吞吐量也是LLM服务系统中广泛使用的指标。我们使用token吞吐量表示每秒生成的tokens数量，使用请求吞吐量表示每秒完成的请求数量。

内存和延迟之间的相对关系见下图。

效率分析

保持强大能力的同时，在资源受限场景下部署LLMs对我们来说真是一个重大挑战。例如，考虑部署一个LLaMA-2-70B模型，它包含700亿参数。以FP16格式存储其权重需要140 GB的显存，需要至少6块RTX 3090Ti GPU（每块24 GB显存）或2块NVIDIA A100 GPU（每块80 GB显存）。

在2块NVIDIA A100 GPU上生成一个token大约需要100毫秒。因此，生成一个包含数百个token的序列需要超过10秒。除了存储和延迟，效率指标如吞吐量、能量和功耗也需要考虑。

在LLM推理过程中，三个重要因素会显著影响这些指标，即计算成本、内存访问成本和内存使用。

模型规模：主流LLMs通常包含数十亿甚至数万亿参数。例如，LLaMA-70B模型包含700亿参数，而GPT-3模型扩展到1750亿参数。这巨大的模型规模导致LLM推理过程中计算成本、内存访问成本和内存使用显著增加。

注意力操作：在prefilling阶段，自注意力操作在输入长度上呈现二次计算复杂度。因此，随着输入长度的增加，注意力操作的计算成本、内存访问成本和内存使用迅速上升。

解码方法：自回归解码方法逐个生成tokens。在每个解码步骤中，所有模型权重都从片外HBM加载到GPU芯片，导致巨大的内存访问成本。此外，KV缓存的大小随着输入长度的增长而增加，可能导致内存碎片化和不规则的内存访问模式。

推理优化分类

在LLM推理过程中显著影响效率的关键因素有计算成本、内存访问成本和内存使用，造成这些影响的三个根本原因有模型规模、注意力操作和解码方法。推理优化可以分为三个层次：数据级优化、模型级优化和系统级优化。

数据级优化：通过优化输入prompts（即输入压缩）或更好地组织输出内容（即输出组织）来提高效率。这种优化通常不改变原始模型，因此无需昂贵的模型训练成本（注意可能需要少量训练辅助模型，但这与原始LLMs的训练成本相比可以忽略）。

模型级优化：通过设计高效的模型结构或压缩模型来提高推理效率。这种优化通常需要昂贵的预训练或少量微调成本来保留或恢复模型能力，通常在模型性能上有损失。

系统级优化：通过优化推理引擎或服务系统(包括软硬件、通信、内存使用等)来提高效率。这种优化不涉及模型训练，通常在模型性能上是无损的。

数据级优化

在数据层面优化，可分为两类：输入压缩和输出组织。输入压缩技术直接缩短模型输入，而输出组织技术通过组织输出内容的结构实现批处理（并行）推理，可以提高硬件利用率并降低生成延迟。

输入压缩

在LLMs的实际应用中，prompts至关重要。许多研究提出了有效设计prompts的新方法，并在实践中证明了精心设计的prompts可以释放LLMs的能力。例如，上下文学习建议在prompt中包含多个相关示例，这种方法鼓励LLMs通过类比学习。思维链（CoT）提出在上下文示例中包含一系列中间推理步骤，帮助LLMs进行复杂推理。

然而，这些提示技术不可避免地导致更长的prompts，在prefilling阶段计算成本和内存使用呈二次增长。为了解决这个挑战，输入prompt压缩被提出来在不显著影响LLMs回答质量的情况下缩短prompts。在该领域内，相关研究被分为四组：prompt剪枝、prompt摘要、基于软prompt的压缩和检索增强生成RAG。

Prompt剪枝

Prompt剪枝的核心思想是基于预定义或可学习的重要性指标，从每个输入prompt中在线删除不重要的tokens、句子或文档。

Prompt摘要

Prompt摘要的核心思想是将原始prompt浓缩为更短的摘要，同时保留相似的语义信息。这些技术也作为prompts的在线压缩方法。

基于软Prompt的压缩

这种压缩技术的核心思想是设计一个比原始prompt短得多的软prompt，作为LLMs的输入。软prompt被定义为一串可学习的连续tokens。一些技术对固定前缀prompt（例如系统prompt、任务特定prompt）采用离线压缩。

检索增强生成

检索增强生成（RAG）旨在通过结合外部知识源来提高LLMs响应的质量。RAG也可以被视为一种在处理大量数据时提高推理效率的技术。RAG不将所有信息合并到一个过长的prompt中，而是只将相关检索信息添加到原始prompt中，确保模型接收必要信息，同时显著减少prompt长度。

输出组织

输出组织技术旨在通过组织输出内容的结构来（部分）并行化生成。

输出组织方法专注于通过缓解与自回归解码方法相关的巨大内存访问成本来优化decoding阶段。利用LLMs将输出内容组织成独立点或依赖图，促进批处理以提高生成延迟的有效性。

利用输出内容中固有的可并行化结构，使LLMs能够执行并行解码以增强硬件利用率，从而减少端到端生成延迟。

模型级优化

LLM高效推理的模型级优化主要集中在优化模型结构或数据表示。模型结构优化涉及直接设计高效的模型结构、修改原始模型和调整推理时的架构。关于数据表示优化，常采用模型量化技术。

高效结构设计

1.FFN模块占模型参数的很大一部分，显著消耗内存访问成本和内存使用，特别是在解码阶段。例如，FFN模块在LLaMA-7B模型中占参数的63.01%，在LLaMA-70B模型中占71.69%。

2.注意力操作在输入长度上呈现二次复杂度，导致在处理较长输入上下文时的巨大计算成本和内存使用。

高效FFN设计

将混合专家模型（MoE）集成到LLMs中，在保持计算成本的同时增强性能。MoE的核心思想是为不同输入tokens动态分配不同的计算预算。在基于MoE的Transformers中，使用多个并行前馈网络（FFNs），即专家，以及一个可训练的路由模块。

一条优化路径是主要专注于优化获取专家权重的过程或使这些专家更轻量。另一条研究线专注于改进MoE模型中路由模块（或策略）的设计。只是因为在先前的MoE模型中，路由模块经常导致负载不均衡问题，也就是一些专家被分配了大量tokens，而其他专家只处理少量。

高效注意力设计

注意力操作是Transformer架构中的关键组件。然而，它在输入长度上的二次复杂度导致巨大的计算成本、内存访问成本和内存使用，特别是在处理长上下文时。为了解决这个问题，大致可分为两个主要分支：多查询注意力和低复杂度注意力。

多查询注意力（Multi-Query Attention, MQA）通过在不同注意力头之间共享键（K）和值（V）缓存来优化注意力操作。该策略有效减少了推理过程中的内存访问成本和内存使用。组查询注意力（Grouped-query Attention, GQA）进一步扩展了MQA的概念，可以看作是MHA和MQA的融合。

低复杂度注意力方法旨在设计新的机制来减少每个注意力头的计算复杂度。这包括基于核的注意力和低秩注意力。

Transformer替代方案

最近的研究还创新地设计了高效且有效的序列建模架构。这些架构在训练和推理期间对序列长度呈现次二次计算复杂度，使LLMs能够显著增加其上下文长度。

一条研究线集中于状态空间模型（SSM），该模型基于HiPPO理论将序列建模表述为循环变换。另一条研究线主要专注于使用长卷积或设计类似注意力的表述来建模序列。

模型压缩

模型压缩包含一系列技术，旨在通过修改数据表示（如量化）或改变架构（如稀疏化、结构优化和动态推理）来增强预训练模型的推理效率。

量化

量化是一种广泛采用的技术，通过将模型的权重和激活从高位宽转换为低位宽表示来减少LLMs的计算和内存成本。

效率分析：在prefilling阶段，LLMs通常处理长token序列，主要操作是通用矩阵乘法（GEMM）。prefilling阶段的延迟主要受高精度CUDA Cores执行的计算约束。为了解决这个挑战，现有方法对权重和激活进行量化以使用低精度Tensor Cores加速计算。这种量化方法称为权重-激活量化。

相比之下，在解码阶段，LLMs在每个生成步骤中只处理一个token，以通用矩阵-向量乘法（GEMV）为核心操作。解码阶段的延迟主要受大权重张量的加载影响。为了应对这个挑战，现有方法专注于仅量化权重以加速内存访问。这种方法称为仅权重量化。

训练后量化（Post-Training Quantization, PTQ）：涉及对预训练模型进行量化而无需重新训练。虽然PTQ方法对于较小模型已经得到很好探索，但将现有量化技术直接应用于LLMs仍然有挑战。这主要是因为与较小模型相比，LLMs的权重和激活通常呈现更多异常值和更宽的分布范围，使得它们的量化更具挑战性。GPTQ、AWQ等为代表的仅权重量化方法以及以llm.int8()等为代表的权重激活值量化方法得到了广泛的应用。

量化感知训练（Quantization-Aware Training, QAT）：将量化的影响纳入模型训练过程。通过复制量化效应的层，该方法促进权重适应量化引起的误差，从而增强任务性能。比较有代表性的方法就是应用高效微调方法的QLora。

稀疏化

稀疏化是一种压缩技术，增加数据结构（如模型参数或激活）中零值元素的比例。该方法旨在通过在计算过程中高效忽略零元素来降低计算复杂性和内存使用。在LLMs的背景下，稀疏化通常应用于权重参数和注意力激活。

权重剪枝：系统地从模型中移除不太重要的权重和结构，旨在在不显著损害性能的情况下减少prefilling阶段和解码阶段的计算和内存成本。这种稀疏化方法分为两个主要类型：非结构化剪枝和结构化剪枝。

非结构化剪枝：以精细粒度剪枝单个权重值。与结构化剪枝相比，它通常能在对模型预测影响最小的情况下实现更高的稀疏度。然而，通过非结构化剪枝实现的稀疏模式缺乏高级规律性，导致内存访问和计算模式不规则。这种不规则性会严重阻碍硬件加速的潜力，因为现代计算架构针对密集、规则的数据模式进行了优化。因此，尽管实现了更高的稀疏度，非结构化剪枝在硬件效率和计算加速方面的实际优势可能有限。

结构化剪枝：以更粗粒度操作，剪枝模型中更大的结构单元，例如整个通道或层，与非结构化剪枝相比。由于这些方法与系统处理而优化的密集、规则数据模式一致，因此可以在传统硬件平台上进行推理加速。结构化剪枝的粗粒度通常会对模型性能产生更明显的影响，一般需要使用Lora等微调方式来恢复其原来的性能。

稀疏注意力：Transformer模型中多头自注意力（MHSA）组件中的稀疏注意力技术策略性地省略某些注意力计算以增强注意力操作的计算效率，主要在prefilling阶段。这些机制基于对特定输入数据的依赖分为静态和动态类别。

静态稀疏注意力: 预先确定稀疏注意力掩码，并在推理过程中将其强制应用于注意力矩阵。最常见的稀疏注意力模式是局部注意力和全局注意力模式。局部注意力模式通过围绕每个 token 的固定大小的窗口注意力来捕获每个 token 的局部上下文。全局注意力模式通过计算和关注序列中的所有 token 来捕获特定 token 与所有其他 token 的相关性。需要注意的是，利用全局模式可以消除为未使用的 token 存储键值（KV）对的需求，从而在解码阶段降低内存访问成本和内存使用量。

滑动窗口模式：它类似于扩张卷积神经网络（CNNs），并使滑动窗口“扩张”以增加感受野。

动态token剪枝: 根据不同的输入自适应地消除激活值，采用对神经元激活值的实时监控来绕过对影响微不足道的神经元的计算，从而实现剪枝。大多数动态稀疏注意力方法都采用动态 token-pruning 方法。

动态注意力剪枝：这些方法不是移除某些 tokens 的所有注意力值，而是根据输入注意力动态选择性地移除部分注意力。该领域的一个重要方法是将输入 tokens 动态分割成组，称为 buckets，并策略性地省略属于不同 buckets 的tokens 的注意力计算。这些方法的挑战和重点在于如何将相关的 tokens 聚类在一起，从而仅在它们之间进行注意力计算以提高效率。

(a) 具有局部、全局和随机注意力模式的静态掩码。 (b) 具有不同扩张率的扩张注意力模式的静态掩码。 © 动态 Token 剪枝。 (d) 动态注意力剪枝。

结构优化

结构优化的目标是通过优化模型架构或结构来增强模型效率和性能之间的平衡。在该研究领域，两个突出的技术脱颖而出：神经架构搜索（NAS）和低秩分解（LRF）。

神经架构搜索（NAS）：旨在自动搜索最佳神经架构，在效率和性能之间实现优化平衡。

低秩分解（LRF）：旨在通过两个低秩矩阵B和C近似矩阵A：A ≈ B × C，因此，LRF可以减少内存使用并增强计算效率。

知识蒸馏

知识蒸馏（KD）是一种成熟的模型压缩技术，其中知识从大模型（称为教师模型）转移到小模型（称为学生模型）。在LLMs的背景下，KD涉及使用原始LLMs作为教师模型来蒸馏较小的语言模型。可分为两种主要类型：白盒KD和黑盒KD。

白盒KD：指利用教师模型的结构和参数的蒸馏方法。这种方法使KD能够有效地利用教师模型的中间特征和输出logits来增强学生模型的性能。

黑盒KD：指教师模型的结构和参数不可用的知识蒸馏方法。通常，黑盒KD仅使用教师模型获得的最终结果来蒸馏学生模型。

动态推理

动态推理涉及在推理过程中根据输入数据自适应地选择模型子结构。

样本级早期退出技术：侧重于确定语言模型（LLMs）对单个输入样本的最佳大小和结构。一种常见的方法是在每个层之后为大语言模型添加额外的模块，利用这些模块来决定何时在特定层终止推理。

Token 级别退出：在 LLM 推理的解码阶段，其中 Token 是按顺序生成的，Token 级提前退出技术旨在为每个输出 Token 优化 LLM 的大小和结构。

系统级优化

LLM推理的系统级优化主要涉及增强模型前向传递。考虑到LLM的计算图，存在多个算子，其中注意力和线性算子主导了大部分运行时间。系统级优化主要考虑LLMs中注意力算子和解码方法的独特特征。

推理引擎

推理引擎的优化致力于加速模型前向过程。LLM推理中的主要算子和计算图得到高度优化，此外，投机解码技术在不降低性能的情况下加速推理速度，并引入了offloading技术来缓解内存压力。

图和算子优化

运行时分析：注意力算子和线性算子共同主导运行时间，它们的组合持续时间通常超过推理持续时间的75%。因此，算子级别的大量优化工作致力于增强这两个算子的性能。

注意力算子优化：标准注意力计算涉及查询矩阵（Q）与键矩阵（K）的乘法，导致相对于输入序列长度的二次时间和空间复杂度。为了解决GPU上标准注意力计算的计算和内存开销，定制的注意力算子是必不可少的。FlashAttention将整个注意力操作融合到单个、内存高效的算子中以缓解内存访问开销。

线性算子优化：线性算子在LLM推理中起着关键作用，在特征投影和前馈神经网络（FFNs）中执行。在传统神经网络中，线性算子可以抽象为通用矩阵乘法（GEMM）操作。然而，在LLM的情况下，解码方法导致维度显著降低，与传统的GEMM工作负载不同。传统的 GEMM 的底层实现已经高度优化，主流大语言模型框架（例如 DeepSpeed、vLLM、OpenPPL等）主要调用 cuBLAS提供的 GEMM API 来处理线性算子。在没有针对低维度 GEMM 进行显式定制化实现的情况下，解码过程中的线性算子效率低下。TensorRT-LLM的最新版本中观察到了解决该问题的一个显著趋势。它引入了专用的通用矩阵向量乘法（GEMV）实现，有望提高解码步骤的效率。

图级别优化：内核融合由于其减少运行时间的能力而成为一种流行的图级别优化。应用内核融合有三个主要优点：(1) 减少内存访问。融合内核本身消除了中间结果的内存访问，从而缓解了算子的内存瓶颈。 (2) 减轻内核启动开销。对于一些轻量级算子（例如，残差加法），核启动时间占了大部分延迟，而核融合减少了单独的核启动次数。（3）增强并行性。对于那些没有数据依赖的算子，当逐个核执行无法填满硬件容量时，通过融合并行化核是有益的。FlashAttention将注意力操作符公式化到单个内核中，消除了访问注意力结果的开销。

投机解码

投机解码是一种用于自回归LLMs的创新解码技术，旨在在不损害输出保真度的情况下增强解码效率。该方法的核心理念是使用较小的模型，称为草稿模型，高效地预测几个后续tokens，然后使用目标LLM并行验证这些预测。该方法旨在使LLM能够在通常需要单次推理的时间框架内生成多个tokens。形式上，投机解码方法包括两个步骤：

Draft构建：它使用Draft模型以并行或自回归的方式生成多个后续 token，即草稿 token。

Draft验证：它使用目标模型在一次 LLM 推理步骤中计算所有草稿 token 的条件概率，然后顺序确定每个草稿 token 的接受情况。接受率，表示每次推理步骤中接受的平均草稿 token 数量，是评估推测解码算法性能的关键指标。

Offloading

offloading的本质是在GPU空闲时将部分存储从GPU卸载到CPU。直观地，这类研究的重点在于隐藏GPU和CPU之间昂贵的数据移动延迟。这里有两个案例：

FlexGen支持卸载权重、激活和 KV 缓存，并进一步构建了用于卸载以最大化吞吐量的图遍历问题。下一个批次的数据加载和上一个批次的数据存储可以与当前批次的计算重叠。

llama.cpp也将计算任务分配给 CPU，从而减轻了数据传输开销，但代价是使用低功耗 CPU 进行计算。

由于注意力操作在 CPU 上计算，KV 缓存的数据移动被简化为仅激活。CPU 的数量选择与 GPU 上的工作负载延迟相匹配，以减轻异构流水线中的气泡。

服务系统

服务系统的优化致力于提高处理异步请求的效率。内存管理经过优化以容纳更多请求，集成了高效的批处理和调度策略以增强系统吞吐量。此外，针对分布式系统的优化以利用分布式计算资源也是优化方向。主要涉及四个方向：内存管理、批处理、调度策略和分布式计算。

内存管理

KV Cache的存储主导LLM服务中的内存使用，特别是当上下文长度较长时。由于生成长度不确定，提前为KV缓存存储分配空间具有挑战性。较早的实现通常根据每个请求的预设最大长度提前分配存储空间。然而，在请求生成提前终止的情况下，这种方法会导致存储资源的巨大浪费。

vLLM提出了一种类似于操作系统分页的方式来存储 KV 缓存。vLLM 首先分配尽可能大的内存空间，并将其平均划分为多个物理块。当请求到来时，vLLM 以不连续的方式动态地将生成的 KV 缓存映射到预分配的物理块中。通过这种方式，vLLM 显著减少了存储碎片，并在 LLM 服务中实现了更高的吞吐量。

LightLLM则在vLLM基础上使用了更细粒度的 KV 缓存存储，以减少由于不规则边界造成的浪费。 LightLLM 将一个 token 的 KV 缓存作为一个单位来处理，而不是一个块，这样生成的 KV 缓存总是能够填满预分配的空间。

连续批处理

批次中的请求长度可能不同，导致当较短请求完成而较长请求仍在运行时利用率较低。由于服务场景中请求的异步性质，存在减轻这种低利用率期间的机会。连续批处理技术旨在通过一旦一些旧请求完成就批处理新请求来利用这个机会。

ORCA是第一个提出来解决连续批处理的研究。而vLLM基于ORCA扩展到注意力计算，使得具有不同 KV 缓存长度的请求能够一起进行批处理。之后大量研究者基于ORCA提出了拆分-融合技术，其实就是将预填充请求和解码请求一起批处理。具体来说，该方法首先在序列维度上拆分长的预填充请求，然后将其与多个短的解码请求一起批处理。拆分-融合方法平衡了不同迭代之间的工作负载，并通过消除新请求的停滞显著降低了尾部延迟。值得注意的是：拆分-融合技术的前提是预填充阶段的请求可以被划分为离散的块。分块预填充方法涉及沿着序列维度分割预填充请求，从而避免了其他请求的潜在瓶颈。该策略利用了大语言模型固有的自回归特性，其中注意力计算仅依赖于之前的 Token。因此，分块预填充技术的数学等价性得到保证，使其成为降低大语言模型服务中请求延迟的首选方法。

调度策略

在LLM服务中，每个请求的作业长度表现出变异性，因此执行请求的顺序显著影响服务系统的吞吐量。当长请求被赋予优先级时，会发生队头阻塞。具体而言，内存消耗随着长请求迅速增长，当系统耗尽其内存容量时会阻碍后续请求。包括vLLM和LightLLM等开源系统，采用简单的先来先服务（FCFS）原则来调度请求。

分布式系统

为了实现高吞吐量，LLM 服务通常部署在分布式平台上。这里有一个经典的案例就是早期OpenAI的方案：使用Ray+vllm实现分布式集群部署。

硬件加速器设计

先前的研究工作专注于优化Transformer架构，特别是增强注意力算子，通常采用稀疏方法以促进FPGA部署。然而，这些方法并不专为生成式LLMs量身定制。

最近的工作如ALLO强调了FPGA在管理内存密集型解码阶段的优点，并强调了模型压缩技术对于LLMs高效FPGA部署的重要性。

本文基于论文《A Survey on Efficient Inference for Large Language Models》（arXiv:2404.14294v3）的内容整理。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座，技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等，欢迎大家~】

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例：带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座，技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等，欢迎大家~】

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

0690+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

【值得珍藏】LLM推理优化技术详解：从数据级到系统级的全面解析

导读