连夜整理！20道核心面试题详解（Transformer/LoRA/RAG/推理优化），揭秘面试官亲述的高频考点！-智慧文博士

方法	参数量	推理延迟	效果	使用难度
Adapter	中等	增加	好	中等
LoRA	少	不增加	最好	简单
Prefix Tuning	少	不增加	好	中等
Prompt Tuning	最少	不增加	中等	简单
P-Tuning v2	少	不增加	好	中等

推荐：大多数场景推荐使用 LoRA，效果和效率的平衡最好。

三、RAG 检索增强生成篇（5题）

11｜什么是 RAG？它的工作原理是什么？

参考答案：

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合检索和生成的方法，通过检索外部知识库来增强大模型的生成能力。

工作原理：

1. 文档处理

• 将知识库文档切分成 chunks（文本块）
• 使用 Embedding 模型将 chunks 转换为向量
• 存储到向量数据库中

1. 检索阶段

• 用户提问时，将问题转换为向量
• 在向量数据库中检索最相关的 chunks（Top-K）
• 使用相似度计算（如余弦相似度）

1. 生成阶段

• 将检索到的 chunks 作为上下文
• 将"问题 + 上下文"一起输入大模型
• 大模型基于上下文生成答案

优点：

• 解决大模型知识更新慢的问题
• 减少幻觉（Hallucination）
• 可以引用具体文档来源
• 不需要重新训练模型

缺点：

• 检索质量影响最终效果
• 需要维护向量数据库
• 可能检索到不相关信息

应用场景：

• 企业知识库问答
• 法律、医疗等专业领域问答
• 文档智能助手

12｜RAG 的文本分块（Chunking）策略有哪些？

参考答案：

文本分块是 RAG 的关键步骤，直接影响检索质量。

常见策略：

1. 固定长度分块（Fixed-size Chunking）

• 按固定字符数或 token 数切分
• 优点：简单、快速
• 缺点：可能切断语义完整的句子
• 适用：结构化文档

1. 句子分块（Sentence Chunking）

• 按句子边界切分
• 优点：保持语义完整性
• 缺点：句子长度差异大
• 适用：自然语言文档

1. 段落分块（Paragraph Chunking）

• 按段落切分
• 优点：语义最完整
• 缺点：可能过长，超出模型上下文
• 适用：结构化文档

1. 滑动窗口分块（Sliding Window）

• 固定大小 + 重叠区域
• 优点：避免边界信息丢失
• 缺点：存储空间增加
• 适用：长文档

1. 语义分块（Semantic Chunking）

• 使用 Embedding 模型，按语义相似度切分
• 优点：最符合语义边界
• 缺点：计算成本高
• 适用：复杂文档

最佳实践：

• 块大小：通常 200-500 tokens
• 重叠：10-20% 的重叠区域
• 根据文档类型选择策略
• 可以组合多种策略

13｜RAG 中如何优化检索质量？

参考答案：

检索质量是 RAG 效果的关键，可以从多个维度优化：

1. Embedding 模型优化

• 使用领域相关的 Embedding 模型
• 微调 Embedding 模型适配任务
• 使用多向量 Embedding（如 ColBERT）

2. 检索策略优化

•混合检索：结合向量检索和关键词检索（BM25）
•重排序（Rerank）：使用 Cross-Encoder 对检索结果重排
•多路召回：使用多个检索策略，然后融合结果

3. 查询优化

•查询扩展：使用大模型扩展用户查询
•查询改写：将问题改写为更适合检索的形式
•多轮查询：根据上下文生成多个查询

4. 负样本挖掘

• 使用 Hard Negative Mining
• 选择相似但不相关的文档作为负样本
• 提升模型的区分能力

5. 检索数量优化

• 动态调整 Top-K 数量
• 根据查询复杂度选择不同的 K
• 使用自适应检索

6. 元数据过滤

• 使用文档的元数据（时间、作者、类别等）过滤
• 提升检索的精确度

评估指标：

• Recall@K：前 K 个结果中包含正确答案的比例
• MRR（Mean Reciprocal Rank）：平均倒数排名
• NDCG：归一化折损累积增益

14｜什么是 RAG-Fusion？它如何提升 RAG 效果？

参考答案：

RAG-Fusion是一种改进的 RAG 方法，通过生成多个查询并融合检索结果来提升效果。

工作原理：

1. 查询生成

• 使用大模型根据原始查询生成多个相关查询
• 例如：原始查询"如何优化 Python 性能？"
• 生成：“Python 性能优化方法”、“提升 Python 运行速度”、“Python 代码优化技巧”

1. 多路检索

• 对每个生成的查询分别进行向量检索
• 每个查询得到 Top-K 个结果

1. 结果融合

• 使用 Reciprocal Rank Fusion（RRF）算法融合结果
• RRF 公式：score(d) = Σ 1/(k + rank_i(d))
• 其中 k 是常数（通常为 60），rank_i 是文档在第 i 个查询中的排名

1. 重排序

• 对融合后的结果进行重排序
• 使用 Cross-Encoder 或大模型重排

优点：

• 解决查询表达不准确的问题
• 从多个角度检索相关信息
• 提升检索的召回率（Recall）

缺点：

• 计算成本增加（多次检索）
• 需要更多时间

适用场景：

• 复杂查询
• 需要多角度信息的任务
• 对召回率要求高的场景

15｜Graph RAG 是什么？它相比传统 RAG 有什么优势？

参考答案：

Graph RAG是基于知识图谱的 RAG 方法，将文档转换为知识图谱，利用图结构进行检索和推理。

工作原理：

1. 知识图谱构建

• 从文档中提取实体、关系、属性
• 构建知识图谱（节点=实体，边=关系）
• 例如：“Python” -[是]-> “编程语言”

1. 图检索

• 在知识图谱中检索相关实体和关系
• 使用图遍历算法（如随机游走、PageRank）
• 可以找到多跳关系

1. 上下文构建

• 将检索到的子图转换为文本
• 包含实体、关系、属性信息

1. 生成答案

• 将图结构化的上下文输入大模型
• 生成基于知识图谱的答案

优势：

1. 结构化知识

• 知识图谱是结构化的，比纯文本更易理解
• 可以表示复杂的实体关系

1. 多跳推理

• 可以沿着图结构进行多跳推理
• 例如：A 认识 B，B 认识 C → A 可能认识 C

1. 关系理解

• 明确表示实体之间的关系
• 比向量相似度更能理解语义关系

1. 可解释性

• 可以展示推理路径
• 更容易解释答案来源

缺点：

• 构建知识图谱成本高
• 需要实体识别和关系抽取模型
• 对非结构化文档效果有限

适用场景：

• 结构化知识库
• 需要关系推理的任务
• 企业知识图谱

四、推理优化篇（3题）

16｜什么是 KV Cache？它如何加速推理？

参考答案：

KV Cache（Key-Value Cache）是一种推理优化技术，通过缓存已计算的 Key 和 Value 矩阵来避免重复计算。

问题背景：

• Transformer 的自注意力机制需要计算 Q、K、V
• 在自回归生成中，每次生成新 token 时，之前的所有 token 都需要重新计算
• 导致大量重复计算

工作原理：

1. 首次计算

• 计算所有 token 的 K 和 V 矩阵
• 将 K 和 V 缓存起来

1. 后续生成

• 只计算新 token 的 K 和 V
• 从缓存中读取之前 token 的 K 和 V
• 拼接后计算注意力

加速效果：

• 计算量：从 O(n²) 降低到 O(n)
• 速度提升：2-10 倍（取决于序列长度）
• 显存占用：增加约 50%（需要存储 K、V）

实现细节：

# 伪代码if first_token: k_cache = compute_k(input) v_cache = compute_v(input)else: k_new = compute_k(new_token) v_new = compute_v(new_token) k_cache = concat([k_cache, k_new]) v_cache = concat([v_cache, v_new])

优化技巧：