news 2026/4/3 6:26:24

连夜整理!20道核心面试题详解(Transformer/LoRA/RAG/推理优化),揭秘面试官亲述的高频考点!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
连夜整理!20道核心面试题详解(Transformer/LoRA/RAG/推理优化),揭秘面试官亲述的高频考点!

一、大模型基础篇(5题)

01|什么是 Transformer?它的核心组件有哪些?

参考答案:

Transformer 是一种基于注意力机制的神经网络架构,由 Google 在 2017 年提出,是大模型的基础架构。

核心组件:

    1. Self-Attention(自注意力机制)
    1. Multi-Head Attention(多头注意力)
    1. Position Encoding(位置编码)
    1. Feed-Forward Network(前馈网络)
    1. Layer Normalization(层归一化)
    1. 残差连接

应用场景:GPT、BERT、T5 等大模型都基于 Transformer 架构。


02|Self-Attention 和 Cross-Attention 的区别是什么?

参考答案:

Self-Attention(自注意力):

Cross-Attention(交叉注意力):

关键区别:


03|Layer Normalization 和 Batch Normalization 的区别?

参考答案:

Batch Normalization(批归一化):

Layer Normalization(层归一化):

为什么 Transformer 用 Layer Normalization?


04|Transformer 中的位置编码是如何工作的?

参考答案:

问题:Transformer 没有循环结构,无法感知序列顺序,需要位置编码来注入位置信息。

两种位置编码方式:

    1. 正弦位置编码(Sinusoidal Position Encoding)
    1. 可学习的位置嵌入(Learned Position Embedding)

应用:


05|什么是 Tokenizer?常见的 Tokenizer 有哪些?

参考答案:

Tokenizer(分词器)是将文本转换为模型可以处理的 Token 序列的工具。

常见 Tokenizer 类型:

    1. Word-level(词级)
    1. Character-level(字符级)
    1. Subword-level(子词级)⭐ 最常用

BPE 工作原理:

    1. 初始化:将文本拆分为字符
    1. 迭代:找到出现频率最高的字符对,合并为一个新 token
    1. 重复:直到达到预设的词汇表大小

为什么需要 Tokenizer?


一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

二、大模型微调篇(5题)

06|什么是 LoRA?它的原理是什么?

参考答案:

LoRA(Low-Rank Adaptation)是一种参数高效微调方法,通过低秩矩阵分解来减少可训练参数。

核心思想:

数学原理:

优点:

应用场景:


07|全量微调、LoRA、QLoRA 的区别?

参考答案:

方法参数量显存占用训练速度效果
全量微调100%最好
LoRA0.1-1%接近全量
QLoRA0.1-1%极低中等接近全量

全量微调(Full Fine-tuning):

LoRA:

QLoRA(Quantized LoRA):

选择建议:


08|什么是 SFT(Supervised Fine-Tuning)?它的作用是什么?

参考答案:

SFT(Supervised Fine-Tuning,监督微调)是在预训练模型基础上,使用标注数据进行有监督学习的微调方法。

作用:

    1. 任务适配:让模型适应特定任务(如对话、问答、代码生成)
    1. 行为对齐:让模型输出符合人类期望的格式和风格
    1. 能力增强:在特定领域提升模型性能

训练数据格式:

训练过程:

    1. 使用预训练模型作为初始化
    1. 在标注数据上计算损失(通常是交叉熵)
    1. 反向传播更新参数

与预训练的区别:

应用场景:


09|什么是 RLHF?它的三个步骤是什么?

参考答案:

RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)是一种通过人类反馈来优化模型输出的方法。

三个步骤:

步骤 1:监督微调(SFT)

步骤 2:奖励模型训练(Reward Model)

步骤 3:强化学习优化(PPO)

为什么需要 RLHF?

应用:


10|PEFT 有哪些方法?各有什么特点?

参考答案:

PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)是一类只更新少量参数就能达到良好微调效果的方法。

主要方法:

    1. Adapter(适配器)
    1. LoRA(Low-Rank Adaptation)⭐ 最流行
    1. Prefix Tuning
    1. Prompt Tuning
    1. P-Tuning v2

对比:

方法参数量推理延迟效果使用难度
Adapter中等增加中等
LoRA不增加最好简单
Prefix Tuning不增加中等
Prompt Tuning最少不增加中等简单
P-Tuning v2不增加中等

推荐:大多数场景推荐使用 LoRA,效果和效率的平衡最好。


三、RAG 检索增强生成篇(5题)

11|什么是 RAG?它的工作原理是什么?

参考答案:

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合检索和生成的方法,通过检索外部知识库来增强大模型的生成能力。

工作原理:

    1. 文档处理
    1. 检索阶段
    1. 生成阶段

优点:

缺点:

应用场景:


12|RAG 的文本分块(Chunking)策略有哪些?

参考答案:

文本分块是 RAG 的关键步骤,直接影响检索质量。

常见策略:

    1. 固定长度分块(Fixed-size Chunking)
    1. 句子分块(Sentence Chunking)
    1. 段落分块(Paragraph Chunking)
    1. 滑动窗口分块(Sliding Window)
    1. 语义分块(Semantic Chunking)

最佳实践:


13|RAG 中如何优化检索质量?

参考答案:

检索质量是 RAG 效果的关键,可以从多个维度优化:

1. Embedding 模型优化

2. 检索策略优化

3. 查询优化

4. 负样本挖掘

5. 检索数量优化

6. 元数据过滤

评估指标:


14|什么是 RAG-Fusion?它如何提升 RAG 效果?

参考答案:

RAG-Fusion是一种改进的 RAG 方法,通过生成多个查询并融合检索结果来提升效果。

工作原理:

    1. 查询生成
    1. 多路检索
    1. 结果融合
    1. 重排序

优点:

缺点:

适用场景:


15|Graph RAG 是什么?它相比传统 RAG 有什么优势?

参考答案:

Graph RAG是基于知识图谱的 RAG 方法,将文档转换为知识图谱,利用图结构进行检索和推理。

工作原理:

    1. 知识图谱构建
    1. 图检索
    1. 上下文构建
    1. 生成答案

优势:

    1. 结构化知识
    1. 多跳推理
    1. 关系理解
    1. 可解释性

缺点:

适用场景:


四、推理优化篇(3题)

16|什么是 KV Cache?它如何加速推理?

参考答案:

KV Cache(Key-Value Cache)是一种推理优化技术,通过缓存已计算的 Key 和 Value 矩阵来避免重复计算。

问题背景:

工作原理:

    1. 首次计算
    1. 后续生成

加速效果:

实现细节:

# 伪代码if first_token: k_cache = compute_k(input) v_cache = compute_v(input)else: k_new = compute_k(new_token) v_new = compute_v(new_token) k_cache = concat([k_cache, k_new]) v_cache = concat([v_cache, v_new])

优化技巧:


17|大模型推理加速的方法有哪些?

参考答案:

推理加速是大模型应用的关键,可以从多个维度优化:

1. 模型量化(Quantization)

2. 模型剪枝(Pruning)

3. 知识蒸馏(Knowledge Distillation)

4. 推理框架优化

5. 批处理优化

6. 硬件加速

综合建议:


18|什么是 Flash Attention?它解决了什么问题?

参考答案:

Flash Attention是一种高效的自注意力算法,通过分块计算和在线 softmax 来减少显存占用和加速计算。

问题背景:

Flash Attention 的核心思想:

    1. 分块计算(Tiling)
    1. 在线 Softmax
    1. 重计算(Recomputation)

优势:

数学原理:

应用:

限制:


五、其他重要知识点(2题)

19|什么是大模型幻觉(Hallucination)?如何缓解?

参考答案:

大模型幻觉(Hallucination)是指模型生成与输入无关、不符合事实或逻辑错误的内容。

类型:

    1. 事实性幻觉:生成错误的事实信息
    1. 逻辑幻觉:生成逻辑矛盾的内容
    1. 无关幻觉:生成与输入无关的内容

原因:

缓解方法:

    1. RAG(检索增强生成)
    1. 提示工程
    1. 后处理验证
    1. 训练数据优化
    1. 模型架构改进

评估指标:


20|大模型训练中的显存优化策略有哪些?

参考答案:

显存优化是大模型训练的关键,可以从多个维度优化:

1. 混合精度训练(Mixed Precision)

2. 梯度检查点(Gradient Checkpointing)

3. 参数高效微调(PEFT)

4. 数据并行(Data Parallelism)

5. 模型并行(Model Parallelism)

6. 流水线并行(Pipeline Parallelism)

7. ZeRO(Zero Redundancy Optimizer)

8. 卸载(Offloading)

9. 量化训练(Quantized Training)

综合策略:


总结

这 20 道面试题涵盖了大模型的核心知识点:

基础理论:Transformer、Attention、Normalization 等
微调方法:LoRA、SFT、RLHF、PEFT 等
RAG 技术:检索增强生成、文本分块、检索优化等
推理优化:KV Cache、量化、Flash Attention 等
实际问题:幻觉问题、显存优化等

学习建议:

    1. 理解每个概念的原理和数学基础
    1. 掌握不同方法的优缺点和适用场景
    1. 结合实际项目经验,能够灵活应用
    1. 关注最新的研究进展和最佳实践

推荐资源:

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份LLM大模型资料分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓

学习路线

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/26 11:44:30

程序员必藏!12张动图轻松掌握大模型核心技术,从小白到进阶!

本文通过12张动图直观解析大模型核心技术,包括MCP、RAG、Agent、Cache、Fine-tuning等关键概念。内容适合初学者快速建立知识框架,也帮助有基础者系统梳理知识体系。文章还提供大模型入门到进阶的100G学习资料包,包含基础知识、实战案例、提示…

作者头像 李华
网站建设 2026/3/20 1:49:07

北京楚珩医疗科技有限公司是做什么的?

北京楚珩医疗科技有限公司,核心定位是聚焦新中医适宜技术的研发与推广,业务方向贴合国家中医药发展的相关战略规划。 公司拥有自主研发的核心产品——理易揿针,联动各大三甲医院的权威中医专家,共同梳理、迭代并创新出更全面完善的…

作者头像 李华
网站建设 2026/4/1 17:26:29

测试断言哪家强?

断言简介 在《xunit pattern》中提出了“四阶段自动化测试“,即一个最简单的测试用例可以由如下图所示的4个步骤组成。 断言主要应用在xUnit“四阶段自动化测试“中的第三步-验证(verify)阶段。即对于执行完成SUT某项指令之后,来验证其状态,…

作者头像 李华
网站建设 2026/4/1 17:59:22

语音驱动面部动画精度评测:HeyGem实际表现打分

语音驱动面部动画精度评测:HeyGem实际表现打分 在数字人技术加速落地的今天,一个核心问题始终困扰着内容创作者:如何让虚拟人物“说话”时看起来自然可信? 尤其是在企业宣传、在线教育和智能客服等场景中,观众对口型同…

作者头像 李华
网站建设 2026/4/1 15:12:05

收藏!Java程序员转AI大模型:避开内卷,实现薪资翻倍的黄金路径

AI浪潮席卷全球的当下,对于深耕Java技术栈的程序员而言,把传统编程积累延伸到AI大模型开发领域,早已是突破职业天花板的黄金选择。这绝非从零起步的跨界豪赌,而是基于现有技术沉淀的精准升级——既能跳出传统开发的内卷红海&#…

作者头像 李华