文章介绍了一种颠覆传统的文档分块方法"先Embedding再Chunking",将分块视为时序聚类问题,通过句子级语义向量表示和Max-Min算法根据相似度动态确定chunk边界。实验显示此方法使事实类问答Top-5命中率提升18%,叙事类提升12%,计算开销仅增加3%。文章提供了超参调优技巧和解决长距离依赖的三种方案,强调未来RAG将向语义、结构、场景多维度动态融合方向发展。
还在用“一刀切”的方式分块你的文档吗?out 了!现在流行“先 Embedding 再 Chunking”——让语义相似度自己决定 chunk 边界,检索精度直接拉满!👇
01|传统 RAG:先分块再 Embedding,问题一堆!
👎固定大小分块:按字数/token数硬切,句子被拦腰斩断,语义断裂,检索时一脸懵。
👎递归字符分块:按段落/换行切,长段落超长,短段落超短,上下文窗口被浪费,无关信息混入,召回率暴跌。
结果就是:小块找不到上下文,大块找不到重点!
2025年研究都说了:事实类问题适合64-128 token,叙事类问题适合512-1024 token——但谁能提前知道用户问什么?😭
02|王炸新方法:先 Embedding 再 Chunking!
🧠核心思想:把分块当成“时序聚类问题”——
- 先把整篇文档的每个句子都 Embedding 成语义向量;
- 再按句子顺序,逐句判断:
- 新句子 vs 当前块内最大相似度
- 当前块内最小相似度
如果新句子“更亲”→拉进群;如果“不熟”→另起炉灶!
💡三句话总结:
- 只聚类连续句子,保证顺序不乱;
- 用余弦相似度做门槛,语义不相关的自动踢出;
- 块大小、相似度阈值3个超参数就能调,轻量到飞起!
03|实战效果:同样一段文档,新旧对比肉眼可见!
📄Milvus Release Note 长文档
- 旧方法:版本号和新功能被切成两块 → 用户问“2.4.13 有哪些新功能?”→ Embedding 找不到版本号,答非所问!
- Max–Min 语义分块:版本号与功能描述语义相近 → 留在同一块 → 检索时一起召回 → 回答精准命中!
📈实验数据(论文出处:Springer 2025)
- 事实类问答 Top-5 命中率 ↑18%
- 叙事类问答 Top-5 命中率 ↑12%
- 无需额外 Embedding 计算,CPU 时间仅 +3%
04|超参调优 30 秒速成
- max_chunk_size:别让块超模型窗口(一般 256/512/1024 token)
- init_threshold:第一句 vs 第二句最低相似度(0.7~0.9)
- new_sentence_threshold:新句 vs 块内最大相似度下限(0.75~0.95)
口诀:大块高门槛,小块低门槛;长文档加滑动窗口,相邻块重叠 20%!
05|长距离依赖怎么办?三招搞定!
❓痛点:跨块关键信息仍可能被切断
✅解决方案:
- 滑动窗口重采样:块内每 50% 位置再采一次,扩大语义覆盖
- 重叠上下文:相邻块保留 20% 重复,保证衔接
- 多趟扫描:先粗分再细分,把“远亲”也拉进视野
06|落地 Tips:今天就能用起来!
🛠️代码实现
- 任何能 sentence-transformer 的框架都 OK(HuggingFace、Jina、OpenAI text-embedding-3)
- 相似度计算一句
cosine_similarity()搞定 - 向量数据库 Milvus / Zilliz Cloud 已支持 Late Chunking,参数直接填!
📝接入流程
- 句子级 Embedding → 2. Max–Min 算法分块 → 3. 块向量入库 → 4. 查询时同样 sentence 级 Embedding → 5. 召回再拼接上下文 → 6. 扔给大模型生成答案!
07|未来趋势:多策略融合
没有万能分块,只有适合你数据的策略!
下一代 RAG 会是语义 + 结构 + 场景多维度动态融合:
- 文档结构(标题、段落)
- 语义相似度(Max–Min)
- 查询场景(事实/叙事/多跳)
别再让“一刀切”的分块拖垮你的 RAG 精度!
把这篇转给团队,今晚就试试「先 Embedding 再 Chunking」,你会回来感谢我的!
AI时代,未来的就业机会在哪里?
答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。
掌握大模型技能,就是把握高薪未来。
那么,普通人如何抓住大模型风口?
AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。
因此,这里给大家整理了一份《2025最新大模型全套学习资源》,包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等,带你从零基础入门到精通,快速掌握大模型技术!
由于篇幅有限,有需要的小伙伴可以扫码获取!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
为什么大家都在学AI大模型?
随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。
同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!
这些资料有用吗?
这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
大模型全套学习资料已整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】