news 2026/4/3 1:14:12

DeepSeek Engram项目详解:解决大模型知识查找瓶颈的创新方案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek Engram项目详解:解决大模型知识查找瓶颈的创新方案

DeepSeek Engram项目通过混合专家(MoE)和条件内存相结合,解决Transformer架构缺乏原生知识查找原语的问题。Engram模块将N-gram嵌入现代化,实现O(1)复杂度的高效查找,为模型增加"记忆稀疏性"维度,实现记忆与推理职责分离,使模型能更高效、可扩展地管理海量知识。


DeepSeek Engram项目于2026年1月12日开源,该项目基于论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》的研究成果,提供了一个新的模型架构实现:混合专家(Mixture-of-Experts, MoE)通过条件计算扩展模型容量,但Transformer架构缺乏原生知识查找原语。为此,项目探索了条件内存(conditional memory)作为互补的稀疏性轴,并通过Engram模块实例化该思想——将经典的N-gram嵌入现代化,实现近似O(1)复杂度的查找。

1、术语解析

要理解这个项目,需要先厘清几个关键术语:

混合专家(Mixture-of-Experts, MoE):这是一种神经网络设计范式。想象一下,一个庞大的问题库,与其训练一个“通才”模型来应对所有问题,不如组建一个由多个“专才”(专家)构成的委员会。每个输入到来时,一个轻量级的门控网络会决定激活哪几位(通常是1-2位)专家来处理它。关键优势在于,模型的总参数量(专家们的知识总和)可以变得非常大,但每次推理计算的实际成本(激活的参数量)却保持较低。这正是所谓的条件计算——根据输入动态选择使用哪些计算路径。

稀疏性:在深度学习语境下,稀疏性通常指模型并非全部参数或神经元在每次计算中都被使用。MoE通过激活少数专家来实现计算的稀疏性。Engram论文中将这种通过动态选择计算路径实现的稀疏性称为“神经计算”的稀疏性轴。

N-gram嵌入:这是自然语言处理中的经典概念。N-gram指的是文本中连续的N个词项(如“人工智能”是一个2-gram)。N-gram嵌入是为这些固定短语学习一个静态的向量表示。它类似于一个巨大的“短语词典”,每个短语对应一个向量。

O(1)复杂度:这是一个计算机科学术语,用于描述算法的时间复杂度。O(1)意味着无论数据规模有多大(例如,查找表里有10亿个条目还是1万亿个条目),完成一次查找操作所需的时间都是恒定的。这无疑是效率的黄金标准。

2、为什么需要做Engram这个项目呢?

项目架构:Engram模块通过检索静态N-gram内存并将其与动态隐藏状态融合,来增强模型能力。

第一层:问题界定——Transformer的“知识查找”短板

“虽然混合专家(Mixture-of-Experts, MoE)通过条件计算扩展模型容量,但Transformer架构缺乏原生知识查找原语。”

这句话指出了当前大型语言模型(基于Transformer架构)的一个根本性局限。MoE确实出色地解决了模型容量扩展的问题,它让模型拥有海量参数成为可能。然而,模型获取和利用知识的方式仍然依赖于通过梯度下降在神经网络参数中隐式地编码知识。当模型需要回忆一个具体、确切的事实(例如,“《蒙娜丽莎》的作者是谁?”)时,它必须通过多层神经网络的变换来“计算”出答案。这个过程相对低效,且难以保证准确性。

所谓“缺乏原生知识查找原语”,可以类比为计算机的CPU。CPU有强大的计算能力(如同Transformer的注意力机制和FFN层),但对于频繁访问的数据,现在系统会使用缓存机制来快速直接获取,而不必每次都经过复杂的计算。Transformer架构原生缺乏这种类似“缓存”或“键值对数据库”的直接查找机制。MoE扩展了“计算单元”(专家),但没有增加一个高效的“记忆库”。

第二层:解决方案引入——新的“稀疏性轴”:条件内存

“为此,项目探索了条件内存(conditional memory)作为互补的稀疏性轴,并通过Engram模块实例化该思想”

这是论文的核心创新点。论文提出,除了在“计算”维度上做文章(MoE),还可以在“记忆”维度上开辟新的优化路径。条件内存就是一种新型的稀疏性:它不是动态选择计算路径,而是动态地从一个大容量的、静态的内存库中检索相关信息。

  • 互补性:MoE处理的是“怎么做计算”(动态、神经的),而条件内存解决的是“用什么数据”(静态、符号的)。两者从不同角度提升模型效率与能力。
  • 稀疏性轴:这意味着模型的能力来源变得多维化。一部分能力来自于稀疏激活的专家网络(计算稀疏),另一部分能力则来自于对一个巨大但稀疏访问的内存库的查找(记忆稀疏)。这种架构允许模型在保持计算效率的同时,拥有近乎无限的知识储备潜力。

第三层:技术实现——Engram模块的巧思

“该模块将经典的N-gram嵌入现代化,实现O(1)复杂度的查找。”

Engram模块是这个思想的具体实现。它如何工作?

1)现代化N-gram嵌入:Engram不再局限于传统的词语N-gram,它可能学习的是任何输入序列(可以是文本、代码等)的片段所对应的嵌入表示。这个模块维护着一个巨大的、静态的嵌入表,可以看作是一个存储了海量“知识片段”的仓库。

2)确定性寻址与O(1)查找:这是实现高效性的关键。对于给定的输入,Engram模块通过一个确定性函数(例如,对输入片段计算一个哈希值)直接生成一个或多个内存地址。这个操作是瞬间完成的,复杂度为O(1),然后直接去对应的地址读取存储的嵌入向量。这完全避开了基于相似度搜索(如最近邻查找)等更昂贵的操作。

3)与主干模型融合:检索到的静态记忆(N-gram嵌入)会被融合到Transformer每一层的动态隐藏状态中,为后续的神经计算提供直接的知识注入。

3、影响几何?

从架构的视角看,Engram的提出具有深远意义:

  • 职责分离:将模型的“记忆”功能与“推理”功能进行一定程度的解耦。让专门的模块(Engram)负责快速、精确地提取事实性知识,而让Transformer主干(尤其是深层网络)更专注于需要复杂逻辑、推理和规划的任务。论文中的机制分析也印证了这一点:Engram减轻了早期层重建静态模式的负担。
  • 系统优化友好:由于Engram的查找是确定性的且地址空间巨大,这为系统级优化打开了大门。例如,可以将整个庞大的嵌入表存储在成本较低的主机内存(CPU RAM)甚至SSD中,仅在需要时通过DMA等机制快速加载到GPU显存,从而极大地扩展了模型可访问的知识规模,而不会导致显存瓶颈。

总结而言,Engram项目旨在弥补Transformer架构内在缺陷的创新工作。它通过引入一个基于现代化N-gram、具备O(1)复杂度查找能力的条件内存模块(Engram),为大型语言模型增加了一个与MoE互补的“记忆稀疏性”维度,从而更高效、更可扩展地管理海量知识。

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/31 23:00:09

番茄开花果实成熟情况检测数据集8036张VOC+YOLO格式

番茄开花果实成熟情况检测数据集8036张VOCYOLO格式数据集格式:VOC格式YOLO格式压缩包内含:3个文件夹,分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计:8036Annotations文件夹中xml文件总计:8036labels文件夹…

作者头像 李华
网站建设 2026/3/27 23:59:01

全网最全MBA必备AI论文写作软件TOP10测评

全网最全MBA必备AI论文写作软件TOP10测评 2026年MBA论文写作工具测评:为何需要一份精准指南? 随着人工智能技术的不断进步,AI论文写作工具逐渐成为MBA学生和研究者的重要辅助工具。然而,市面上的工具种类繁多,功能参差…

作者头像 李华
网站建设 2026/4/1 14:23:04

基于51单片机的无线通信智能定时插座探索

基于51单片机的无线通信智能定时插座 本系统采用STC89C52RC单片机为主控制器,由DS1302时钟芯片、SIM900A模块、DS18B20温度传感器、LCD1602液晶屏、ADE7755电能计量模块组成 有四个按键为减键、加键、选择键、设置键。 单独一个按键为复位按键。 DS1302时钟芯片&…

作者头像 李华
网站建设 2026/3/14 13:26:27

基于栅格地图的人工势场法动态路径规划:探索与实践

基于珊格地图的人工势场法 动态路径规划 路径规划算法 地图好修改 自己研究编写的Matlab路径规划 可自行设置起始点,目标点,自由更换地图。 ——————————————————— 可以和A*和RRT融合 动态障碍物 在机器人领域,路径规划始终…

作者头像 李华
网站建设 2026/3/27 0:43:12

华为eNSP中USG6000防火墙web界面登录设置

防火墙USG6000V导入包 1. 导入包的获取下载链接:https://blog.csdn.net/IU131313/article/details/132792422(感谢大佬) 2.下载好导入包之后在ensp中在拓扑图上拉出USG6000V防火墙,点击FW,按照界面指示将导入包放入进…

作者头像 李华