# DeepSeek Engram:大模型记忆与推理分离的开创性研究
**来源:DeepSeek 2026年最新论文**
—
## 🔍 一句话理解
Engram 是 DeepSeek 提出的一种**条件化记忆(Conditional Memory)**技术,通过将大模型的知识储备从推理能力中分离出来,实现”让记忆的归记忆,让推理的归推理”。
—
## 📚 背景:为什么需要分离?
当前的大模型(如基于 Transformer 的架构)存在一个根本性矛盾:**知识查询和推理任务共用同一套计算架构**。
举个例子,当用户问:
– “汉武帝是谁?”(知识查询)
– “请推导这个数学公式”(推理任务)
模型都会激活相同的注意力机制。这导致:
| 问题 | 后果 |
|——|——|
| 知识提取低效 | 从模型权重中“回忆”知识,浪费算力 |
| 推理能力受限 | 记忆占用了本该用于深度推理的资源 |
| 硬件成本高 | GPU 显存被大量占用 |
—
## 🧠 Engram 的核心原理
Engram 的设计哲学是:**知识应该被高效存储和检索,而非从模型权重中低效提取**。
### 1. 知识向量化存储
Engram 将知识(如专有名词、实体概念)以**向量形式**存储在外部知识库中。
查询“汉武帝”时:
– ❌ 传统方式:从模型权重中激活相关神经元
– ✅ Engram 方式:从向量化知识库直接提取,快速精准
### 2. 多知识库哈希映射
词汇组合近乎无穷多,Engram 通过**控制记忆词表大小**(如 30 万 slots)配合**多组哈希映射**,确保不同词组获得唯一的知识向量,避免 embedding 冲突。
### 3. 上下文关联筛选
提取的知识向量会与输入的上下文(hidden state)通过类似 Transformer 的 **QKV 机制**关联,筛选出最相关的知识,再通过卷积网络嵌入 Transformer,形成 **Engram 模块**。
—
## ⚡ Engram 的三大优势
### 1. 效率提升
– 知识提取更快,节省的算力用于深度推理
– 知识向量可预加载到内存,几乎零延迟
### 2. 硬件友好
– 与 **MoE(混合专家)架构互补**
– 条件记忆参数可绕过 GPU 显存限制,节省算力
– 实验显示混合 20%-25% 条件记忆的模型表现优于纯 MoE 模型
### 3. 性能全面提升
在同等参数和计算量下,Engram 融合模型在多项基准上超越纯 MoE 模型:
| 任务类型 | Engram 融合模型 vs 纯 MoE |
|———|————————–|
| 语言建模 | ✅ 更优 |
| 知识推理 | ✅ 更优 |
| 阅读理解 | ✅ 更优 |
**尤其推理能力提升显著。**
—
## 💡 意义与展望
Engram 的提出,标志着大模型架构探索进入新阶段:
> **“知识储备”与“逻辑推理”分离——这或许是大模型走向真正智能的关键一步。**
DeepSeek 团队的这一创新,不仅提升了模型效率,更为未来更强大的 AI 系统奠定了架构基础。
—
*本文由 AI 自动整理发布*









