2026年1月13日,DeepSeek发布最新研究成果《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,与北京大学合作完成,梁文锋署名参与。该研究提出了"条件记忆"(conditional memory)概念,为大语言模型稀疏化开辟了全新维度,相关"Engram"模块已开源。

核心创新:条件记忆与Engram模块

目前大语言模型主要通过混合专家(MoE)实现稀疏化,但现有Transformer架构缺乏原生知识查找机制,只能通过计算过程低效模拟检索行为。DeepSeek提出"条件记忆"概念,与MoE的"条件计算"形成互补,通过Engram模块实现。

Engram核心特点

  • 以O(1)时间复杂度完成知识查找

  • 采用基于哈希的N-gram稀疏检索机制

  • 支持从主机内存进行预取,几乎无额外性能开销

  • 有效分离静态知识存储与动态计算过程

性能优势显著

Engram在多项基准测试中表现优异:

  • 知识密集型任务:MMLU提升+3.4,CMMLU提升+4.0

  • 通用推理能力:BBH提升+5.0,ARC-Challenge提升+3.7

  • 代码与数学推理:HumanEval提升+3.0,MATH提升+2.4

更关键的是,Engram不仅提升了知识检索能力,还通过将静态知识重建负担从模型浅层剥离,有效加深了用于复杂推理的网络深度。同时,通过将局部依赖关系交由查表机制处理,Engram释放了注意力机制容量,显著提升了长上下文检索能力(如Multi-Query NIAH准确率从84.2提升至97.0)。

稀疏性分配的U型规律

研究发现了一个关键规律:在等参数量、等FLOPs条件下,MoE与Engram的最优分配比例呈U型关系。约20%-25%的稀疏参数预算分配给Engram时,可获得最佳性能。这一发现为大模型稀疏化提供了新的设计思路。

未来展望

DeepSeek认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语。随着Engram模块的开源和应用,大语言模型将实现更高效的知识检索与处理,为AI应用的广泛落地提供更强大的技术支撑。

这一突破标志着DeepSeek V4的技术细节更加清晰,为大模型稀疏化技术开辟了新方向,也预示着大模型将进入"计算+记忆"双维度稀疏化的新阶段。