DeepSeek V4新突破:开源「记忆」模块开启大模型稀疏化新维度
2026年1月13日,DeepSeek发布最新研究成果《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,与北京大学合作完成,梁文锋署名参与。该研究提出了"条件记忆"(conditional memory)概念,为大语言模型稀疏化开辟了全新维度,相关"Engram"模块已开源。
核心创新:条件记忆与Engram模块
目前大语言模型主要通过混合专家(MoE)实现稀疏化,但现有Transformer架构缺乏原生知识查找机制,只能通过计算过程低效模拟检索行为。DeepSeek提出"条件记忆"概念,与MoE的"条件计算"形成互补,通过Engram模块实现。
Engram核心特点:
以O(1)时间复杂度完成知识查找
采用基于哈希的N-gram稀疏检索机制
支持从主机内存进行预取,几乎无额外性能开销
有效分离静态知识存储与动态计算过程
性能优势显著
Engram在多项基准测试中表现优异:
知识密集型任务:MMLU提升+3.4,CMMLU提升+4.0
通用推理能力:BBH提升+5.0,ARC-Challenge提升+3.7
代码与数学推理:HumanEval提升+3.0,MATH提升+2.4
更关键的是,Engram不仅提升了知识检索能力,还通过将静态知识重建负担从模型浅层剥离,有效加深了用于复杂推理的网络深度。同时,通过将局部依赖关系交由查表机制处理,Engram释放了注意力机制容量,显著提升了长上下文检索能力(如Multi-Query NIAH准确率从84.2提升至97.0)。
稀疏性分配的U型规律
研究发现了一个关键规律:在等参数量、等FLOPs条件下,MoE与Engram的最优分配比例呈U型关系。约20%-25%的稀疏参数预算分配给Engram时,可获得最佳性能。这一发现为大模型稀疏化提供了新的设计思路。
未来展望
DeepSeek认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语。随着Engram模块的开源和应用,大语言模型将实现更高效的知识检索与处理,为AI应用的广泛落地提供更强大的技术支撑。
这一突破标志着DeepSeek V4的技术细节更加清晰,为大模型稀疏化技术开辟了新方向,也预示着大模型将进入"计算+记忆"双维度稀疏化的新阶段。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。
