2月18日,DeepSeek官方在海外社交平台X发布了一篇全新的技术论文,重点介绍了一种名为NSA(Natively Sparse Attention,原生稀疏注意力)的技术。DeepSeek的创始人梁文锋也在论文署名中列为共创者之一。
该论文详细阐述了NSA如何通过硬件对齐优化设计,提升超快速长文本的训练与推理效率,且能够有效降低预训练成本,而不牺牲性能。NSA机制的优势在于,它与现代硬件的高度兼容,使得推理过程得以加速。
这篇论文名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)。(袁宁)


延伸阅读 撞车DeepSeek NSA,Kimi杨植麟署名的新注意力架构MoBA发布 2月19日外媒科学网站摘要:家中空气污染可能比室外更严重 老板电器宣布接入DeepSeek深度思考模型
上一篇:蒙古国客商赴中国二连浩特办“年货”热
下一篇:全国政协委员吴立刚:培养面向未来的拔尖创新人才
声明本站分享的文章旨在促进信息交流,不以盈利为目的,本文观点与本站立场无关,不承担任何责任。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如无意侵犯媒体或个人知识产权,请来电或致函告之,本站将在第一时间处理。未经证实的信息仅供参考,不做任何投资和交易根据,据此操作风险自担。本站拥有对此声明的最终解释权。