DeepSeek推出NSA机制提升长上下文训练与推理效率-PANews

DeepSeek推出NSA机制提升长上下文训练与推理效率

2025-02-18 08:52:56

DeepSeek宣布推出NSA（稀疏注意力机制），该机制与硬件高度一致且支持本机训练，旨在实现超快速的长上下文训练和推理。通过针对现代硬件的优化设计，NSA在加速推理速度的同时显著降低预训练成本，且不会影响模型性能。据官方介绍，NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异，与完全注意力模型相比表现相当甚至更佳。

PANews 2月18日消息，DeepSeek宣布推出NSA（稀疏注意力机制），该机制与硬件高度一致且支持本机训练，旨在实现超快速的长上下文训练和推理。通过针对现代硬件的优化设计，NSA在加速推理速度的同时显著降低预训练成本，且不会影响模型性能。

据官方介绍，NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异，与完全注意力模型相比表现相当甚至更佳。

인기 아티클

추천 아티클