DeepSeek发布最新技术论文《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)。论文署名中,DeepSeek创始人梁文锋也作为共创在列。
该论文提出一种名为NSA(Natively Sparse Attention),即「原生稀疏注意力」的新型注意力机制。NSA是一种用於超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。据分析,在64K长文本场景下,NSA实现解码速度提升11.6倍、前向传播9倍加速及反向传播6倍加速。(ta/w)
AASTOCKS新闻