DeepSeek發(fā)布最新技術(shù)論文,梁文鋒是共創(chuàng)之一
2月18日,DeepSeek官方在海外社交平臺X上發(fā)布了一篇純技術(shù)論文報告,論文主要內(nèi)容是關(guān)于NSA(Natively Sparse Attention,原生稀疏注意力),官方介紹這是一種用于超快速長文本訓(xùn)練與推理的、硬件對齊且可原生訓(xùn)練的稀疏注意力機(jī)制。具體來說,NSA針對現(xiàn)代硬件進(jìn)行了優(yōu)化設(shè)計,能夠加速推理過程,同時降低預(yù)訓(xùn)練成本,且不犧牲性能。記者注意到,在這篇名為《原生稀疏注意力:硬件對齊且可原生訓(xùn)練的稀疏注意力機(jī)制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek創(chuàng)始人梁文鋒也作為共創(chuàng)在列。(第一財經(jīng))
(投資界)
下載投資界APP