波新聞─陶泰山編輯
2月13日,大陸現象級大語言模型DeepSeek 網頁和APP開始測試新的長文本模型結構,支持 1M 上下文。這也被外界認為,DeepSeek或將在春節期間再次“炸場”發佈新模型,複刻去年春節現象級轟動。
今年1月12日,DeepSeek曾發佈一篇新論文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(基於可擴展查找的條件記憶:大語言模型稀疏性的新維度),其CEO梁文鋒位列作者名單中,這篇論文為北京大學和DeepSeek共同完成。據分析,這篇論文的核心直指當前大語言模型存在的記憶力“短板”,提出了“條件記憶”這一概念。
作為當之無愧的大模型風向標,DeepSeek一舉一動都受到行業整體關注,因其以“低成本”加演演算法/工程優先,在高端算力晶片被美國封鎖的背景下,實現了技術突圍。
圖/DeepSeek。京報網提供









