熱門話題:

【杜蘭說AI】淺讀DeepSeek新論文(上)新增“三大助手” 影響所有大模型核心

2025年03月03日 10:11

就在馬斯克豪擲20萬顯卡推出Grok 3的同一天,
DeepSeek CEO梁文鋒署名,
並親自上傳了一篇論文。
這個對比真的很有意思:
一邊是用當前最大的算力集群訓練出來的,
目前在跑分上領先的真•大模型;
另一邊又是主打低成本高性能
出了名的“性價比”大模型。
在後世看來,
這也許又是改變AI圈遊戲規則的一天。

先帶大家簡單看一下這篇論文啊,
和過去一年DeepSeek狂發的17篇論文相比,
這篇論文其實很小,
它沒有提出什麽新的模型版本,
但涉及到的內容,
卻會影響到所有大模型的核心,
因為DeepSeek這次把手伸向了所有大模型繁榮的基礎,
著名的注意力(Attention)機制。
這是一個大幅提高了AI理解長文本能力的
跨時代的算法創新。
它大概的邏輯,
就是全班同學同時舉手發言,
老師(模型)會挨個記住每個人的話,
還會拿一個發言和其他所有發言一一對比。
這來一來,
老師對班上的所有同學都了如指掌,
也就是模型學會了基於上下文,
完全理解一長段語言的意思。

這個機制存在一個什麽問題呢?
老師(模型)太累了!
因為要挨個記住每個人的話,
所以計算量直接爆炸,
處理一篇1000字的文章,
甚至要計算100萬次關系,
這其實也是現在的模型越做越大的核心原因。
因為大家都是遵循這麽一個
“挨個點名”的底層邏輯。

而在DeepSeek的這篇論文里,
他們提出了一種新的注意力機制,
叫原生稀疏注意力機制(Native Sparse Attention, NSA),
相當於給傳統方法里的老師配了三大助手
第一,壓縮助手,
把每排同學發言總結成一句話匯報,
比如10排就壓縮成10句話;
第二,篩選助手,
從全班挑出5個“重點學生”單獨提問;
第三,補充助手,
專注聽前3排和後3排同學的發言,
這樣可以始終保持上下文連貫,
老師也只需要進行10+5+6,一共21次重點溝通,
大幅降低了成本。

其實關於這篇論文,
我們第一關注的,
肯定還是它在算法上有什麽創新,
結果也顯而易見,
現在的業界已經分成了兩條路,
一邊是富豪馬斯克坐鎮的xAI、背靠微軟的OpenAI等財大氣粗的公司,
仍然是全力押注算力軍備競賽,
另一邊是技術流公司,
比如DeepSeek,還有其實也同天發布了論文的月之暗面,
深入探索“更聰明而非更費力”的路徑。

第二關注的,
也是這次在社區里引發了更多討論的,
其實是“CEO親自寫論文”這件事本身。

相關新聞