热门话题:

【杜兰说AI】浅读DeepSeek新论文(上)新增“三大助手” 影响所有大模型核心

2025年03月03日 10:11

就在马斯克豪掷20万显卡推出Grok 3的同一天,
DeepSeek CEO梁文锋署名,
并亲自上传了一篇论文。
这个对比真的很有意思:
一边是用当前最大的算力集群训练出来的,
目前在跑分上领先的真•大模型;
另一边又是主打低成本高性能
出了名的“性价比”大模型。
在後世看来,
这也许又是改变AI圈游戏规则的一天。

先带大家简单看一下这篇论文啊,
和过去一年DeepSeek狂发的17篇论文相比,
这篇论文其实很小,
它没有提出什麽新的模型版本,
但涉及到的内容,
却会影响到所有大模型的核心,
因为DeepSeek这次把手伸向了所有大模型繁荣的基础,
着名的注意力(Attention)机制。
这是一个大幅提高了AI理解长文本能力的
跨时代的算法创新。
它大概的逻辑,
就是全班同学同时举手发言,
老师(模型)会挨个记住每个人的话,
还会拿一个发言和其他所有发言一一对比。
这来一来,
老师对班上的所有同学都了如指掌,
也就是模型学会了基於上下文,
完全理解一长段语言的意思。

这个机制存在一个什麽问题呢?
老师(模型)太累了!
因为要挨个记住每个人的话,
所以计算量直接爆炸,
处理一篇1000字的文章,
甚至要计算100万次关系,
这其实也是现在的模型越做越大的核心原因。
因为大家都是遵循这麽一个
“挨个点名”的底层逻辑。

而在DeepSeek的这篇论文里,
他们提出了一种新的注意力机制,
叫原生稀疏注意力机制(Native Sparse Attention, NSA),
相当於给传统方法里的老师配了三大助手
第一,压缩助手,
把每排同学发言总结成一句话汇报,
比如10排就压缩成10句话;
第二,筛选助手,
从全班挑出5个“重点学生”单独提问;
第三,补充助手,
专注听前3排和後3排同学的发言,
这样可以始终保持上下文连贯,
老师也只需要进行10+5+6,一共21次重点沟通,
大幅降低了成本。

其实关於这篇论文,
我们第一关注的,
肯定还是它在算法上有什麽创新,
结果也显而易见,
现在的业界已经分成了两条路,
一边是富豪马斯克坐镇的xAI、背靠微软的OpenAI等财大气粗的公司,
仍然是全力押注算力军备竞赛,
另一边是技术流公司,
比如DeepSeek,还有其实也同天发布了论文的月之暗面,
深入探索“更聪明而非更费力”的路径。

第二关注的,
也是这次在社区里引发了更多讨论的,
其实是“CEO亲自写论文”这件事本身。

相关新闻