【AI解码】DeepSeek改写华尔街估值规则
2025年02月03日 16:53
在财华社作者毛婷原创文章《解构“星际之门”的财富密码》一文中,已经提到,特朗普提出由软银出资、OpenAI出力,与甲骨文(ORCL.US)和中东科技投资公司MGX组建合营项目“星际之门”,在四年来投入5000亿美元在美国建造新的AI基础设施,可以预期,购买最尖端AI芯片的成本在这笔资本支出中将占大比重。除此以外,微软(MSFT.US)、亚马逊(AMZN.US)、Meta(META.US)、谷歌(GOOG.US)等也已经表明会在2025年大幅增加资本开支进行AI基础设施的投入,其中AI芯片的支出会占较大比重。
根据毛婷《DeepSeek改写华尔街估值规则》文章分析,中国的AI模型仅用有限的芯片和低得多的成本就完美超越,最主要的原因是DeepSeek采用的是非OpenAI传统的训练方式——不拼算力,而是拼算法。当前的大模型通常采用监督微调(SFT)技术进行训练,而DeepSeek-R1几乎单纯使用强化学习技术进行“後训练”,很少使用SFT,从而减少了对大规模人工标注数据集的依赖,降低数据收集和标注的成本;R1模型通过学习思维链(CoT)的方式逐步推理而得出结果,而不是直接预测答案,极大地提升了推理能力,使模型在解决覆杂问题时能更有效地利用计算资源,避免了不必要的计算开销。在资源利用方面,R1通过Multi-Head Latent Attention(MLA)和DeepSeek MOE架构节省了大量的现存,确保每个token下少量专家网络参数被激活时,不同专家网络能以更均衡的频率被激活,更有效地使用硬件资源;设计出“对偶流水线”机制,将GPU用於数学运算和通信相关的算力进行并行隐藏,减少了GPU指令执行流水线中的“气泡”,提升了GPU的使用效率,让GPU几乎不间断地进行运算;限制了每个token发送到GPU集群节点的数量,并应用了FP8混合精度训练架构,降低了通信开销的同时加快了计算速度。研发方面,DeepSeek团队或只有140名员工,而OpenAI有上千名员工。DeepSeek坚持开源策略,模型的代码和训练方法完全开源,吸引了不少开发者参与到模型的优化和改革中来,有效分摊了成本。正因如此,华尔街这一年来的估值逻辑被颠覆。
有鉴於AI发展浪潮的迅猛,英伟达成为华尔街的宠儿,更两度超越苹果(AAPL.US)成为全球市值最高的上市公司,半导体产业链也得益於这波红利而跑赢了大部分科技股。但是DeepSeek的这一下深度求索,扭转了依靠AI芯片才能打造出最尖端大模型的逻辑,英伟达的香饽饽变得没那麽香了。英伟达在R1发布後首个交易日的股价下探16.97%,蒸发掉接近6000亿美元,差不多相当於七个英特尔(INTC.US)的市值。台积电的股价也下挫13.33%,阿斯麦亦下跌5.75%。能源公司Vistra和Constellation Energy更分别下挫28.27%和20.85%。值得留意的是,Meta的开源模型Llama首当其冲,同为开源模型,Llama的性能明显跑输,成本还不低,而扎克伯格已明确2025年将加大对AI的资本支出,这或引发投资者对其估值的思考,不过Meta的股价却上升1.91%。
二级市场的回落迟早将蔓延到一级市场,刚刚获得估值大幅提升的OpenAI和Anthropic,下一轮融资不知道能获得多少估值。
阅读原文:
【美股解码】解构“星际之门”的财富密码
财华网:https://www.finet.hk/newscenter/news_content/6790ca585a7712696a7d1dfd
财华智库网:https://www.finet.com.cn/news/6790ca585a7712696a7d1dfd.html
根据毛婷《DeepSeek改写华尔街估值规则》文章分析,中国的AI模型仅用有限的芯片和低得多的成本就完美超越,最主要的原因是DeepSeek采用的是非OpenAI传统的训练方式——不拼算力,而是拼算法。当前的大模型通常采用监督微调(SFT)技术进行训练,而DeepSeek-R1几乎单纯使用强化学习技术进行“後训练”,很少使用SFT,从而减少了对大规模人工标注数据集的依赖,降低数据收集和标注的成本;R1模型通过学习思维链(CoT)的方式逐步推理而得出结果,而不是直接预测答案,极大地提升了推理能力,使模型在解决覆杂问题时能更有效地利用计算资源,避免了不必要的计算开销。在资源利用方面,R1通过Multi-Head Latent Attention(MLA)和DeepSeek MOE架构节省了大量的现存,确保每个token下少量专家网络参数被激活时,不同专家网络能以更均衡的频率被激活,更有效地使用硬件资源;设计出“对偶流水线”机制,将GPU用於数学运算和通信相关的算力进行并行隐藏,减少了GPU指令执行流水线中的“气泡”,提升了GPU的使用效率,让GPU几乎不间断地进行运算;限制了每个token发送到GPU集群节点的数量,并应用了FP8混合精度训练架构,降低了通信开销的同时加快了计算速度。研发方面,DeepSeek团队或只有140名员工,而OpenAI有上千名员工。DeepSeek坚持开源策略,模型的代码和训练方法完全开源,吸引了不少开发者参与到模型的优化和改革中来,有效分摊了成本。正因如此,华尔街这一年来的估值逻辑被颠覆。
有鉴於AI发展浪潮的迅猛,英伟达成为华尔街的宠儿,更两度超越苹果(AAPL.US)成为全球市值最高的上市公司,半导体产业链也得益於这波红利而跑赢了大部分科技股。但是DeepSeek的这一下深度求索,扭转了依靠AI芯片才能打造出最尖端大模型的逻辑,英伟达的香饽饽变得没那麽香了。英伟达在R1发布後首个交易日的股价下探16.97%,蒸发掉接近6000亿美元,差不多相当於七个英特尔(INTC.US)的市值。台积电的股价也下挫13.33%,阿斯麦亦下跌5.75%。能源公司Vistra和Constellation Energy更分别下挫28.27%和20.85%。值得留意的是,Meta的开源模型Llama首当其冲,同为开源模型,Llama的性能明显跑输,成本还不低,而扎克伯格已明确2025年将加大对AI的资本支出,这或引发投资者对其估值的思考,不过Meta的股价却上升1.91%。
二级市场的回落迟早将蔓延到一级市场,刚刚获得估值大幅提升的OpenAI和Anthropic,下一轮融资不知道能获得多少估值。
阅读原文:
【美股解码】解构“星际之门”的财富密码
财华网:https://www.finet.hk/newscenter/news_content/6790ca585a7712696a7d1dfd
财华智库网:https://www.finet.com.cn/news/6790ca585a7712696a7d1dfd.html