【杜兰说AI】GPT-4.5三大关键词 贵!小强!情商!
2025年03月19日 14:20
GPT-4.5刚发布的时候,
我就觉得得让子弹再飞一会儿,
结果就过了一个周末,
各种声音全都出来了。
我个人差不多就三个感觉哈。
第一,
知道你openai贵,
但也不能这麽离谱啊?
输入价格75刀,
输出价格150刀,
比DeepSeek贵了快300倍。
如此恐怖的成本提升下,
GPT-4.5的性能怎麽样呢?
这就是我的第二个感受,
确实变强了,但只有一点点。
官方给出的基准测试里,
GPT-4.5是碾压GPT-4o的,
在最新的一项编码测试里,
也超越了DeepSeek-R1、o1、GPT-4o等模型,
但在一些比较困难的学术基准测试上,
就不太够看了,
在某些偏实用的评估基准上,
甚至是全班垫底。
不过OpenAI官方这次也特意强调,
说GPT-4.5的真正厉害之处,
在於它能够更好地理解人类的意思,
并以更细致入微的“情商”来解读微妙的暗示或隐含的期望。
用奥特曼的话来说,
就是你会感觉在和一个“有思想的人”说话。
因为GPT-4.5现在只向Pro用户开放,
我没买它的会员,
所以只看了一些用户PO到网上的图。
对此我的第三个感觉是,
看起来确实有人情味儿了些,
会先安慰你,
给你情绪价值,
而不是直接给一堆解决方案。
但这就能证明它比别家更强吗?
很难说。
更何况它收费还那麽贵,
颇有一种要算法有情商、
要推理有情商、
要应用还是只有情商的感觉。
最後再给大家展开一下啊,
这次的GPT-4.5还有一个意义,
它很有可能是OpenAI的最後一代非推理模型。
什麽意思呢?
现在业界大模型架构是“重推理”的,
也就是基於传统的语言模型,
通过思维链、自我验证等多步中间推理生成答案,
擅长编程、学术写作以及分析覆杂问题,
典型代表就是DeepSeek-R1和GPT-o1。
与之相对的就是非推理大模型,
主要依赖预训练阶段的高质量参数进行学习,
逻辑推理能力稍弱,
更侧重於流畅的语言生成和上下文理解,
代表是GPT-o3-mini。
这几天推理模型阵营的DeepSeek
刚刚把自己压箱底的宝贝都拿了出来,
搞得全球的开发者都一片沸腾,
这边非推理模型GPT-4.5的风评,
大家又都有目共睹,
所以我估计,
以後大部分AI的方向,
可能都将会彻底转向推理。
我就觉得得让子弹再飞一会儿,
结果就过了一个周末,
各种声音全都出来了。
我个人差不多就三个感觉哈。
第一,
知道你openai贵,
但也不能这麽离谱啊?
输入价格75刀,
输出价格150刀,
比DeepSeek贵了快300倍。
如此恐怖的成本提升下,
GPT-4.5的性能怎麽样呢?
这就是我的第二个感受,
确实变强了,但只有一点点。
官方给出的基准测试里,
GPT-4.5是碾压GPT-4o的,
在最新的一项编码测试里,
也超越了DeepSeek-R1、o1、GPT-4o等模型,
但在一些比较困难的学术基准测试上,
就不太够看了,
在某些偏实用的评估基准上,
甚至是全班垫底。
不过OpenAI官方这次也特意强调,
说GPT-4.5的真正厉害之处,
在於它能够更好地理解人类的意思,
并以更细致入微的“情商”来解读微妙的暗示或隐含的期望。
用奥特曼的话来说,
就是你会感觉在和一个“有思想的人”说话。
因为GPT-4.5现在只向Pro用户开放,
我没买它的会员,
所以只看了一些用户PO到网上的图。
对此我的第三个感觉是,
看起来确实有人情味儿了些,
会先安慰你,
给你情绪价值,
而不是直接给一堆解决方案。
但这就能证明它比别家更强吗?
很难说。
更何况它收费还那麽贵,
颇有一种要算法有情商、
要推理有情商、
要应用还是只有情商的感觉。
最後再给大家展开一下啊,
这次的GPT-4.5还有一个意义,
它很有可能是OpenAI的最後一代非推理模型。
什麽意思呢?
现在业界大模型架构是“重推理”的,
也就是基於传统的语言模型,
通过思维链、自我验证等多步中间推理生成答案,
擅长编程、学术写作以及分析覆杂问题,
典型代表就是DeepSeek-R1和GPT-o1。
与之相对的就是非推理大模型,
主要依赖预训练阶段的高质量参数进行学习,
逻辑推理能力稍弱,
更侧重於流畅的语言生成和上下文理解,
代表是GPT-o3-mini。
这几天推理模型阵营的DeepSeek
刚刚把自己压箱底的宝贝都拿了出来,
搞得全球的开发者都一片沸腾,
这边非推理模型GPT-4.5的风评,
大家又都有目共睹,
所以我估计,
以後大部分AI的方向,
可能都将会彻底转向推理。