GPT5发布:个人一些想法
8月8号,一觉醒来,朋友圈小红书B站上给我推送的都是GPT5发布的各种消息。这些信息大概分成三类或者三波:
第一波,各种文章发布GPT5来了,一股脑的吹捧AGI时刻,世界第一。不过这一波很短暂。
第二波,吹捧的声音渐渐没了,开始有各种技术分析,各界的发声也出来了。开始趋向中立。
第三波,各种贬低声音开始出现,比如技术没有创新。
看了一些文章分析,也快速浏览了下发布会。自己也有一些想法:
GPT5在所有的benchmark 的评测上,几乎都是top 1。 并且很多分类上,都远超第二名。GPT5的能力上有很大的改进。但是,这个与其他的模型比如Grok, gemini, Qwen其实没有本质区别,我猜用户体验,几乎无差。并没有任何惊艳。
thought: 会不会在eval benchmark 之外有一个新的评价指标,这个指标是跟用户的感受体验相关。比如说,用户意图的理解,用户的时延体验,信息有效性和准确性基于某些特定任务。或者说,可以理解用户特定意图或者指导用户,在某些使用场景。
有一个blog总结的很好,GPT5并不是智力上的改进,而是智能上的增强。比如说,算1234 x 234这个问题,可以直接模型自己算(这是一个智力),也可以模型去调用一个计算器去计算(调用工具这个方法就算智能)。可以总结说,openAI 把各种各样的模型和专用模型集成在一起,通过使用一个调度器(router或者叫路由器)去分配和解决这个问题。这算是一种MoE的思路解决问题。
自己之前也有类似的方法,在Agent 中,是否可以有一个模块或者模型,判定问题的难易。基于此,调度不同的模型。
GPT5的价格比之前降低了,1.25美元/1 million token for input, 10美元/1 million token for output,这里output 和input之间有8倍的差异。相比于其他模型,价格降低很多。可能就是低价来抢用户,来抢合作伙伴。本质原因是技术创新有限,没法通过技术优势保持自己的领先优势,只能通过低价抢市场。
这里模型的更新本质就是:数据和算力。
现在是边际效应,因为数据和算力需要大量的开销,这么大的开销训练一个模型,仅仅一点性能的提升,可能不值得。
估计有钱的公司,会持续烧钱去训练一个更好的模型。考虑收益的公司,估计开始探寻新的方法,或者考虑系统集成的方法来优化。
Ref: