北京时间12月6日凌晨2点,OpenAI正式开启一年一度的“Shipmas”产品发布季,再次用12天连发的方式点燃科技圈的关注热潮。借鉴圣诞日历逐日拆礼的概念,OpenAI计划在每个工作日陆续发布重量级产品与功能更新。首日更新,便以两个重磅消息吸引了所有人的目光:全新满血o1模型正式发布,以及顶配的ChatGPT Pro订阅计划登场。
首先,Sam Altman在发布会中介绍了新版o1模型的显著性能提升,尤其是其处理复杂问题时的出错率下降达34%。值得关注的是,o1模型能够根据任务难度动态调节处理时间,从而帮助用户大幅缩短等待时间。
在一系列实际测试中,o1的表现令人印象深刻。在国际数学奥林匹克预选赛(AIME 2025)题目上,o1的正确率飙升至83%,远远超过了GPT-4o的13%以及过去测试版本的56.7%。此外,在编程能力的测试(CodeForces)中,o1从GPT-4o的11%跃升至89%,性能直逼高阶工程师。
特别是在博士级科学挑战(GPQA Diamond)中,o1的表现超越人类专家,达到了78%的正确率(相比之下,人类专家水平为69.7%)。虽然在部分领域,o1的表现略逊于测试版,但整体进步依然显著。
更值得一提的是,o1模型首次支持多模态识别。这项功能在发布会现场得到了充分展示:团队直接手绘一幅关于太空中能源系统的草图,要求o1计算合理的散热片尺寸。o1仅用10秒就分析了超过3屏的复杂信息,得出需242万平方米散热片的准确结论。
从医学影像分析到工程设计,多模态识别功能让o1更具实用性,成为多个行业领域的可靠协助工具。
另一重磅发布则是ChatGPT Pro订阅计划,定价为200美元/月。尽管价格较高,但其强悍性能让专业用户感到物有所值。
订阅Pro版后,用户可使用o1 Pro模式。此模式解锁了完全体的o1性能,即使面对最复杂的任务,也能获得更高算力支持。在内部的“四次测试”评估中,即连续四次正确解同一问题的严格场景中,o1 Pro在多项测试中都保持了高可靠性。
例如,在数学测试中正确率达到80%,在编程和科学问题中分别达74.9%和74.2%,远超普通版本。这种稳定性为专业人士在使用AI协助完成关键任务时提供了强有力的保障。
此外,Pro订阅用户还享有完整的GPT-4o访问权限,支持无限制使用和优先排队的特权。对于需要更高效生产力的用户而言,这无疑是重要的升级。
值得注意的是,这仅是12天连发计划的第一天。此次开局就放出如此重磅的新品,不仅提升了对o1模型的期待,也给科技圈注入了更多狂热。例如,在未来数天内,我们可能会看到Google和Anthropic分别发布Gemini 2和全新模型,以应对OpenAI的挑战。
无论如何,AI战场的竞争正在愈加激烈。而对于OpenAI而言,首日发布的重磅新品无疑让他们赢得了开门红。接下来的11天,OpenAI又会带来怎样的惊喜?让我们拭目以待。
附言:在发布会最后,研究员用一个冷笑话结束了这场发布:“圣诞老人试图让大型语言模型解决数学问题,提示再多也无济于事。他最终靠驯鹿加力学习——reindeer enforcement learning——解决了问题。”这烂谐音梗让现场的Sam Altman也只是礼貌一笑。