OpenAI 历来会将 GPT 的训练计算能力提升约 100 倍。然而,GPT-5 似乎是个例外。🧵
GPT-4 是基于 2e25 浮点运算进行训练的,OpenAI 表示 GPT-4.5 的规模大约是 GPT-4 的十倍。我们目前还没有精确的估计,但 GPT-5 的计算规模可能介于 GPT-4 和 GPT-4.5 之间,而且很可能不会比 GPT-4.5 有太大的提升。
训练计算量随模型大小 × 训练数据而变化。GPT-5 速度快,API 成本也相当低,输出令牌价格比 GPT-4.5 便宜 15 倍,发布时服务速度约快 2-4 倍!这表明 GPT-5 的模型比 GPT-4.5 小得多。
我们不知道 GPT-5 使用了多少数据进行训练。但由于仅在六个月前,扩展预训练数据对 GPT-4.5 来说还是一项重大挑战,因此 GPT-5 可能并没有使用太多真实数据。它也使用了来自 o3 的合成数据,但更注重质量而非数量。
我们的结论是,GPT-5 并不是 GPT-4 的 100 倍扩展,这一点得到了 Rohan Pandey(前 OpenAI)的证实,至少在预训练方面是如此。
各大公司也在迅速扩展强化学习(它遵循传统的预训练方法),以提升推理和其他技能。例如,OpenAI 在 o1 和 o3 之间将强化学习计算能力扩展了 10 倍。
但迄今为止,大多数模型的计算能力主要依靠预训练。有效地扩展强化学习需要对数据、环境和奖励模型进行深入研究,而 GPT-5 可能还为时过早,无法仅通过强化学习达到 GPT-4.5 的规模,更不用说在计算领域开辟新的前沿了。
GPT-5 的计算规模对 AI 的发展轨迹具有重要意义。OpenAI 可能认为,由于推理成本的原因,目前扩展前景相对不乐观。但如果 GPT-5 不能开辟新的计算边界,他们就还有空间实现更快的迭代周期和未来的规模扩展。
我们将密切关注 GPT-5 训练过程的更多证据。敬请期待!