OpenAI 歷來會將 GPT 的訓練運算能力提升約 100 倍。然而,GPT-5 似乎是這一趨勢的例外。 🧵
GPT-4 是基於 2e25 浮點運算進行訓練的,OpenAI 表示 GPT-4.5 的規模大約是 GPT-4 的十倍。我們目前還沒有精確的估計,但 GPT-5 的計算規模可能介於 GPT-4 和 GPT-4.5 之間,而且很可能不會比 GPT-4.5 有太大的提升。
訓練計算量隨模型大小 × 訓練資料而變化。 GPT-5 速度快,API 成本也相當低,輸出代幣價格比 GPT-4.5 便宜 15 倍,發佈時服務速度約快 2-4 倍!這表明 GPT-5 的模型比 GPT-4.5 小得多。
我們不知道 GPT-5 使用了多少資料進行訓練。但由於六個月前,擴展預訓練資料對 GPT-4.5 來說還是一項重大挑戰,因此 GPT-5 可能並沒有使用太多真實資料。它也使用了來自 o3 的合成數據,但更注重品質而非數量。
我們的結論是,GPT-5 並不是 GPT-4 的 100 倍擴展,這一點得到了 Rohan Pandey(前 OpenAI)的證實,至少在預訓練方面是如此。
各大公司也迅速擴展強化學習(它遵循傳統的預訓練方法),以提升推理和其他技能。例如,OpenAI 在 o1 和 o3 之間將強化學習運算能力擴展了 10 倍。
但迄今為止,大多數模型的運算能力主要依靠預訓練。有效地擴展強化學習需要對數據、環境和獎勵模型進行深入研究,而 GPT-5 可能還為時過早,無法僅透過強化學習達到 GPT-4.5 的規模,更不用說在計算領域開闢新的前沿了。
GPT-5 的計算規模對 AI 的發展軌跡具有重要意義。 OpenAI 可能認為,由於推理成本的原因,目前擴展前景相對不樂觀。但如果 GPT-5 不能開闢新的運算邊界,他們就有空間實現更快的迭代週期和未來的規模擴展。
We’ll be watching closely for more evidence on how GPT-5 was trained. Stay tuned!