OpenAI는 역사적으로 GPT-5가 새로운 세대로 진화할 때마다 학습 컴퓨팅 성능을 약 100배씩 확장해 왔습니다. 그러나 GPT-5는 이러한 추세에서 예외인 것으로 보입니다. 🧵
GPT-4는 2e25 부동 소수점 연산으로 학습되었으며, OpenAI는 GPT-4.5가 약 10배(10배) 확장되었다고 밝혔습니다. 아직 정확한 추정치는 없지만, GPT-5의 연산 규모는 GPT-4와 GPT-4.5 *사이*일 수 있으며, 4.5 대비 크게 확장된 것은 아닐 것으로 예상됩니다.
학습 컴퓨팅은 모델 크기 × 학습 데이터에 따라 확장됩니다. GPT-5는 API에서 빠르고 상당히 저렴하며, 출력 토큰은 GPT-4.5보다 15배 저렴하고 출시 당시 약 2~4배 빠르게 제공되었습니다! 이는 GPT-5가 GPT-4.5보다 훨씬 작은 모델임을 시사합니다.
GPT-5가 얼마나 많은 데이터를 학습했는지는 알 수 없습니다. 하지만 불과 6개월 전만 해도 GPT-4.5는 사전 학습 데이터 확장이 주요 과제였기 때문에 실제 데이터를 크게 늘리지는 않았을 것으로 보입니다. O3의 합성 데이터도 사용했지만, 양보다는 질에 중점을 두었습니다.
GPT-5가 GPT-4보다 100배 확장된 것이 아니라는 우리의 결론은 적어도 사전 학습 측면에서는 로한 판데이(구 OpenAI)에 의해 확인되었습니다.
기업들은 추론 및 기타 기술을 향상시키기 위해 기존의 사전 학습 방식을 따르는 강화 학습을 빠르게 확장하고 있습니다. 예를 들어, OpenAI는 o1에서 o3 사이에서 강화 학습 컴퓨팅을 10배 확장했습니다.
하지만 지금까지 대부분의 모델은 대부분 사전 학습된 컴퓨팅 모델이었습니다. 강화학습(RL)을 효율적으로 확장하려면 데이터, 환경, 보상 모델에 대한 연구가 필요하며, GPT-5는 강화학습만으로 GPT-4.5 수준의 확장성을 달성하기에는 아직 이르며, 컴퓨팅 분야에서 새로운 지평을 열기는 더욱 어렵습니다.
GPT-5의 컴퓨팅 규모는 AI의 발전 방향에 영향을 미칩니다. OpenAI는 추론 비용 때문에 현재로서는 확장성이 상대적으로 낮다고 생각할 수 있습니다. 하지만 GPT-5가 컴퓨팅의 새로운 지평을 열지 못하더라도, 더 빠른 반복 주기와 향후 확장을 위한 여지는 있습니다.
GPT-5가 어떻게 훈련되었는지에 대한 더 많은 증거를 주의 깊게 살펴보겠습니다. 계속 지켜봐 주세요!