OpenAI a historiquement multiplié par 100 la puissance de calcul d'entraînement à chaque nouvelle génération de son GPT. Cependant, GPT-5 semble faire exception à cette tendance. 🧵
GPT-4 a été entraîné sur des opérations en virgule flottante 2e25, et OpenAI a indiqué que GPT-4.5 représentait une mise à l'échelle d'environ un ordre de grandeur (x10). Nous ne disposons pas encore d'une estimation précise, mais l'échelle de calcul de GPT-5 pourrait se situer entre GPT-4 et GPT-4.5, et il ne s'agit probablement pas d'une mise à l'échelle significative par rapport à 4.5.
Le calcul d'entraînement évolue avec la taille du modèle multipliée par les données d'entraînement. GPT-5 est rapide et relativement économique sur l'API, avec des jetons de sortie 15 fois moins chers et une vitesse de traitement environ 2 à 4 fois supérieure à celle de GPT-4.5 dès son lancement ! Cela suggère que GPT-5 est un modèle beaucoup plus compact que GPT-4.5.
Nous ignorons la quantité de données sur laquelle GPT-5 a été entraîné. Cependant, comme la mise à l'échelle des données pré-entraînement représentait un défi majeur pour GPT-4.5 il y a seulement six mois, GPT-5 n'a probablement pas utilisé beaucoup plus de données réelles. Il a également utilisé des données synthétiques d'o3, mais en privilégiant la qualité plutôt que la quantité.
Notre conclusion selon laquelle GPT-5 n'est pas une mise à l'échelle 100x par rapport à GPT-4 a été confirmée par Rohan Pandey (anciennement Opex.com/khoomeik/statu…s de pré-formation.
Les entreprises développent également rapidement l'apprentissage par renforcement, qui suit le pré-entraînement traditionnel, afin d'améliorer le raisonnement et d'autres compétences. Par exemple, OpenAI a multiplié par 10 la puissance de calcul RL entre o1 et o3.
Mais la plupart des modèles à ce jour reposaient majoritairement sur des calculs de pré-apprentissage. Une mise à l'échelle efficace de l'apprentissage par renforcement nécessitera des recherches sur les données, les environnements et les modèles de récompense. Or, GPT-5 est probablement trop tôt pour atteindre l'échelle de GPT-4.5 par le seul apprentissage par renforcement, et encore moins pour franchir une nouvelle frontière en matière de calcul.
L'échelle de calcul de GPT-5 a des implications pour la trajectoire de l'IA. OpenAI pourrait penser que la mise à l'échelle est relativement peu prometteuse pour l'instant, peut-être en raison des coûts d'inférence. Mais si GPT-5 ne définit pas de nouvelle frontière de calcul, l'entreprise dispose d'une marge de manœuvre pour des cycles d'itération plus rapides et de futures montées en charge.
Nous surveillerons de près les prochaines preuves sur la formation de GPT-5. Restez connectés !