Et une publication majeure en open science : on n’en parle pas assez, mais la partie SFT va bien au-delà de la phase post-entraînement. Il s’agit d’une phase d’entraînement entièrement documentée, regorgeant d’informations et de pépites sur l’entraînement MoE, l’apprentissage par renforcement asynchrone pour les infrastructures et la recherche approfondie.
Ce rapport mérite d'être lu attentivement (devant une dinde ?) en raison de toutes les expériences intermédiaires, même reproductiblstorage.googleapis.com/intellect-3-pa…s petits. https://t.co/p9nmK65bdF

