J'ai adoré les sections sur la formation intermédiaire (vive les pipelines de synthèse !) et le contexte long, mais je pense qu'un changement d'orientation aurait été justifié : moins de pré-entraînement de base 6T, et beaucoup plus de capacités de raisonnement/contexte étendu 100-200 B.
L'annexe mérite d'être consultée : elle se concentre sur le code, mais nous sommes d'accord sur la nécessité d'évoluer vers des évaluations de « capacités » plus générales. La question « Pouvez-vous faire X ? » est bien plus intéressante que la génération automatique de code Django.

