Ah oui, un jeton Olmo sans tokenizer/à latence d'octets ! avec des rapports complets, des ablations, confirmant davantage les gains de performance sur les évaluations brouillées/contraintes de lettres.
Cela s'inscrit également dans la tendance récente des adaptations de modèles en cours d'apprentissage, ce qui réduit considérablement les coûts d'innovation architecturale (il s'agit en quelque sorte d'une « expérimentation cox.com/Dorialexander/…de la physique des modèles linéaires). On pourrait donc observer une plus grande variété de conceptions.
