Ce serait absurde si l'expert optimal (c'est-à-dire même si nous optimisons les FLOP d'entraînement pour atteindre l'objectif de performance en aval, et non les coûts sur toute la durée de vie) avait moins d'un million de paramètres. Mais ce sera également logique. Les modèles miniatures sont étonnamment performants. Nous avons simplement besoin d'un meilleur routage. Je l'avais plus ou moins prédit, d'ailleurs.
L'époque bénie où 100 likes étaient une victoire pour moi
