Sería una locura que el experto óptimo (es decir, incluso cuando estamos optimizando para FLOPs de entrenamiento para el objetivo de rendimiento posterior, no los costos de por vida) tenga <1M parámetros. Pero además, será lógico. Los modelos pequeños son sorprendentemente resistentes. Necesitamos un mejor enrutamiento. De alguna manera lo predije, por cierto.
¡Qué tiempos aquellos en los que 100 "me gusta" ex.com/teortaxesTex/s…mí!
