¡Ah, sí, un token latente de byte/sin tokenizador, Olmo!, con informes completos, ablaciones y más mejoras de rendimiento confirmadas en evaluaciones/restricciones de letras codificadas.
También sigue la tendencia reciente de adaptaciones de modelos en la etapa intermedia de entrenamiento, lo que reduce en gran medida los costos de innovación de la arquitectura (básicamente, un "experimento controlado" al estix.com/Dorialexander/… Es posible que veamos mucha más variedad de diseños ahora.
