Este es un excelente hilo con algunos conceptos básicos de matemáticas de inferencia que ayuda a analizar cuán (relativamente) accesible es el entrenamiento de modelos MoE. Creo que, para cualquier aplicación que no sea de uso local, los MoE son claramente superiores.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.