Pasó desapercibido: un híbrido Mamba-2+MLA, *postentrenado* de Llama 3. Sabíamos que GQA =>MLA completo es factible. Kimi ha demostrado que se puede combinar MLA y atención lineal (aunque KDA es más sofisticado que Mamba-2), pero entrenaron desde cero. Esto es técnicamente impresionante.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
