También me gustó la parte sobre el estilo de razonamiento y la compatibilidad. Creo que aquí hay mucho potencial sin explotar para los modelos pequeños, ya que la geometría de las rutas de atención exige algo más que una simple destilación.
Enlacearxiv.org/pdf/2512.11463lU
