Por cierto, recién ahora me di cuenta de que los puntos de control del «Modelo de recompensa generativa (GRM) potenciado por el ajuste de crítica basada en principios propios (SPCT)» de DeepSeek se lanzaron en algún momento. Esto todavía usaba Gemmas y V2-lite + V2.5 como profesor. Imaginen lo buenos que son sus GRM basados en la V3.2.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.

