Esto no es serio. El enfoque V3.2, uno de los LLM más sólidos, está por debajo de muchos modelos relativamente débiles e incluso de versiones anteriores, como V3.1, V3.2-exp y R1-0528. Quizás el ejemplo más claro de que lmarena está siendo manipulado.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.

