X (Twitter)

Se actualizan las clasificaciones de LMArena, el modelo grande 5.0-Preview de Wenxin cobra protagonismo. LMArena es muy popular, pero nos hemos acostumbrado a ver a las modelos chinas "poniéndose al día", algo que ha sido criticado durante mucho tiempo. Esta actualización de la clasificación de LMARaena invita a reflexionar sobre la situación. Los modelos de fabricación nacional, antes relegados a entrenamientos complementarios en las clasificaciones, ahora están entrando con fuerza en la competición. El último ERNIE-5.0-Preview-1022 de Baidu ocupa el segundo lugar a nivel mundial y el primero en China en la clasificación de texto de LMARana, superando a varios modelos principales como GPT-5-High, Claude-Opus-4.1 y GPT-4o. A diferencia de las anteriores presentaciones de parámetros, esta vez se trata de una competición bajo un mecanismo de votación anónima.

El mecanismo de LMArena es simple: los usuarios se enfrentan a dos modelos anónimos y toman una decisión basándose únicamente en la apariencia, la fluidez y la integridad. En cierto modo, se asemeja más a escenarios de uso del mundo real que una prueba de rendimiento convencional. Los resultados de este examen de Wenxin fueron excelentes en tres áreas: primer puesto en escritura creativa, liderazgo constante en la comprensión de preguntas complejas y extensas, y capacidad para seguir instrucciones, lo que los sitúa en el nivel superior. Estas tres dimensiones conforman con precisión la estructura triangular central de un modelo de lenguaje listo para agentes. Especialmente en la escritura creativa, que en realidad es la dimensión menos engañosa, se pone a prueba si el modelo lingüístico refleja verdaderamente el ritmo del pensamiento humano y si se pueden escribir párrafos que no sean monótonos y tengan un buen ritmo. Lo que me llamó la atención de Wenxin esta vez fue su habilidad para expresar contenido ligero, sutil y atractivo en chino. Este tipo de habilidad es bastante rara. Lo más importante es que esto es solo un adelanto; la versión oficial se presentará en la Conferencia Mundial de Baidu la próxima semana. Las funcionalidades que vemos ahora son solo una versión filtrada y controlada.

Desde su debut, Wenxin ha experimentado varios puntos de inflexión clave. Cada generación de actualizaciones no ha implicado alardear a gran escala sobre el número de parámetros o listas de clasificación; en cambio, ha establecido silenciosamente el modelo de lenguaje como un punto de entrada al sistema con capacidades de juicio en el mercado B2B. Esta clasificación parece más bien una validación de una hipótesis en esta etapa: quién puede organizar tareas de manera similar a los humanos. La versión preliminar del modelo Wenxin Big 5.0 demuestra su propio enfoque estratégico en términos de creatividad, precisión en la ejecución y comprensión de estructuras de tareas complejas. Lo que veo en esta lista es un modelo nacional que ha llegado a la cima de la lista comparativa sin enfatizar las narrativas nacionalistas ni recurrir a la intensidad de la propaganda. La esencia del lenguaje es un reflejo de la cosmovisión. Las capacidades de un modelo de gran tamaño son, de hecho, los límites de cómo interactúa con el mundo. La semana que viene, en Baidu World, veremos cómo se comporta la versión oficial en cuanto a capacidades del sistema; ahí es cuando comenzará el verdadero diálogo.

Hilo de 凡人小北 (@frxiaobei)

Información del autor

Contenido del hilo