¿Es el polaco más eficaz que el inglés al conversar con modelos de tallas grandes? Analicemos este fascinante artículo. Para investigar qué idioma es el más eficaz para el diálogo con modelos de gran tamaño, desarrollaron un marco de trabajo llamado ONERULER para evaluar las capacidades de los modelos de lenguaje de contexto largo en escenarios multilingües. Las pruebas cubrieron 26 idiomas, 6 modelos principales y 4 longitudes de contexto (de 8k a 128k tokens). Analicemos directamente los resultados: Los resultados de las pruebas iniciales muestran que el rendimiento del modelo disminuye significativamente al aumentar la longitud del contexto, lo cual es de conocimiento común. En general, los modelos más grandes experimentan una disminución en la recuperación a medida que aumenta la longitud del contexto, por lo que esta conclusión es bastante normal. En segundo lugar, se descubrió que los idiomas con muchos recursos (como el inglés y el francés, idiomas con más corpus) mantuvieron una alta precisión en todas las longitudes de contexto, mientras que los idiomas con pocos recursos (como el swahili y el tamil) experimentaron una fuerte disminución en el rendimiento en contextos largos. La noticia principal es que el inglés no es el mejor idioma; el polaco ocupa el primer lugar, con una precisión del 88,0 % en todas las tareas, mientras que el inglés alcanza el 83,9 %, situándose en sexto lugar. El chino solo logra un 62,1 %, ocupando el cuarto puesto por la cola. Si bien el inglés y el chino predominan en los datos de preentrenamiento de la mayoría de los modelos, no destacan en tareas de contexto extenso. El artículo también investigó por qué era malo: Una posibilidad es que el tamaño de la entrada de Wikipedia para el idioma correspondiente esté relacionado con el rendimiento (pero esta no parece ser toda la historia). Otra posibilidad es que el sistema de escritura haya jugado un papel importante (alfabeto latino/cirílico frente a escrituras ideográficas). Finalmente, los errores en chino se debieron principalmente a que el modelo seleccionaba con frecuencia "ninguno" como respuesta incorrecta (especialmente para Qwen, que el artículo utiliza como Qwen2.5-72B... Sospecho que el problema radica en realidad en la recuperación misma, más que en un rendimiento deficiente del entrenamiento en chino). En general, sin embargo, este artículo está algo desactualizado (se presentó en marzo de este año) y aún utiliza Qwen2.5 para la investigación. Ahora parece que Qwen4 ya se está entrenando. Y, para recalcar un punto clave, los modelos actuales de conversión de texto a imagen/texto a vídeo siguen funcionando mejor en inglés. Para mantener reducido el número total de parámetros, estos modelos se entrenan básicamente en inglés solo para la parte de incrustación/comprensión de texto. Por lo tanto, las indicaciones funcionan mejor en inglés puro, y los resultados son mucho peores al usar chino. Colección de exámenes de años anteriores para un análisis exhaustivo: https://t.co/5GVuFR0tEq Leer en línea:
Interpretación del documento:

