Le polonais est-il plus efficace que l'anglais pour converser avec des mannequins de grande taille ? Examinons cet article remarquable. Afin de déterminer quel langage est le plus efficace pour le dialogue avec de grands modèles, les auteurs ont développé un cadre appelé ONERULER pour évaluer les capacités des modèles de langage à contexte long dans des scénarios multilingues. Les tests ont porté sur 26 langues, 6 modèles courants et 4 longueurs de contexte (8k-128k jetons). Examinons directement les résultats : Les premiers résultats des tests montrent que les performances du modèle diminuent significativement avec l'augmentation de la longueur du contexte, ce qui est bien connu. Les modèles plus grands subissent généralement une baisse du rappel lorsque la longueur du contexte augmente ; cette conclusion est donc tout à fait normale. Deuxièmement, il a été constaté que les langues disposant de ressources importantes (comme l'anglais et le français, des langues avec davantage de corpus) conservaient une précision élevée quelle que soit la longueur du contexte, tandis que les langues disposant de peu de ressources (comme le swahili et le tamoul) connaissaient une forte baisse de leurs performances dans les contextes longs. Voici la principale information : l’anglais n’est pas la langue la plus performante ; le polonais arrive en tête avec une précision de 88,0 % sur l’ensemble des tâches, tandis que l’anglais, à 83,9 %, se classe sixième. Le chinois, quant à lui, n’atteint que 62,1 %, se classant quatrième en partant de la fin. Bien que l’anglais et le chinois dominent les données de pré-entraînement pour la plupart des modèles, ils ne se distinguent pas particulièrement dans les tâches nécessitant un contexte long. L'article examinait également les raisons de cette mauvaise performance : Une possibilité est que la taille de l'article Wikipédia pour la langue correspondante soit liée aux performances (mais cela ne semble pas être toute l'histoire). Une autre possibilité est que le système d'écriture ait pu jouer un rôle (alphabet latin/cyrillique contre écritures idéographiques). Enfin, les erreurs chinoises étaient principalement dues au fait que le modèle sélectionnait fréquemment « aucun » comme réponse incorrecte (en particulier pour Qwen, que l'article utilise comme Qwen2.5-72B... Je soupçonne que le problème réside en réalité dans le rappel lui-même, plutôt que dans les mauvaises performances de l'entraînement chinois). Cependant, cet article est quelque peu ancien (il a été soumis en mars dernier) et utilise encore Qwen2.5 pour la recherche. Il semblerait que Qwen4 soit déjà en cours d'entraînement. Il est important de souligner que les modèles actuels de conversion texte-image/texte-vidéo sont toujours optimisés pour l'anglais. Afin de limiter le nombre total de paramètres, ces modèles sont essentiellement entraînés en anglais uniquement pour la partie intégrant et comprenant le texte. Par conséquent, les invites fonctionnent mieux en anglais pur, et les résultats sont nettement moins bons avec le chinois. Recueil d'annales pour une étude approfondie : https://t.co/5GVuFR0tEq Lire en ligne :
Interprétation du document :

