O polonês é mais eficaz que o inglês ao conversar com modelos de grande porte? Vamos analisar este artigo incrível. Para investigar qual idioma é mais eficaz para o diálogo com modelos complexos, eles desenvolveram uma estrutura chamada ONERULER para avaliar as capacidades de modelos de linguagem de contexto longo em cenários multilíngues. Os testes abrangeram 26 idiomas, 6 modelos principais e 4 tamanhos de contexto (de 8 mil a 128 mil tokens). Vamos analisar os resultados diretamente: Os resultados dos testes iniciais mostram que o desempenho do modelo diminui significativamente com o aumento do comprimento do contexto, o que é de conhecimento geral. Modelos maiores geralmente apresentam uma diminuição na taxa de acerto à medida que o comprimento do contexto aumenta, portanto, essa conclusão é bastante normal. Em segundo lugar, constatou-se que línguas com muitos recursos (como o inglês e o francês, línguas com mais corpora) mantiveram alta precisão em todos os tamanhos de contexto, enquanto línguas com poucos recursos (como o suaíli e o tâmil) apresentaram um declínio acentuado no desempenho em contextos longos. Eis a grande notícia: o inglês não é o melhor idioma; o polonês ocupa o primeiro lugar, atingindo uma precisão de 88,0% em todas as tarefas, enquanto o inglês alcança 83,9%, ficando em sexto lugar. O chinês atinge apenas 62,1%, ficando em quarto lugar de baixo para cima. Embora o inglês e o chinês dominem os dados de pré-treinamento da maioria dos modelos, eles não se destacam em tarefas de contexto longo. O artigo também investigou por que isso era ruim: Uma possibilidade é que o tamanho da entrada da Wikipédia para o idioma correspondente esteja relacionado ao desempenho (mas isso não parece explicar tudo). Outra possibilidade é que o sistema de escrita possa ter desempenhado um papel (alfabeto latino/cirílico versus escritas ideográficas). Por fim, os erros em chinês foram principalmente devido ao modelo selecionar frequentemente "nenhum" como resposta incorreta (especialmente para Qwen, que o artigo usa como Qwen2.5-72B... Suspeito que o problema esteja na própria função de recuperação, e não no desempenho ruim do treinamento em chinês). No geral, porém, este artigo está um tanto desatualizado (foi submetido em março deste ano) e ainda utiliza o Qwen2.5 para a pesquisa. Agora parece que o Qwen4 já pode estar em fase de treinamento. E, para deixar um ponto crucial, os modelos atuais de texto para imagem/texto para vídeo ainda são melhor treinados em inglês. Para manter o número total de parâmetros pequeno, esses modelos são basicamente treinados em inglês apenas para as partes de incorporação/compreensão de texto. Portanto, os comandos funcionam melhor em inglês puro, e os resultados são muito piores quando se usa chinês. Coletânea de provas anteriores para leitura aprofundada: https://t.co/5GVuFR0tEq Leia online:
Interpretação do artigo:

