O Wenxin ERNIE-5.0-Preview-1203 alcançou surpreendentemente o primeiro lugar no ranking de buscas de texto do LMARaena nos Estados Unidos. Mais adiante, basicamente são só GPT, Claude e Gemini. Entretanto, eles obtiveram 23 pontos a mais nesta versão do LMARaena em comparação com a versão anterior, o que representa uma melhora significativa. Os critérios de avaliação focaram principalmente na escrita criativa e em instruções desafiadoras, que são também as áreas em que as habilidades textuais do modelo são atualmente mais exigidas. Eles já não guardam mais suas grandes surpresas; em vez disso, lançam novas versões com frequência e as ajustam constantemente para melhorar o desempenho. Essa abordagem está correta; eles deveriam se comunicar mais com a comunidade de código aberto para obter feedback.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
