X (Twitter)

O mecanismo do LMArena é simples: os usuários se deparam com duas saídas de modelos anônimos e fazem uma escolha baseada unicamente na aparência, suavidade e completude. De certa forma, está mais próximo de cenários de uso no mundo real do que um benchmark comum. Os resultados deste exame Wenxin foram excelentes em três áreas: primeiro lugar em escrita criativa, liderança consistente na compreensão de questões complexas e extensas, e capacidade de seguir instruções, colocando-os no nível mais alto. Essas três dimensões formam precisamente a estrutura triangular central de um modelo de linguagem pronto para uso. Especialmente na escrita criativa, que na verdade é a dimensão menos enganosa, testa-se se o modelo de linguagem realmente reflete o ritmo do pensamento humano e se é possível escrever parágrafos que não sejam monótonos e que tenham um bom ritmo. O que me chamou a atenção em Wenxin desta vez foi sua capacidade de expressar conteúdo leve, contido e envolvente em chinês. Esse tipo de habilidade é realmente muito raro. Mais importante ainda, isto é apenas uma prévia; a versão oficial será revelada na Conferência Mundial da Baidu na próxima semana. As funcionalidades que vemos agora são apenas de uma versão vazada e controlada.

Desde sua estreia, Wenxin vivenciou diversos momentos decisivos. Cada geração de atualizações não envolveu grandes alardes sobre o número de parâmetros ou listas de classificação; em vez disso, estabeleceu discretamente o modelo de linguagem como um ponto de entrada do sistema com capacidades de julgamento no mercado B2B. Neste momento, essa classificação parece mais uma validação de uma hipótese: quem consegue organizar tarefas de maneira semelhante à humana. O Wenxin Big Model 5.0-Preview demonstra sua própria abordagem estratégica em termos de criatividade, precisão de execução e compreensão de estruturas de tarefas complexas. O que vejo nesta lista é um modelo nacional que ascendeu ao topo da lista de comparação sem enfatizar narrativas nacionalistas ou depender da intensidade da propaganda. A essência da linguagem é um reflexo da visão de mundo. As capacidades de um modelo de grande porte são, na verdade, os limites de como ele interage com o mundo. Na próxima semana, no Baidu World, veremos o desempenho da versão oficial em termos de recursos do sistema; é aí que o verdadeiro diálogo começa.

Thread de 凡人小北 (@frxiaobei)

Informações do autor

Conteúdo da thread