Não sei qual é a diferença entre os modelos chineses e americanos atualmente. Há alguns anos, acreditava-se geralmente que a diferença geracional era de 1 a 2 anos. Parece que já se passaram mais de seis meses? Por exemplo, na lista das modelos grandes mais populares, a LMARaena, no ano passado as modelos nacionais estavam basicamente no estágio de "são boas o suficiente para entrar na lista", mas este ano começaram a competir com sites como Claude e GPT. Analisando os rankings de texto mais competitivos, o Baidu ERNIE-5.0-Preview-1203 chegou ao top 10 do ranking de texto do LMARaena, ficando em primeiro lugar entre os modelos de grande escala produzidos internamente. De acordo com os comentários de LMARaena, a melhoria foi principalmente na escrita criativa e na compreensão de instruções complexas. Esses dois aspectos são geralmente os que mais se aproximam de cenários de uso no mundo real e também os mais propensos a erros. Não sei como o Baidu os otimizou. Na verdade, a capacidade de engenharia da Baidu sempre foi sólida; a impressão é que eles só agora estão começando a investir pesado nisso. Ouvi dizer que a versão oficial será lançada em janeiro. Vou testá-la então e ver se é realmente boa.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

