Os modelos ainda são muito sensíveis às condições específicas de avaliação. Não me surpreenderia se o GLM Air pudesse ser comparado a resultados ainda melhores em testes de benchmark. Isso torna as extrapolações de pequenas diferenças de pontuação para o desempenho subsequente muito especulativas.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.