SWE-rebench do Nebius, problemas de 31 de agosto a 30 de setembro. Eles chamam a atenção para o GLM 4.6, que está no mesmo nível do GPT-5-médio, mas noto um desempenho muito forte de *ambos* os GLMs 4.5* (lançados em 11 de agosto), na verdade, é quase idêntico. Portanto, espero grandes coisas do 4.6 Air.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
