O Fiction.LiveBench foi finalmente atualizado! Desta vez, eles atualizaram os resultados do teste de desempenho de recall para os seguintes modelos: deepseek-v3.2-exp [reasoning: high], deepseek-v3.2-exp, nemotron-nano-9b-v2:free, qwen-max e qwen3-next-80b-a3b-instruct. O que me surpreendeu foi que o deepseek-v3.2-exp [raciocínio: alto] alcançou um desempenho quase de ponta, com pelo menos 83% de recall em 32K. Este é o melhor resultado que o deepseek já obteve. No entanto, os resultados para valores acima de 60K provavelmente falharam, pois nenhum resultado de teste foi obtido. Além disso, a nova arquitetura do Qwen3-Next parece ter um desempenho apenas razoável. Espero que a nova versão melhore isso. Meus modelos favoritos de tamanho médio atualmente, executados localmente, são o Qwen3-Next e o Kimi-linear.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

