Tenho muita curiosidade em saber como teria sido a pontuação se o modelo tivesse produzido resultados para cada amostra sem exceder o limite máximo de tokens de saída. Eles realmente precisam reduzir a verbosidade do raciocínio e/ou estender o contexto para mais de 256 mil caracteres. Em teoria, a Análise de Estruturas de Dados (DSA) torna isso econômico.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.