Adorei este papel. Embora à primeira vista pareça apenas decomposição de tarefas e autoconsistência usando ensembles, quero destacar outros aspectos. Este artigo aborda aquilo que a maioria de nós intuitivamente sente ou tenta com os LLMs, mas acaba desistindo após uma tentativa inicial simples.
Eles constroem um sistema de um milhão de etapas que basicamente nunca falha, não criando um modelo "mais inteligente", mas dividindo a tarefa em um milhão de pequenas partes e corrigindo os erros em cada uma delas de forma impecável. Eles conseguem tudo isso apenas com o gpt4.1-mini
Eu levo adiante essa ideia deste artigo: "se você precisasse evitar erros em um milhão de etapas, teria que dividir a tarefa um milhão de vezes". Como decompor e como corrigir erros universalmente seriam os focos de nossos esforços de implementação.
As ideias utilizadas aqui ainda estão em um contexto geral simples. Embora a garantia de confiabilidade de zero erros em um milhão de passos seja algo impressionante, eu não apostaria em 0% de erro antes de ver o artigo. Este artigo é um sucesso de execução.
As ideias centrais exploradas aqui são o que precisaríamos descobrir para tarefas de linguagem que não possuem detalhes de decomposição predefinidos. A qualidade dos resultados seria afetada pela capacidade do modelo de decompor as tarefas por si só e pela sua capacidade de se autocorrigir.
Mas se eu tivesse que depositar minhas esperanças em alguma direção, caso não haja avanços arquitetônicos, seria nesta. É algo que já foi descoberto em grande escala e para todos os tipos de tarefas.
Eu também acho que isso tornaria a programação dinâmica e a busca em árvore parte do conjunto de ferramentas de treinamento/inferência.