Desculpe se esta é uma pergunta boba, mas os laboratórios também estão aplicando aprendizado por reforço (RL) a um modelo com base em resumos/compactações nativas? Por exemplo, em vez de realizar uma única passagem de inferência com muitos tokens de raciocínio antes da resposta, podemos realizar múltiplas passagens de inferência onde a próxima pode ter acesso a um resumo gerado pela anterior? Então, em vez de "pensar, pensar, pensar → responder", fica assim: "pensar, pensar, pensar → resumir → pensar, pensar, pensar → resumir → pensar, pensar, pensar → responder", e depois fazemos RL com base nisso? Quero dizer que *é* assim que os humanos resolvem problemas: não guardamos todo o raciocínio na cabeça, temos insights/momentos "eureka" que nos permitem filtrar o ruído e construir modelos mentais progressivamente melhores do problema (ou seja, resumos) antes de realmente resolvê-lo.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.