Escrevi um breve post sobre um experimento relacionado à densidade de informação em CoTs e CoTs incomuns (marinada, observadores, mistura de idiomas), que fornece algumas evidências de que os LLMs com RL não estão se esforçando tanto para comprimir informações em cada token. Gostaria de saber a opinião de vocês. Link abaixo.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.