Se o espaço de tokens fosse um gargalo de informação para o raciocínio de modelos de aprendizado de máquina (LLMs), seria de se esperar que os modelos treinados em aprendizado por reforço aprendessem a usar todos os tokens com alta frequência. Mas, ao analisar os resultados de treinamento de aprendizado de máquina (COTS), percebo que eles parecem ter um espaço de tokens limitado, utilizando um espaço menor do que os modelos base ou a saída do modelo.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.