Uma análise aprofundada do tamanho do rank do LoRa em RL reforça minha impressão de que existem leis de escalonamento entre raciocínio e esforço computacional ainda a serem descobertas.
Agora que finalmente tenho ambientes sintéticos controlados, estou vendo uma compensação semelhante no lado do pré-treinamento. Por exemplo, empilhar camadas é ainda mais benéfico para algumas tarefas/domínios (matemática) do que para outros.
