Este é um blog de pesquisa intrigante, dos mesmos autores do artigo "RL tunes small subnets". Considero útil porque discute como a combinação SGD-RLVR atualiza apenas 0,01% dos parâmetros, em comparação com o AdamW, que atualiza até 90% dos parâmetros. Isso implica que podemos descartar o AdamW em favor do SGD para o RLVR, pelo menos. Tenho várias perguntas em mente que tentarei responder em seguida com minha própria experimentação. Onde exatamente se encontra o limite entre o "subespaço seguro para SGD" e o "espaço completo necessário para AdamW" após o treinamento? > Podemos transformar sistematicamente a pequena sub-rede ativa do RLVR/SGD em uma pilha de adaptadores modular e reutilizável para treinamento em múltiplos domínios? > Quando você força o pós-treinamento a operar nesses pequenos subespaços estruturados (encontrados por RLVR/SGD ou projetados como LoRA), como as propriedades globais do modelo mudam em comparação com o adamW RLHF/RLVR de espaço completo? Preciso pensar em experimentos limpos em pequena escala para isso e atualizarei este tópico. Pode não ter muito rendimento além do RLVR, mas ainda é uma questão pouco explorada.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.