As confusões em torno de RLVR e LLMs provavelmente podem ser esclarecidas pela forma como explicamos a busca em Introdução à IA (pelo menos da forma como eu explico). Se você está procurando por algo, pelo menos deveria ser capaz de reconhecê-lo caso se depare com uma situação em que não corresponde à realidade. Ou seja, se você chegou à solução candidata correta, deveria ser capaz de *verificar* se ela está de fato correta. Em outras palavras, tudo começa com o "verificador". Agora, o verificador pode ser uma caixa preta ou declarativo (no sentido de que fornece uma afirmação lógica sobre quando um candidato é uma solução correta). Se for uma caixa preta, então você pode realizar principalmente buscas do tipo `generate-test` — ou seja, o tipo de busca mais primitivo. (Como veremos adiante, o RLVR pode ser compreendido em termos disso). (Se for declarativo, então para cada forma diferente de verificar a solução candidata, você pode inverter esse critério para definir a busca. Por exemplo, em planejamento, você pode verificar um plano por meio de progressão, regressão ou explicação causal — inverter cada um deles resulta em planejamento por progressão, planejamento por regressão e busca por planejamento no espaço de planos.) Note que nada disso exige qualquer especificação sobre a complexidade do verificador — se o verificador estiver em P, então a busca estará em NP; caso contrário, a busca estará em uma classe de complexidade maior. == Agora, falando sobre RLVR e LLMs, basicamente, o RLVR é melhor compreendido como um processo de RL enxertado em uma busca de geração e teste por meio de LLMs. Como argumentamos no artigo do LLM-Modulo --https://t.co/mREKgH8mxk -- a razão pela qual gerar e testar, que é o tipo mais primitivo de busca, não é descartado é porque os LLMs podem ser geradores muito melhores do que geradores aleatórios. Na verdade, você pode pensar no RLVR como uma espécie de "Módulo LLM interno" + RL -- ou um Módulo LLM usado durante o treinamento para gerar trajetórias e sinais de recompensa/acerto, que são então compilados de volta ao gerador muito lentamente com a ajuda do RL. Assim como no caso da busca normal, nada disso exige que o verificador usado no RLVR pertença à classe P! Na verdade, já temos LRMs com bom desempenho em classes de problemas cuja verificação não pertence à classe P. Por exemplo, até mesmo o planejamento simples do STRIPS é completo no espaço P, porque o plano correto pode ser exponencialmente longo e, portanto, levar um tempo exponencial para ser verificado. Pense nas Torres de Hanói! Como outro exemplo, o AlphaProof lidará com provas cuja verificação Lean seria proporcional ao comprimento da prova e, portanto, pode estar além da classe P (lembre-se de que a complexidade é em termos de especificação de entrada). Em outras palavras, >> Os LLMs podem ser usados para resolver qualquer problema no estilo Gerar-Teste com o LLM-Modulo, caso você tenha verificadores. >>Se você executar esse módulo LLM durante a fase de treinamento em instâncias de problemas sintéticos e usar RL para compilar o sinal do verificador no LLM base, você terá o RLVR. Esta última é o que vem sendo discutido como "Programação 2.0" — onde, se você tiver um verificador, pode deixar o RLVR obter o modelo para ser um gerador melhor para esse problema. Se você quiser mais detalhes, pode conferir esta palestra: https://t.co/oiCQQ73KvV
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.