X (Twitter)

Sem nenhum ajuste ou aprendizado por reforço específico para o jogo? De jeito nenhum. Eu ficaria genuinamente chocado. Como problema de interação, isso é muito, muito mais difícil do que dirigir ou controlar um humanoide. E a maioria dos resultados de aprendizado por reforço para jogos até agora são uma grande mentira. O Voyager para Minecraft chama ações como "vá minerar carvão" e oferece diversos exemplos de scripts públicos. Isso seria uma tarefa de aprendizado por reforço (RL) independente, criada do zero. Por uma feliz coincidência, o xadrez registra partidas exatamente no formato de texto ideal para LLMs (Literatura Litúrgica Literária). E existem muitas delas. Quando você não tem isso, mas tem acesso a um simulador? Simulações simples são imbatíveis. Temos vários exemplos de jogabilidade sobre-humana treinada em segundos em uma única GPU em https://t.co/wPfmdJfe1d. E não se trata apenas de jogos. A maioria dos simuladores sofisticados que criamos para clientes acaba sendo mais fácil de simular na vida real do que até mesmo jogos relativamente simples. Na minha opinião, o melhor resultado da nossa área, de longe, foi o OpenAI Five. Derrotaram os melhores profissionais de Dota com cerca de 1000 GPUs. Provavelmente seria possível fazer o mesmo com 64 a 256 placas H100 hoje em dia. Os processadores são um verdadeiro obstáculo, mas é por isso que criamos simulações personalizadas e rápidas para problemas que realmente nos importam. Vemos constantemente o aprendizado por reforço (RL) apresentar soluções que me fazem questionar como um modelo de aprendizado por reforço (LLM) conseguiria eliminar completamente os inimigos. A interação é fundamental para a inteligência. Se você ajustar um modelo de aprendizado por reforço (RL) jogando o jogo? Claro, e será mais eficiente em termos de amostras do que treinar do zero. Mas será extremamente ineficiente em termos de computação. Temos evidências bastante sólidas de que as leis de escala em RL tendem a resultar em modelos muito menores e com muito mais dados. Essa é a aposta que fiz em minha própria pesquisa, e até agora, tem se mostrado acertada. E se você realmente quisesse usar o Grok para obter um resultado impressionante em aprendizado por reforço? Minha aposta é em preencher a lacuna entre modelos gigantes e pequenos. Realize quase todas (>>99,9%) as ações durante o treinamento com o modelo pequeno. Jogue muitos jogos. Use o modelo grande para guiar a exploração, etc. Já existem alguns resultados disso em jogos e robótica, mas nada realmente satisfatório ainda. Não estou trabalhando nisso porque, na minha opinião, o lado do aprendizado por reforço com modelos pequenos tem muito mais potencial agora, com um caminho bem definido para o futuro, mesmo em pequena escala.

Thread de Joseph Suarez 🐡 (@jsuarez5341)

Informações do autor

Conteúdo da thread