Há 10 anos: o engenheiro de prompts de aprendizado por reforço (RL) [1] (Seção 5.3). Cadeia de pensamento adaptativa: uma rede neural RL aprende a consultar sua rede "modelo de mundo" para raciocínio abstrato e tomada de decisão. Indo além do modelo de mundo neural de 1990 [2] para planejamento milissegundo a milissegundo e do gerador de submetas neural adaptativo de 1991 [3,4] para planejamento hierárquico. [1] J. Schmidhuber (JS, 2015). Sobre aprender a pensar: Teoria da informação algorítmica para novas combinações de controladores de RL e modelos neurais recorrentes do mundo. ArXiv 1210.0118 [2] JS (1990). Tornando o mundo diferenciável: Sobre o uso de redes neurais auto-supervisionadas totalmente recorrentes para aprendizado por reforço dinâmico e planejamento em ambientes não estacionários. TR FKI-126-90, TUM. (Este relatório também introduziu curiosidade artificial e motivação intrínseca por meio de redes generativas adversárias.) [3] JS (1991). Aprendendo a gerar sub-metas para sequências de ações. Proc. ICANN'91, p. 967-972. [4] JS & R. Wahnsiedler (1992). Planejamento de trajetórias simples usando geradores de subobjetivos neurais. Proc. SAB'92, p 196-202, MIT Press.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
![Há 10 anos: o engenheiro de prompts de aprendizado por reforço (RL) [1] (Seção 5.3). Cadeia de pensamento adaptativa: um](https://pbs.twimg.com/media/G62qakxWcAATu16.png)