X (Twitter)

Para quem se interessa por ciclos e mecanismos de feedback agentivo, avaliações ou simplesmente tem curiosidade sobre "eventualmente terei que lidar com os pesos", esta é uma ótima leitura (ótima em geral, na verdade). Discute o paradigma de recompensa por aprendizado por reforço com algumas analogias interessantes sobre como o feedback e o aprendizado funcionam para humanos (recompensa muito mais densa) com atribuição natural de crédito! A otimização por meio de sinais de feedback mais densos ainda está em fase inicial, mas é muito promissora e intuitivamente faz sentido (?).

Thread de Viv (@Vtrivedy10)

Informações do autor

Conteúdo da thread