Para quem se interessa por ciclos e mecanismos de feedback agentivo, avaliações ou simplesmente tem curiosidade sobre "eventualmente terei que lidar com os pesos", esta é uma ótima leitura (ótima em geral, na verdade). Discute o paradigma de recompensa por aprendizado por reforço com algumas analogias interessantes sobre como o feedback e o aprendizado funcionam para humanos (recompensa muito mais densa) com atribuição natural de crédito! A otimização por meio de sinais de feedback mais densos ainda está em fase inicial, mas é muito promissora e intuitivamente faz sentido (?).
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.