Muito interessante. Não temos nenhuma recompensa rotulada (relacionada à tarefa) durante o treinamento. A inferência (otimização) da recompensa ocorre durante o teste. Os usuários podem definir qualquer tipo de função de recompensa em relação aos estados do robô, e a política de treinamento zero-shot gera as habilidades otimizadas.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
