Imagine aprender a jogar um videogame olhando apenas para a pontuação final. Isso é aprendizado por reforço. Agora imagine treinar um modelo de raciocínio complexo da mesma forma — é um desperdício enorme. Mas é exatamente nisso que os "laboratórios de ponta" estão investindo bilhões.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.