Essa é uma ótima pergunta para se refletir e está relacionada a outra questão de pesquisa interessante: 1. Existe um limite máximo para a aprendizagem contextualizada? 2. Será que a vida real é o caminho para romper essa barreira? 3. Quanto conhecimento já está contido nos pesos, mas não sabemos como extraí-lo de forma confiável? A otimização baseada em texto definitivamente funciona até certo ponto. Por exemplo, o fluxo de: Agente Harness —> Avaliar —> Rastrear Minas —> Aprimorar Harness Há muitos experimentos interessantes para fazer sobre eficiência de amostragem, custo/computação e comparação de otimização baseada em texto e em aprendizado por reforço. Outra questão é que, após o RL, o quanto iremos reajustar seu sistema para que você volte a depender da otimização baseada em texto?
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
