Isso parece ser realmente importante: É totalmente plausível que um modelo consiga o ouro na IMO sem *nenhum* aprendizado por reforço, dado um estímulo perfeitamente elaborado. Simplesmente não sabemos e não temos ferramentas para pesquisar de forma eficiente no espaço de prompts. Fico feliz em ver que pelo menos alguém está tentando.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.