EU *ESTAVA* ERRADO - US$ 10 MIL REIVINDICADOS! ## A Afirmação Há dois dias, afirmei com confiança que "os GPTs NUNCA resolverão o problema A::B". Eu acreditava que: 1. Os GPTs não conseguem realmente aprender novos problemas, fora de seu conjunto de treinamento, 2. Os GPTs não conseguem realizar raciocínios de longo prazo, não importa quão simples sejam. Argumentei que ambos são necessários para inventar novas ciências; afinal, alguns problemas de matemática levam anos para serem resolvidos. Se você não consegue vencer um jovem de 15 anos em qualquer tarefa intelectual, não vai provar a Hipótese de Riemann. Para isolar essas questões e reforçar meu ponto de vista, criei o problema A::B e o publiquei aqui - definição completa no tweet citado. ## Recepção, Esclarecimento e Desafio Logo após a publicação, alguns usuários forneceram uma solução para um exemplo específico de 7 tokens que listei. Rapidamente apontei que não era isso que eu queria dizer; que este exemplo era meramente ilustrativo, e que responder a uma instância não é o mesmo que resolver um problema (e pode ser facilmente enganado pela manipulação do prompt). Então, para deixar minha declaração clara, e para colocar meu dinheiro onde está minha boca, ofereci um prêmio de US$ 10 mil para quem pudesse criar um prompt que resolvesse o problema A::B para instâncias *aleatórias* de 12 tokens, com uma taxa de sucesso de mais de 90%. Essa ainda é uma tarefa fácil, que leva em média 6 trocas para resolver; literalmente mais simples do que aritmética da 3ª série. No entanto, eu acreditava firmemente que nenhum GPT seria capaz de aprender e resolver isso no prompt, mesmo para essas pequenas instâncias. ## Soluções e Vencedor Horas depois, muitas soluções foram enviadas. Inicialmente, todas falharam, mal atingindo taxas de sucesso de 10%. Eu estava ficando bastante confiante, até que, mais tarde naquele dia, @ptrschmdtnlsn e @SardonicSydney enviaram uma solução que me deixou humilde. Sob o comando deles, o Claude-3 Opus conseguiu generalizar a partir de alguns exemplos para instâncias aleatórias arbitrárias E seguir as regras, realizando cálculos longos com quase zero erros. Na minha execução, ele atingiu uma taxa de sucesso de 56%. Ao longo do dia, os usuários @dontoverfit (Opus), @hubertyuan_ (GPT-4), @JeremyKritz (Opus) e @parth007_96 (Opus), @ptrschmdtnlsn (Opus) alcançaram taxas de sucesso semelhantes, e @reissbaker fez um ajuste fino bem-sucedido do GPT-3.5. Mas foi só tarde da noite que @futuristfrog postou um tweet alegando ter alcançado uma taxa de sucesso próxima de 100%, apenas com o comando. E ele estava certo. Na minha primeira execução, ele marcou 47/50, garantindo a ele o prêmio e completando o desafio. ## Como funciona!? O segredo do comando dele é... vai permanecer em segredo! Isso porque ele gentilmente concordou em dar 25% do prêmio para a solução mais eficiente. Este prompt custa US$ 1+ por inferência, então, se você acha que pode melhorar nisso, você tem até a próxima quarta-feira para enviar sua solução no link abaixo e competir pelos US$ 2,5 mil restantes! Obrigado, Bob. ## Como estou? Corrigido! Minha afirmação inicial estava absolutamente ERRADA - pelo que peço desculpas. Eu duvidava que a arquitetura GPT fosse capaz de resolver certos problemas que ela, sem margem para dúvidas, resolveu. Isso prova que os GPTs curam o câncer? Não. Mas prova que estou errado! Observe que ainda há um pequeno problema com isso: não está claro se o Opus é baseado na arquitetura GPT original ou não. Todas as versões do GPT-4 falharam. Se o Opus acabar sendo uma nova arquitetura... bem, tudo isso teria, ironicamente, provado meu ponto 😅 Mas, para o bem da competição, e com toda a justiça, o Opus FOI listado como uma opção, então, o prêmio é garantido. ## Quem eu sou e o que estou tentando vender? Errado! Não vou transformar isso em um anúncio. Mas, sim, se você é novo por aqui, ESTOU construindo algumas coisas e, sim, assim como hoje, valido constantemente minhas afirmações para garantir que posso cumprir minhas promessas. Mas isso é tudo o que vou dizer, então, se estiver curioso, terá que descobrir por si mesmo (: #### Só isso. Obrigado a todos que participaram e, novamente, desculpe por ser o cara errado na internet hoje! Até mais. Resumo: https://t.co/qpSlUMXOTU
(O prompt vencedor será publicado na quarta-feira, assim como o código-fonte do próprio avaliador. Seu hash está no Gist.)