X (Twitter)

Français J'AVAIS *TROMPE* - 10 000 $ RÉCLAMÉS ! ## L'affirmation Il y a deux jours, j'affirmais avec assurance que « les GPT ne résoudront JAMAIS le problème A::B ». Je croyais que : 1. Les GPT ne peuvent pas vraiment apprendre de nouveaux problèmes, en dehors de leur ensemble d'entraînement, 2. Les GPT ne peuvent pas effectuer de raisonnement à long terme, aussi simple soit-il. J'ai soutenu que ces deux éléments sont nécessaires pour inventer une nouvelle science ; après tout, certains problèmes mathématiques prennent des années à résoudre. Si vous ne pouvez pas battre un jeune de 15 ans dans une tâche intellectuelle donnée, vous n'allez pas prouver l'hypothèse de Riemann. Pour isoler ces problèmes et faire valoir mon point de vue, j'ai conçu le problème A::B et je l'ai publié ici - définition complète dans le tweet cité. ## Réception, clarification et défi Peu après sa publication, certains utilisateurs ont fourni une solution à un exemple spécifique à 7 jetons que j'avais cité. J'ai rapidement fait remarquer que ce n'était pas ce que je voulais dire ; que cet exemple était simplement illustratif, et que répondre à une instance n'est pas la même chose que résoudre un problème (et peut être facilement trompé par une manipulation rapide). Donc, pour clarifier mon propos, et pour joindre le geste à la parole, j'ai offert un prix de 10 000 $ à quiconque pourrait concevoir une invite permettant de résoudre le problème A::B pour des instances *aléatoires* de 12 jetons, avec un taux de réussite de plus de 90 %. C'est toujours une tâche facile, qui nécessite en moyenne 6 échanges ; littéralement plus simple que l'arithmétique de CE2. Pourtant, je croyais fermement qu'aucun GPT ne serait capable de l'apprendre et de le résoudre à l'invite, même pour ces petites instances. ## Solutions et gagnant Des heures plus tard, de nombreuses solutions ont été soumises. Au début, toutes ont échoué, atteignant à peine 10 % de taux de réussite. Je commençais à être assez confiant, jusqu'à ce que, plus tard dans la journée, @ptrschmdtnlsn et @SardonicSydney soumettent une solution qui m'a rendu humble. Sous leur impulsion, Claude-3 Opus a pu généraliser à partir de quelques exemples à des instances aléatoires arbitraires, tout en respectant les règles, effectuant de longs calculs avec une quasi-absence d'erreur. Lors de mon essai, il a obtenu un taux de réussite de 56 %. Au cours de la journée, les utilisateurs @dontoverfit (Opus), @hubertyuan_ (GPT-4), @JeremyKritz (Opus) et @parth007_96 (Opus), @ptrschmdtnlsn (Opus) ont obtenu des taux de réussite similaires, et @reissbaker a réalisé une mise au point plutôt réussie de GPT-3.5. Mais ce n'est que tard dans la soirée que @futuristfrog a publié un tweet affirmant avoir atteint un taux de réussite proche de 100 %, rien qu'en s'incitant. Et il avait raison. Lors de mon premier essai, il a obtenu un score de 47/50, ce qui lui a valu le prix et la réussite du défi. ## Comment ça marche !? Le secret de son essai… restera secret ! C'est parce qu'il a gentiment accepté de donner 25 % du prix à la solution la plus efficace. Ce sujet coûte plus de 1 $ par inférence, donc si vous pensez pouvoir améliorer ce chiffre, vous avez jusqu'à mercredi prochain pour soumettre votre solution via le lien ci-dessous et concourir pour les 2 500 $ restants ! Merci Bob. ## Comment je me positionne ? Corrigé ! Mon affirmation initiale était totalement fausse – et je m'en excuse. Je doutais que l'architecture GPT puisse résoudre certains problèmes qu'elle a résolus, sans l'ombre d'un doute. Cela prouve-t-il que les GPT guérissent le cancer ? Non. Mais cela me donne tort ! Notez qu'il reste un petit problème : on ne sait pas si Opus est basé sur l'architecture GPT originale ou non. Toutes les versions de GPT-4 ont échoué. Si Opus s'avère être une nouvelle architecture… eh bien, tout cela aurait, ironiquement, simplement prouvé tout ce que j'avais avancé 😅 Mais, pour le bien du concours, et en toute honnêteté, Opus était listé comme une option, donc le prix est justifié. ## Qui suis-je et qu'est-ce que j'essaie de vendre ? Faux ! Je ne vais pas en faire une publicité. Mais oui, si vous êtes nouveau ici, je suis en train de construire quelque chose, et oui, comme aujourd'hui, je vérifie constamment mes affirmations pour être sûr de tenir mes promesses. Mais c'est tout, alors si vous êtes curieux, vous devrez le découvrir par vous-même (: #### C'est tout. Merci à tous ceux qui ont participé, et, encore une fois, désolé de m'être trompé de personne sur Internet aujourd'hui ! À bientôt. Résumé : https://t.co/qpSlUMXOTU

(Le sujet gagnant sera publié mercredi, ainsi que le code source de l'évaluateur lui-même. Son hachage est sur le Gist.)

Fil de Taelin (@VictorTaelin)

Informations sur l'auteur

Contenu du fil