*ESTABA* EQUIVOCADO - ¡RECLAMÉ 10 000 $! ## La afirmación Hace dos días, afirmé con seguridad que "los GPT NUNCA resolverán el problema A::B". Creía que: 1. Los GPT no pueden aprender realmente nuevos problemas, fuera de su conjunto de entrenamiento, 2. Los GPT no pueden realizar razonamientos a largo plazo, sin importar lo simple que sea. Argumenté que ambos son necesarios para inventar nueva ciencia; después de todo, algunos problemas de matemáticas tardan años en resolverse. Si no puedes vencer a un niño de 15 años en cualquier tarea intelectual dada, no vas a demostrar la hipótesis de Riemann. Para aislar estos problemas y plantear mi punto, diseñé el problema A::B y lo publiqué aquí; la definición completa está en el tuit citado. ## Recepción, aclaración y desafío Poco después de publicarlo, algunos usuarios proporcionaron una solución a un ejemplo específico de 7 tokens que enumeré. Rápidamente señalé que eso no era lo que quería decir; que este ejemplo era meramente ilustrativo, y que responder a una instancia no es lo mismo que resolver un problema (y puede ser fácilmente engañado por manipulación de indicaciones). Entonces, para dejar clara mi declaración, y para poner mi dinero donde está mi boca, ofrecí un premio de $10k a quien pudiera diseñar una indicación que resolviera el problema A::B para instancias *aleatorias* de 12 tokens, con una tasa de éxito de más del 90%. Esa sigue siendo una tarea fácil, que requiere un promedio de 6 intercambios para resolverse; literalmente más simple que la aritmética de tercer grado. Sin embargo, creía firmemente que ningún GPT podría aprenderlo y resolverlo en el mensaje, incluso para estas pequeñas instancias. ## Soluciones y ganador Horas después, se enviaron muchas soluciones. Inicialmente, todas fallaron, apenas alcanzando tasas de éxito del 10%. Estaba volviendo bastante seguro, hasta que, más tarde ese día, @ptrschmdtnlsn y @SardonicSydney enviaron una solución que me humilló. Bajo su indicación, Claude-3 Opus pudo generalizar desde unos pocos ejemplos a instancias aleatorias arbitrarias, y además, cumplir con las reglas, realizando cálculos largos con casi cero errores. En mi ejecución, logró una tasa de éxito del 56%. A lo largo del día, los usuarios @dontoverfit (Opus), @hubertyuan_ (GPT-4), @JeremyKritz (Opus), @parth007_96 (Opus) y @ptrschmdtnlsn (Opus) alcanzaron tasas de éxito similares, y @reissbaker realizó un ajuste fino de GPT-3.5 bastante exitoso. Pero fue solo esa noche cuando @futuristfrog publicó un tuit afirmando haber logrado una tasa de éxito cercana al 100%, solo con la indicación. Y tenía razón. En mi primera ejecución, obtuvo una puntuación de 47/50, lo que le otorgó el premio y completó el desafío. ## ¿Cómo funciona? ¡El secreto de su indicación... seguirá siendo un secreto! Eso es porque él amablemente aceptó dar el 25% del premio a la solución más eficiente. Esta solicitud cuesta $1+ por inferencia, así que, si piensas que puedes mejorarla, tienes hasta el próximo miércoles para enviar tu solución en el enlace de abajo, ¡y competir por los $2.5k restantes! Gracias, Bob. ## ¿Cómo me presento? ¡Corregido! Mi afirmación inicial era absolutamente EQUIVOCADA - por lo cual me disculpo. Dudaba que la arquitectura GPT fuera capaz de resolver ciertos problemas que, sin margen de duda, resolvió. ¿Eso prueba que las GPT curarán el cáncer? No. ¡Pero sí demuestra que estoy equivocado! Ten en cuenta que todavía hay un pequeño problema con esto: no está claro si Opus está basado en la arquitectura GPT original o no. Todas las versiones de GPT-4 fallaron. Si Opus resulta ser una nueva arquitectura... bueno, todo esto habría, irónicamente, demostrado mi punto 😅 Pero, por el bien de la competencia, y para ser justos, Opus FUE listado como una opción, así que, el premio está justificado. ## ¿Quién soy y qué intento vender? ¡Incorrecto! No voy a convertir esto en un anuncio. Pero sí, si eres nuevo aquí, estoy creando cosas y, sí, al igual que hoy, valido constantemente mis afirmaciones para asegurarme de cumplir mis promesas. Pero eso es todo lo que voy a decir, así que, si tienes curiosidad, tendrás que descubrirlo por ti mismo (: #### Eso es todo. Gracias a todos por participar y, de nuevo, ¡perdón por haberme equivocado de persona en internet hoy! Nos vemos. Resumen: https://t.co/qpSlUMXOTU
(El mensaje ganador se publicará el miércoles, así como el código fuente del propio evaluador. Su hash está en Gist).