La magnitud de la ambición 🐳: Los LLM pueden demostrar teoremas no triviales. Usemos PutnamBench. Nuestro mejor sistema tiene un rendimiento del 7,4 %. Aún queda mucho trabajo por hacer. Todos: 😮 ¡OoooO! ¡Es hora de subir la montaña! Nuestra novedosa idea de "descomponer problemas"... ¡15%! ¡35%! ¡70%! - 🐋: Suficiente. 118/120, saturado
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.