¡Puedo confirmarlo por mi cuenta! Me dio pereza enviar algo mientras estuve en Japón, pero sin duda es posible dentro de ciertos límites de error. Supongo que no cambiaron mucho su enfoque de refinamiento. ¡Felicitaciones Poetiq! Algunos experimentos:
Para quienes no sean tan perezosos y se tomen el trabajo de enviar sus modelos, si agrupan los modelos, Opus puede realizar algunas soluciones únicas para aumentar la puntuación por encima del 80 %. ¡Muy recomendable! (No estoy aquí por el crédito; estoy trabajando en algo más relacionado)
No presenté el método de conjunto porque me pareció inservible. Resuelve arc-agi-2 un poco mejor, pero no estoy seguro de que se pueda extraer una conclusión importante.
