X (Twitter)

Entonces, probé las indicaciones de ayer en Opus 4.5 y Codex 5.2. A continuación se presentan mis conclusiones (incluidos los recibos): 1. Mis indicaciones de ayer estaban mal definidas. Fui impaciente, perezoso, fui cruel con el modelo y básicamente esperaba que Opus me leyera la mente. No tengo ninguna evidencia de que el modelo se haya deteriorado en rendimiento. 2. Tras depurar pacientemente el mensaje, ambos modelos lograron esta tarea (inmensa). Superaron las pruebas iniciales, tardaron el mismo tiempo (unos 30 minutos / unos 150.000 tokens) y, de alguna manera, formularon preguntas de seguimiento casi idénticas. (!) 3. GPT 5.2 produjo mejor código donde más importaba. Opus 4.5 cometió errores en los cálculos del índice de Bruijn, un grave error lógico que tuvo que corregir posteriormente. También duplicó una función enorme sin motivo alguno. GPT 5.2 corrigió estos errores y tuvo más cuidado con los casos extremos que Opus no comprendía. Compartiré los registros en los comentarios, incluidos: - el mensaje inicial - el chat completo - los resultados finales Puede ser útil estudiar cómo construí este mensaje, ya que es una tarea ardua que (finalmente) la IA implementó con éxito. Tuve que ser extremadamente preciso con ciertos detalles que confundieron a Opus ayer, y ahora los trasladaré a la documentación. La lección es: las IA son una gran herramienta, pero aún están limitadas por *tú*. Si tus instrucciones son deficientes, fallarán. Finalmente, debo ser sincero: si lo hubiera codificado manualmente, me habría llevado unas pocas horas, no dos días. Esta vez, la IA fue una pérdida neta. Además: le dan demasiada importancia a mis palabras, y siento que mis publicaciones causaron problemas innecesarios. Por favor, no lo hagan.

Registros y resultados dgist.github.com/VictorTaelin/7…/VvtOkovKTY

Hilo de Taelin (@VictorTaelin)

Información del autor

Contenido del hilo