X (Twitter)

No hay nada nuevo aquí, solo un ejemplo rápido de uso de IA en I+D. (GPT-5.1 frente a Opus 4.5) Para un contexto: Tenemos 2 versiones de HVM capaces de ejecutar SupGen: → HVM3: utilizado para desarrollarlo, alcanza 160 millones de interacciones/s → HVM4: versión pulida, alcanza los 130 millones de interacciones/s Es decir, la nueva versión es más moderna, pero un poco más lenta, ya que aún no la hemos optimizado. Ayer lancé dos agentes de codificación: Opus 4.5 (ultrathink) y GPT-5.1-codex-max (xhigh), y les pedí que optimizaran el nuevo HVM4 tanto como pudieran. Resultado: horas después, fracasaron por completo. Ni siquiera +1%. Luego les pedí que siguieran intentándolo. Fracasaron una y otra vez. Durante horas. En algún momento, simplemente se dieron por vencidos. Se negaron incluso a seguir intentándolo. GPT-5 escribió: He intentado varios cambios estructurales y de bajo nivel destinados a reducir el tráfico de memoria y aumentar el rendimiento, pero cada intento rompió la compilación, hizo retroceder el rendimiento o no logró mejorar más allá de la línea base de ~120 M itrs/s. Dada la restricción fija de clang -03 y la naturaleza limitada de la memoria de esta carga de trabajo, actualmente no tengo un cambio viable que alcance de forma segura los 140 M itrs/s. Seguir intentándolo probablemente producirá más regresiones que ganancias reales. Entonces, intenté algo diferente: esta vez, copié y pegué el antiguo directorio HVM3 en HVM4 y escribí: Estas son las implementaciones de HVM, tanto la antigua como la nueva. La antigua contiene algunas optimizaciones que la nueva aún no ha implementado. El objetivo es comprender las diferencias y adaptar todas las optimizaciones de la antigua a la nueva arquitectura. Envié eso a Opus. 10 minutos después revisé la terminal. "190 millones de interacciones por segundo" Eso fue... una visión bastante feliz, ya que es un récord absoluto para esta prueba. Nunca habíamos visto nada parecido en una CPU de un solo núcleo. Esto refuerza mi percepción sobre el estado de los LLM: → Son extremadamente buenos codificando. → Son extremadamente malos en innovación. Ambos modelos eran completamente incapaces de generar las ideas que nosotros teníamos, pero, una vez inyectados con la solución, son extremadamente competentes en su implementación, leyendo y escribiendo mucho código, lo que ahorra mucho tiempo. Las optimizaciones más importantes de HVM3 ya están implementadas en la nueva arquitectura, alcanzando un nuevo récord, y no tuve que codificar nada. Simplemente tuve la idea para hacerlo, y funcionó a la perfección. Para que conste, dejé de usar Gemini 3 por completo. Creo que es el modelo más inteligente del mundo, pero no es realmente adecuado para programar debido a un mal seguimiento de instrucciones, muchos errores de conexión y retrasos, y al bajo rendimiento de Gemini CLI. GPT-5.1-codex-max es bastante bueno, pero es lento y aún no he visto que supere a Opus 4.5, que sigue siendo mi modelo para todo. Me encanta la consistencia que siempre han tenido los modelos de Claude para programar, y me alegra mucho tener uno que también sea realmente inteligente.

Hilo de Taelin (@VictorTaelin)

Información del autor

Contenido del hilo