X (Twitter)

¡Claude-opus-4.5 ha sido lanzado! Esta vez, Opus-4.5 elevó el Aider Polyglot Coding Leaderboard (que considero el punto de referencia de programación más preciso en la práctica) a 89.4. ¡Por fin va a triunfar! Permítanme explicar por qué DeepSeek-R1 solo pudo completar el 56,9% de las preguntas a principios de año, pero esta vez puede completar alrededor del 90%. Entonces, ¿cuánto cuesta? Claro, vaciará tus bolsillos. Esto cuesta un millón de tokens y genera $25... La prueba del repartidor basado en silicio que les mostré ayer cuesta básicamente un millón de tokens por ejecución... eso es la friolera de $170... Es realmente inasequible... Además, todas las demás pruebas también son de última generación (SOTA). ¡Les compartiré los resultados en video más adelante! ¡Estén atentos!

Parámetros de rendimiento / 1

Parámetros de rendimiento / 2

Precios

Resumir

Hilo de karminski-牙医 (@karminski3)

Información del autor

Contenido del hilo