V3.2 es el mejor modelo abierto en SWE-Rebench, pero por muy poco, y no es el más rentable… hasta que te das cuenta de que no han utilizado el almacenamiento en caché para ello. Los costos de la codificación agentica están completamente dominados por el prerrelleno. Con aproximadamente un 90% de aciertos de caché, Whale se reduciría a aproximadamente $0.1 por problema.
Por supuesto, DeepSeek cuenta con almacenamiento en caché. Con un pass@5 de 70.2, aún se encuentran al nivel de Opus 4.5 a un costo ínfimo, y solo son inferiores a GPT 5.2 y sistemas de herramientas bien diseñados. Esto debería darte una idea del límite de pass@1 de la próxima generación.

