Es muy respetable por parte de Meituan no solo desarrollar un nuevo benchmark matemático avanzado, sino también informar haber perdido ante dos de sus competidores de código abierto (DS y Qwen; el pensamiento de K2 debería confirmar el lugar de Kimi en este club de maestros de datos). Por cierto, repito que LongCat es un modelo realmente genial.
DeepSeek ha mejorado *significativamente* su rendimiento en las dos actualizaciones principales de sus modelos de razonamiento (R1 <<< R1-0528 << V3.1). Supongo que V3.2-exp es igual que V3.1. Quienes los descartan están bastante equivocados.

