É muito admirável da parte da Meituan não só desenvolver um novo benchmark de matemática avançada, como também relatar a derrota para dois de seus concorrentes de código aberto (DS e Qwen; o raciocínio do K2 deve confirmar o lugar de Kimi neste clube de mestres de dados). Aliás, repito que o LongCat é um modelo realmente incrível.
O DeepSeek apresentou um ganho *significativo* em MAFS (acertos na primeira tentativa) em ambas as principais atualizações de seus modelos de raciocínio (R1 <<< R1-0528 << V3.1). Imagino que a versão V3.2-exp seja equivalente à V3.1. Quem a descarta está bastante enganado.

