X (Twitter)

É muito admirável da parte da Meituan não só desenvolver um novo benchmark de matemática avançada, como também relatar a derrota para dois de seus concorrentes de código aberto (DS e Qwen; o raciocínio do K2 deve confirmar o lugar de Kimi neste clube de mestres de dados). Aliás, repito que o LongCat é um modelo realmente incrível.

O DeepSeek apresentou um ganho *significativo* em MAFS (acertos na primeira tentativa) em ambas as principais atualizações de seus modelos de raciocínio (R1 <<< R1-0528 << V3.1). Imagino que a versão V3.2-exp seja equivalente à V3.1. Quem a descarta está bastante enganado.

Thread de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Informações do autor

Conteúdo da thread