X (Twitter)

Isso não é sério. O V3.2-thinking, um dos LLMs mais fortes que existem, está abaixo de vários modelos relativamente fracos e até mesmo de versões mais antigas, como o V3.1, V3.2-exp e R1-0528. Talvez este seja o caso mais claro de que o lmarena está sendo prejudicado.

$Isso não é sério. O V3.2-thinking, um dos LLMs mais fortes que existem, está abaixo de vários modelos relativamente frac$ $Isso não é sério. O V3.2-thinking, um dos LLMs mais fortes que existem, está abaixo de vários modelos relativamente frac$

Thread de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Informações do autor

Conteúdo da thread