Isso não é sério. O V3.2-thinking, um dos LLMs mais fortes que existem, está abaixo de vários modelos relativamente fracos e até mesmo de versões mais antigas, como o V3.1, V3.2-exp e R1-0528. Talvez este seja o caso mais claro de que o lmarena está sendo prejudicado.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

