É um perfil de habilidades... interessante. Abaixo do DSV3.2 em HLE, MMLU-Pro e alguns outros, é muito mais forte em recursos agentivos, dominando todos no SimpleQA… E ainda tem toda essa multimodalidade, chegando até a ser paridade com o Veo3. Tenho a impressão de que é muito grande e pouco treinado.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.