Recentemente, realizei um pequeno experimento utilizando um conjunto de dados médicos reais. O resultado foi um tanto inesperado. Gemini 3 Pro em primeiro lugar, Qwen em segundo e ChatGPT 5.1 em terceiro. Não vou entrar em detalhes sobre o resto. Esses dados provêm de cenários reais de consultas médicas: A queixa do paciente é descrita por ele mesmo, e a conclusão do médico é o diagnóstico e o tratamento efetivos naquele momento. Deixamos o modelo realizar o diagnóstico e depois o comparamos com a prática de um médico real. O que estou tentando dizer é que algumas habilidades não podem ser determinadas simplesmente pela velocidade de execução de um teste de benchmark. Muitas pessoas agora acham que os modelos grandes são praticamente todos iguais. Mas desde que você consiga um mundo que seja ao mesmo tempo realista e ambíguo o suficiente... Na verdade, as diferenças são ampliadas. O mundo real é sempre o campo de testes mais implacável.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.