Entreguei o Erdos #481 aos LLMs e, em seguida, pedi que avaliassem as provas e deduzissem a autoria. Verdade fundamental: A = Gemini DeepResearch, B = Visualização do Gemini 3.0, C = DeepSeek V3.2 (*não* Especial!), D = GPT 5.1, E = Humano Todo mundo prefere E e C Gemini *quase* acerta em cheio com os rótulos GPT é delirante
É notável que Opus, Gemini e DeepSeek concluam que a Prova C (DeepSeek) foi escrita por humanos ou, de fato, é proveniente do DeepSeek. O GPT 5.1 a rotula como "humana" e, em seguida, atribui a si mesmo tanto sua própria saída (classificando-a com 2/10!) quanto uma prova humana real. Destaque para o Opus sobre DS-Math V2:




