Entregué el Erdos #481 a los estudiantes de maestría en derecho, y luego les pedí que calificaran las pruebas y dedujeran la autoría. La verdad fundamental: A = Gemini DeepResearch, B = Vista previa de Gemini 3.0, C = DeepSeek V3.2 (*no* Especial!), D = GPT 5.1, E = Humano Todo el mundo prefiere E y C Etiquetas de Géminis *casi* en las uñas GPT es delirante
Es notable que Opus, Gemini y DeepSeek concluyan que la Prueba C (DeepSeek) es escrita por humanos o, de hecho, proviene de DeepSeek. GPT 5.1 la etiqueta como "humana" y luego se asigna tanto su propio resultado (¡calificándola con 2/10!) como una prueba humana real. Cabe destacar el Opus sobre DS-Math V2:




