我把埃尔德什第481号论文交给法学硕士,让他们对证明进行评分并推断作者身份。事实是: A = Gemini DeepResearch、B = Gemini 3.0 预览版、C = DeepSeek V3.2(*不是* Speciale!)、D = GPT 5.1、E = Human 大家都更喜欢E和C。 双子座几乎钉住了标签 GPT是妄想症患者
令人惊讶的是,Opus、Gemini 和 DeepSeek 都得出结论,认为证明 C(DeepSeek)要么是人类编写的,要么确实出自 DeepSeek。GPT 5.1 将其标记为“人类”,然后不仅将其自身的输出(评分仅为 2/10!)归于自身,还将真正的人类证明也归于自身。 值得注意的是,Opus on DS-Math V2:




