我把艾爾德什第481號論文交給法學碩士,讓他們對證明進行評分並推斷作者身份。事實是: A = Gemini DeepResearch、B = Gemini 3.0 預覽版、C = DeepSeek V3.2(*不是* Speciale!)、D = GPT 5.1、E = Human 大家都比較喜歡E和C。 雙子座幾乎釘住了標籤 GPT是妄想症患者
令人驚訝的是,Opus、Gemini 和 DeepSeek 都得出結論,認為證明 C(DeepSeek)要么是人類編寫的,要么確實出自 DeepSeek。 GPT 5.1 將其標記為“人類”,然後不僅將其自身的輸出(評分僅為 2/10!)歸於自身,還將真正的人類證明也歸於自身。 值得注意的是,Opus on DS-Math V2:




