X (Twitter)

저는 에르되시 #481을 LLM들에게 주고, 교정본을 평가하여 저자를 추론하게 했습니다. 기본 진실: A = Gemini DeepResearch, B = Gemini 3.0 미리 보기, C = DeepSeek V3.2(*Speciale이 아님!), D = GPT 5.1, E = Human 모두가 E와 C를 선호합니다 쌍둥이자리가 *거의* 라벨을 완성했습니다. GPT는 망상이다

Opus, Gemini, DeepSeek 모두 증명 C(DeepSeek)가 사람이 작성했거나 실제로 DeepSeek에서 작성되었다고 결론지은 것은 놀라운 일입니다. GPT 5.1은 이를 "사람이 작성한 것"이라고 분류한 후, 자체 출력(2/10점!)과 실제 사람이 작성한 증명을 모두 자신에게 할당합니다. 주목할 점은 DS-Math V2의 Opus입니다.

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)(@teortaxesTex)의 스레드

작성자 정보

스레드 내용