X (Twitter)

제가 *틀렸어요* - 1만 달러 청구! ## 주장 이틀 전, 저는 "GPT는 절대 A::B 문제를 풀지 못할 것"이라고 자신 있게 주장했습니다. 저는 다음과 같이 믿었습니다. 1. GPT는 학습 데이터 집합 밖에서는 새로운 문제를 진정으로 학습할 수 없습니다. 2. GPT는 아무리 간단하더라도 장기 추론을 수행할 수 없습니다. 저는 이 두 가지가 새로운 과학을 발명하는 데 필요하다고 주장했습니다. 결국 어떤 수학 문제는 해결하는 데 몇 년이 걸리기 때문입니다. 어떤 지적 과제에서든 15살짜리를 이길 수 없다면 리만 가설을 증명할 수 없습니다. 이러한 문제를 분리하고 제 주장을 제기하기 위해 A::B 문제를 설계하여 여기에 게시했습니다. 전체 정의는 인용된 트윗에 있습니다. ## 반응, 설명 및 이의 제기 게시 직후, 일부 사용자가 제가 나열한 특정 7-토큰 예제에 대한 솔루션을 제공했습니다. 저는 이것이 제가 의미한 것이 아니라고 재빨리 지적했습니다. 이 예시는 단지 설명을 위한 것이며, 한 가지 사례에 답하는 것이 문제를 해결하는 것과 같지 않다는 것(그리고 신속한 조작으로 쉽게 속일 수 있다는 것)을 강조하기 위해, 저는 제 주장을 명확히 하고 제 말대로 행동하기 위해, *무작위* 12개 토큰 사례에 대해 90% 이상의 성공률로 A::B 문제를 해결하는 프롬프트를 디자인하는 사람에게 1만 달러의 상금을 제안했습니다. 여전히 쉬운 과제이며, 평균 6번의 교환이 필요합니다. 말 그대로 3학년 산수보다 간단합니다. 하지만 저는 어떤 GPT도 이러한 작은 사례에 대해서도 프롬프트에서 배우고 해결할 수 없을 것이라고 굳게 믿었습니다. ## 해결책과 우승자 몇 시간 후, 많은 해결책이 제출되었습니다. 처음에는 모두 실패했고, 성공률은 겨우 10%에 그쳤습니다. 저는 그날 늦게 @ptrschmdtnlsn과 @SardonicSydney가 저를 겸손하게 만든 해결책을 제출할 때까지 꽤 자신감을 가지게 되었습니다. Claude-3 Opus는 프롬프트에 따라 몇 가지 예에서 임의의 무작위 인스턴스로 일반화하고 규칙을 고수하여 거의 오류 없이 긴 계산을 수행할 수 있었습니다. 제가 실행했을 때 성공률은 56%였습니다. 하루 종일 @dontoverfit(Opus), @hubertyuan_(GPT-4), @JeremyKritz(Opus)와 @parth007_96(Opus), @ptrschmdtnlsn(Opus) 사용자는 비슷한 성공률을 달성했고 @reissbaker는 GPT-3.5에서 꽤 성공적으로 미세 조정했습니다. 하지만 @futuristfrog가 프롬프트만으로 거의 100%의 성공률을 달성했다고 주장하는 트윗을 게시한 것은 그날 밤 늦은 시간이 되어서였습니다. 그리고 그는 옳았습니다. 제가 처음 실행했을 때 47/50점을 받았고, 그는 상을 받고 챌린지를 완료했습니다. ## 작동 원리!? 그의 프롬프트에 대한 비밀은... 비밀로 남을 것입니다! 그는 상금의 25%를 가장 효율적인 솔루션에 주기로 친절하게 동의했기 때문입니다. 이 프롬프트는 추론당 1달러 이상의 비용이 들기 때문에, 만약 여러분이 그것을 개선할 수 있다고 생각한다면, 다음 주 수요일까지 아래 링크에서 솔루션을 제출하고 나머지 2,500달러를 놓고 경쟁할 수 있습니다! 고맙습니다, 밥. ## 저는 어떻게 해야 할까요? 정정했습니다! 제 초기 주장은 완전히 틀렸습니다. 사과드립니다. 저는 GPT 아키텍처가 특정 문제를 해결할 수 있을지 의심했는데, GPT는 의심의 여지 없이 해결했습니다. 이것이 GPT가 암을 치료할 수 있다는 것을 증명할까요? 아니요. 하지만 제가 틀렸다는 것을 증명합니다! 여기에 여전히 작은 문제가 있습니다. Opus가 원래 GPT 아키텍처를 기반으로 하는지 여부는 명확하지 않습니다. 모든 GPT-4 버전이 실패했습니다. Opus가 새로운 아키텍처로 판명된다면... 글쎄요, 이 모든 것이 아이러니하게도 제 요점을 모두 증명했을 겁니다 😅 하지만 경쟁을 위해, 그리고 공정하게 말해서, Opus는 옵션으로 나열되었으므로 상은 정당합니다. ## 제가 누구이고 무엇을 팔려고 하는 걸까요? 틀렸어요! 광고로 만들지는 않을 거예요. 하지만, 네, 여기 처음 오신 분들을 위해 말씀드리자면, 저는 뭔가를 만들고 있고, 네, 오늘처럼 약속을 지킬 수 있는지 확인하기 위해 끊임없이 제 주장을 검증하고 있어요. 하지만 제가 할 말은 그게 다예요. 궁금하시다면 직접 확인해 보세요 (: #### 그게 다예요. 참여해 주신 모든 분들께 감사드리고, 오늘 인터넷에서 잘못된 사람으로 보여드려 죄송합니다! 그럼 또 만나요. 요점: https://t.co/qpSlUMXOTU

(우승한 주제는 수요일에 공개될 예정이며, 평가 도구의 소스 코드도 공개됩니다. 해시는 Gist에 있습니다.)

Taelin(@VictorTaelin)의 스레드

작성자 정보

스레드 내용