X (Twitter)

그래서 어제 제시된 프롬프트를 Opus 4.5와 Codex 5.2에서 시도해 봤습니다. 아래는 제가 내린 결론입니다(증빙 자료 포함): 1. 어제 제가 제시한 프롬프트는 모호했습니다. 저는 조급하고 게을렀으며, 모델에게 무례하게 굴었고, 기본적으로 Opus가 제 생각을 읽어주기를 기대했습니다. 모델의 성능이 저하되었다는 증거는 없습니다. 2. 프롬프트를 차분히 정리한 후, 두 모델 모두 이 (엄청난) 작업을 성공적으로 수행했습니다. 초기 테스트를 완벽하게 통과했고, 소요 시간도 동일했으며(약 30분 / 약 15만 토큰), 심지어 후속 질문까지 거의 똑같았습니다. (!) 3. GPT 5.2는 가장 중요한 부분에서 더 나은 코드를 생성했습니다. Opus 4.5는 브루인 지수 계산에서 오류를 범했는데, 이는 나중에 수정해야 했던 심각한 논리적 오류입니다. 또한 아무 이유 없이 거대한 함수를 중복해서 작성하기도 했습니다. GPT 5.2는 이러한 오류들을 정확하게 처리했을 뿐만 아니라, Opus가 간과했던 예외적인 상황까지 더욱 신중하게 처리했습니다. 댓글에 로그를 공유하겠습니다. 로그에는 다음 내용이 포함됩니다. - 초기 프롬프트 - 전체 채팅 내용 - 최종 결과 제가 이 프롬프트를 어떻게 구성했는지 살펴보는 것이 도움이 될 수 있습니다. 왜냐하면 AI가 (마침내) 성공적으로 구현해낸 엄청난 작업이었기 때문입니다. 어제 Opus를 혼란스럽게 했던 특정 세부 사항에 대해 매우 정확하게 설명해야 했고, 이제 이러한 내용들을 문서로 옮겨 놓겠습니다. 여기서 얻을 수 있는 교훈은 AI는 훌륭한 도구이지만, 결국 *사용자*에 의해 한계가 있다는 것입니다. 지시 사항이 부실하면 AI는 반드시 실패할 것입니다. 마지막으로 솔직히 말씀드리자면, 제가 직접 코딩했다면 몇 시간밖에 걸리지 않았을 텐데, 이번에는 AI가 오히려 손해를 끼쳤습니다. 그리고 또 하나, 여러분들이 제 말에 너무 큰 의미를 부여하시는 것 같고, 제 게시글 때문에 불필요한 논란이 생긴 것 같아 안타깝습니다. 부디 그러지 말아 주세요.

채팅 기록 및 결과: https://t.co/VvtOkovKTY

Taelin(@VictorTaelin)의 스레드

작성자 정보

스레드 내용