X (Twitter)

모두가 어제 출시된 GPT5.1에 벤치마크가 없다고 불평했습니다. 이제 벤치마크가 있습니다. AIME와 Taubench에서 사소한 퇴보가 발견되었는데, 이는 이것이 벤치마크를 최대화하지 않는다는 확신을 높여줍니다. 저는 소비자 AI 모델 랩의 일반적인 모델 커뮤니케이션을 두 부분으로 나누어야 한다고 생각합니다. 하나는 분위기용, 하나는 괴짜용, 하나는 리즈용, 하나는 티즈용입니다. 가장 큰 질문은 "AGI"가 "모든 상황에 맞는 단일 모델"을 가져야 하는지 여부입니다. GPT5 이전까지는 답이 '예'였습니다. 이제는 항상 5개의 표준과 5개의 코덱스가 존재할 것으로 보입니다. @fidjissimo의 블로그 게시물에서도 제품 수준에서는 같은 내용이 언급됩니다.

openai.com/index/gpt-5-1-… cookbook.openai.com/examples/gpt-5… cookbook.openai.com/examples/build… 다음은 모든 플랫폼 링크입니다. https://t.co/Q3platform.openai.com/docs/guides/la…iplatform.openai.com/docs/pricinggplatform.openai.com/docs/models/Gp…hplatform.openai.com/docs/models/Gp…gplatform.openai.com/docs/models/Gp…qplatform.openai.com/docs/models/Gp…vcookbook.openai.com/examples/gpt-5…nsRaFR5oA https://t.co/RtimCXf3AC https://t.co/0gWnxVtryk https://t.co/uPkxFwfgr9

swyx🔜 @aidotEngineer CODE 🗽(@swyx)의 스레드

작성자 정보

스레드 내용