X (Twitter)

ㅋㅋㅋ, GPT-5.2가 출시된 지 얼마 안 됐는데 벌써부터 깜짝 공격을 받네. GPT-5.2 출시 행사에서는 컴퓨터 마더보드의 구성 요소 및 인터페이스 식별 표시를 보여주는 사례를 통해 그 성능을 강조했습니다. 하지만 구글 딥마인드 엔지니어인 @bcaine은 Gemini-3.0-pro를 사용하여 직접 실행해 본 결과, GPT-5.2보다 훨씬 뛰어난 성능을 보여주었습니다. 저도 그의 방법을 사용하여 동일한 결과를 재현해 보았고, 완벽하게 작동했습니다. 이미지는 제가 재현한 결과입니다. 보시다시피 Gemini-3.0-pro의 표시는 매우 정확합니다. 반면 GPT-5.2의 경우, 여러 번의 실행 끝에 최적의 결과가 선택된 것으로 보입니다. 구체적인 방법은 다음과 같습니다. 먼저 GPT-5.2 그래프를 nano-banana-pro로 보내 레이블 상자를 제거합니다. 그런 다음 레이블이 제거된 그래프를 gemini-3.0-pro로 다시 보냅니다. 프롬프트는 다음과 같습니다. [0, 1000] 범위의 좌표를 사용하여 이미지 내 모든 구성 요소와 인터페이스의 시각적 경계 상자를 표시하고, 파이썬 스크립트를 통해 이러한 경계 상자를 이미지에 표시하는 방법을 알려주세요. 구성 요소와 인터페이스의 유형을 구분하기 위해 각기 다른 색상의 상자를 사용해 주세요. 사용자 설명서처럼 자세하게 작성해 주시면 감사하겠습니다. (코드 실행 도구를 활성화하는 것을 잊지 마세요.) 제가 실행한 링크는 다음과 같습니다: https://t.co/KOoWrQvQrg, https://t.co/fCKDtdYzmr 원본 게시글:

karminski-牙医(@karminski3)의 스레드

작성자 정보

스레드 내용