제한된 역오차율을 사용하여 거의 포화된 벤치마크를 재활용할 수 있습니다. 또는 보다 원칙적인 공식을 사용할 수도 있습니다. 사실 저는 이것이 더 어려운 벤치마크보다 훨씬 더 가치 있다고 생각합니다. 모델의 신뢰도를 확인할 수 있는 1000개 항목 규모의 AIME-Pro 확장판을 상상해 보세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 12. 15. 오전 4:01
제한된 역오차율을 사용하여 거의 포화된 벤치마크를 재활용할 수 있습니다. 또는 보다 원칙적인 공식을 사용할 수도 있습니다. 사실 저는 이것이 더 어려운 벤치마크보다 훨씬 더 가치 있다고 생각합니다. 모델의 신뢰도를 확인할 수 있는 1000개 항목 규모의 AIME-Pro 확장판을 상상해 보세요.