그러면 수학 LLM에서 PutnamBench 시대는 아마 끝날 겁니다. 이제 더 좋고 다양한 평가 기준을 제시해야 하는데, 합성 벤치마크를 대체할 만한 대안이 딱히 떠오르지 않아서 어려울 것 같습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.