대부분의 벤치마크는 형편없지만 사람들은 그것을 오해하기도 합니다. 예를 들어, HLE는 의도치 않게 쉽게 속거나 훈련될 수 있습니다. 질문이 인터넷에 널려 있고, 답변이 비공개로 되어 있어도 사람들이 답을 풀고 정보가 퍼질 것이기 때문에 큰 의미가 없기 때문입니다. 따라서 HLE에서 좋은 점수를 받는 모델은 거의 항상 "AI가 답을 봤다"는 것을 의미합니다. 저는 이런 종류의 고정 문제 벤치마크를 좋아하지 않으며, 유행하는 순간부터 의미가 없어진다고 생각합니다. 아니, 오히려 이런 벤치마크는 팀이 모델에게 답변을 숨기지 못한 정도만 측정하기 때문에, 높은 점수는 대개 좋지 않은 신호입니다. VPCT에서는 모든 문제가 거의 비슷한 난이도 수준이므로, 모델이 10%에서 90%로 올라갔다고 해서 초인적이라는 뜻은 아닙니다. 그저 특정 한계를 넘었을 뿐입니다. ARC-AGI도 이런 문제가 있습니다. 그래서 벤치마크가 종종 일정 비율에서 정체되는 것입니다. 대개 대부분의 문제는 쉽고, 일부 문제는 매우 어렵거나 틀렸기 때문에 AI는 그 지점에서 더 이상 진전을 이루지 못합니다. (어떤 식으로든 Chase의 작업을 나쁘게 말하는 것은 아니지만 좋은 아이디어이고 좋은 벤치마크이기는 하지만 완벽한 평가를 구축하는 것은 매우 어렵습니다. 아마도 적절한 스케일링이 적용된 V2가 이 특정 결함을 수정할 수 있을 것입니다) 저는 각 "난이도"에 대해 몇 가지 개인적인 질문만 함으로써 분위기 테스트에서 그런 상황을 피합니다. AI가 더 똑똑해지면 더 어려운 질문을 만들면 됩니다. 그렇게 하면 새로운 모델이 출시될 때 가장 쉬운 질문을 던지고, 그다음에 더 어려운 질문을 던지고, 그다음에 더 어려운 질문을 던지는 식으로 진행하기만 하면 됩니다. 이렇게 하면 모델의 실제 지능을 판단하기가 매우 쉬워집니다. 질문이 몇 개뿐이므로 AI가 답을 봤다고 의심될 때 즉석에서 작은 변형을 만들기 쉽습니다. 평가할 시간이 있었으면 좋겠다
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.