"프런티어 벤치마크"에 대해 제가 걱정되는 점은 많은 벤치마크가 지식 폭(GPQA 및 HLE)과 인간 중심적 편향(ARC AGI)을 테스트하고 있다는 것입니다. 사전 학습된 모델의 경우 정확한 관련 데이터 세트가 포함되어 있는지 여부를 주로 테스트합니다. 인간의 지능에 대한 관점에 대해 많은 것을 말해줍니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 18. 오후 4:40
"프런티어 벤치마크"에 대해 제가 걱정되는 점은 많은 벤치마크가 지식 폭(GPQA 및 HLE)과 인간 중심적 편향(ARC AGI)을 테스트하고 있다는 것입니다. 사전 학습된 모델의 경우 정확한 관련 데이터 세트가 포함되어 있는지 여부를 주로 테스트합니다. 인간의 지능에 대한 관점에 대해 많은 것을 말해줍니다.