모델은 여전히 특정 평가 조건에 매우 민감합니다. GLM Air가 더 나은 점수로 정직하게 벤치마킹될 수 있다는 사실에 놀라지 않을 것입니다. 따라서 작은 점수 차이를 바탕으로 하위 성능에 대한 외삽은 매우 추측적인 결과를 낳습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 30. 오후 9:59
모델은 여전히 특정 평가 조건에 매우 민감합니다. GLM Air가 더 나은 점수로 정직하게 벤치마킹될 수 있다는 사실에 놀라지 않을 것입니다. 따라서 작은 점수 차이를 바탕으로 하위 성능에 대한 외삽은 매우 추측적인 결과를 낳습니다.