기준선의 분산이 그렇게 크다면 여러 시드와 여러 실험을 통해 처리해야 합니다. mlebench는 성능에 엄청난 노이즈가 있는 경우 이를 처리하는 데 좋은 선례가 있습니다. 10% 이상의 차이는 꽤 큰데, 어제는 교차 확인을 하지 않았는데, 했어야 했습니다.
공평하게 말하면, 공급업체, 프롬프트, 벤치 노이즈 자체를 모두 고려하면 이를 제대로 하려면 많은 시간을 투자해야 합니다. 하지만 보고된 점수와 당신이 보고한 점수의 차이가 10% 이상이라면, 그것을 이용해 다른 사람보다 더 나은 성과를 냈다고 주장한다면, 이러한 추가적인 노력에 대한 부담은 당신에게 있습니다.
