ベースラインにこれほど大きなばらつきがある場合は、複数のシードと複数の実験で処理する必要があります。mlebench は、パフォーマンスのノイズが非常に多い場合にこれを処理するための優れた例を持っています。 10% 以上のギャップはかなり大きいので、昨日はわざわざクロスチェックしませんでしたが、そうすべきでした。
公平に言えば、プロバイダー、プロンプト、ベンチノイズ自体にわたって、適切に実行するには多くの時間を費やす必要があります。 しかし、報告されたスコアがあなたの報告したものと 10% 以上の差があり、それを使って他の人よりも優れていると主張する場合、この追加労力の負担はあなたに課せられます。
