上限を設定した逆エラー率を使用することで、飽和に近いベンチマークを再利用できます。あるいは、より原理的な計算式を使用することもできます。 実際、これはもっと厳しいベンチマークよりも価値があると思います。モデルの信頼性を確認できる1000項目のAIME-Pro拡張を想像してみてください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
1 件のツイート · 2025/12/15 4:01
上限を設定した逆エラー率を使用することで、飽和に近いベンチマークを再利用できます。あるいは、より原理的な計算式を使用することもできます。 実際、これはもっと厳しいベンチマークよりも価値があると思います。モデルの信頼性を確認できる1000項目のAIME-Pro拡張を想像してみてください。