「フロンティアベンチマーク」について私が気になるのは、その多くが知識の広さ(GPQAとHLE)と人間中心のバイアス(ARC AGI)をテストしていることです。 事前学習済みモデルの場合、主に正確な関連データセットが含まれているかどうかをテストします。 人間が知能をどう見ているかについて多くのことを語っています
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
1 件のツイート · 2025/11/18 16:40
「フロンティアベンチマーク」について私が気になるのは、その多くが知識の広さ(GPQAとHLE)と人間中心のバイアス(ARC AGI)をテストしていることです。 事前学習済みモデルの場合、主に正確な関連データセットが含まれているかどうかをテストします。 人間が知能をどう見ているかについて多くのことを語っています