申し訳ありませんが、ノイズなどもあります。しかし、o1-high は o1-preview よりもはるかに強力だったので、「常識の最高のベンチマーク」はそれを認識すべきでした。 はい、これは独自モデルが優位性を持つ方法です。 それは、人間が作成した優れたデータセットがいくつかあることの問題だと思います。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
1 件のツイート · 2025/11/08 7:56
申し訳ありませんが、ノイズなどもあります。しかし、o1-high は o1-preview よりもはるかに強力だったので、「常識の最高のベンチマーク」はそれを認識すべきでした。 はい、これは独自モデルが優位性を持つ方法です。 それは、人間が作成した優れたデータセットがいくつかあることの問題だと思います。