ハーネスに適応するモデルに関する興味深い質問と、「HarnessBench」のようなものについての考え 1. よりスマートなモデルは、新しいハーネスへの移行において優れているのでしょうか、それとも劣っているのでしょうか?最近の結果では、CCハーネスにおけるOpusは、CCハーネスにおけるSonnetよりもはるかに大きな飛躍を見せました。 2. 新しいハーネスへのコンテキスト適応と微調整のギャップは何ですか? ハーネスベンチ: - このアイデアは、ターミナルベンチが結果を報告する方法に多少は存在しますが、基本的にはモデルだけでなくハーネスについてもより多くの評価が必要です。 - ハーネス間のモデルの一般化に関する適切な指標がない - HarnessBenchは、基本的に多様なタスクの評価であり、固定された複数のモデル間でハーネスの平均パフォーマンスを測定します。もちろん、この評価からモデルごとのハーネスベンチスコアも得られます。 - これは、ハーネスの何がモデルによっては役立ち、他のモデルには役立たないのか、そしてハーネスに一般的に「良い」ものは何なのかを探るのに役立つ、価値があり楽しい質問だと思います。 ハーネスを登る必要があり、解釈可能性も必要です。また、RLの微調整がすべてである可能性も非常に高いです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。