モデルが独自のスキャフォールドでより優れたパフォーマンスを発揮する方法を深く掘り下げることに非常に興味があります (例: CC の Claude) タスクの場合、重要なツールの存在は理にかなっています。しかし、これを測定するための詳細なロールアウト メトリックは見たことがありません。次のような質問があります。 - 組み込みの ToDo/計画ツールは頻繁に使用されるため、ロールアウトを成功させる上で重要ですか? - モデルはツールの説明の変更に対してどの程度敏感ですか?簡単なプロンプト修正ですか?新しいツールを使いこなすには、強化学習にどのくらいの時間がかかりますか? - など + クロススキャフォールド実験は、キミがすぐに使える CC ハーネス —> キミが CC ハーネスで微調整されているような興味深いものです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。