X (Twitter)

モデルが独自のスキャフォールドでより優れたパフォーマンスを発揮する方法を深く掘り下げることに非常に興味があります (例: CC の Claude) タスクの場合、重要なツールの存在は理にかなっています。しかし、これを測定するための詳細なロールアウトメトリックは見たことがありません。次のような質問があります。 - 組み込みの ToDo/計画ツールは頻繁に使用されるため、ロールアウトを成功させる上で重要ですか? - モデルはツールの説明の変更に対してどの程度敏感ですか？簡単なプロンプト修正ですか？新しいツールを使いこなすには、強化学習にどのくらいの時間がかかりますか？ - など + クロススキャフォールド実験は、キミがすぐに使える CC ハーネス —> キミが CC ハーネスで微調整されているような興味深いものです。

Viv（@Vtrivedy10）のスレッド

作者情報

スレッド内容