これは考えるべき素晴らしい質問であり、他の興味深い研究上の質問につながります。 1. 文脈内学習には限界がありますか? 2. RL はその天井を突破する方法ですか? 3. 重みの中に、確実に抽出する方法がわからない知識がすでにどれくらい含まれているか? テキストベースの最適化は、確かにある程度は機能します。たとえば、次のフローです。 エージェントハーネス —> 評価 —> 採掘痕跡 —> ハーネスの改善 サンプル効率、コスト/計算、テキストベースと強化学習ベースの最適化の比較など、興味深い実験がたくさんあります。 もう 1 つは、RL 後に、ハーネスをどの程度再調整して、再びテキスト ベースの最適化に戻すかということです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
