評価に基づいて人間とエージェントがループする反復的なハーネス設計の大ファン ワークフローの例: 1. ベースラインエージェントハーネスを作成する(簡単にするためにプロンプト+ツールと呼ぶ) 2. エージェントを一連の評価に実行し、トレースを収集します。これは人間が解析するには膨大なデータ量になる可能性が高いため、エージェントを活用して適切に誘導しましょう。 3. 「データマイニング」:別のジャッジエージェントを使ってトレースをマイニングし、何を探しているのかを明確にしましょう。興味深いパターンとしては、トレースを階層化して繰り返しパターンを見つけたり、ツール呼び出しの失敗に関する統計を計算したりすることなどが挙げられます。 4. このデータマイニングで得られたツールとプロンプトを改良し、データを入手したら、次の書き直しの指針とします。これは、何が効果的で何が効果的でないかを明確に示すシグナルとなります。 5. 飽和するまで、または満足するまでループします。必要に応じて、このプロセスをハーネスとモデル間で並列実行します。 これは人間とエージェントの最良の部分を補完するものです。エージェントは優れたパターンマッチング能力を持ち、膨大な量のデータを迅速に処理できます。人間はハーネスの更新プロセスを導くための直感と専門知識を持っています。評価は、山登りの指標を与えてくれます。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。