要約: エージェント = モデル + ハーネスの場合、モデル ファーストではなくエージェント ファーストの評価を増やす必要があります。 実際には、ハーネスなしでモデルを評価することは基本的に不可能であり、また通常は役に立ちません。たとえ可能だとしても、実際に何を測定しているのでしょうか? いくつかのメモ: 1. 今日のハーネスは、モデルに加えて膨大な価値を提供します。@FactoryAI Droidや@AmpCodeのような企業は、モデル間のコーディングに最適化された、魅力的で高性能なハーネスの作成を専門としています。ハーネスを製品として販売することもできます。「HaaS = サービスとしてのハーネス」 2. 今日のモデルは「ハーネス・イン・ザ・ループ」のコンポーネントでトレーニングされており、これにはツールの説明と(私の考えでは)インターリーブ思考をいつどのように行うかという行動も含まれる。 3. ハーネスを固定してモデル間の評価を「公平」にするのは不公平です。モデルはハーネス内で代替不可能であり、ハーネスを固定しても標準化にはなりません。なぜなら、各ハーネスが各モデルにどのような影響を与えるかを理解するための解釈ツールがないからです。評価はこれを代替する手段として使用しているだけです。ハーネスを固定すれば、モデルのパフォーマンスがハーネス間で固定されていると認識できますが、実際にはそうではありません。 評価はタスクを実行する能力を測定する必要があります。適切な動作を引き出すために必要な最適な設定をモデル自体から切り離すのはなぜでしょうか? 「このモデルに最悪の条件を与えて、このタスクを実行させたらどうなるか、あるいは完璧に実行できるか」を測定できるようなものだが…なぜ?!クールで興味深い話ではあるが、今日では実用的ではない。目標はうまく機能するシステムを設計することであり、モデルはそのシステムの単一の(ただし最も重要な)構成要素である。 モデルがよりスマートになり、ハーネスのガイダンスの必要性が少なくなったとしても、評価におけるシステムエンジニアリングの増加は良いことです。ハーネスが本当になくなることはないと強く信じています。単に名前を変更するかもしれません。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。