X (Twitter)

オープンクエスチョンによるエージェントハーネスメンタルモデルの構築 TLDR: - エージェントの簡略化されたビュー。タスク固有のハーネスとモデルの選択を備えたシステムです。 - モデルはハーネス内では代替不可能です。その知能はスパイク状であるため、新しいモデルへの「アップグレード」にはより多くの作業が必要です。 - 「汎用」エージェント/ハーネスと呼ばれるものは、実際には「カスタマイズに費やしたい時間」とタスクのパフォーマンスとの間のトレードオフです。 - ハーネスエンジニアリングの興味深い分野は、自律最適化（メタプロンプト、テンプレート化、dspyなど）です。前提条件: エージェントにとっての「有用な作業単位」を考え、それをタスクと呼ぶことにする。質問: 質問1：「汎用」エージェントハーネスはそもそも存在するのでしょうか？例えば、多くのエンジニアリングを必要とせずとも、幅広いタスクを解決できるようなハーネスのようなものでしょうか？「Claude Codeのベースハーネスをそのまま使ってみよう」といった具合です。質問2：「存在する」とはどういう意味ですか？例えば、ハーネスをタスクに合わせて超最適化しないことで、どの程度のパフォーマンスを犠牲にしているのでしょうか？質問3：「ジャストインタイムハーネス」生成の世界はどのようなものになるでしょうか。私たちは、「タスクのパフォーマンスを本当に向上させたい」という課題と、「ハーネスの最適化に適切な時間をかけたい」という課題を解決したいと考えています。思索: これは何に似ていますか? ハーネスはプロンプトとは別物ですが、その精神は@DSPyOSS（Miprov2、GEPAなど）と似ています。ハーネスのコンポーネントをタスク（プロンプト、ツール設計、サブエージェントの定義、有用なコンテキスト）に合わせて、同時に、そして理想的には自律的に最適化したいと考えています。モデルは代替不可能です: モデルとハーネスを切り離すべきではありません。両者は相互に依存しているからです。私たちが本当に重視するのはタスクのパフォーマンスなので、そのタスクに合わせてモデルとハーネスのペアを設計する必要があります。例えば、SWE（ソフトウェア・ワールド・エデュケーション）の作業を行っているのであれば、OCRのプロンプト、ツール、モデルのベンチマークなどはあまり気にしなくて済みます。私たちが今日やっていること: 実際の企業では、タスクはしばしば同じような「形」で発生します。似たような入力、似たような必要な出力、似たような中間ステップです。そのため、タスクをワークフローに変換するか、そのタスクを実行するための非常に特殊なハーネスとエージェントを作成します。夢：しかし、現実世界では、実際のユーザーが使用する状況は驚くほど多様です。そこで理想となるのは、タスクが来た時に、そのタスクに特化したツール、指示、成功基準、そしてインテリジェンスを備えたエージェントがJITで生成されることです。現状では、これをうまく実現するには人間の介入が必要でしょうが、今後はエージェントが他のエージェントのためにハーネスをブートストラップするケースが増えるでしょう。「エージェントビルダー」企業はまさにこの分野に全リソースを投入すべきであり、勝者はこの分野を最もうまく活用するでしょう。これらのいくつかはブログにうまく収まるかもしれませんが、公開するのは有益です。ハーネスは今クールで、誰もがハーネスを簡単に構築できるようにするために全力で取り組んでいます。そして…単に自分の分野にとって良いものです。

Viv（@Vtrivedy10）のスレッド

作者情報

スレッド内容