AI エージェントを評価し、スコアを付けるアプローチについての私の個人的な理解は次のとおりです。 1. 内部専門家スコアリング:まず、当該分野におけるあらゆる知識、書籍、または方法論を幅広く調査し、専門家によるアプローチを見つけ出します。次に、これらのアプローチを複数の次元に抽象化・定量化し、評価フレームワークを構築します。 次に、大規模な事例データセットを見つけ、専門家に手動でスコアを付けてもらいました。 もちろん、エージェントをトレーニングして結果をスコア化し、それを専門家のスコアと一致させることもできます。 2. モデルのスコアリング: この特定のシナリオでは、このシナリオの最先端 (SOTA) モデルを見つけるために、同じデータセットでさまざまなモデルを実行してスコアリング結果を取得します。 3. 自社のエージェントと競合他社のエージェントを並べて比較し、スコアを付けます。同じ入力を評価しても、異なる結果が得られます。その後、ステップ1に戻って評価を行い、特定のシナリオにおける自社のエージェントと競合他社のエージェントの違いを理解します。 4. エキスパート ユーザーのスコアリング: エキスパート ユーザーを見つけて、そのスコアリング ディメンションと NPS (Net Per Score) を収集し、スコアリング フレームワークを繰り返し最適化および改良します。 ----- 一般ユーザーによる製品の評価は無効となるため、許可しないでください。 NPS について一般ユーザーに質問することはできますが、素人が専門家に指示することは絶対に許可しないでください。 製品の良し悪しは、専門家のユーザーが判断できます。 ここでの専門家は、業界内の専門家だけではなく、外部の専門家ユーザーも含まれます。 専門家ユーザーはオピニオンリーダーであることが多く、彼らの好みは一般大衆に広がり、影響を与える可能性があります。 つまり、これらのユーザーは一般大衆の嗜好を集約しているため、彼らの評価は参考としてより価値があります。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。