[コーディングエージェントのための新しいベンチマーク] cline-bench: @cline チームによる、コーディングエージェント向けのオープンソースで実世界レベルのベンチマークイニシアチブが新たにリリースされました。このイニシアチブの中心的な目標は、コーディングエージェント評価の分野における2つの大きな問題点に対処することです。既存のベンチマーク(SWE-Bench など)は過度に学術的で信頼性に欠け、簡単に操作されてしまうという問題と、強化学習のトレーニングに適した真に高品質な環境が不足しているという問題です。 クラインベンチはなぜ必要なのでしょうか? 現在主流のコード化エージェント ベンチマーク (SWE-Bench や SWE-Bench Verified など) には、次のような問題があります。 • タスクが静的かつ単純すぎる: ほとんどが単一の GitHub の問題に基づいており、エージェントがすぐにパッチを生成する必要があるため、実際の開発における複数の反復、デバッグ、ツールの使用などの複雑なプロセスを反映することが困難です。 • データ汚染とスコア操作の高リスク: 多くのタスクがトレーニング データに漏れ、モデルはベンチマークでは人為的に高いパフォーマンスを示しますが、実際のエンジニアリングではパフォーマンスが低下します。 • モデルのトレーニングに使用するのが難しい: 既存のベンチマークにはインタラクティブな環境が不足しており、RL のトレーニング サンドボックスとして直接使用することはできません。 • 不完全な評価: 実際のプロジェクトにおけるエージェントの長期的な安定性、コンテキストの理解、エラー回復機能などの主要な指標が無視されます。 Clineチームは、Claude Sonnet 4.5やGPT-5.1といったモデルがSWE-Benchで70~80%近くのスコアを達成していることから、単に高いSWE-Benchスコアを追求するだけではもはや意味がないと考えています。次世代のコード化エージェントの真の進歩を促進するためには、業界はより挑戦的で現実的かつ信頼性の高い評価システムを必要としています。 クラインベンチの核となる設計哲学 1. 実際のオープンソース プロジェクトから完全に派生: • タスクは、一般的なオープンソースリポジトリ (Django、Matplotlib、SymPy など) の実際の開発履歴から直接取得されます。 これには、複数のファイルの変更、複雑な依存関係、リファクタリング、パフォーマンスの最適化、ドキュメントの更新など、エンジニアが日常業務で直面する現実的な課題が含まれます。 • タスクの難易度は SWE-Bench よりもはるかに高く、1 つのタスクで数十から数百のインタラクション ステップが必要になる場合があります。 2. 高忠実度のインタラクティブ環境: • 完全な Git リポジトリ スナップショット、ターミナル エミュレーター、およびファイル システム アクセスを提供します。 • インテリジェント エージェントは、コマンド (git、pytest、pip、bash など) を自由に実行し、ファイルを複数回編集し、テストを実行し、エラーを表示し、自身をデバッグできます。 • 複数ターンのダイアログと反復をサポートし、人間の開発者のワークフローを忠実にシミュレートします。 3. 強化学習のトレーニングに直接使用できます。 各タスクは完全な OpenAI Gym スタイルの RL 環境です。 研究者/企業はこれを直接使用して、独自のコード化されたエージェント モデルをトレーニングできます (AlphaCode または OpenAI のコード RL プロジェクトと同様)。 4. オープンで透明性があり、不正行為を防止するメカニズム: • 完全にオープンソースです(コード、データセット、評価スクリプトはすべて公開されています)。 • データ汚染を防ぐために、プライベート テスト セットと定期的に更新されるタスクを使用します。 • コミュニティが現実世界のタスクに貢献することを奨励します。 クラインベンチの主な用途(公式に特定された3つの主要な価値) 1. 信頼できる評価: マーケティングの数字に惑わされることなく、開発者、研究者、企業に真に信頼できるスコアの参照を提供します。 2. モデルの調整とトレーニング: 実際のエンジニアリング プロジェクトで適切に機能するコード化されたエージェントをユーザーがトレーニングできるように、高品質の RL 環境を提供します。 3. 業界の進歩を促進する: 老朽化した SWE ベンチに代わる、コミュニティ主導で継続的に反復されるベンチマークを確立します。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
![[コーディングエージェントのための新しいベンチマーク] cline-bench: @cline チームによる、コーディングエージェント向けのオープンソースで実世界レベルのベンチマークイニシアチブが新たにリリースされました。このイニシアチブの](https://pbs.twimg.com/media/G6Pb93hbQAAAdNx.jpg)