AI によるフルスタック アプリケーションの「ワンクリック生成」の究極的なテストである「App-Bench」では、Orchids が 1 位、Claude Code が 2 位、Cursor が 8 位、Lovable が 9 位、Gemini CLI が 0 位にランクされています。 App-Bench は、AI プログラミング エージェントが、人間の介入なしに、単一の自然言語プロンプトから完全で使用可能な最新の Web アプリケーションを生成できるかどうかを評価するという、非常に明確な中核目標を持つ洗練されたベンチマーク フレームワークです。 コア評価原則:「コードを書く」から「製品を作る」まで App-Benchは、AIの機能スニペット記述能力をテストするだけでなく、フルスタックアプリケーションを構築する総合的な能力を検証します。これらのアプリケーションには、実際のソフトウェアのコア機能が含まれている必要があります。 • 統合AIアシスタント • リアルタイムデータ同期 • マルチユーザーロールロジック • 自動化されたトリガーと認証プロセス 実際の経済的価値をシミュレートするために、App-Bench はさまざまな分野から 6 つの複雑なアプリケーションを選択し、6 つの難しいテスト シナリオを採用してテストを行いました。 • 財務ダッシュボード: Bloomberg ターミナルと同様に、リアルタイムの株価、インタラクティブ チャート、AI を活用した分析、ライブ フォーラムが含まれています。 • 病院管理ダッシュボード: 医師、看護師、管理者など複数の役割が関与し、ベッドの状態、緊急アラーム、リアルタイムのコミュニケーションを処理する必要があります。 • Legal Assistant: 音声文字変換と文書の引用をサポートする、RAG に基づくドキュメント ライブラリ。 • 薬局システム: 患者と薬剤師をつなぎ、在庫、注文、プライベートメッセージを処理します。 • ピクショナリー ゲーム: ターンベースのロジック、リアルタイムのキャンバス同期、リプレイ機能のソリューションを必要とするマルチプレイヤー オンライン ゲーム。 レンタル予約プラットフォーム: Airbnb と同様に、検索フィルタリング、支払いプロセス、メディアのアップロードなどの機能が含まれています。 厳格な採点方法: スコアは自動化されたマシンではなく、上級フルスタック開発者によって手動で付けられます。 • 規模: 151 の採点項目をカバーし、合計 4,530 件の評価を実施しました。 • メカニズム: 各ツールには 3 回のチャンスが与えられ、最良の結果が記録されます。 主な調査結果と考察:業界の現状:最高クラスのツールでさえ完璧な結果を達成することはできません。現在、最高性能のツールでも必須機能の約77%しかカバーしておらず、ほとんどのツールは複雑なタスク(複数のロール間のインタラクションや複雑なUIロジックなど)の処理において大きなギャップを抱えています。 • ツールの種類の比較:Webベースのジェネレーターは、一般的にコマンドラインツールよりも優れたパフォーマンスを発揮します。Webツールは認証や基本的なUIフレームワークの処理においてより安定していますが、CLIツールはパフォーマンスの変動が大きくなります。 • 失敗の主な原因: 機能の不足、マルチロール プロセスの中断、期限切れの API によるランタイム エラー、およびユーザビリティに影響する UI/UX の問題。 パフォーマンスランキング(トップ10) 1. 蘭 76.8% 2. クロード・コード 67.5% 3. v0(ヴェルセル)64.9% 4位 ボルト 53.6% 5. Google AI Studio 50.3% 6. コーデックス 38.4% 7. リプリット 35.1% 8. カーソル 27.8% 9. 愛すべき 25.8% 10. ジェミニCLI 0.0% ウェブサイトをご覧ください
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
