X (Twitter)

AI によるフルスタックアプリケーションの「ワンクリック生成」の究極的なテストである「App-Bench」では、Orchids が 1 位、Claude Code が 2 位、Cursor が 8 位、Lovable が 9 位、Gemini CLI が 0 位にランクされています。 App-Bench は、AI プログラミングエージェントが、人間の介入なしに、単一の自然言語プロンプトから完全で使用可能な最新の Web アプリケーションを生成できるかどうかを評価するという、非常に明確な中核目標を持つ洗練されたベンチマークフレームワークです。コア評価原則：「コードを書く」から「製品を作る」まで App-Benchは、AIの機能スニペット記述能力をテストするだけでなく、フルスタックアプリケーションを構築する総合的な能力を検証します。これらのアプリケーションには、実際のソフトウェアのコア機能が含まれている必要があります。 • 統合AIアシスタント • リアルタイムデータ同期 • マルチユーザーロールロジック • 自動化されたトリガーと認証プロセス実際の経済的価値をシミュレートするために、App-Bench はさまざまな分野から 6 つの複雑なアプリケーションを選択し、6 つの難しいテストシナリオを採用してテストを行いました。 • 財務ダッシュボード: Bloomberg ターミナルと同様に、リアルタイムの株価、インタラクティブチャート、AI を活用した分析、ライブフォーラムが含まれています。 • 病院管理ダッシュボード: 医師、看護師、管理者など複数の役割が関与し、ベッドの状態、緊急アラーム、リアルタイムのコミュニケーションを処理する必要があります。 • Legal Assistant: 音声文字変換と文書の引用をサポートする、RAG に基づくドキュメントライブラリ。 • 薬局システム: 患者と薬剤師をつなぎ、在庫、注文、プライベートメッセージを処理します。 • ピクショナリーゲーム: ターンベースのロジック、リアルタイムのキャンバス同期、リプレイ機能のソリューションを必要とするマルチプレイヤーオンラインゲーム。レンタル予約プラットフォーム: Airbnb と同様に、検索フィルタリング、支払いプロセス、メディアのアップロードなどの機能が含まれています。厳格な採点方法: スコアは自動化されたマシンではなく、上級フルスタック開発者によって手動で付けられます。 • 規模: 151 の採点項目をカバーし、合計 4,530 件の評価を実施しました。 • メカニズム: 各ツールには 3 回のチャンスが与えられ、最良の結果が記録されます。主な調査結果と考察：業界の現状：最高クラスのツールでさえ完璧な結果を達成することはできません。現在、最高性能のツールでも必須機能の約77%しかカバーしておらず、ほとんどのツールは複雑なタスク（複数のロール間のインタラクションや複雑なUIロジックなど）の処理において大きなギャップを抱えています。 • ツールの種類の比較：Webベースのジェネレーターは、一般的にコマンドラインツールよりも優れたパフォーマンスを発揮します。Webツールは認証や基本的なUIフレームワークの処理においてより安定していますが、CLIツールはパフォーマンスの変動が大きくなります。 • 失敗の主な原因: 機能の不足、マルチロールプロセスの中断、期限切れの API によるランタイムエラー、およびユーザビリティに影響する UI/UX の問題。パフォーマンスランキング（トップ10） 1. 蘭 76.8% 2. クロード・コード 67.5% 3. v0（ヴェルセル）64.9% 4位ボルト 53.6% 5. Google AI Studio 50.3% 6. コーデックス 38.4% 7. リプリット 35.1% 8. カーソル 27.8% 9. 愛すべき 25.8% 10. ジェミニCLI 0.0% ウェブサイトをご覧ください

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容