X (Twitter)

Gemini 3.0 Pro と Claude Opus 4.5 が UI 生成機能を継続的にアップグレードしていますが、フロントエンド開発者に将来はあるのでしょうか? 😂 冗談です😄 AI モデルは UI を生成するのが非常に得意なので非常にユーザーフレンドリーですが、生成される UI は AI エージェントにとってユーザーフレンドリーでしょうか? オックスフォード大学、シンガポール国立大学、マイクロソフトによる最新の研究「AUI」では、コンピュータ利用エージェント (CUA) とコーディング言語モデルを使用して GUI を自動的に生成および最適化し、インターフェイスを人間ではなくインテリジェントエージェントに適したものにする方法を研究しています。プロジェクトの背景と目的：従来のGUIは主に人間向けに最適化されており、美観、ユーザビリティ、視覚的な魅力（アニメーションやカラフルなレイアウトなど）を重視しています。そのため、CUAは操作中に人間の行動を模倣せざるを得なくなり、複雑さと非効率性が増大しています。機能的なウェブサイトを自動生成するためのプログラミング言語モデルの進歩に伴い、AUIプロジェクトは重要な問いを提起しています。CUAは、コーダーによるGUIの自動設計を支援する「審査員」として機能できるでしょうか？この共同研究は、人間の美観よりもタスクの効率性を優先した「エージェントネイティブ」なインターフェースの構築を目指しています。エージェントからのフィードバックを通じて、デジタル環境の自動化をより信頼性と効率性高く実現し、エージェントが受動的に適応する状態から、環境を能動的に形成する状態へと移行することを目指しています。コア貢献 1. AUI-Gymベンチマークプラットフォーム：これは、GUI開発とテストの自動化に特化したベンチマークで、6つのドメイン（アプリ、ランディングページ、ゲーム、インタラクティブ、ツール、ユーティリティ）にわたる52のアプリケーションをカバーしています。このプロジェクトでは、GPT-5を用いて、現実世界のシナリオをシミュレートする1560のタスク（アプリケーションごとに30個）を生成し、人間による検証を通じて品質を確保しています。これらのタスクは、「Micro Habit Tracker」アプリケーションでの習慣の作成やチャートの閲覧など、機能の完全性とインタラクティブ性を重視しています。各タスクには、JavaScriptを介してタスクが特定のインターフェースで実行可能かどうかをチェックするルールベースのバリデータが搭載されており、人間の介入なしに信頼性の高い評価が可能です。ベンチマーク指標には以下が含まれます。 • 機能の完全性 (FC): 基本的なユーザビリティの尺度として、インターフェースがタスクをサポートしているかどうか (つまり、機能チェッカーが存在するかどうか) を評価します。 • CUA 成功率 (SR): ナビゲーションタスク中の CUA の平均完了率を評価し、実際の実行効率を反映します。 2. Coder-CUA連携フレームワーク：このフレームワークでは、Coder（プログラミング言語モデル）を「設計者」として位置付け、GUIの初期化と反復的な修正を担当します。一方、CUAは「判断者」として、タスク解決とナビゲーションフィードバックを通じてガイダンスを提供します。具体的なワークフロー： Coder は、ユーザークエリ (名前、目標、機能、テーマなど) から初期の HTML ウェブサイトを生成します。 • CUA テスト Web サイト: まず、タスクの解決可能性を検証し (実行不可能なタスクを機能フィードバックとして収集)、次にナビゲーションを実行します (クリックや入力などのアトミックアクションを通じて)。 • フィードバックループ: 解決できないタスクは、コーダーが機能性を向上できるように言語サマリーにまとめられます。ナビゲーションの軌跡は、CUA ダッシュボードを通じて視覚的なフィードバックに圧縮され、コーダーがレイアウトを最適化できるようにします。 3. CUAダッシュボード：CUAの複数ステップのナビゲーション履歴（スクリーンショット、アクション、結果を含む）を1920×1080の1枚の画像に凝縮するために使用されます。主要なインタラクション領域を適応的に切り取ることで、必要な手がかり（タスクの目的、手順、失敗ポイントなど）を維持しながら、視覚的なトークンを平均76.2%削減します。これによりフィードバックの解釈が容易になり、コーディング担当者は問題（低コントラストや複雑なレイアウトなど）を特定し、スタイルの削除、コントラストの強化、構造の簡素化など、的を絞った修正を行うことができます。実験結果によると、GPT-5などの高度なコーダーは視覚的に魅力的なGUIを生成できますが、初期の機能の完全性は低く（多くのタスクが解決不能）、失敗フィードバックによって急速に改善できます。CUAナビゲーションが主なボトルネックであり、完全な機能を備えていても初期の成功率は低くなります。しかし、協調的な反復処理（様式化の解除、高コントラスト、簡素化されたレイアウトなど）を通じて成功率は大幅に向上し、エージェントからのフィードバックがGUIの堅牢性と効率性を高めることを実証しています。このプロジェクトでは、エージェントは人間のような視覚的な複雑さよりも、シンプルで機能指向のインターフェースを好むことを強調しています。研究プロジェクトのアドレス

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容