Another Phone Use オープンソース プロジェクト: android-action-kernel。これにより AI がネイティブ Android アプリケーションを直接操作できるようになり、通話あたりのコストが 95% 削減され、遅延が 1 秒未満になります。 その主なアプローチでは、ビジュアル モデルは使用されません。代わりに、Android のネイティブ アクセシビリティ API を活用して、ボタンのテキスト、座標、クリック可能性の状態を含むインターフェース XML ツリーを取得し、LLM の意思決定のための画面セマンティック情報を直接取得します。 スクリーンショット、OCR、ビジュアル モデルにかかる高コストを排除し、1 回の操作あたりのコストはわずか 0.01 ドルで、95% の削減を実現します。待ち時間は 3 ~ 5 秒から 1 秒未満に短縮され、速度は 5 倍向上し、精度は 99% 以上に向上します。 @ethanjlimによるプロジェクト #電話の使用 #Androidの使用 #モバイルAI
github:github.com/actionstatelab…