另一個Phone Use開源專案:android-action-kernel,讓AI直接動手操作原生Android應用,單次呼叫成本降低95%、延遲<1秒 它主路徑不用視覺模型,而是利用Android系統原生的Accessibility API,拿到介面XML樹,包括按鈕文字、座標、是否可點狀態等,直接取得螢幕語意資訊給LLM決策 省掉截圖-OCR-視覺模型的高成本,每次操作$0.01,便宜了95%;延遲從3-5秒縮短到<1秒,快了5倍;準確度提升至99%+ 項目來自@ethanjlim #phoneuse #AndroidUse #手機AI
github:github.com/actionstatelab…