또 다른 스마트폰 활용 오픈소스 프로젝트인 android-action-kernel은 AI가 네이티브 안드로이드 애플리케이션을 직접 조작할 수 있도록 하여 호출당 비용을 95% 절감하고 지연 시간을 1초 미만으로 줄입니다. 이 방법의 주요 접근 방식은 시각적 모델을 사용하지 않고, 대신 안드로이드의 기본 접근성 API를 활용하여 버튼 텍스트, 좌표, 클릭 가능 상태 등을 포함한 인터페이스 XML 트리를 얻어 LLM 의사 결정에 필요한 화면 의미 정보를 직접 획득하는 것입니다. 스크린샷, OCR, 시각 모델 등의 높은 비용을 없애고 작업당 단 0.01달러만 소요하여 95%의 비용 절감 효과를 제공합니다. 지연 시간은 3~5초에서 1초 미만으로 5배 향상되었으며, 정확도는 99% 이상으로 개선되었습니다. @ethanjlim 님의 프로젝트 #휴대폰사용 #안드로이드사용 #모바일AI
깃허브: https://t.co/KJ9Cs4lRTo