Otro proyecto de código abierto sobre uso de teléfonos: android-action-kernel, que permite a la IA manipular directamente aplicaciones nativas de Android, reduciendo el coste por llamada en un 95% y la latencia a menos de 1 segundo. Su enfoque principal no utiliza un modelo visual; en su lugar, aprovecha la API de accesibilidad nativa de Android para obtener el árbol XML de la interfaz, incluido el texto del botón, las coordenadas y el estado de clic, adquiriendo directamente información semántica de la pantalla para la toma de decisiones de LLM. Elimina los altos costos de captura de pantalla, OCR y modelos visuales, con un costo de solo $0,01 por operación, una reducción del 95 %; la latencia se reduce de 3 a 5 segundos a menos de 1 segundo, un aumento de 5 veces en la velocidad; la precisión se mejora a 99 %+. Proyecto de @ethanjlim #usodelteléfono #UsoAndroid #IAMóvil
github:github.com/actionstatelab…