Un autre projet open-source pour l'utilisation du téléphone : android-action-kernel, qui permet à l'IA de manipuler directement les applications Android natives, réduisant ainsi le coût par appel de 95 % et la latence à moins d'une seconde. Son approche principale n'utilise pas de modèle visuel ; elle exploite plutôt l'API d'accessibilité native d'Android pour obtenir l'arbre XML de l'interface, y compris le texte des boutons, les coordonnées et l'état de clicabilité, acquérant directement des informations sémantiques de l'écran pour la prise de décision LLM. Élimine les coûts élevés liés à la capture d'écran, à la reconnaissance optique de caractères et aux modèles visuels, pour un coût de seulement 0,01 $ par opération, soit une réduction de 95 % ; la latence est réduite de 3 à 5 secondes à moins d'une seconde, soit une vitesse multipliée par 5 ; la précision est améliorée à plus de 99 %. Projet réalisé par @ethanjlim #utilisationdutéléphone #utilisationAndroid #IAmobile
github:github.com/actionstatelab…