ByteDance publie une version d'évaluation technique de « Doubao Mobile Assistant » Il peut effectuer une reconnaissance multimodale du contenu de l'écran. Il permet également des opérations interactives et prend en charge le fonctionnement inter-applications du téléphone. Prend en charge le réveil vocal, le réveil par bouton IA sur le côté du téléphone et le réveil par casque. De plus, elle possède une capacité de mémorisation. Elle prend en charge les appels vidéo en temps réel, et l'IA peut comprendre le contenu capturé par la caméra (comme les livres d'images) et fournir des explications et des interactions bilingues en temps réel. Fonction mémoire personnalisée : Doubao dispose de capacités de mémoire embarquée qui permettent d'extraire des informations clés des conversations historiques et des informations affichées à l'écran, et d'assister proactivement les utilisateurs en cas de besoin. Souvenirs du quotidien : lorsque vous oubliez un message, vous pouvez lui demander : « Où est garée ma voiture ? » (à partir d'une photo prise précédemment), « Quel est le code de retrait ? » (à partir d'une notification SMS), « Quel est mon numéro de siège dans le train à grande vitesse ? » (à partir de l'historique d'achat du billet). Mémorisation des préférences : mémorise les préférences de l'utilisateur (comme « aime Van Gogh ») et applique automatiquement cette préférence lors de la planification des tâches futures. Protection de la vie privée : l’accent est mis sur le traitement et le stockage locaux des données, et les utilisateurs peuvent activer ou désactiver la fonction de mémorisation à tout moment. Opération téléphonique inter-applications (Agent d'application / Opération téléphonique) C’est là son principal atout. L’IA peut prendre le contrôle du téléphone, simulant les actions humaines (cliquer, taper, glisser) et exécutant automatiquement les tâches fastidieuses. Comparaison des prix sur l'ensemble du réseau : avec une simple commande (« Comparer les prix sur l'ensemble du réseau »), l'IA ouvrira automatiquement plusieurs applications telles que Taobao, JD.com et Pinduoduo, recherchera le même produit, comparera les prix et restera sur la page de paiement affichant le prix le plus bas. Automatisation des services liés au mode de vie : par exemple, l’ouverture automatique du coffre avant de la Tesla, la réservation de restaurants, la vérification des mises à jour des podcasts et leur ajout à la liste. Automatisation bureautique : soumission automatique des demandes de congés et des autorisations de voyage dans Lark/DingTalk, et connexion avec un logiciel de billetterie pour réserver des billets de train à grande vitesse. Génération multimodale La fonctionnalité AIGC est directement intégrée aux applications natives du système. Retouche photo intelligente : dans l’album système, vous pouvez utiliser directement des commandes vocales (« supprimer les passants ») pour faire appel à des modèles cloud afin d’effectuer une suppression et un redessinage de haute qualité des photos. Utilisation du téléphone en mode Pro Pour les modes avancés ciblant des tâches complexes et à longue chaîne, il combine un agent GUI (clics simulés) et des appels d'outils API, offrant des capacités de raisonnement améliorées. Planification de tâches complexes : Gestion des instructions ambiguës et à plusieurs étapes. Exemple : « Je vais à Paris le mois prochain. Indique les restaurants que tu aimes sur la carte et réserve-moi un billet pour un musée dont l'exposition me plaît. » Exécution : L'IA décomposera automatiquement la tâche -> recherche de souvenirs (sachant que l'utilisateur aime Van Gogh) -> filtrage des musées (Musée d'Orsay) -> marquage des points sur la carte -> réservation des billets sur différentes plateformes -> génération d'une note récapitulative.
Toutefois, cette version implique une coopération directe avec les fabricants de téléphones mobiles. L'intégration du système a été réalisée Autrement, il serait impossible d'obtenir autant d'autorisations, ce qu'Apple doit faire.