ByteDance lanza una versión preliminar técnica de "Doubao Mobile Assistant" Puede realizar reconocimiento multimodal del contenido de la pantalla. También permite operaciones interactivas y admite el funcionamiento entre aplicaciones del teléfono. Admite activación por voz, activación mediante botón AI en el costado del teléfono y activación mediante auriculares. Además, tiene capacidad de memoria. Admite videollamadas en tiempo real y la IA puede comprender el contenido capturado por la cámara (como libros ilustrados) y proporcionar explicaciones e interacciones bilingües en tiempo real. Función de memoria personalizada: Doubao tiene capacidades de memoria en el dispositivo, que pueden extraer información clave de conversaciones históricas e información de la pantalla, y ayudar proactivamente a los usuarios cuando sea necesario. Recuerdos de la vida cotidiana: Cuando olvidas un mensaje, puedes preguntarle: "¿Dónde está estacionado mi auto?" (basándote en una foto tomada previamente), "¿Cuál es el código de recogida?" (basándote en una notificación por SMS), "¿Cuál es el número de asiento de mi tren de alta velocidad?" (basándote en el registro de compra de boletos). Memoria de preferencias: recuerda las preferencias del usuario (como "le gusta Van Gogh") y aplica automáticamente esta preferencia en la planificación de tareas futuras. Protección de la privacidad: se pone énfasis en el procesamiento y almacenamiento local de datos, y los usuarios pueden activar o desactivar la función de memoria en cualquier momento. Operación de teléfono entre aplicaciones (Agente de aplicación/Operación de teléfono) Esta es su principal característica diferenciadora: la IA puede tomar el control del teléfono, simulando acciones humanas (clics, escritura, deslizamiento) y realizando automáticamente tareas tediosas. Comparación de precios en toda la red: con un solo comando ("Comparar precios en toda la red"), la IA abrirá automáticamente varias aplicaciones como Taobao, JD.com y Pinduoduo, buscará el mismo producto, comparará precios y permanecerá en la página de pago con el precio más bajo. Automatizar servicios de estilo de vida: como abrir automáticamente el baúl delantero del Tesla, hacer reservas en restaurantes, consultar actualizaciones de podcasts y agregarlas a la lista. Automatización de oficina: envíe automáticamente solicitudes de licencia y aprobaciones de viaje en Lark/DingTalk y vincúlese con el software de venta de boletos para reservar boletos de tren de alta velocidad. Generación multimodal La capacidad AIGC está directamente integrada en las aplicaciones nativas del sistema. Edición de fotografías inteligente: en el álbum del sistema, puede usar directamente comandos de voz ("eliminar a los transeúntes") para llamar a los modelos de la nube para realizar la eliminación y el rediseño de fotografías de alta calidad. Operar el teléfono en modo Pro Para los modos avanzados destinados a tareas complejas de cadena larga, combina un agente GUI (clics simulados) y llamadas de herramientas API, lo que proporciona capacidades de razonamiento mejoradas. Planificación de tareas complejas: manejo de instrucciones ambiguas y de varios pasos. Ejemplo: "Voy a París el mes que viene. Marca en el mapa los restaurantes que te gustan y resérvame una entrada para un museo con una exposición que me guste". Ejecución: La IA desglosará automáticamente la tarea -> buscar recuerdos (sabiendo que al usuario le gusta Van Gogh) -> filtrar museos (Museo de Orsay) -> marcar puntos en el mapa -> reservar entradas en todas las plataformas -> generar una nota resumen.
Sin embargo, esta versión implica una cooperación directa con los fabricantes de teléfonos móviles. Se realizó la integración del sistema De lo contrario, sería imposible obtener tantos permisos, algo que Apple debe hacer.