A ByteDance lança a versão de pré-visualização técnica do "Doubao Mobile Assistant". Ele pode realizar o reconhecimento multimodal do conteúdo da tela. Ele também permite operações interativas e suporta o funcionamento de vários aplicativos simultaneamente no telefone. Compatível com ativação por voz, ativação por botão de IA na lateral do telefone e ativação por fone de ouvido. Além disso, possui capacidade de memorização. Suporta videochamadas em tempo real, e a IA consegue entender o conteúdo capturado pela câmera (como livros ilustrados) e fornecer explicações e interações bilíngues em tempo real. Função de memória personalizada: O Doubao possui recursos de memória no dispositivo, que permitem extrair informações importantes de conversas anteriores e informações da tela, auxiliando proativamente os usuários quando necessário. Lembranças do cotidiano: Quando você se esquece de uma mensagem, pode perguntar: "Onde está meu carro estacionado?" (com base em uma foto tirada anteriormente), "Qual é o código de embarque?" (com base em uma notificação por SMS), "Qual é o número do meu assento no trem de alta velocidade?" (com base no registro de compra da passagem). Memória de preferências: memoriza as preferências do usuário (como "gosta de Van Gogh") e aplica automaticamente essa preferência no planejamento de tarefas futuras. Proteção da privacidade: A ênfase é colocada no processamento e armazenamento local de dados, e os usuários podem ativar ou desativar a função de memória a qualquer momento. Operação de telefone entre aplicativos (Agente de aplicativo / Operação de telefone) Essa é sua principal característica diferenciadora. A IA pode assumir o controle do telefone, simulando ações humanas (clicar, digitar, deslizar) e executando automaticamente tarefas tediosas. Comparação de preços em toda a rede: Com um único comando ("Comparar preços em toda a rede"), a IA abrirá automaticamente vários aplicativos, como Taobao, JD.com e Pinduoduo, pesquisará o mesmo produto, comparará os preços e manterá a página de pagamento com o menor preço. Automatizar serviços de estilo de vida: como abrir automaticamente o porta-malas dianteiro do Tesla, fazer reservas em restaurantes, verificar atualizações de podcasts e adicioná-las à lista. Automação de escritório: Envie automaticamente pedidos de férias e aprovações de viagens no Lark/DingTalk e integre com o software de emissão de bilhetes para reservar passagens de trem de alta velocidade. Geração Multimodal A funcionalidade AIGC está diretamente integrada às aplicações nativas do sistema. Edição inteligente de fotos: No álbum do sistema, você pode usar comandos de voz diretamente ("remover os transeuntes") para acionar modelos na nuvem e realizar a remoção e o redesenho de fotos com alta qualidade. Operando o telefone no Modo Pro Para modos avançados que visam tarefas complexas e de longa duração, ele combina um agente de interface gráfica (cliques simulados) e chamadas de ferramentas de API, proporcionando capacidades de raciocínio aprimoradas. Planejamento de tarefas complexas: Lidar com instruções ambíguas e de múltiplas etapas. Exemplo: "Vou para Paris no mês que vem. Marque no mapa os restaurantes que você gosta e reserve um ingresso para mim em um museu com uma exposição que me interesse." Execução: A IA irá dividir automaticamente a tarefa -> pesquisar memórias (sabendo que o usuário gosta de Van Gogh) -> filtrar museus (Museu d'Orsay) -> marcar pontos no mapa -> reservar ingressos em diferentes plataformas -> gerar um memorando de resumo.
No entanto, esta versão envolve cooperação direta com fabricantes de telefones celulares. A integração do sistema foi realizada. Caso contrário, seria impossível obter tantas permissões, algo que a Apple precisa fazer.