X (Twitter)

Deixe a IA entregar comida? Confira a avaliação de capacidade do novo agente doubao-seed-1.8 da ByteDance! Você costuma ver em minhas análises que utilizo modelos complexos para escrever código. Hoje, vamos tentar algo novo: e se deixássemos um modelo complexo entregar comida? Vamos ver quanto dinheiro ele consegue ganhar! Para este teste, escrevi uma estrutura chamada Silicon-Based Rider, que inclui 15 chamadas de ferramentas, como movimentar-se, aceitar pedidos, obter recibos, buscar comida, entregar comida, cobrar, etc., permitindo que um modelo grande simule todo o processo de entrega de comida de um entregador, chamando essas ferramentas. Esta análise testou primeiramente a versão recém-lançada doubao-seed-1.8. Eis a conclusão: Todo o processo de execução foi incrivelmente tranquilo. Este novo modelo tem um comprimento máximo de contexto de entrada de 224 KB. Meu teste foi executado continuamente por 6,5 horas, consumindo um total de 93,6 milhões de tokens! Ele esgotou completamente seu contexto e executou 1100 chamadas de ferramentas! Mesmo no último instante antes de interromper o trabalho, as chamadas de ferramentas podem continuar, enquanto a maioria dos modelos pequenos terá seu desempenho deteriorado à medida que o contexto cresce, até que não consigam mais fazer chamadas de ferramentas. Isso significa que o doubao-seed-1.8 tem um desempenho bastante bom em termos de níveis de recall com comprimentos de contexto de mais de 200 mil caracteres, tornando-o particularmente adequado para cenários que envolvem chamadas complexas de ferramentas de Agente e MCP. Tenho a impressão de que, após essa atualização do modelo Doubao, a capacidade de aplicativos periféricos como o próprio Doubao, e até mesmo o celular com IA Doubao, de executar tarefas será aprimorada. #Doubao #Doubaoseed #seed18 #DoubaoAI

Thread de karminski-牙医 (@karminski3)

Informações do autor

Conteúdo da thread