Et si l'IA livrait des repas ? Découvrez l'évaluation des capacités de l'agent doubao-seed-1.8 récemment lancé par ByteDance ! Vous voyez souvent dans mes tests des exemples où j'utilise de grands modèles pour écrire du code. Aujourd'hui, essayons quelque chose de nouveau : et si on laissait un grand modèle livrer des repas ? Voyons combien d'argent il peut gagner ! Pour ce test, j'ai écrit un framework appelé Silicon-Based Rider, qui comprend 15 appels d'outils, tels que se déplacer, accepter des commandes, obtenir des reçus, récupérer de la nourriture, livrer de la nourriture, recharger, etc., permettant à un grand modèle de simuler l'ensemble du processus de livraison de nourriture d'un livreur en appelant ces appels d'outils. Ce test a d'abord porté sur la nouvelle version de doubao-seed-1.8. Voici la conclusion : L'exécution s'est déroulée sans le moindre problème. Ce nouveau modèle a une longueur de contexte d'entrée maximale de 224 Ko. Mon test a fonctionné en continu pendant 6,5 heures, consommant un total de 93,6 millions de jetons ! Il a épuisé son contexte et exécuté 1 100 appels d'outils ! Même au tout dernier moment avant l'arrêt du travail, les appels d'outils peuvent continuer, alors que la plupart des petits modèles verront leurs performances se dégrader à mesure que le contexte s'étend, jusqu'à ce qu'ils ne puissent plus du tout effectuer d'appels d'outils. Cela signifie que doubao-seed-1.8 offre de très bonnes performances en termes de niveaux de rappel avec des longueurs de contexte supérieures à 200 000, ce qui le rend particulièrement adapté aux scénarios impliquant des appels complexes d'outils Agent et MCP. J'ai le sentiment qu'après cette mise à jour du modèle Doubao, les capacités des applications périphériques telles que Doubao, et même du téléphone Doubao AI, à effectuer des tâches seront améliorées. #Doubao#Doubaoseed #seed18 #DoubaoAI
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.