karminski-牙医 (@karminski3): 让AI送外卖? 来看字节跳动刚刚发布的 doubao-seed-1.8 Agent 能力评测! 大家经常看到我的评测都是让大模型写代码,…

Et si l'IA livrait des repas ? Découvrez l'évaluation des capacités de l'agent doubao-seed-1.8 récemment lancé par ByteDance ! Vous voyez souvent dans mes tests des exemples où j'utilise de grands modèles pour écrire du code. Aujourd'hui, essayons quelque chose de nouveau : et si on laissait un grand modèle livrer des repas ? Voyons combien d'argent il peut gagner ! Pour ce test, j'ai écrit un framework appelé Silicon-Based Rider, qui comprend 15 appels d'outils, tels que se déplacer, accepter des commandes, obtenir des reçus, récupérer de la nourriture, livrer de la nourriture, recharger, etc., permettant à un grand modèle de simuler l'ensemble du processus de livraison de nourriture d'un livreur en appelant ces appels d'outils. Ce test a d'abord porté sur la nouvelle version de doubao-seed-1.8. Voici la conclusion : L'exécution s'est déroulée sans le moindre problème. Ce nouveau modèle a une longueur de contexte d'entrée maximale de 224 Ko. Mon test a fonctionné en continu pendant 6,5 heures, consommant un total de 93,6 millions de jetons ! Il a épuisé son contexte et exécuté 1 100 appels d'outils ! Même au tout dernier moment avant l'arrêt du travail, les appels d'outils peuvent continuer, alors que la plupart des petits modèles verront leurs performances se dégrader à mesure que le contexte s'étend, jusqu'à ce qu'ils ne puissent plus du tout effectuer d'appels d'outils. Cela signifie que doubao-seed-1.8 offre de très bonnes performances en termes de niveaux de rappel avec des longueurs de contexte supérieures à 200 000, ce qui le rend particulièrement adapté aux scénarios impliquant des appels complexes d'outils Agent et MCP. J'ai le sentiment qu'après cette mise à jour du modèle Doubao, les capacités des applications périphériques telles que Doubao, et même du téléphone Doubao AI, à effectuer des tâches seront améliorées. #Doubao #Doubaoseed #seed18 #DoubaoAI

Fil de karminski-牙医 (@karminski3)

Informations sur l'auteur

Contenu du fil