X (Twitter)

¿Dejar que la IA reparta comida? ¡Descubre la evaluación de capacidades del recién lanzado agente doubao-seed-1.8 de ByteDance! A menudo veo reseñas mías donde uso modelos grandes para escribir código. Hoy, probemos algo nuevo: ¿qué tal si dejamos que un modelo grande reparta comida? ¡A ver cuánto dinero puede ganar! Para esta prueba, escribí un marco llamado Silicon-Based Rider, que incluye 15 llamadas a herramientas, como mover, aceptar pedidos, obtener recibos, recoger comida, entregar comida, cobrar, etc., lo que permite que un modelo grande simule todo el proceso de entrega de alimentos de un repartidor de comida llamando a estas llamadas de herramientas. Esta reseña probó primero la nueva versión de doubao-seed-1.8. La conclusión es la siguiente: Todo el proceso de ejecución fue increíblemente fluido. Este nuevo modelo tiene una longitud máxima de contexto de entrada de 224 KB. Mi prueba se ejecutó de forma continua durante 6,5 horas, consumiendo un total de 93,6 millones de tokens. Agotó completamente su contexto y ejecutó 1100 llamadas a herramientas. Incluso en el último momento antes de detener el trabajo, las llamadas a herramientas pueden continuar, mientras que la mayoría de los modelos pequeños se deteriorarán en rendimiento a medida que el contexto crece hasta que ya no puedan realizar llamadas a herramientas en absoluto. Esto significa que doubao-seed-1.8 funciona bastante bien en términos de niveles de recuperación con longitudes de contexto de 200K+, lo que lo hace particularmente adecuado para escenarios que involucran llamadas complejas a herramientas de agente y MCP. Tengo la sensación de que después de esta actualización del modelo Doubao, se mejorará la capacidad de las aplicaciones periféricas como Doubao, e incluso el teléfono Doubao AI, para realizar tareas. #Doubao #Doubaoseed #seed18 #DoubaoAI

Hilo de karminski-牙医 (@karminski3)

Información del autor

Contenido del hilo