X (Twitter)

[Interpretación del blog del proyecto antrópico] Características avanzadas de uso de herramientas: La combinación de tres tecnologías (herramienta de búsqueda de herramientas, invocación programática de herramientas y ejemplos de uso de herramientas) reduce significativamente el consumo de tokens, hace que la selección de herramientas sea más clara y hace que las invocaciones complejas sean más precisas. Anthropic lanzó recientemente el uso avanzado de herramientas en la plataforma para desarrolladores Claude, lo que permite a los agentes de IA gestionar eficientemente cientos o incluso miles de herramientas sin estar limitados por las ventanas de contexto. Imagine que un agente necesita operar IDEs, Git, Slack, GitHub, Jira o bases de datos simultáneamente: tradicionalmente, las definiciones de herramientas consumen cantidades masivas de tokens, lo que provoca sobrecarga de contexto, selección incorrecta de herramientas o retrasos en la invocación. Estas nuevas funciones mejoran significativamente la usabilidad y la escalabilidad del agente mediante la carga dinámica, la orquestación de código y la guía de ejemplos. https://t.co/RiM4CuLtgp Principales desafíos y estrategias de afrontamiento: La creación de un sistema confiable de uso de herramientas enfrenta tres puntos críticos principales: En primer lugar, el consumo de tokens es demasiado alto: por ejemplo, extraer definiciones de herramientas de múltiples servicios (como GitHub y Slack) podría consumir instantáneamente más de 50 000 tokens. En segundo lugar, la elección de herramientas es imprecisa: las herramientas con nombres similares (como notificación-envío-usuario y notificación-envío-canal) se confunden fácilmente. En tercer lugar, el patrón de llamada es ambiguo: aunque el patrón JSON estandariza los parámetros, no puede mostrar intuitivamente formatos complejos, como fechas u objetos anidados. La estrategia de Anthropic se basa en el uso de "retardo e inteligencia": en lugar de cargar todas las herramientas a la vez, las descubre y las invoca bajo demanda; utiliza código en lugar de lenguaje natural para coordinar operaciones de varios pasos, lo que reduce las rondas de inferencia; y clarifica su uso mediante ejemplos. Estos métodos, en esencia, transforman el uso de las herramientas de la descripción estática a la ejecución dinámica, ayudando a los agentes a implementar flujos de trabajo complejos en entornos con recursos limitados. Tres tecnologías clave 1. Herramienta de búsqueda de herramientas Esta es una metaherramienta que permite a los agentes buscar y cargar herramientas relevantes en tiempo de ejecución, en lugar de precargar todas las definiciones. Cuando se activa el indicador de herramienta `defer_loading: true`, solo las herramientas buscadas y algunas herramientas principales entran en el contexto inicial. Los agentes pueden extraer herramientas dinámicamente por nombre o descripción; por ejemplo, al consultar tareas de GitHub, solo se carga `github.createPullRequest`. Ventajas: Ahorro de tokens de hasta un 85 % (de 77 000 a 8700) y mejoras significativas en la precisión (p. ej., Claude Opus 4 del 49 % al 74 %). Implementación sencilla: La compatibilidad con la carga diferida por lotes de MCP se consigue añadiendo una configuración de búsqueda a la matriz de herramientas. Esto permite a los agentes navegar eficientemente por una amplia biblioteca de herramientas, actuando como un "índice inteligente". 2. Llamada a herramientas programáticas En lugar de llamar a las herramientas una por una en lenguaje natural, el agente genera código Python para coordinar varias herramientas en un entorno de pruebas. Las herramientas deben estar marcadas con la etiqueta allowed_callers: ["code_execution_20250825"], y Claude genera fragmentos de código que contienen bucles, condicionales y ejecución paralela (como asyncio.gather). Ejemplo: al verificar excesos de presupuesto, el código puede recuperar datos de miembros del equipo, presupuesto y gastos en paralelo, y solo devolver el resultado final (como una lista de excesos) al agente, evitando que los datos intermedios contaminen el contexto. Ventajas: Reducción del 37 % en el número de tokens (de 43 588 a 27 297), reducción de la latencia (sin necesidad de múltiples rondas de inferencia) y aumento de la precisión del 25,6 % al 28,5 % en las tareas de recuperación de conocimiento. Esto es especialmente adecuado para gestionar tablas grandes o enlaces de API, como el análisis de datos por lotes en Claude para Excel. 3. Ejemplos de uso de herramientas Complemente el patrón JSON proporcionando ejemplos de entrada para ilustrar los patrones de llamada reales. Por ejemplo, en la herramienta create_ticket, indique el formato de fecha (AAAA-MM-DD), los objetos anidados (como el reportero) y los parámetros opcionales (para actualizaciones de emergencia). Cada herramienta puede incluir de 2 a 3 ejemplos de variantes. Ventajas: La precisión con parámetros complejos aumenta del 72 % al 90 %, especialmente con formatos de ID o asociaciones de parámetros. Esto equivale a proporcionar al agente un manual de usuario que le permite comprender rápidamente las reglas implícitas. Resultados experimentales y perspectivas: Las pruebas de referencia internas muestran mejoras en estas funciones, tanto en MCP como en GIA: la retención de contexto alcanza el 85 % y la precisión general mejora en un promedio del 10 % al 20 %. Por ejemplo, al trabajar con grandes conjuntos de herramientas, el rendimiento de Claude Opus 4.5 aumenta del 79,5 % al 88,1 %. En aplicaciones prácticas, ya ha permitido a los agentes integrarse sin problemas con escenarios como Excel o Jira.

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo