X (Twitter)

[Blog de Ingeniería Antrópica] Un marco eficiente para construir agentes inteligentes de larga duración La última entrada del blog de ingeniería de Anthropic explora cómo diseñar marcos de trabajo eficaces para agentes de larga duración que aborden los desafíos de la ejecución continua de tareas complejas en múltiples sesiones. Basándose en la experiencia práctica con el SDK de Claude Agent, se enfatiza el uso de entornos estructurados y flujos de trabajo progresivos para que los agentes puedan avanzar en los proyectos paso a paso, como ingenieros de software, en lugar de intentar lograrlo todo a la vez. El principal desafío de los agentes de larga duración es que su objetivo es gestionar tareas complejas que abarcan horas o días, como la creación de un proyecto de software completo y complejo. Sin embargo, debido a la capacidad limitada de la ventana de contexto, cada sesión es como empezar desde cero: el agente carece de memoria previa y tiende a caer en la trampa de la "ejecución única": intentar gestionar todo el proyecto en una sola sesión, lo que provoca agotamiento del contexto, código desordenado o falta de documentación. Otros problemas comunes incluyen: • Declaración prematura de finalización: los agentes posteriores, al ver solo un progreso parcial, marcan incorrectamente la tarea como finalizada. • Dificultad para recuperarse de un estado: los agentes pasan mucho tiempo adivinando sobre trabajos sin terminar o luchando en un entorno lleno de errores. • Pruebas faltantes: la funcionalidad parece estar completa, pero no ha pasado la verificación de extremo a extremo, lo que oculta posibles problemas. Estos modos de falla se resumen a través de experimentos (como crear un proyecto de clonación web con más de 200 características) y se brindan soluciones específicas, aprovechando las mejores prácticas de ingeniería de software, como el control de versiones de Git y las pruebas automatizadas. La solución propuesta, un framework de agente dual y un entorno estructurado, introduce un "framework" (un sistema compuesto por indicaciones, scripts y archivos) para garantizar la persistencia del estado y una transferencia limpia entre sesiones. En concreto, implica dos funciones: 1. Agente inicializador: Se utiliza solo en la primera sesión y se encarga de configurar el entorno inicial. Genera archivos clave, incluyendo: • feature_list.json: Una lista de funciones en formato JSON que enumera todas las tareas (como "Crear nuevo chat"). Cada una incluye una descripción, pasos y un estado inicial de "aprobado" (falso). El formato JSON garantiza la inmutabilidad, lo que impide su posterior edición. • claude-progress.txt: un archivo de registro que registra las acciones y el progreso. • init.sh: script de inicio utilizado para ejecutar el servidor de desarrollo y probar funciones básicas, lo que reduce la sobrecarga de configuración posterior. Después de la inicialización, realice la primera confirmación de Git para crear una línea base limpia. 2. Agente de Codificación: Dedicado a sesiones posteriores, centrado en el progreso incremental. Cada sesión gestiona solo una función: • Rutina de inicio de sesión: verificar el directorio (pwd), revisar los registros de Git y los archivos de progreso, ejecutar init.sh para iniciar el entorno y verificar las pruebas principales. • Flujo de trabajo: seleccione una característica incompleta de la lista JSON, codifíquela, confirme un cambio descriptivo de Git, actualice el estado de "aprueba" (solo después de que pase la prueba) y regístrelo. • Enfatizar el "estado limpio": cuando esté terminado, el código debe estar libre de errores, completamente documentado y listo para ser fusionado directamente en la rama principal. Prácticas clave e integración de herramientas: Listas de características y Git: Las listas JSON evitan la finalización prematura, y Git proporciona reversión y seguimiento del historial. Los experimentos demuestran que JSON reduce las modificaciones no autorizadas en comparación con Markdown. Pruebas integrales: Integrar herramientas de automatización del navegador (como el servidor MCP de Puppeteer) para simular acciones humanas (como hacer clic en ventanas modales o tomar capturas de pantalla para verificación). Esto detecta errores de interacción que se pasaron por alto durante las revisiones de código, pero el artículo también señala limitaciones, como la gestión de elementos nativos del navegador. • Estrategia de sugerencias: Las sugerencias de inicialización y de codificación difieren: la primera se centra en la compilación, mientras que la segunda enfatiza la funcionalidad y la validación. Use un lenguaje muy restrictivo (como "nunca edite las pruebas") para evitar fallos. • Tabla de modos de fallo: el apéndice del artículo resume los problemas (como "Configuración de la ofuscación") y las soluciones (como scripts estandarizados) para una fácil aplicación práctica. Conclusiones y perspectivas La experiencia de Anthropic demuestra que este marco mejora significativamente la fiabilidad de los agentes de larga duración: permite pasar de fallos caóticos de un solo golpe a una iteración continua y diseñada. Una conclusión clave es aprovechar las prácticas de ingeniería humana (como el control de versiones y el desarrollo basado en pruebas) junto con el potencial de automatización de la IA. Se debe comenzar con proyectos sencillos, examinar los modos de fallo y expandirse a sistemas multiagente (como agentes de prueba dedicados). Las futuras tendencias podrían generalizarse a otros campos, como la investigación científica o el modelado financiero, explorando arquitecturas colaborativas más complejas. Dirección del blog:

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo