Hay dos caminos completamente diferentes para que los agentes de IA se vuelvan más fuertes. Una de ellas es la habilidad, que significa equiparse con habilidades e incorporar directamente nuevas capacidades en su cerebro. El otro enfoque es SubAgent, que es como enviar a un subordinado para hacer el trabajo mientras usted solo ve los informes. Ambos enfoques parecen potenciar al agente, pero son aplicables a diferentes escenarios. Si se usa el incorrecto, el agente puede volverse más lento y caótico cuanto más se use. Las habilidades son como complementos para el agente principal. Por ejemplo, si su agente solo podía chatear y ahora desea que pueda crear presentaciones de PowerPoint, Skills lo hace integrando la descripción de la función de creación de PPT, cómo usar la herramienta y notas importantes en el contexto del agente principal. El agente principal aprende esta habilidad a través del contexto y puede crear PPT por sí solo. El segundo tipo se llama SubAgente, que es como una subcontratación. De forma similar, al crear una presentación de PowerPoint, el enfoque del subagente funciona de la siguiente manera: el agente principal asigna la tarea a un subagente dedicado a crear la presentación, que la completa de forma independiente y envía los resultados. El agente principal no participa en la ejecución; solo se encarga de la asignación de tareas y las pruebas de aceptación. Una es capacidad internalizada, la otra, externalizada. Ambas parecen capaces de gestionar la tarea, así que ¿cuál es la diferencia? La diferencia radica en la gestión del contexto, donde el contexto es la memoria de la IA. Puedes imaginar el contexto de la IA como un banco de trabajo. El tamaño del escritorio es fijo; cuantas más cosas coloques sobre él, más difícil será encontrar el documento que necesitas. Ese es el problema de la capacidad del contexto. En el modo Habilidades, todas las descripciones de habilidades se presentan en la misma tabla. La ventaja es que se comparte información; el agente principal puede ver todos los resultados intermedios y el proceso de razonamiento es coherente. La desventaja es que la tabla se satura rápidamente, las indicaciones se vuelven cada vez más largas, las habilidades pueden entrar en conflicto y la IA empieza a confundirse. En el modo SubAgente, este trabaja en una mesa independiente. Una vez finalizado, entrega los resultados, dejando atrás todos los borradores y archivos intermedios generados durante el proceso. El escritorio del Agente principal permanece limpio. La desventaja es que la transferencia de información debe diseñarse cuidadosamente; de lo contrario, podría perderse información crítica durante la entrega. Este es el problema de la contaminación contextual. Esta contaminación no es una metáfora exagerada, sino un verdadero cuello de botella en la ingeniería. ¿Cuándo se debe utilizar cada método? Los criterios de evaluación son en realidad bastante simples: cuán compleja es la subtarea y si se necesita la información generada durante el proceso de finalización de la tarea. Las habilidades son adecuadas para escenarios donde la tarea en sí no es demasiado compleja o donde se necesita que el agente principal tenga control total. Por ejemplo, el Agente puede actuar como punto de entrada, cargando diferentes "modos de escenario" según las solicitudes de los usuarios, como acceder a un modo de resumen de YouTube o a un modo de redacción de informes. Aquí es donde destaca la función de carga diferida de Skills: inicialmente solo carga el nombre y la descripción de la habilidad, y solo carga la descripción completa cuando la habilidad es realmente necesaria. A diferencia de MCP, que integra toda la documentación detallada de cada herramienta en el contexto. SubAgent es adecuado para escenarios donde las subtareas son pesadas, consumen mucho tiempo y los procesos intermedios son extensos. El ejemplo más típico son las herramientas de depuración del navegador. La funcionalidad MCP de Chrome DevTools es potente, pero su documentación es excesivamente extensa, e incluirla en el agente principal consumiría mucho contexto. Al encapsularla como un subagente, basta con indicar "revisar los registros, tomar capturas de pantalla y analizarlas" para que ejecute el proceso y devuelva los resultados del análisis. Todas las capturas de pantalla, los detalles del árbol DOM y los detalles de las solicitudes de red permanecen con el subagente, sin contaminar el contexto del agente principal. Jugabilidad avanzada Curiosamente, los modos Habilidades y Subagente se pueden combinar. Aprendí esta técnica de @yan5xu (https://t.co/uSkwSUvNiJ). El primer enfoque se llama "expandir primero, luego comprimir". Por ejemplo, imagina que tienes una sesión de lluvia de ideas de dos horas y la pizarra está llena de borradores, argumentos y soluciones rechazadas. Pero al final, solo se incluyen tres conclusiones en el acta de la reunión. Esos procesos intermedios son importantes para llegar a las conclusiones, pero son solo ruido para quienes las implementan posteriormente. El agente también puede operar de esta manera. El agente principal detecta la necesidad de una habilidad, la carga, realiza una serie de operaciones y obtiene el resultado. Luego, todo el proceso, desde la carga de la habilidad hasta la obtención del resultado, se reduce, conservando solo la conclusión final. Para el razonamiento posterior, es como celebrar una reunión pero solo guardar las actas. El segundo enfoque es utilizar un sistema de archivos como una "estación de transferencia". Imagina que gestionas un equipo de externalización. No atiborrarías todos los detalles de los requisitos en un solo mensaje de WeChat; en su lugar, dirías: "El documento de requisitos está en este enlace, consúltalo". De igual manera, el equipo de externalización no copiaría y pegaría el código fuente en tu entrega; en su lugar, diría: "El código está en este repositorio y la documentación de implementación está aquí". Los agentes también pueden colaborar de esta manera. Cuando el agente principal delega una tarea, no incluye información detallada en el comando; la almacena como un documento y envía una sola dirección. El subagente responde de la misma manera: entrega un breve resumen de estado ("Completado/Atascado/Requiere su decisión"), además de una dirección detallada del documento. El agente principal decide si hacer clic para ver los detalles según la situación. Esto mantiene el contexto conciso para ambas partes. El tercer tipo son las técnicas prácticas de Claude Code. Cuando el contexto esté casi agotado, pida a Claude que resuma el trabajo completado en un documento. Luego, use la función de rebobinado para volver al estado anterior al inicio de la tarea, indicando: "He finalizado esta tarea y la he registrado en este archivo". ¿A qué equivale? Es como correr una maratón y darte cuenta de que estás exhausto cerca de la meta. Así que trazas la ruta que ya has recorrido, la guardas y luego te "teletransportas" de vuelta al punto de partida, lleno de energía, diciendo: "Sé cómo llegar, el mapa está aquí". El contexto se borra, pero los resultados se conservan. Este método te permite salvar la situación antes de que se agote el contexto. por fin La competencia entre agentes está pasando de "cuántas herramientas se pueden invocar" a "cómo gestionar estas herramientas con elegancia". Mucha gente busca los frameworks de agentes más recientes y las extensiones de funciones más sofisticadas, pero pasa por alto el problema fundamental: la memoria de trabajo de la IA es limitada, y su organización determina su complejidad. Las habilidades y los subagentes no son opciones excluyentes, sino dos herramientas que solo alcanzan su valor cuando se utilizan en el contexto adecuado. En definitiva, el diseño de la arquitectura del agente y el diseño de la arquitectura del software tienen muchas similitudes. ¿La lógica debería escribirse en una función gigante o dividirse en microservicios modulares? ¿Es más fácil compartir variables globales o mantener la limpieza a través de un aislamiento estricto? Estos viejos problemas han regresado bajo una nueva apariencia.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
