X (Twitter)

El último libro blanco de Google, publicado en noviembre y titulado "Introducción a los agentes", sirve como capítulo inicial del "Curso intensivo de 5 días sobre agentes de IA de Google x Kaggle", proporcionando un marco de referencia desde la prueba de concepto hasta los sistemas de agentes listos para producción. El último informe técnico de Google se centra en la arquitectura principal, la clasificación, las prácticas de construcción, el despliegue en producción, la gobernanza de la seguridad y el aprendizaje evolutivo de los agentes de IA. Analiza objetivamente la transformación de la IA generativa, desde la predicción pasiva hasta la resolución autónoma de problemas, y destaca que los agentes son una extensión natural de los modelos de lenguaje en el software, capaces de alcanzar objetivos mediante el razonamiento iterativo, la acción y la observación. El argumento central del libro blanco es que construir un agente inteligente no se trata simplemente de integrar modelos de lenguaje, sino de diseñar un sistema de aplicación completo que requiere un equilibrio entre flexibilidad y fiabilidad. 1. De la IA predictiva a los agentes inteligentes autónomos La IA está evolucionando desde tareas pasivas (como la traducción o la generación de imágenes) hacia agentes autónomos: sistemas capaces de planificar y ejecutar de forma independiente tareas complejas sin depender de la intervención humana en cada paso. Estos agentes combinan las capacidades de razonamiento de los modelos de lenguaje con herramientas prácticas, lo que los convierte en una evolución natural de los modelos de lenguaje, que se están implementando en el software. El informe técnico destaca que el reto, desde el prototipo hasta la producción, reside en garantizar la seguridad, la calidad y la fiabilidad. 2. Introducción a los agentes inteligentes. Un agente inteligente se define como una combinación de modelos, herramientas, capas de orquestación y servicios de tiempo de ejecución, que logra su objetivo mediante procesos iterativos utilizando un modelo de lenguaje. Los componentes principales incluyen: • Modelo (Cerebro): El motor de razonamiento central, como un modelo general, un modelo ajustado o un modelo multimodal, es responsable de procesar la información, evaluar las opciones y tomar decisiones. • Herramientas (manuales): Mecanismos para conectarse con el mundo exterior, incluyendo API, funciones de código y almacenamiento de datos, utilizados para obtener información en tiempo real o realizar acciones. • La capa de orquestación (sistema nervioso): gestiona los ciclos operativos y los procesos de planificación, memoria y estrategias de razonamiento (como el pensamiento en cadena o ReAct). • Despliegue (cuerpo y patas): Desde la creación de prototipos locales hasta el alojamiento seguro y escalable en servidores, garantizando el acceso a través de interfaz de usuario o API. Desarrollar un agente inteligente es similar al rol de un director: establecer directrices e indicaciones, seleccionar herramientas y proporcionar contexto. El informe técnico señala que la flexibilidad de los modelos de lenguaje es un arma de doble filo, que requiere «ingeniería de contexto» para garantizar resultados fiables. Un agente inteligente es, esencialmente, un gestor de ventanas de contexto, capaz de adaptarse a nuevas situaciones para resolver problemas. 3. Proceso de resolución de problemas de los agentes inteligentes: Los agentes inteligentes logran sus objetivos a través de bucles continuos, que constan de cinco pasos: 1. Obtener tarea: Recibir objetivos de alto nivel de los usuarios o desencadenantes. 2. Escanear la escena: Percibir el entorno y recopilar contexto (como solicitudes del usuario, recuerdos, herramientas). 3. Reflexión: Analice la tarea utilizando el modelo y desarrolle un plan. 4. Acción: El primer paso para ejecutar el plan, como recurrir a las herramientas. 5. Observación e iteración: Evaluar los resultados, actualizar el contexto y repetir el proceso. Ejemplo: Cuando un agente de atención al cliente responde a la pregunta "¿Dónde está mi pedido n.° 12345?", primero planifica varios pasos (localizar el pedido, consultar la información de seguimiento y elaborar una respuesta) y luego los ejecuta uno por uno. Este ciclo de "pensar-actuar-observar" le permite al agente gestionar tareas complejas. 4. El libro blanco sobre la clasificación de sistemas de agentes inteligentes divide a los agentes inteligentes en cinco niveles, siendo cada nivel una extensión del nivel anterior: • Nivel 0: Sistema de razonamiento central: modelo de lenguaje aislado, que se basa únicamente en conocimientos preentrenados, incapaz de interactuar en tiempo real. • Nivel 1: Conexión de solucionadores de problemas: Agregar herramientas que permitan el acceso a datos externos (como API de búsqueda). Nivel 2: Solucionador de problemas estratégicos: Apoya la planificación compleja y la ingeniería de contexto, y puede gestionar la información de forma proactiva. Nivel 3: Sistema multiagente colaborativo: como un equipo humano, donde los agentes tratan a otros agentes como herramientas para lograr la división del trabajo. Nivel 4: Sistema autoevolutivo: Identifica carencias de capacidad y crea dinámicamente nuevas herramientas o agentes inteligentes. 5. Arquitectura del agente principal: Modelos, herramientas y orquestación • Selección de modelos: Priorizar las capacidades de inferencia y uso de herramientas específicas de la tarea sobre los parámetros de referencia generales. Se recomienda el enrutamiento multimodelo (p. ej., planificación de modelos grandes, ejecución de modelos pequeños) para optimizar el coste y la velocidad. Los modelos multimodales procesan imágenes/audio, o bien se utilizan herramientas especializadas para transformar los datos. Herramientas: Se dividen en recuperación de información (p. ej., RAG, NL2SQL) y ejecución de acciones (p. ej., llamadas a la API, entornos de prueba de código). Las llamadas a funciones se conectan mediante OpenAPI o MCP para garantizar una interacción fiable. Incluye herramientas de interacción humana (p. ej., confirmación HITL). • Capa de orquestación: Gestiona el ciclo, decidiendo cuándo pensar o actuar. Las decisiones clave incluyen el grado de autonomía (determinismo vs. dinámico), el método de implementación (sin código vs. con código primero, como ADK) y el marco de trabajo (abierto, observable). 6. Decisiones de diseño clave, sistemas multiagente y patrones de diseño • Instrucciones y contexto: Incorporar conocimiento del dominio y roles (como "agente de soporte amigable") mediante avisos del sistema. El contexto mejorado incluye memoria a corto plazo (sesión actual) y memoria a largo plazo (historial de consultas RAG). • Multiagente: Emplea un modelo de "equipo experto" para evitar un único superagente. Los modelos comunes incluyen: coordinador (enrutamiento de subtareas), secuencia (canalización), refinamiento iterativo (bucle de generación-crítica) y HITL (aprobación humana). • Implementación y servicios: Desde instalaciones locales hasta alojamiento en la nube (como Vertex AI Agent Engine o Cloud Run). Es necesario gestionar el historial de sesiones, los registros de seguridad y el cumplimiento normativo. 7. Operaciones de agentes: Manejo estructurado de la incertidumbre Agent Ops es una evolución de DevOps y MLOps que aborda la aleatoriedad de los agentes. Prácticas clave: • Medir métricas clave como la tasa de finalización objetivo, la satisfacción del usuario, los retrasos y el impacto en el negocio. • Evaluación de la calidad: El resultado se puntúa utilizando un modelo de lenguaje como evaluador, basado en el conjunto de datos de referencia. • Desarrollo basado en métricas: Pruebas automatizadas de cambios, verificación de despliegue A/B. • Depuración: OpenTelemetry rastrea y registra la ruta de ejecución. • Retroalimentación humana: Transformar el informe en un nuevo caso de prueba y cerrar el ciclo. 8. Interoperabilidad de agentes • Agentes y humanos: Interacción a través de interfaces de usuario de chat, herramientas informáticas (interfaces de control), generación dinámica de interfaces de usuario o interacciones multimodales en tiempo real (como la API Gemini Live). • De agente a agente: estandarización del protocolo A2A para el descubrimiento y la comunicación (tareas asíncronas). • Agentes y dinero: Los protocolos AP2 y x402 gestionan las transacciones, garantizando la autorización y los micropagos. 9. Seguridad y expansión • Seguridad de agente único: Equilibrio entre utilidad y riesgo con protección híbrida (medidas de seguridad deterministas + protección mediante IA). La identidad del agente se establece como un nuevo sujeto mediante verificación SPIFFE. Ejemplo de ADK: Inyección de detección de devolución de llamada, complemento y Model Armor. • Ampliación a la flota empresarial: Abordar la proliferación de agentes mediante la aplicación de políticas a través del plano de control (puerta de enlace + registro). Centrarse en la seguridad (consejos de inyección, filtraciones de datos) y la infraestructura (fiabilidad y coste, como el rendimiento aprovisionado). 10. Cómo evolucionan y aprenden los agentes: Los agentes necesitan adaptarse al cambio y evitar el «envejecimiento». Fuentes de aprendizaje: experiencia operativa (registros, retroalimentación HITL) y señales externas (actualizaciones de políticas). La optimización incluye la ingeniería de contexto y la creación de herramientas. Ejemplo: Directrices de cumplimiento del aprendizaje de flujos de trabajo multiagente. Agent Gym está a la vanguardia: una plataforma de simulación offline optimizada mediante datos sintéticos y consulta con expertos. 11. Ejemplo de un agente avanzado: Google Co-Scientist: Un socio de investigación virtual que genera y evalúa hipótesis. Gestiona un equipo de expertos supervisando agentes y ejecutando ciclos para mejorar las ideas. AlphaEvolve: Un algoritmo de descubrimiento que combina la generación de código Gemini con la evaluación evolutiva. La definición del problema se realiza mediante la intervención humana, lo que garantiza transparencia y practicidad. 12. Conclusión: Los agentes inteligentes transforman la IA, convirtiéndola de una herramienta en un socio estratégico, logrando autonomía mediante la integración de modelos, herramientas y la orquestación. Los desarrolladores deben pasar de ser meros ejecutores a directores, priorizando la evaluación y la gobernanza. Este marco de trabajo guía la construcción de sistemas confiables, permitiendo que los agentes inteligentes se integren al equipo. Curso intensivo de 5 días sobre agentes de IA de Google y Kaggle: https://t.co/0REUoVY2EN El último informe técnico de Google, publicado en noviembre, titulado "Introducción a los agentes":

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo