X (Twitter)

Guía práctica para crear agentes inteligentes desde cero utilizando Gemini 3 Este nuevo tutorial práctico de Phil Schmid busca simplificar el proceso de creación de agentes de IA. Schmid destaca que los agentes son esencialmente muy simples: un modelo de aprendizaje automático (LLM) dentro de un bucle, junto con algunas herramientas, lo que permite al modelo decidir cuándo usarlas y cómo planificar sus tareas. El tutorial completo se basa en Gemini 3 Pro y avanza paso a paso desde la generación básica de texto hasta un agente CLI completo capaz de leer y escribir archivos y mantener un diálogo continuo. Con menos de 100 líneas de código, es perfecto para quienes desean comenzar rápidamente. Los componentes centrales de un agente inteligente (la metáfora de Schmid de un "organismo vivo") • Cerebro (Modelo): Géminis 3 Pro, responsable del pensamiento, la planificación y la decisión sobre el uso de herramientas. • Herramientas: Funciones externas, como leer archivos, listar directorios, escribir archivos, etc. • Espacio de trabajo/Contexto: Historial de diálogo + resultados de la ejecución de herramientas, lo que se conoce como "ingeniería de contexto". • Ciclo de vida (bucle): Observar → Pensar → Actuar → Observar... hasta que se complete la tarea o se cumpla la condición de terminación. Todo el proceso sigue el patrón clásico ReAct (Razonamiento + Acción), pero se implementa utilizando las llamadas a funciones nativas de Gemini y no depende de marcos de trabajo complejos como LangGraph y CrewAI. Proceso de construcción paso a paso 1. Lo más básico: Generación de texto plano (aún no es un agente inteligente) Primero, crea una clase Agent y usa el modelo gemi-3-pro-preview para generar texto directamente. Esto es, esencialmente, un chatbot mejorado. 2. Segundo paso: Agregar herramientas (Llamada a funciones) • Defina las herramientas (nombre, descripción, parámetros) utilizando JSON Schema. Implemente las funciones de Python correspondientes (como read_file, write_file, list_dir). • Pase la definición de la herramienta al modelo, y este devolverá una solicitud de llamada a la herramienta estructurada si es necesario. 3. El tercer paso: Cerrar el círculo (convertirse verdaderamente en un agente inteligente) • En el código, verifique si el modelo necesita llamar a la herramienta → ejecute la herramienta → devuelva el resultado al modelo en forma de functionResponse → el modelo continúa procesando. • Consejo clave: Géminis 3 tiene "firmas de pensamiento" especiales que deben preservarse tal cual, de lo contrario se perderá la capacidad de razonamiento en cadena. • Agregue comandos de arranque del sistema, como hacer que hable como Linus Torvalds, para realzar su personalidad. 4. Cuarto paso: La interacción CLI de múltiples rondas está envuelta en un bucle while True, lo que permite al usuario ingresar comandos continuamente y el agente puede manejar tareas de varios pasos (como listar el directorio primero → leer un archivo → modificar el contenido). Resultado final: Puedes indicarle al agente en la terminal: "Cambia el contenido de data.txt a "Hola Mundo"", y este llamará automáticamente a `read_file` → think → write_file, completando el proceso paso a paso. Mejores prácticas de ingeniería (La sección más concisa del artículo) 1. Diseño de herramientas • El nombre y la descripción de la herramienta deben ser extremadamente claros e inequívocos, de manera que el modelo pueda comprender de un vistazo qué hace la herramienta y cuándo usarla. • Los parámetros de cada herramienta deben mantenerse lo más concisos posible, conservando solo los campos verdaderamente necesarios, para evitar parámetros excesivos que podrían confundir al modelo o generar llamadas incorrectas. La salida de la herramienta debe ser fácil de interpretar: debe incluir un estado claro de éxito/fracaso, mensajes de error detallados, el contexto necesario e incluso sugerencias proactivas para el siguiente paso. Esto garantiza que el modelo reciba datos de alta calidad para la siguiente ronda de inferencia. 2. Gestión del contexto • Nunca introduzca una gran cantidad de contenido de archivo o datos directamente en el contexto a la vez (esto puede provocar fácilmente que la ventana se desborde o que el modelo pierda el foco). Priorizar el diseño de herramientas de "carga bajo demanda", como read_file y search_database, que permitan al modelo decidir por sí mismo cuándo obtener qué información específica. • Cuando los turnos de conversación se alargan y el contexto está a punto de desbordarse, se puede comprimir el historial con resúmenes o introducir un sistema de memoria externa (base de datos vectorial, almacén de clave-valor, etc.). 3. Evite el exceso de ingeniería • La forma más rentable es poner en marcha primero el prototipo utilizando un "modelo único y potente + un bucle while simple + una llamada a función nativa". • Solo se deben usar frameworks complejos como LangGraph, CrewAI y Autogen cuando la tarea realmente requiera máquinas de estado complejas, colaboración multiagente y mecanismos de reversión. En la mayoría de los casos reales, los bucles simples son perfectamente adecuados. 4. Seguridad y robustez • Se debe establecer un número máximo de iteraciones (max_iterations) para evitar que el modelo se quede atascado en un bucle infinito. • Cualquier herramienta que implique operaciones destructivas (eliminar archivos, enviar correos electrónicos, transferir dinero, etc.) debe incluir un paso de confirmación manual o un mecanismo estricto de lista blanca. • Establezca límites claros mediante instrucciones de sistema firmes, indicando explícitamente al modelo qué cosas no están absolutamente permitidas. 5. Depuración y observabilidad • Durante la fase de desarrollo, imprima cada solicitud de llamada a la herramienta, el resultado de la ejecución de la herramienta y el proceso de pensamiento del modelo. Este altísimo nivel de transparencia permite identificar al instante si el problema reside en la definición de la herramienta, el formato de retorno o la lógica de inferencia del modelo, lo que la convierte en la forma más rápida de depurar y crear agentes inteligentes fiables. Estas recomendaciones son muy concisas y aplicables a casi todos los proyectos de agentes basados en LLM (independientemente de si se utilizan modelos Gemini, Claude, GPT o de código abierto). Se recomienda encarecidamente tratarlas como una lista de verificación y consultarlas punto por punto cada vez que se desarrolle un nuevo agente. La conclusión principal del artículo es que construir un agente inteligente práctico es **mucho menos complicado de lo imaginado**, y la clave es "modelo + herramientas + bucles + buena gestión del contexto". • Siempre que las herramientas estén bien diseñadas y el contexto esté debidamente controlado, el Gemini 3 Pro, que admite de forma nativa múltiples llamadas a herramientas, puede manejar la mayoría de las tareas con una sola herramienta. Schmid anima a todos a comenzar ejecutando el prototipo más sencillo y luego ir añadiendo gradualmente funciones avanzadas como memoria, planificador y colaboración multiagente. Dirección del blog

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo