X (Twitter)

Um guia prático para construir agentes inteligentes do zero usando o Gemini 3. Este tutorial prático recém-lançado por Phil Schmid visa desmistificar o processo de criação de agentes de IA. Schmid enfatiza que os agentes são essencialmente muito simples — apenas um LLM (Modelo de Linguagem de Linha) inserido em um loop, juntamente com algumas ferramentas, permitindo que o modelo decida quando usar essas ferramentas e como planejar suas tarefas. Todo o tutorial é baseado no Gemini 3 Pro, progredindo passo a passo desde a geração básica de texto até um agente CLI completo, capaz de ler e gravar arquivos e manter um diálogo contínuo. Com menos de 100 linhas de código, é perfeito para quem quer começar rapidamente. Os componentes essenciais de um agente inteligente (a metáfora de Schmid de um "organismo vivo") • Cérebro (Modelo): Gemini 3 Pro, responsável por pensar, planejar e decidir se deve usar ferramentas. • Ferramentas: Funções externas, como leitura de arquivos, listagem de diretórios, gravação de arquivos, etc. • Espaço de trabalho/Contexto: Histórico de diálogos + resultados da execução da ferramenta, conhecido como "engenharia de contexto". • Ciclo de Vida (Loop): Observar → Pensar → Agir → Observar... até que a tarefa seja concluída ou a condição de término seja atendida. Todo o processo segue o padrão clássico ReAct (Raciocínio + Ação), mas é implementado usando as chamadas de função nativas do Gemini e não depende de frameworks complexos como LangGraph e CrewAI. Processo de construção passo a passo 1. Mais básico: Geração de texto simples (ainda não é um agente inteligente) Primeiro, crie uma classe Agent e use o modelo gemi-3-pro-preview para gerar texto diretamente. Isso é essencialmente um chatbot aprimorado. 2. Segundo passo: Adicionar ferramentas (Chamada de função) • Defina as ferramentas (nome, descrição, parâmetros) usando o esquema JSON. Implemente as funções Python correspondentes (como read_file, write_file, list_dir). • Passe a definição da ferramenta para o modelo, e o modelo retornará uma solicitação de chamada de ferramenta estruturada, se necessário. 3. O terceiro passo: Fechar o ciclo (tornar-se verdadeiramente um agente inteligente) • No código, verifique se o modelo precisa chamar a ferramenta → execute a ferramenta → retorne o resultado para o modelo na forma de functionResponse → o modelo continua a processar a informação. • Dica importante: Gemini 3 possui "Assinaturas de Pensamento" especiais que devem ser preservadas intactas, caso contrário, a capacidade de raciocínio em cadeia será perdida. • Adicione comandos de inicialização do sistema, como fazê-lo falar como Linus Torvalds, para aprimorar sua personalidade. 4. Quarta etapa: A interação com a CLI em várias rodadas é encapsulada em um loop while True, permitindo que o usuário insira comandos continuamente e o agente possa lidar com tarefas de várias etapas (como listar o diretório primeiro → ler um arquivo → modificar o conteúdo). Resultado final: Você pode dizer ao agente no terminal: "Altere o conteúdo de data.txt para "Hello World", e ele chamará automaticamente `read_file` → think → write_file, concluindo o processo passo a passo. Melhores Práticas de Engenharia (A seção mais concisa do artigo) 1. Projeto de Ferramentas • O nome e a descrição da ferramenta devem ser extremamente claros e inequívocos, para que o modelo possa entender de imediato o que a ferramenta faz e quando usá-la. • Os parâmetros de cada ferramenta devem ser mantidos o mais concisos possível, retendo apenas os campos verdadeiramente necessários, para evitar parâmetros excessivos que possam confundir o modelo ou gerar chamadas incorretas. A saída da ferramenta deve ser de fácil compreensão para o usuário: deve incluir um status claro de sucesso/falha, mensagens de erro detalhadas, contexto necessário e até mesmo sugestões proativas para a próxima etapa. Isso garante que o modelo receba dados de alta qualidade para a próxima rodada de inferência. 2. Gestão de Contexto • Nunca insira uma grande quantidade de conteúdo de arquivo ou dados diretamente no contexto de uma só vez (isso pode facilmente causar o estouro da janela ou fazer com que o modelo perca o foco). Priorize o desenvolvimento de ferramentas de "carregamento sob demanda", como read_file e search_database, permitindo que o modelo decida por si só quando buscar quais informações específicas. • Quando as conversas se tornam mais longas e o contexto está prestes a se expandir rapidamente, comprima o histórico com resumos ou introduza um sistema de memória externo (banco de dados vetorial, armazenamento de chave-valor, etc.). 3. Evite projetos excessivamente complexos. • A maneira mais econômica é primeiro colocar o protótipo em funcionamento usando um "modelo único e poderoso + um loop while simples + uma chamada de função nativa". • Utilize frameworks robustos como LangGraph, CrewAI e Autogen somente quando a tarefa realmente exigir máquinas de estado complexas, colaboração multiagente e mecanismos de rollback. Na maioria dos cenários reais, loops simples são perfeitamente adequados. 4. Segurança e Robustez • É necessário definir um número máximo de iterações (max_iterations) para evitar que o modelo fique preso em um loop infinito. • Qualquer ferramenta que envolva operações destrutivas (excluir arquivos, enviar e-mails, transferir dinheiro, etc.) deve incluir uma etapa de confirmação manual ou um mecanismo rigoroso de lista branca. • Estabeleça diretrizes claras por meio de instruções de sistema rigorosas, indicando explicitamente ao modelo o que é absolutamente proibido fazer. 5. Depuração e Observabilidade • Durante a fase de desenvolvimento, imprima cada solicitação de chamada de ferramenta, o resultado da execução da ferramenta e o raciocínio por trás do modelo. Esse altíssimo nível de transparência permite identificar instantaneamente se o problema reside na definição da ferramenta, no formato de retorno ou na lógica de inferência do modelo, tornando-se a maneira mais rápida de depurar e criar agentes inteligentes confiáveis. Estas recomendações são bastante concisas e aplicáveis a quase todos os projetos de agentes baseados em LLM (independentemente de você usar Gemini, Claude, GPT ou modelos de código aberto). É altamente recomendável tratá-las como uma lista de verificação e consultá-las item por item sempre que você criar um novo agente. A principal conclusão do artigo é que construir um agente inteligente prático é **muito menos complicado do que se imagina**, e o essencial é "modelo + ferramentas + loops + boa gestão de contexto". • Desde que as ferramentas sejam bem projetadas e o contexto seja devidamente controlado, o Gemini 3 Pro, que oferece suporte nativo a múltiplas chamadas de ferramentas, pode lidar com a maioria das tarefas com uma única ferramenta. Schmid incentiva todos a começarem executando o protótipo mais simples e, em seguida, adicionarem gradualmente recursos avançados, como memória, planejador e colaboração multiagente. Endereço do blog

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread