X (Twitter)

🍌 Guia completo do modelo Nano Banana Pro O mais recente tutorial para desenvolvedores do @GoogleAIStudio foca na aplicação prática do modelo Nano Banana Pro (imagem do Gemini 3 Pro), enfatizando a construção passo a passo, desde a geração básica até recursos avançados. Ele ajuda os usuários a aproveitar a capacidade de "raciocínio" do modelo, a busca fundamentada e a saída em 4K para criar aplicações complexas e criativas. A estrutura geral e os objetivos do tutorial estão divididos em 11 módulos, que abrangem tudo, desde a configuração do ambiente até as melhores práticas, incluindo teoria e exemplos de código. O público-alvo são desenvolvedores: criar protótipos rapidamente usando o Google AI Studio e, em seguida, escalar para aplicativos prontos para produção. A versão Pro não possui versão gratuita e requer pagamento. Ela é posicionada como uma ferramenta para "criadores profissionais", adequada para cenários como geração de imagens, infográficos e mixagem multimodal. 1. Usando o Nano Banana Pro no Google AI Studio Recomendamos que você comece seus experimentos com o ambiente de testes do AI Studio: faça login em aistudio.google.com e selecione o modelo "gemini-3-pro-image-preview". A versão Pro requer uma chave de API e pagamento; não há acesso gratuito. Dica: você pode criar aplicativos da web diretamente em ai.studio/apps ou modificar modelos existentes. 2. Configuração básica do projeto: Obtenha a chave da API (criada automaticamente após o login), habilite o faturamento do Google Cloud e instale o SDK (Python: pip install -U google-genai Pillow; JS: npm install @ google/genai). A transparência no faturamento é fundamental; recomenda-se consultar a documentação de preços mais recente. 3. Inicialize o cliente com um código simples: use genai.Client(api_key="YOUR_API_KEY") e o ID do modelo "gemini-3-pro-image-preview". Isso prepara o terreno para a geração subsequente. 4. Geração básica (uso clássico) Exemplo introdutório: Gera uma imagem com texto, suportando proporções de tela (por exemplo, 16:9). O código controla a modalidade de saída (somente imagem ou imagem com texto), salvando o arquivo como PNG. O modo de bate-papo é adequado para iterações em várias etapas (por exemplo, edição de imagens). 5. O processo de "pensamento" Destaques da versão Pro: Modo de raciocínio integrado, ativado por meio de `thinking_config=types.ThinkingConfig(include_thoughts=True)`. O modelo primeiro "pensa" sobre o estímulo (por exemplo, analisar uma "imagem viral"), emite um monólogo interno (por exemplo, "imagine uma alpaca indo para o trabalho") e, em seguida, gera a imagem. Isso melhora a precisão de estímulos complexos, permitindo que os usuários acompanhem o "brainstorming" do modelo, como o ajuste da intenção artística. 6. Aterramento de Busca (Injeção de Dados em Tempo Real) Funcionalidade revolucionária: A integração com as ferramentas de busca do Google (tools=[{"google_search": {}}]) permite que os modelos acessem dados em tempo real para gerar imagens. Por exemplo, sugerir "Mapa do tempo de Tóquio para 5 dias + recomendações de vestuário" gera um gráfico com os metadados da fonte. Ideal para conteúdo dinâmico, como visualizações meteorológicas ou infográficos de eventos. Observação: A fonte é sempre exibida para garantir a transparência. 7. A geração 4K de alta resolução suporta 1K/2K/4K (image_size="4K"), adequada para impressões com qualidade profissional (como fotos sazonais de carvalhos). Custo mais elevado, use com cautela; mantenha a proporção flexível. 8. Capacidade Multilíngue (Polyglot Banana) Suporta geração/tradução de texto em imagens em mais de 12 idiomas. Exemplo: primeiro, gere um infográfico sobre relatividade em espanhol e, em seguida, traduza-o para japonês. O modo de bate-papo (chat.send_message) facilita a iteração e mantém um layout consistente. 9. Fusão Avançada de Imagens A versão Pro permite mesclar até 14 imagens (o Flash permite apenas 3), como por exemplo, "foto de grupo do escritório + caretas". Use o PIL para carregar imagens locais e gerar colagens complexas. Observação: Para obter a melhor qualidade, os caracteres de alta fidelidade são limitados a 5 imagens. 10. Demonstração exclusiva Pro: Pixel Art personalizado: Busca com pontos de vista isométricos (como visualizar a carreira de alguém). • Integração de texto complexo: infográfico do soneto da banana + análise literária, estética retrô. • Maquete de alta fidelidade: fotos da programação da Broadway com texturas realistas de luz e sombra. Esses elementos enfatizam a posição de liderança da Pro em termos de profundidade criativa. 11. Melhores Práticas e Técnicas de Dicas: • Dicas Altamente Específicas: Detalhe o assunto, a cor, a iluminação e a composição. • Orientadas ao Contexto: Explique a intenção/emoção. • Refinamento Iterativo: Otimize por meio de várias rodadas de bate-papo. • Instruções Passo a Passo: Descreva cenas complexas passo a passo. • Enquadramento Positivo: Substitua "rua sem carros" por "rua vazia". • Controle da câmera: utilizando termos fotográficos como "grande angular" ou "ângulo baixo". • Otimização de pesquisa: especifique com precisão os dados em tempo real (por exemplo, "Pesquisar resultados recentes online") • API em lote: Reduz custos e aumenta as quotas (atrasos de processamento de até 24 horas)

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread