X (Twitter)

Guía completa del modelo Nano Banana Pro El último tutorial para desarrolladores de @GoogleAIStudio se centra en la aplicación práctica del modelo Nano Banana Pro (imagen de Gemini 3 Pro), con énfasis en su construcción paso a paso, desde la generación básica hasta las funciones avanzadas. Ayuda a los usuarios a aprovechar la capacidad de razonamiento del modelo, la búsqueda en tierra y la salida 4K para crear aplicaciones complejas y creativas. El marco general y los objetivos del tutorial se dividen en 11 módulos que abarcan desde la configuración del entorno hasta las mejores prácticas, incluyendo teoría y ejemplos de código. El público objetivo son los desarrolladores: para crear prototipos rápidamente con Google AI Studio y luego escalarlos a aplicaciones listas para producción. La versión Pro no tiene un nivel gratuito y requiere pago. Está diseñada como una herramienta para creadores profesionales, ideal para escenarios como la generación de imágenes, infografías y mezcla multimodal. 1. Uso de Nano Banana Pro en Google AI Studio Recomendamos comenzar sus experimentos con el área de pruebas de AI Studio: inicie sesión en aistudio.google.com y seleccione el modelo "gemini-3-pro-image-preview". La versión Pro requiere una clave API y facturación; no hay acceso gratuito. Consejo: Puede crear aplicaciones web directamente en ai.studio/apps o remezclar plantillas existentes. 2. Configuración básica del proyecto: Obtenga la clave API (se crea automáticamente al iniciar sesión), habilite la facturación de Google Cloud e instale el SDK (Python: pip install -U google-genai Pillow; JS: npm install @google/genai). Se prioriza la transparencia en la facturación; se recomienda consultar la documentación de precios más reciente. 3. Inicialice el cliente con código simple: use genai.Client(api_key="YOUR_API_KEY") y el ID del modelo "gemini-3-pro-image-preview". Esto facilita la generación posterior. 4. Generación básica (uso clásico) Ejemplo introductorio: Genera una imagen y texto, compatible con la relación de aspecto (p. ej., 16:9). El código controla el modo de salida (solo imagen o imagen y texto), guardándolo como PNG. El modo de chat es adecuado para iteraciones de varias rondas (p. ej., edición de imágenes). 5. El proceso de "pensamiento" Características destacadas de la versión Pro: Modo de pensamiento integrado, habilitado mediante `thinking_config=types.ThinkingConfig(include_thoughts=True)`. El modelo primero "piensa" en la consigna (p. ej., analizando una "imagen viral"), genera un monólogo interno (p. ej., "imagina una alpaca viajando") y luego genera la imagen. Esto mejora la precisión de las consignas complejas, permitiendo a los usuarios acceder a la "lluvia de ideas" del modelo, como ajustar la intención artística. 6. Búsqueda en tierra (inyección de datos en tiempo real) Función revolucionaria: La integración con las herramientas de Búsqueda de Google (tools=[{"google_search": {}}]) permite a los modelos acceder a datos en tiempo real para generar imágenes. Por ejemplo, sugiera "Mapa meteorológico de Tokio de 5 días + recomendaciones de ropa", generando un gráfico con metadatos de la fuente. Ideal para contenido dinámico, como visualizaciones meteorológicas o infografías de eventos. Nota: La fuente siempre se muestra para garantizar la transparencia. 7. La generación 4K de alta resolución admite 1K/2K/4K (image_size="4K"), ideal para impresiones con calidad de impresión (como fotos de robles de temporada). Mayor costo, úselo con precaución; mantenga una relación de aspecto flexible. 8. Capacidad multilingüe (Polyglot Banana) Admite la generación y traducción de texto dentro de la imagen en más de 12 idiomas. Ejemplo: Primero genere una infografía de relatividad en español y luego tradúzcala al japonés. El modo de chat (chat.send_message) facilita la iteración y mantiene un diseño consistente. 9. Fusión avanzada de imágenes La versión Pro permite combinar hasta 14 imágenes (Flash solo permite 3), como "foto grupal de la oficina + caras graciosas". Usa PIL para cargar imágenes locales y generar collages complejos. Nota: Los personajes de alta fidelidad están limitados a 5 imágenes para una calidad óptima. 10. Demostración exclusiva Pro: Pixel Art personalizado: Búsqueda basada en la tierra + puntos de vista isométricos (como visualizar la carrera de alguien). • Integración de textos complejos: infografía soneto bananero + análisis literario, estética retro. • Maqueta de alta fidelidad: fotografías de la programación de Broadway con texturas de luz y sombras realistas. Estos enfatizan la posición líder de Pro en profundidad creativa. 11. Mejores prácticas y técnicas de sugerencias: • Sugerencias muy específicas: Detallar el tema, el color, la iluminación y la composición. • Orientadas al contexto: Explicar la intención/emoción. • Refinamiento iterativo: Optimizar mediante múltiples rondas de chat. • Instrucciones paso a paso: Describir escenas complejas paso a paso. • Encuadre positivo: Reemplazar "calle sin coches" por "calle vacía". • Control de la cámara: utilizando términos fotográficos como "gran angular" o "ángulo bajo". • Optimización de búsqueda: especifique con precisión datos en tiempo real (por ejemplo, "Buscar coincidencias recientes en línea") • API por lotes: ahorra costos y aumenta las cuotas (retrasos de procesamiento de hasta 24 horas)

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo