X (Twitter)

🍌 Guide complet du modèle Nano Banana Pro Le dernier tutoriel pour développeurs de @GoogleAIStudio se concentre sur l'application pratique du modèle Nano Banana Pro (image Gemini 3 Pro), en présentant une progression étape par étape, de la génération de base aux fonctionnalités avancées. Il aide les utilisateurs à exploiter les capacités de « réflexion » du modèle, sa recherche géolocalisée et sa sortie 4K pour créer des applications complexes et créatives. Le cadre général et les objectifs de ce tutoriel sont divisés en 11 modules, couvrant tous les aspects, de la configuration de l'environnement aux bonnes pratiques, et incluant théorie et exemples de code. Il s'adresse aux développeurs souhaitant prototyper rapidement avec Google AI Studio, puis passer à des applications prêtes pour la production. La version Pro, payante, n'est pas disponible gratuitement. Elle se positionne comme un outil pour les créateurs exigeants, adapté à des applications telles que la génération d'images, les infographies et le mixage multimodal. 1. Utilisation de Nano Banana Pro dans Google AI Studio Nous vous recommandons de commencer vos expérimentations avec l'environnement de test d'AI Studio : connectez-vous à aistudio.google.com et sélectionnez le modèle « gemini-3-pro-image-preview ». La version Pro nécessite une clé API et un abonnement ; il n'existe pas de version gratuite. Astuce : vous pouvez créer des applications web directement dans ai.studio/apps ou remixer des modèles existants. 2. Configuration de base du projet : obtenez la clé API (créée automatiquement lors de la connexion), activez la facturation Google Cloud et installez le SDK (Python : `pip install -U google-genai Pillow` ; JS : `npm install @ google/genai`). La transparence de la facturation est essentielle ; il est recommandé de consulter la documentation tarifaire la plus récente. 3. Initialisez le client avec un code simple : utilisez genai.Client(api_key="VOTRE_CLÉ_API") et l’identifiant du modèle « gemini-3-pro-image-preview ». Cela permettra la génération suivante. 4. Génération de base (usage classique) Exemple d'introduction : Génère une image et du texte, en prenant en charge le format d'image (par exemple, 16:9). Le code contrôle le format de sortie (image seule ou image et texte), avec enregistrement au format PNG. Le mode conversation est adapté aux itérations multiples (par exemple, la retouche d'images). 5. Le processus de « réflexion » Points forts de la version Pro : Mode de réflexion intégré, activé via `thinking_config=types.ThinkingConfig(include_thoughts=True)`. Le modèle analyse d’abord la consigne (par exemple, décrypter une « image virale »), produit un monologue intérieur (par exemple, « imaginez un alpaga qui se déplace »), puis génère l’image. Ceci améliore la précision des consignes complexes et permet aux utilisateurs d’observer le processus de réflexion du modèle, notamment l’ajustement de l’intention artistique. 6. Recherche d'ancrage (injection de données en temps réel) Fonctionnalité révolutionnaire : L’intégration avec les outils de recherche Google (tools=[{"google_search": {}}]) permet aux modèles d’accéder à des données en temps réel pour générer des images. Par exemple, la suggestion « Carte météo de Tokyo sur 5 jours + recommandations vestimentaires » génère un graphique accompagné des métadonnées de la source. Idéal pour les contenus dynamiques, tels que les visualisations météo ou les infographies événementielles. Remarque : La source est toujours affichée pour plus de transparence. 7. La génération 4K haute résolution prend en charge les formats 1K/2K/4K (image_size="4K"), idéale pour l'impression (photos de chênes de saison, par exemple). Coût plus élevé, à utiliser avec précaution ; veillez à conserver un format d'image flexible. 8. Capacité multilingue (Polyglotte Banane) Prise en charge de la génération et de la traduction de texte intégré aux images dans plus de 12 langues. Exemple : générez d’abord une infographie sur la relativité en espagnol, puis traduisez-la en japonais. Le mode conversation (chat.send_message) facilite les itérations et garantit une mise en page cohérente. 9. Fusion d'images avancée La version Pro permet de fusionner jusqu'à 14 images (contre 3 pour Flash), par exemple une photo de groupe au bureau avec des grimaces. Utilisez PIL pour charger des images locales et créer des collages complexes. Remarque : pour une qualité optimale, les personnages haute fidélité sont limités à 5 images. 10. Démo exclusive Pro : Pixel Art personnalisé : Mise au point de la recherche + points de vue isométriques (comme la visualisation de la carrière de quelqu'un). • Intégration de textes complexes : infographie sur le sonnet de la banane + analyse littéraire, esthétique rétro. • Maquette haute fidélité : photos du programme de Broadway avec des textures de lumière et d'ombre réalistes. Ces éléments soulignent la position de leader de Pro en matière de profondeur créative. 11. Bonnes pratiques et techniques de suggestion : • Suggestions très précises : détaillez le sujet, la couleur, l’éclairage et la composition. • Approche contextuelle : expliquez l’intention/l’émotion. • Amélioration continue : optimisez par plusieurs échanges. • Instructions étape par étape : décrivez les scènes complexes étape par étape. • Formulation positive : remplacez « rue sans voiture » par « rue déserte ». • Contrôle de la caméra : utilisation de termes photographiques tels que « grand angle » ou « contre-plongée ». • Optimisation de la recherche : Spécifiez précisément les données en temps réel (par exemple, « Rechercher les correspondances récentes en ligne ») • API par lots : réduit les coûts et augmente les quotas (délai de traitement jusqu’à 24 heures).

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil