X (Twitter)

🍌 Nano Banana Pro 模型全面指南 @GoogleAIStudio 最新開發者教程，聚焦於Nano Banana Pro（Gemini 3 Pro Image）模型的實戰應用，強調從基礎生成到高級功能的逐步構建，幫助用戶利用該模型的“思考”能力、搜尋grounding 和4K 輸出，打造複雜創意應用。教學整體框架與目標教學分為11 個模組，從環境搭建到最佳實踐，涵蓋理論與程式碼範例。目標受眾是開發者：透過Google AI Studio 快速原型化，然後擴展到生產級應用。 Pro 版無免費層，需啟用計費。它定位為「嚴肅創作者」的工具，適用於影像生成、infographic、多模態混合等場景。 1. 在Google AI Studio 中使用Nano Banana Pro 推薦從AI Studio playground 開始實驗：登入aistudio. google. com，選擇「gemini-3-pro-image-preview」模型。 Pro 版需API 金鑰+ 計費，無免費存取。提示：可直接在ai. studio/apps 建置Web 應用，或remix 現有範本。 2. 專案設定基礎準備：取得API 金鑰（自動建立於登入時）、啟用Google Cloud 計費、安裝SDK（Python: pip install -U google-genai Pillow；JS: npm install @ google/genai）。強調計費透明，建議查閱最新定價文件。 3. 初始化客戶端簡單程式碼啟動：使用genai.Client(api_key="YOUR_API_KEY") 和模型ID “gemini-3-pro-image-preview”。這為後續產生鋪路。 4. 基礎生成（經典用法）入門範例：產生映像+ 文本，支援aspect_ratio（如16:9）。程式碼控制輸出模態（僅圖像或圖像+文字），儲存為PNG。聊天模式適合多輪迭代（如編輯影像）。 5. “思考”過程 Pro 版亮點：內建推理鏈（thinking mode），透過thinking_config=types.ThinkingConfig(include_thoughts=True) 啟用。模型先「思考」提示（如分解「病毒式影像」），輸出內在monologue（如「想像羊駝通勤場景」），再產生影像。這提升複雜提示的準確性，使用者可窺探模型“腦中過程”，如調試藝術意圖。 6. 搜尋Grounding（即時資料注入）革命性功能：整合Google Search 工具（tools=[{"google_search": {}}]），讓模型存取即時資料產生影像。例如，提示“東京未來5 天天氣圖+ 穿衣建議”，輸出圖表+ 來源元資料。適用於動態內容，如天氣視覺化或事件infographic。提醒：始終顯示來源以確保透明。 7. 高解析度4K 產生支援1K/2K/4K（image_size="4K"），適合列印級輸出（如季節變換的橡樹照片）。成本更高，建議謹慎使用；aspect_ratio 保持靈活。 8. 多語言能力（Polyglot Banana）支援12+ 語言的圖像內文字生成/翻譯。例：先生成西班牙文相對論infographic，再翻譯為日文。聊天模式（chat.send_message）便於迭代，保持佈局一致。 9. 高級影像混合 Pro 版可融合至14 張影像（Flash 僅3 張），如「辦公室群照+ 搞怪表情」。使用PIL 載入本機映像，產生複雜拼貼。提示：高保真角色限5 張以優化品質。 10. Pro 獨佔示範· 個人化像素藝術：搜尋grounding + 等軸測視點（如某人職業生涯視覺化）。 · 複雜文本整合：香蕉十四行詩infographic + 文學分析，復古美學。 · 高保真mockup：百老匯節目單照片，真實光影紋理。這些強調Pro 在創意深度上的領先。 11. 最佳實踐與提示技巧· 超具體提示：詳述主體、顏色、光線、構圖· 上下文導向：說明意圖/情緒· 迭代精煉：多輪聊天優化· 步步指令：複雜場景分步描述· 正面框架：用“空曠街道”代替“無車街道” · 相機控制：借攝影術語如“廣角”或“低角度” · 搜尋最佳化：精確指定即時數據（如「搜尋OL 最近比賽」） · 批量API：節省成本，提升配額（處理延時至24 小時）

来自 meng shao（@shao__meng）的推文线程

作者信息

线程正文