🍌 Nano Banana Pro 模型全面指南 @GoogleAIStudio 最新開發者教程,聚焦於Nano Banana Pro(Gemini 3 Pro Image)模型的實戰應用,強調從基礎生成到高級功能的逐步構建,幫助用戶利用該模型的“思考”能力、搜尋grounding 和4K 輸出,打造複雜創意應用。 教學整體框架與目標教學分為11 個模組,從環境搭建到最佳實踐,涵蓋理論與程式碼範例。目標受眾是開發者:透過Google AI Studio 快速原型化,然後擴展到生產級應用。 Pro 版無免費層,需啟用計費。它定位為「嚴肅創作者」的工具,適用於影像生成、infographic、多模態混合等場景。 1. 在Google AI Studio 中使用Nano Banana Pro 推薦從AI Studio playground 開始實驗:登入aistudio. google. com,選擇「gemini-3-pro-image-preview」模型。 Pro 版需API 金鑰+ 計費,無免費存取。提示:可直接在ai. studio/apps 建置Web 應用,或remix 現有範本。 2. 專案設定基礎準備:取得API 金鑰(自動建立於登入時)、啟用Google Cloud 計費、安裝SDK(Python: pip install -U google-genai Pillow;JS: npm install @ google/genai)。強調計費透明,建議查閱最新定價文件。 3. 初始化客戶端簡單程式碼啟動:使用genai.Client(api_key="YOUR_API_KEY") 和模型ID “gemini-3-pro-image-preview”。這為後續產生鋪路。 4. 基礎生成(經典用法) 入門範例:產生映像+ 文本,支援aspect_ratio(如16:9)。程式碼控制輸出模態(僅圖像或圖像+文字),儲存為PNG。聊天模式適合多輪迭代(如編輯影像)。 5. “思考”過程 Pro 版亮點:內建推理鏈(thinking mode),透過thinking_config=types.ThinkingConfig(include_thoughts=True) 啟用。模型先「思考」提示(如分解「病毒式影像」),輸出內在monologue(如「想像羊駝通勤場景」),再產生影像。這提升複雜提示的準確性,使用者可窺探模型“腦中過程”,如調試藝術意圖。 6. 搜尋Grounding(即時資料注入) 革命性功能:整合Google Search 工具(tools=[{"google_search": {}}]),讓模型存取即時資料產生影像。例如,提示“東京未來5 天天氣圖+ 穿衣建議”,輸出圖表+ 來源元資料。適用於動態內容,如天氣視覺化或事件infographic。提醒:始終顯示來源以確保透明。 7. 高解析度4K 產生支援1K/2K/4K(image_size="4K"),適合列印級輸出(如季節變換的橡樹照片)。成本更高,建議謹慎使用;aspect_ratio 保持靈活。 8. 多語言能力(Polyglot Banana) 支援12+ 語言的圖像內文字生成/翻譯。例:先生成西班牙文相對論infographic,再翻譯為日文。聊天模式(chat.send_message)便於迭代,保持佈局一致。 9. 高級影像混合 Pro 版可融合至14 張影像(Flash 僅3 張),如「辦公室群照+ 搞怪表情」。使用PIL 載入本機映像,產生複雜拼貼。提示:高保真角色限5 張以優化品質。 10. Pro 獨佔示範· 個人化像素藝術:搜尋grounding + 等軸測視點(如某人職業生涯視覺化)。 · 複雜文本整合:香蕉十四行詩infographic + 文學分析,復古美學。 · 高保真mockup:百老匯節目單照片,真實光影紋理。 這些強調Pro 在創意深度上的領先。 11. 最佳實踐與提示技巧· 超具體提示:詳述主體、顏色、光線、構圖· 上下文導向:說明意圖/情緒· 迭代精煉:多輪聊天優化· 步步指令:複雜場景分步描述· 正面框架:用“空曠街道”代替“無車街道” · 相機控制:借攝影術語如“廣角”或“低角度” · 搜尋最佳化:精確指定即時數據(如「搜尋OL 最近比賽」) · 批量API:節省成本,提升配額(處理延時至24 小時)
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
