X (Twitter)

🍌 나노 바나나 프로 모델 완전 가이드 @GoogleAIStudio의 최신 개발자 튜토리얼은 Nano Banana Pro(Gemini 3 Pro Image) 모델의 실제 적용에 중점을 두고 있으며, 기본 생성부터 고급 기능까지 단계별 구축을 강조합니다. 이 튜토리얼은 사용자가 모델의 "사고" 능력, 기반 검색 및 4K 출력을 활용하여 복잡하고 창의적인 애플리케이션을 제작할 수 있도록 지원합니다. 튜토리얼의 전체 프레임워크와 목표는 11개의 모듈로 나뉘며, 환경 설정부터 모범 사례까지 모든 것을 포괄하고 이론과 코드 예제를 모두 포함합니다. 대상 독자는 개발자입니다. Google AI Studio를 사용하여 신속하게 프로토타입을 제작하고 프로덕션 환경에 바로 적용 가능한 애플리케이션으로 확장할 수 있습니다. Pro 버전은 무료 티어가 없으며 과금됩니다. 이미지 생성, 인포그래픽, 멀티모달 믹싱과 같은 시나리오에 적합한 "진지한 크리에이터"를 위한 도구로 자리매김했습니다. 1. Google AI Studio에서 Nano Banana Pro 사용하기 AI Studio 플레이그라운드에서 실험을 시작하는 것을 권장합니다. aistudio.google.com에 로그인하여 "gemini-3-pro-image-preview" 모델을 선택하세요. Pro 버전은 API 키와 결제가 필요하며, 무료 이용은 제공되지 않습니다. 팁: ai.studio/apps에서 직접 웹 애플리케이션을 빌드하거나 기존 템플릿을 리믹스할 수 있습니다. 2. 기본 프로젝트 설정: API 키(로그인 시 자동 생성됨)를 획득하고, Google Cloud Billing을 활성화하고, SDK를 설치합니다(Python: pip install -U google-genai Pillow; JS: npm install @ google/genai). 청구 투명성이 강조되므로 최신 가격 책정 문서를 참조하는 것이 좋습니다. 3. 간단한 코드로 클라이언트를 초기화합니다. genai.Client(api_key="YOUR_API_KEY")와 모델 ID "gemini-3-pro-image-preview"를 사용합니다. 이렇게 하면 후속 생성을 위한 기반이 마련됩니다. 4. 기본 생성(고전적 용법) 소개 예시: 이미지 + 텍스트를 생성하며, 종횡비(예: 16:9)를 지원합니다. 코드는 출력 방식(이미지만 또는 이미지 + 텍스트)을 제어하고 PNG 파일로 저장합니다. 채팅 모드는 여러 라운드 반복 작업(예: 이미지 편집)에 적합합니다. 5. "생각" 과정 Pro 버전 주요 특징: `thinking_config=types.ThinkingConfig(include_thoughts=True)`를 통해 활성화되는 내장된 사고 모드. 모델은 먼저 프롬프트에 대해 "생각"하고(예: "바이럴 이미지" 분석), 내면의 독백(예: "알파카가 출퇴근하는 모습을 상상해 보세요")을 출력한 다음 이미지를 생성합니다. 이를 통해 복잡한 프롬프트의 정확도가 향상되어 사용자가 예술적 의도를 조정하는 등 모델의 "브레인스토밍"을 엿볼 수 있습니다. 6. 검색 접지(실시간 데이터 주입) 혁신적인 기능: Google 검색 도구(tools=[{"google_search": {}}])와의 통합을 통해 모델이 실시간 데이터에 접근하여 이미지를 생성할 수 있습니다. 예를 들어, "도쿄 5일 날씨 지도 + 의류 추천"을 제안하여 차트와 출처 메타데이터를 출력할 수 있습니다. 날씨 시각화 또는 이벤트 인포그래픽과 같은 동적 콘텐츠에 적합합니다. 참고: 투명성을 위해 출처는 항상 표시됩니다. 7. 고해상도 4K 세대는 1K/2K/4K(image_size="4K")를 지원하며, 계절별 참나무 사진과 같은 인쇄 품질 출력에 적합합니다. 비용이 높으므로 사용 시 주의하고, 종횡비를 유연하게 유지하십시오. 8. 다국어 능력 (Polyglot Banana) 12개 이상의 언어로 이미지 내 텍스트 생성/번역을 지원합니다. 예: 스페인어 상대성 이론 인포그래픽을 먼저 생성한 후 일본어로 번역합니다. 채팅 모드(chat.send_message)를 통해 반복 작업을 용이하게 하고 일관된 레이아웃을 유지합니다. 9. 고급 이미지 블렌딩 Pro 버전은 "사무실 단체 사진 + 웃긴 얼굴"과 같이 최대 14개의 이미지를 병합할 수 있습니다(플래시는 3개만 가능). PIL을 사용하여 로컬 이미지를 불러오고 복잡한 콜라주를 생성할 수 있습니다. 참고: 고화질 문자는 최적의 품질을 위해 5개 이미지로 제한됩니다. 10. Pro 전용 데모: 개인화된 픽셀 아트: 기초 + 등각 투영 관점(예: 누군가의 경력을 시각화)을 검색합니다. • 복잡한 텍스트 통합: 바나나 소네트 인포그래픽 + 문학 분석, 복고적 미학. • 고품질 모형: 사실적인 빛과 그림자 질감을 적용한 브로드웨이 프로그램 일정 사진입니다. 이는 Pro가 창의적 깊이에서 선도적인 위치를 차지하고 있음을 강조합니다. 11. 모범 사례 및 힌트 기법: • 매우 구체적인 힌트: 피사체, 색상, 조명, 구도를 자세히 설명합니다. • 맥락 지향적: 의도/감정을 설명합니다. • 반복적 개선: 여러 차례의 채팅을 통해 최적화합니다. • 단계별 지침: 복잡한 장면을 단계별로 설명합니다. • 긍정적 프레이밍: "차 없는 거리"를 "빈 거리"로 대체합니다. • 카메라 제어: "광각" 또는 "로우 앵글"과 같은 사진 용어를 사용합니다. • 검색 최적화: 실시간 데이터를 정확하게 지정합니다(예: "최근 일치 항목 온라인 검색") • 일괄 API: 비용 절감 및 할당량 증가(최대 24시간 처리 지연)

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용