X (Twitter)

오랜 기다림 끝에 구글 제미니 3가 드디어 출시되었습니다! 가장 강력한 AI 모델인 제미니 3는 추론, 다중 모드 이해, 그리고 에이전트 기능 면에서 비약적인 발전을 이루며 거의 보편적인 최첨단 성능을 달성했습니다. 구글 CEO와 딥마인드 CEO/CTO가 공동으로 발표했습니다! 1. 제미니 3의 위치 및 전반적인 개선 지금까지 구글이 출시한 가장 강력한 모델은 이전 모델인 Gemini 2.5 Pro를 크게 능가하며, 거의 모든 주류 AI 벤치마크에서 최첨단 성능을 달성했습니다. 주요 개선 사항은 다음과 같습니다. • 향상된 추론 능력: 사용자 의도를 더 잘 이해하여 보다 간결하고 직접적이며 통찰력 있는 답변을 제공합니다. 선도적인 멀티모달 기능: 텍스트, 이미지, 비디오, 오디오 및 코드의 원활한 처리를 기본적으로 지원합니다. • 지능형 에이전트의 역량이 크게 향상되었습니다. 모델은 도구를 자율적으로 사용하고, 여러 단계로 구성된 작업을 계획하고, 컴퓨터 단말기를 작동하고, 심지어 장기적인 의사 결정 시뮬레이션을 수행할 수도 있습니다. • 컨텍스트 창은 최대 1M 토큰까지 확장되므로 매우 긴 문서나 복잡한 대화를 처리하는 데 적합합니다. • 추론 기능을 더욱 강화하기 위해 새로운 "Gemini 3 Deep Think" 모드가 추가되었습니다. 현재 보안 테스터와 Google AI Ultra 구독자에게 제공됩니다. 2. 주요 성과 데이터 Gemini 3 Pro는 대부분 부문에서 1위를 차지했습니다. • LMArena 사용자 선호도 순위: 1501 Elo (전체 1위) 인류의 마지막 시험(최고 수준의 전문가 수준 퍼즐): 일반 모드 37.5%, 심층적 사고 모드 41.0% • GPQA Diamond(박사 수준 과학적 추론): 일반 모드에서 91.9%, 심층적 사고 모드에서 93.8% • MMMU-Pro(다중 모드 그래픽 이해): 81% • 비디오-MMMU(Video Comprehension Mutual Ability Test) : 87.6% • SimpleQA 검증됨(사실의 정확성): 72.1% • SWE-bench 검증(실제 소프트웨어 엔지니어링 작업): 76.2%(이전 세대보다 상당히 앞선 수준) • WebDev Arena(웹 개발 에이전트 역량): 1487 Elo(1위) Terminal-Bench 2.0(터미널 도구 사용률): 54.2% • ARC-AGI-2(새로운 추상 추론 챌린지): 심층적 사고 + 코드 실행 모드 45.1% 3. 실제 적용 사례 및 학습: 손으로 쓴 요리법 업로드 → 자동으로 아름답게 디자인된 가정 요리 책 생성; 학술 논문 분석 → 대화형 플래시카드 또는 시각적 차트 생성. • 제작 및 구성: 물리 공식을 사용하여 융합 반응 시와 시각적 애니메이션을 생성합니다. 완전한 3D 게임이나 폭셀 아트를 빠르게 제작합니다. • 계획 및 기관: 모델이 Gmail 받은 편지함을 자율적으로 관리하고 수년간 자판기 사업 운영을 시뮬레이션하여 수익을 최적화할 수 있도록 지원합니다. • 검색 환경: Google 검색의 AI 모드에서 몰입형 시각적 인터페이스(예: 반 고흐 그림에 대한 잡지 스타일 해석)를 생성하고 대화형 도구를 지원합니다. 4. 이용 가능 여부 및 접근 방법 • 일반 사용자: Gemini 앱(모바일/웹)이 Gemini 3로 직접 업그레이드되었으며, 누구나 무료로 이용할 수 있습니다. • 고급 기능: Google AI Pro/Ultra 구독자는 검색의 AI 모드에서 더욱 강력한 "생각" 모드를 사용할 수 있습니다. 심층적 사고 모드는 Ultra 사용자에게 먼저 제공됩니다. • 개발자/기업: Google AI Studio, Vertex AI, Gemini API, Google Antigravity를 통해 접근 가능하며, 타사 툴체인(예: Cursor 및 Replit)을 지원합니다. 이는 구글이 출시 당일에 검색에 모델을 통합한 첫 번째 사례로, 대규모 배포의 이점을 보여줍니다. 5. 안전과 책임 Google은 Gemini 3가 지금까지 가장 포괄적인 보안 평가 모델이라고 강조합니다. • 최신 Frontier Safety Framework를 채택했습니다. • 테스트를 위해 영국 AISI와 같은 외부 레드팀 전문가 및 조직과 협업합니다. • 주입 취약점, 사이버 공격의 오용 및 기타 위협에 대한 저항력이 크게 향상됩니다. • 응답은 사용자에게 아첨하기보다는 '실제 통찰력'에 더 중점을 둡니다.

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용