X (Twitter)

O Google Gemini 3 finalmente chegou após muita expectativa! O modelo de IA mais poderoso, ele apresenta avanços significativos em raciocínio, compreensão multimodal e capacidades de agentes, alcançando um desempenho de última geração quase universal. O anúncio foi feito em conjunto pelo CEO do Google e pelo CEO/CTO da DeepMind! 1. O posicionamento e a melhoria geral do Gemini 3 O modelo mais poderoso do Google até o momento, que supera significativamente seu antecessor, o Gemini 2.5 Pro, alcança desempenho de ponta em praticamente todos os principais benchmarks de IA. As principais melhorias incluem: • Capacidade de raciocínio aprimorada: Melhor compreensão da intenção do usuário, fornecendo respostas mais concisas, diretas e perspicazes. Recursos multimodais de ponta: suporta nativamente o processamento perfeito de texto, imagens, vídeo, áudio e código. • As capacidades dos agentes inteligentes foram bastante aprimoradas: o modelo pode usar ferramentas de forma autônoma, planejar tarefas com várias etapas, operar terminais de computador e até mesmo realizar simulações de tomada de decisão de longo prazo. • A janela de contexto expande-se para 1 milhão de tokens, tornando-a adequada para lidar com documentos muito longos ou conversas complexas. • Um novo modo “Gemini 3 Deep Think” foi adicionado para aprimorar ainda mais os recursos de inferência. Atualmente, ele está disponível para testadores de segurança e assinantes do Google AI Ultra. 2. Dados-chave de desempenho O Gemini 3 Pro ficou em primeiro lugar na maioria das categorias: • Classificação de Preferência do Usuário do LMArena: 1501 Elo (1º lugar geral) O Último Exame da Humanidade (um quebra-cabeça de nível especialista): Modo Normal 37,5%, Modo Pensamento Profundo 41,0% • GPQA Diamond (Raciocínio Científico em Nível de Doutorado): 91,9% no Modo Normal, 93,8% no Modo de Pensamento Profundo • MMMU-Pro (Compreensão Gráfica Multimodal): 81% • Vídeo-MMMU (Teste de Compreensão de Vídeo - Habilidade Mútua): 87,6% • Verificado pelo SimpleQA (Precisão dos fatos): 72,1% • Verificado no SWE-bench (Tarefa Real de Engenharia de Software): 76,2% (significativamente à frente da geração anterior) • WebDev Arena (Capacidade de Agente de Desenvolvimento Web): 1487 Elo (Primeiro) Terminal-Bench 2.0 (Utilização da ferramenta Terminal): 54,2% • ARC-AGI-2 (Novel Abstract Reasoning Challenge): Deep Think + Code Execution Mode 45.1% 3. Exemplos de Aplicação Prática e Aprendizagem: Carregar receitas manuscritas → Gerar automaticamente livros de culinária caseira com design atraente; Analisar artigos acadêmicos → Gerar cartões de memorização interativos ou gráficos visuais. • Criação e Construção: Gere poemas de reação de fusão e animações visuais usando fórmulas da física; construa rapidamente jogos 3D completos ou arte voxel. • Planejamento e Agência: Permitir que os modelos gerenciem autonomamente caixas de entrada do Gmail e simulem as operações comerciais de máquinas de venda automática por muitos anos, otimizando a receita. • Experiência de busca: Gere interfaces visuais imersivas (como interpretações das pinturas de Van Gogh no estilo de revistas) no Modo de IA da Busca do Google e ofereça suporte a ferramentas interativas. 4. Disponibilidade e Métodos de Acesso • Usuários Regulares: O aplicativo Gemini (móvel/web) foi atualizado diretamente para o Gemini 3 e está disponível gratuitamente para todos. • Recursos avançados: assinantes do Google AI Pro/Ultra podem usar um modo "Pensamento" mais poderoso no Modo de IA da Pesquisa; o modo Deep Think está disponível primeiro para usuários do Ultra. • Desenvolvedores/empresas: Acessível via Google AI Studio, Vertex AI, Gemini API e Google Antigravity, com suporte para ferramentas de terceiros (como Cursor e Replit). Esta é a primeira vez que o Google integra um modelo à Busca no mesmo dia em que ele é lançado, demonstrando as vantagens da distribuição em larga escala. 5. Segurança e Responsabilidade O Google enfatiza que o Gemini 3 é o seu modelo de avaliação de segurança mais abrangente até o momento: • Adota a versão mais recente do Frontier Safety Framework. • Colaborar com especialistas externos em equipes vermelhas e organizações como a AISI do Reino Unido para a realização de testes. • Aumenta significativamente a resistência a vulnerabilidades de injeção, uso indevido em ataques cibernéticos e outras ameaças. • A resposta se concentra mais em "insights reais" do que em agradar aos usuários.

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread