X (Twitter)

O "Código Vermelho" da OpenAI? O GPT-5.2 foi oficialmente lançado, desafiando diretamente o Gemini 3 Pro e o Claude Opus 4.5. Se o GPT-5.1 foi uma tentativa de avançar em direção a uma nova arquitetura, o GPT-5.2 é a versão madura e completa que a OpenAI aprimorou para recuperar seu "trono". Ele não busca mais apenas capacidades gerais de bate-papo, mas se concentra extremamente na confiabilidade do "trabalho intelectual de nível profissional" e em "agentes inteligentes de longo alcance". Posicionamento principal: De "chatbot" a "colega especialista" A mudança mais significativa no GPT-5.2 é a introdução de três versões altamente específicas, que visam abranger todos os cenários de trabalho: • GPT-5.2 Instant: Extremamente responsivo, capaz de lidar com a recuperação de informações diárias e tarefas leves, herdando o estilo conversacional de alta inteligência emocional da versão 5.1. • GPT-5.2 Thinking: Este é o núcleo desta atualização. Ele introduz cadeias de raciocínio lógico mais profundas, projetadas especificamente para resolver problemas complexos de processamento de planilhas, modelagem financeira e tomada de decisão em várias etapas. • GPT-5.2 Pro: A versão mais poderosa e cara, usada para lidar com pesquisas científicas extremamente complexas ou problemas de tomada de decisão que "valem a pena esperar". Avanço crucial em capacidade: Atingindo o limite máximo do raciocínio lógico: No teste AIME 2025, o GPT-5.2 alcançou a pontuação máxima de 100% (em comparação com 94% do GPT-5.1) sem a necessidade de ferramentas externas. Isso significa que modelos de grande porte agora podem resolver problemas de lógica matemática de nível humano com zero erros. • Contexto ultralongo quase perfeito: Em testes com textos ultralongos contendo 256 mil tokens, alcançou uma taxa de precisão de quase 100% na localização de detalhes, semelhante a encontrar uma agulha em um palheiro. Isso significa que ele pode realmente entender centenas de páginas de relatórios financeiros ou documentos técnicos, e não apenas resumir a ideia principal. • A taxa de substituição de empregos dispara: a OpenAI introduziu uma nova métrica, o GDPval. O GPT-5.2 superou ou igualou especialistas humanos em 70,9% das tarefas, em comparação com apenas 38,8% para a versão anterior, o GPT-5. Uma comparação horizontal dos três gigantes: a batalha de inverno de 2025. O atual cenário da IA apresenta uma clara situação de "três pilares", com cada um dos três modelos possuindo seus próprios pontos fortes. Não estamos mais na era em que um único modelo consegue esmagar completamente a concorrência. VS. Gemini 3 Pro • Multimodal: O Gemini 3 Pro continua sendo o melhor. O Google, aproveitando a vasta experiência da DeepMind, construiu uma barreira formidável no processamento visual. O Gemini 3 Pro alcança 81,0% no MMMU-Pro. Particularmente no processamento de vídeo (como no teste YouCook2), o Gemini 3 Pro supera a série GPT com uma pontuação alta de 222,7. Se você precisa processar fluxos de vídeo ou realizar raciocínio espacial complexo, o Gemini 3 Pro continua sendo a melhor escolha. • Experiência geral: A vantagem do Gemini 3 Pro reside na fluidez proporcionada pela tecnologia "multimodal nativa", enquanto o GPT-5.2 compensa a lacuna na percepção por meio de um "raciocínio lógico textual" extremo, tentando processar informações com um cérebro mais inteligente. VS. Claude Opus 4.5 • Código e Agentes: A batalha está em um impasse. O Claude Opus 4.5 era anteriormente conhecido por sua "confiabilidade de agentes", especialmente no teste SWE-bench, onde foi aclamado como o melhor parceiro de programação em pares pelos programadores. • Contra-ataque do GPT-5.2: O GPT-5.2 concentra-se na otimização das capacidades de "invocação de ferramentas" e "execução em várias etapas", visando explicitamente os pontos fortes do Claude. O GPT-5.2 alega uma redução de 30% nas taxas de erro ao lidar com projetos complexos com várias etapas e em vários documentos. Para os desenvolvedores, a "facilidade de uso" do Claude e a "lógica rigorosa" do GPT-5.2 se tornarão dois estilos de escolha distintos. Apresentação oficial da OpenAI

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread