X (Twitter)

Análise completa do modelo GPT-5.2: otimizado para profissionais atuantes no mercado de trabalho. Habilidades de escritório aprimoradas Modo adulto será lançado no próximo ano. Em sua apresentação oficial, a OpenAI se refere ao GPT-5.2 da seguinte forma: "Feito para o trabalho intelectual." No teste GDPval (que abrange 44 tarefas ocupacionais profissionais), o GPT-5.2 Thinking obteve uma pontuação de 70,9%, o que significa que pode rivalizar com especialistas do setor na maioria das profissões que exigem conhecimento. O que ele pode fazer? ✅ Crie um modelo financeiro completo ✅ Elabore uma apresentação de PowerPoint empresarial bem estruturada. ✅ Elaboração de relatórios analíticos e recomendações de investimento ✅ Analise documentos de dados complexos com dezenas de páginas Em termos de velocidade: conclui tarefas 11 vezes mais rápido do que especialistas humanos, mas a um custo de apenas 1%. 💡 Dados oficiais mostram que os usuários corporativos do ChatGPT economizam em média de 40 a 60 minutos por dia. Usuários intensivos podem economizar mais de 10 horas por semana.

1️⃣ Raciocínio: Habilidades matemáticas e de lógica de múltiplas etapas mais desenvolvidas O GPT-5.2 Thinking alcançou resultados recordes em diversas avaliações desafiadoras de raciocínio científico e matemático: Quiz de Ciências Diamante GPQA: 92,4% (versão Pro 93,2%) ARC-AGI-1 Raciocínio Abstrato: 86,2% (O primeiro modelo a ultrapassar o limite de 90%) ARC-AGI-2 Raciocínio de Ordem Superior: 52,9%, estabelecendo um novo recorde para o Modelo Mind Chain. Avaliação de Matemática Avançada da FrontierMath: 40,3%, superando em muito a geração anterior; Problemas da Competição de Matemática HMMT: 99,4% Avaliação de Matemática AIME: Solução 100% Completa

O GPT-5.2 Pro (High) é o que há de mais moderno no ARC-AGI-2, alcançando uma pontuação de 54,2% a um custo de US$ 15,72 por tarefa! Superando todos os outros modelos.

2️⃣ Compreensão de textos longos e raciocínio entre documentos: Atingindo uma precisão de quase 100% pela primeira vez. O GPT-5.2 consegue lidar com contextos de até 256.000 tokens (aproximadamente mais de 200 páginas de documentos). Além disso, no teste de compreensão de texto longo "OpenAI MRCRv2", o GPT-5.2 Thinking alcançou uma taxa de acerto de quase 100%. Ele consegue lidar com projetos grandes que envolvem vários arquivos;

3️⃣ Compreensão visual: Capacidade de visualizar imagens, reconhecer interfaces e interpretar gráficos. As capacidades visuais do GPT-5.2 foram significativamente aprimoradas: sua taxa de erro no raciocínio visual diminuiu em quase 50%, e ele agora é capaz de compreender: Estruturas de gráficos (como gráficos de linhas financeiras, gráficos de dados experimentais); Layout da interface do software; Relações espaciais em placas de circuito impresso e desenhos de projeto de produto.

4️⃣ Utilização de ferramentas e execução de tarefas: Capacidade de planejar e concluir tarefas com várias etapas de forma independente. O GPT-5.2 obteve uma pontuação de 98,7% no benchmark Tau2-Bench Telecom, demonstrando suas capacidades maduras de chamada de ferramentas em tarefas complexas de múltiplas etapas. Ele consegue concluir o trabalho de ponta a ponta.

5️⃣ As habilidades de programação evoluem ainda mais: os testes de engenharia de software batem recordes em todas as áreas. No teste SWE-Bench Pro (tarefa de engenharia de software industrial do mundo real), a pontuação do GPT-5.2 Thinking melhorou para 55,6%, enquanto também alcançou um novo recorde de 80% no teste SWE-Bench Verified. Os primeiros desenvolvedores apontaram que o GPT-5.2 tem um desempenho melhor em cenários como desenvolvimento front-end e design de interface 3D, e pode gerar código e interfaces completos e executáveis.

Menos erros, maior estabilidade e uma melhor compreensão do comportamento humano. O GPT-5.2 reduziu a "taxa de ilusão" (taxa de respostas falsas) em 38%. Ele responde a perguntas de pesquisa, escrita e análise de forma mais confiável e reduz os casos de "invenção de fatos". Entretanto, a segurança da resposta do modelo foi significativamente melhorada em tarefas relacionadas à saúde mental. Eles são mais resistentes em situações delicadas, como saúde mental, automutilação, suicídio e dependência emocional.

O "Modo Adulto" do ChatGPT estará disponível em breve. A OpenAI planeja lançar o "Modo Adulto" do ChatGPT no primeiro trimesmp.weixin.qq.com/s/I8pxgiRUPWbl…re de 2026). A OpenAI vai introduzir um mecanismo de reconhecimento de idade para proteger automaticamente os menores do acesso a conteúdo sensível. Detalhes: https://t.co/WsoEbc1Ke5

Thread de 小互 (@imxiaohu)

Informações do autor

Conteúdo da thread