X (Twitter)

O GPT-5.2 foi lançado, elevando significativamente o nível da indústria em tarefas de conhecimento, programação, pesquisa científica, documentos longos e visão computacional. Inclui três níveis: Instantâneo, Pensante e Profissional. Ao atingir o nível de "especialista humano" no GDPval (uma avaliação que mede 44 tarefas de conhecimento ocupacional), o GPT-5.2 Thinking igualou ou superou especialistas do setor em 70,9% dos casos, sendo 11 vezes mais rápido e custando menos de 1% do tempo dos especialistas. Eles são particularmente habilidosos na criação de planilhas e apresentações, e sua pontuação média em tarefas de modelagem de planilhas para bancos de investimento é 9,3% maior que a do GPT-5.1. Em outras palavras, no passado, quando você pedia à IA para escrever código, criar apresentações em PowerPoint ou construir modelos financeiros, ela fornecia apenas um rascunho, e o formato, as fórmulas, as referências e a estética precisavam ser revisados manualmente. Agora, atendendo aos requisitos, é possível enviar um arquivo Excel/Slides com fórmulas, formatação, esquemas de cores e comentários, tudo de uma só vez. Habilidades de programação: 55,6% no SWE-Bench Pro, 80% no SWE-bench Verified, com capacidade aprimorada de gerar interfaces de usuário 3D e complexas de uma só vez. Pesquisa matemática e física: 100% de precisão na Competição de Matemática AIME 2025 O estudo FrontierMath T1-3, com um aumento de 40,3% (+9,3%), ajudou pesquisadores a concluir uma nova prova da teoria da aprendizagem estatística. GPQA Diamond - Nível Graduado - Perguntas e Respostas: 92,4%; Nível Profissional: 93,2%. Texto longo e imagens: Em um conjunto de 256 mil tokens, a taxa de recuperação para tokens de "4 agulhas" é de quase 100%, e os segmentos MRCRv2 estão liderando por uma média de 30 pontos. A taxa de erro no reconhecimento de gráficos, painéis e imagens de placas-mãe foi reduzida pela metade, e o programa oferece suporte à integração com ferramentas Python. Invocação de ferramentas e agente inteligente: O Tau2-bench apresenta uma taxa de sucesso de 98,7% em cenários da China Telecom, permitindo que os usuários concluam mais de 10 etapas, incluindo alterações de voo, rastreamento de bagagem e solicitações especiais de assentos, em vários sistemas em um único processo. Redução das alucinações: Na verdade, a taxa de erro nas respostas do ChatGPT diminuiu 30% e, após a ativação da busca, a taxa de erro atingiu 93,9%. Entrada: 1,75 / 1M token (0,175 em cache), saída: 14; Versão Pro: 21 / 168$ Usuários do ChatGPT Plus e versões superiores começarão a receber a atualização gradualmente a partir de hoje; API totalmente lançada. #GPT52 #OpenAIGPT

Bloopenai.com/zh-Hans-CN/ind…pIL

Thread de AIGCLINK (@aigclink)

Informações do autor

Conteúdo da thread