X (Twitter)

Sam está radiante com o lançamento oficial do relatório de desempenho de fim de ano da OpenAI, o GPT 5.2. Não se deixe enganar pelo número da versão; esta é a grande surpresa da OpenAI para o final do ano. O posicionamento oficial é: o modelo mais poderoso até hoje para o trabalho intelectual profissional. O desempenho do modelo foi bastante aprimorado, mas o preço também aumentou significativamente em 40%. No contexto da tendência geral de redução de custos, um aumento de preço para um modelo geralmente requer uma justificativa sólida. O que confere confiança a este modelo? Há algum tempo, a OpenAI desenvolveu o GDPval, inspirado no principal indicador econômico: o Produto Interno Bruto (PIB). As 1.320 tarefas profissionais abrangem 44 profissões cuidadosamente selecionadas dos 9 principais setores que contribuem para o PIB dos EUA. A tarefa exige a entrega de materiais autênticos, como apresentações de vendas, planilhas contábeis, escalas de pronto-socorro, fluxogramas de produção ou vídeos curtos. Quando o GDPval foi lançado pela primeira vez, Claude Opus 4.1 estava muito à frente, com uma pontuação de 47,6. Mas hoje, o GPT-5.2 aumentou minha pontuação diretamente para mais de 70%.

Capacidades de codificação SWE-Bench Pro é uma avaliação rigorosa para engenharia de software no mundo real. Diferentemente do SWE-bench Verified, que testa apenas Python, o SWE-Bench Pro testa quatro linguagens e foi projetado para ser mais resistente à contaminação, mais desafiador, mais diversificado e mais relevante para a indústria. O GPT-5.2 Thinking alcançou um novo desempenho de última geração de 55,6% no SWE-Bench Pro, superando os 52% do Claude Opus 4.5 e os 43,3% do Gemini 3 Pro.

O GPT-5.2 estabeleceu um novo padrão de referência no setor no campo do raciocínio de contexto longo. A métrica MRCR v2 (Multi-turn coreference resolution) mede como múltiplas solicitações de usuário idênticas, chamadas de "agulhas", são inseridas em um longo documento "palheiro" composto por um grande número de solicitações e respostas semelhantes, e como o modelo precisa reproduzir a resposta correspondente à enésima "agulha". O GPT-5.2 é o primeiro modelo a atingir uma precisão próxima de 100% em variantes MRCR de 4 pinos (até 256 mil tokens).

Alucinações reduzidas Outra grande melhoria do GPT-5.2 é a redução significativa das "ilusões". A taxa de erro é 30% menor que a de sua versão anterior. compreensão visual O GPT-5.2 Thinking reduziu a taxa de erros em quase metade em tarefas que envolviam raciocínio diagramático e compreensão de interfaces de software.

Versão padrão: Entrada $1,75, saída $14. Versão profissional: Entrada $21, saída $168. No geral, o preço aumentou 40% em comparação com o GPT 5.1. É incrível. Muito caro. As tendências de IA deste ano incluem aumentos de preços para modelos de texto (GPT 5.2) e modelos de imagem (Banana Pro). Será que a tendência para IA no próximo ano será o aumento de preços dos modelos de vídeo?

Thread de Orange AI (@oran_ge)

Informações do autor

Conteúdo da thread