Lançamento do Claude Opus 4.5: O modelo de codificação, agentes e uso de computadores mais poderoso; uso de tokens significativamente reduzido; preço 1/3 do Opus 4.1; pontuação verificada no SWE-bench ultrapassa 80 pontos pela primeira vez. Avanço significativo em desempenho de programação: alcançando uma pontuação de 80,9% no teste SWE-bench Verified, superando o Google Gemini 3 Pro (76,2%) e o OpenAI GPT-5.1-Codex-Max (77,9%). Ainda mais impressionante, nos testes internos de engenharia de desempenho da Anthropic, o Opus 4.5 superou todos os candidatos humanos. • Capacidades do Agente: Obteve uma pontuação de 66,3% no teste de utilização de computadores da OSWorld, demonstrando um forte comportamento orientado a objetivos a longo prazo. Os testadores internos relataram que o Opus 4.5 consegue lidar com tarefas que o Sonnet 4.5 não conseguia concluir há algumas semanas e pode encontrar soluções de forma autônoma ao se deparar com bugs complexos em múltiplos sistemas. • Melhoria de Eficiência: Esta é uma melhoria significativa. Ao lidar com tarefas de codificação de longa duração, o Opus 4.5 utiliza até 65% menos tokens, mantendo ou melhorando a qualidade da saída. Isso se traduz em custos mais baixos e tempos de resposta mais rápidos. A revolução nos preços fixa o valor em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída, uma redução de dois terços em comparação com os US$ 15/US$ 75 do Opus 4.1 anterior. Isso torna os recursos do Opus acessíveis pela primeira vez, permitindo que ele se torne um modelo principal para uso diário. Atualização de produto disponível em múltiplas plataformas: O Opus 4.5 já está disponível em aplicativos Claude, APIs e em três das principais plataformas de nuvem: Amazon Bedrock, Google Cloud Vertex AI e Microsoft Azure. Os desenvolvedores podem invocá-lo usando o identificador de modelo claude-opus-4-5-20251101. Inovação Tecnológica · Inferência Híbrida: O Opus 4.5 suporta modos de resposta instantânea e de raciocínio estendido. Os usuários da API podem controlar com precisão a quantidade de computação que o modelo investe na resposta por meio do "parâmetro de esforço", alcançando um equilíbrio entre desempenho, latência e custo. • Gerenciamento de memória aprimorado: Melhorias significativas foram feitas no gerenciamento de memória para operações de contexto longo, tornando-o particularmente adequado para cenários com agentes — o Opus pode atuar como o agente mestre para comandar um grupo de subagentes controlados por Haiku. • Segurança aprimorada: O modelo é mais resistente a ataques de injeção de pistas e apresenta uma menor taxa de comportamento problemático na avaliação de desalinhamento, tornando-se a versão mais segura do Anthropic até o momento. Posicionamento de mercado O Opus 4.5 foi projetado principalmente para profissionais do conhecimento, como engenheiros de software, analistas financeiros, consultores e contadores, bem como para cenários que exigem o gerenciamento de tarefas empresariais complexas e fluxos de trabalho intensivos com agentes inteligentes. Trata-se de um modelo de ponta, adequado para situações em que os modelos anteriores não conseguiam resolver o problema e o desempenho era crucial. Impacto no setor: Este lançamento ocorre em um momento de intensa competição na indústria de IA. O Gemini 3 do Google, apenas uma semana após seu lançamento, já causou grande impacto no mercado, com o próprio CEO da Salesforce declarando que está migrando do ChatGPT para o Gemini. O lançamento do Opus 4.5 demonstra a determinação e a força da Anthropic em manter sua posição de liderança nessa corrida.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
