A Amp alterou o modelo padrão de Gemini 3 para Claude Opus 4.5 e, em testes práticos, demonstrou uma atualização abrangente com custos surpreendentemente menores. A mudança repentina ocorreu apenas uma semana depois que a @AmpCode alterou seu modelo principal de Claude para Gemini 3, uma mudança saudada como "histórica" na época. Agora, eles rapidamente voltaram para a versão mais recente do Claude, o Opus 4.5. O motivo é que, embora o Gemini 3 tenha um desempenho excelente, ele também revela falhas significativas — problemas considerados "arestas a serem aparadas" durante os testes internos resultaram em uma experiência de usuário muito frustrante no uso real, além de serem dispendiosos. Vantagens e desempenho do Claude Opus 4.5: O Opus 4.5 é comparável ao Gemini 3 em termos de capacidade. Embora seu desempenho máximo possa não ser tão impressionante quanto o do Gemini 3, ele é mais estável e confiável, sem pontos fracos óbvios. • Maior velocidade: Tempo de resposta mais rápido em uso real. • Incrivelmente econômico: Embora os tokens individuais do Opus sejam mais caros, o custo real de uso é menor. Os motivos incluem: • São necessários menos tokens para concluir as tarefas. • Menos erros, reduzindo o desperdício de tokens. • Requer menos intervenção humana (melhorando a taxa de acertos no cache, reduzindo ainda mais os custos e a latência) Comparação de dados específicos: Precisão: Opus 4.5 (57,3%) > Gemini 3 (53,7%) > Sonnet 4.5 (37,1%) • Custo médio da linha: Opus 4.5 (US$ 2,05) ≈ Gemini 3 (US$ 2,04) < Sonnet 4.5 (US$ 2,75) • Custo da perda de controle: Opus 4.5 (2,4%) é significativamente menor que Gemini 3 (17,8%) e Sonnet 4.5 (8,4%). • Velocidade: O Soneto 4.5 (2,4 minutos) é o mais rápido, o Opus 4.5 (3,5 minutos) é mais rápido que o Gemini 3 (4,3 minutos). Casos de uso recomendados para o Opus 4.5: • Vantagem significativa de custo ao lidar com diálogos de longa duração (mais de 200.000 tokens). • Quando outros modelos encontram gargalos de capacidade ou erros frequentes. • Ao lidar com tarefas mais complexas e ambíguas. Endereço do artigo
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
