X (Twitter)

A Greptile lançou recentemente seu "Relatório sobre o Estado da Programação de IA em 2025". Essa empresa fornece serviços de revisão de código de IA para clientes que vão desde startups promissoras como PostHog e Brex até empresas da Fortune 500. Aproximadamente um bilhão de linhas de código passam por seu sistema todos os meses, dando-lhes acesso a uma vasta quantidade de dados de primeira mão. Aqui estão alguns dados do relatório: O número de linhas de código produzidas por desenvolvedores por mês aumentou de 4.450 para 7.839, um aumento de 76%. O tamanho das solicitações de pull (PRs) também aumentou, com a mediana subindo de 57 para 76 linhas. O aumento foi ainda mais expressivo para equipes de médio porte, chegando a 89%. Eu já reclamei antes sobre como muitas pessoas gostam de usar linhas de código para medir a produtividade, porque código é um passivo, não um ativo. Mais código significa mais dificuldade de manutenção. Mais código gerado por IA também significa mais bugs e mais dificuldade de manutenção. Os benefícios das ferramentas de programação com IA são distribuídos de forma extremamente desigual. Em projetos com boa cobertura de testes e limites de módulos bem definidos, a IA é um recurso poderoso. No entanto, em sistemas legados complexos e cenários que exigem conhecimento profundo do domínio, sua ajuda é limitada e pode até ser contraproducente. Mas, independentemente disso, é um fato que a IA está causando inflação de código. A IA aumenta o número de linhas de código, mas isso melhora a qualidade? É uma pena que o relatório não tenha mencionado isso, já que linhas de código são fáceis de contar, mas a qualidade do código é muito mais difícil de medir. Os dados do relatório ainda merecem ser analisados. No segmento de ecossistema de ferramentas, o mercado de bancos de dados vetoriais está atualmente altamente competitivo, com a Weaviate liderando com 25% de participação, mas outras seis ou sete empresas a seguem de perto, cada uma com entre 10% e 25%, portanto o resultado ainda está indefinido. No pacote de memória para IA, o mem0 detém 59%, muito à frente da concorrência. Em relação aos arquivos de regras, o CLAUDE.md lidera a lista com uma taxa de adoção de 67%, indicando que de fato muitos desenvolvedores utilizam o Claude para criar agentes inteligentes programáveis. As tendências de mudança nos downloads de SDKs são ainda mais interessantes. A OpenAI ainda mantém uma liderança expressiva com 130 milhões de downloads mensais. No entanto, a taxa de crescimento da Anthropic é impressionante, aumentando 1547 vezes de abril de 2023 até agora, estabilizando-se em 43 milhões. A proporção de downloads entre a OpenAI e a Anthropic diminuiu de 47:1 no início de 2024 para os atuais 4,2:1. O SDK GenAI do Google, com 13,6 milhões, está significativamente atrás. A seção de comparação de desempenho dos modelos testou o GPT-5.1, o GPT-5-Codex, o Claude Sonnet 4.5, o Claude Opus 4.5 e o Gemini 3 Pro. Diversas descobertas são dignas de nota. Para o tempo de resposta do primeiro token, os dois modelos da Anthropic são inferiores a 2,5 segundos, enquanto os outros três levam mais do que o dobro desse tempo. Não subestime esses poucos segundos — em cenários de programação interativa, longos tempos de espera podem interromper sua linha de raciocínio, forçando você a retomar o fluxo. Em termos de taxa de transferência, os dois modelos da OpenAI são os mais rápidos, com uma mediana de 60 a 70 tokens por segundo. O Anthropic fica entre 17 e 20, e o Gemini, apenas entre 4 e 5. No entanto, alta taxa de transferência não é tudo; você também precisa considerar se o seu caso de uso realmente exige esse tipo de velocidade. A comparação de custos usa o GPT-5 Codex como base e o define em 1x. O GPT-5.1 também é 1x, o Gemini 3 Pro é 1,4x, o Claude Sonnet 4.5 é 2x e o Claude Opus 4.5 é 3,3x. O modelo da Anthropic é significativamente mais caro, mas muitos usuários consideram que a qualidade do código é superior e estão dispostos a pagar por isso. O relatório conclui apresentando uma série de descobertas recentes de pesquisas, incluindo a arquitetura MoE do DeepSeek-V3, a relação de compromisso entre contexto longo e RAG, e a estrutura de agente inteligente de memória constante do MEM1. Esta seção se assemelha mais a uma lista de leitura para desenvolvedores profissionais e não será detalhada posteriormente.

Thread de 宝玉 (@dotey)

Informações do autor

Conteúdo da thread