Avaliação Anual de Desempenho de Devin em 2025 A equipe da @cognition divulgou seu "resumo de fim de ano" oficial do seu Engenheiro de Software de IA, "Devin", 18 meses após o anúncio inicial. Em vez de usar notas A, B e C, eles adotaram uma abordagem mais pragmática, detalhando todo o seu desempenho no mundo real, seus pontos fortes, pontos fracos e dados em um ambiente corporativo real. Foi como dar a um "engenheiro não humano" a avaliação de desempenho mais honesta possível. O verdadeiro posicionamento atual de Devin Devin não é um engenheiro completo e versátil, mas sim uma mistura bastante desequilibrada de habilidades: • Em termos de habilidades "mentais", como compreender bases de código, fazer planos, escrever documentação e responder a perguntas complexas, eles atingiram o nível de engenheiros seniores; Em termos de "capacidade de execução", como habilidades práticas, tomada de decisão independente e capacidade de lidar com requisitos ambíguos, ele atualmente se equipara a um engenheiro júnior. Mas possui superpoderes que os humanos jamais poderão alcançar: paralelismo infinito, paciência infinita, nunca se cansar e a capacidade de executar centenas de tarefas simultaneamente. O uso mais consolidado e comercialmente valioso em 2025. Devin se destaca em tarefas que são "claramente definidas, automaticamente verificáveis e tediosas para humanos", geralmente com duração de 4 a 8 horas. Ele pode lidar com um número ilimitado dessas tarefas, realmente "libertando as pessoas do trabalho repetitivo". Estudos de caso reais de clientes e melhorias de eficiência incluem: • Correção de vulnerabilidades de segurança relatadas por ferramentas de análise estática: Em média, uma vulnerabilidade é corrigida a cada 1,5 minutos (em comparação com 30 minutos para humanos), representando um aumento de 20 vezes na eficiência. Como resultado, uma grande instituição financeira economizou de 5 a 10% da mão de obra de toda a sua equipe de desenvolvimento. • Migração em larga escala de linguagens/frameworks de sistemas legados: O tempo de migração para cada repositório é de apenas 1/10 a 1/14 do tempo necessário para uma pessoa. Grandes bancos têm usado o Devin para migrar centenas de milhares de scripts ETL legados e concluir atualizações em lote de versões do Java. • Geração automática de testes unitários: Aumentar a cobertura de testes de 50-60% para 80-90%, abrangendo centenas de repositórios em lotes. • Desenvolvimento de funcionalidades de pequeno e médio porte no projeto Brownfield: Devin contribuiu com cerca de um terço das alterações de código para o aplicativo web da Cognition. • Análise de Dados e Controle de Qualidade: A empresa de tecnologia do sono EightSleep entrega recursos relacionados a dados 3 vezes mais rápido; a empresa de tecnologia jurídica Litera reduz seu ciclo de testes de regressão em 93%. Principais melhorias nos dados até 2025: • A taxa de fusão de solicitações de pull aumentou de 34% no ano passado para 67%; • A velocidade de resolução de problemas aumentou 4 vezes, enquanto o consumo de recursos diminuiu 50%; • Centenas de milhares de solicitações de compra foram mescladas com sucesso. Outra superpotência subestimada: uma "IA veterana" sempre em prontidão. O progresso de Devin na compreensão de bases de código supera em muito as expectativas da maioria das pessoas: • Ele consegue ler 5 milhões de linhas de código COBOL ou um repositório enorme de 500 GB em minutos e, em seguida, o DeepWiki gera e atualiza automaticamente e continuamente a documentação técnica completa e os diagramas de arquitetura do sistema. • Um determinado banco liberou diretamente várias equipes inteiras de documentação para desenvolver novos recursos. Em apenas 15 minutos, os engenheiros podem solicitar que Devin elabore uma arquitetura preliminar para um projeto complexo, para que a equipe possa discuti-la. As três principais deficiências atuais (a posição oficial não esconde nada) 1. A capacidade de execução independente de ponta a ponta sob requisitos vagos ainda é fraca. É preciso fornecer especificações muito claras, especialmente em áreas subjetivas como interface do usuário e design visual. Se os requisitos forem vagos ou não puderem ser verificados automaticamente, ainda assim falharão com frequência. 2. O desempenho de Devin piora quando os requisitos mudam frequentemente durante uma tarefa. Ao contrário de engenheiros humanos juniores, Devin não é bom em "trabalhar, discutir e revisar conforme necessário". Uma vez iniciada a tarefa, a adição constante de requisitos pode facilmente causar problemas. Isso exige que os usuários humanos aprendam a "explicar os requisitos de forma clara e completa de uma só vez". 3. As habilidades interpessoais dele são completamente nulas. Ele não consegue liderar uma equipe, não sabe lidar com emoções, não consegue ser um mentor individual, não consegue organizar atividades de integração de equipe... mas é sempre amigável, sempre paciente e sempre responde às mensagens instantaneamente. Principais áreas de melhoria em 2026: Continuar a aprimorar nossa compreensão de bases de código altamente complexas do mundo real; Aumenta significativamente a capacidade de colaboração com humanos em tarefas complexas de ponta a ponta; • Melhorar a experiência de interação humano-computador, facilitando o trabalho dos engenheiros ao direcionar o Devin. Resumo e principais conclusões O verdadeiro posicionamento de Devin em 2025 não é "substituir engenheiros seniores", mas sim: Ela assume todas as tarefas básicas mais tediosas, repetitivas e altamente paralelas, transferindo o tempo dos engenheiros de "20% programação + 80% tarefas diversas" de volta para "70-80% programação + design de alto valor". Endereço do blog
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
