X (Twitter)

Greptile publicó recientemente su "Informe sobre el Estado de la Programación de IA 2025". Esta empresa ofrece servicios de revisión de código de IA a clientes que van desde startups estrella como PostHog y Brex hasta empresas de la lista Fortune 500. Aproximadamente mil millones de líneas de código pasan por su sistema cada mes, lo que les da acceso a una gran cantidad de datos de primera mano. A continuación, se presentan algunas cifras del informe: El número de líneas de código producidas por los desarrolladores al mes aumentó de 4450 a 7839, un incremento del 76 %. El tamaño de las solicitudes de extracción (PR) también aumentó, con una mediana que pasó de 57 a 76 líneas. El aumento fue aún más drástico en los equipos medianos, alcanzando el 89 %. De hecho, ya me he quejado antes de que a mucha gente le guste usar líneas de código para medir la productividad, porque el código es un lastre, no un activo. Más código implica mayor dificultad de mantenimiento. Más código generado por IA también implica más errores y mayor dificultad de mantenimiento. Los beneficios de las herramientas de programación de IA se distribuyen de forma muy desigual. En proyectos con una buena cobertura de pruebas y límites de módulos claros, la IA es un recurso valioso. Sin embargo, en sistemas heredados complejos y escenarios que requieren un profundo conocimiento del dominio, su ayuda es limitada e incluso puede ser contraproducente. Pero sea como sea, es un hecho que la IA ahora está causando inflación de código. La IA aumenta el número de líneas de código, pero ¿eso mejora la calidad? Es una pena que el informe no mencione esto, ya que las líneas de código son fáciles de contar, pero la calidad del código es mucho más difícil de medir. Aún así vale la pena analizar los datos del informe. En el segmento de ecosistemas de herramientas, el mercado de bases de datos vectoriales es actualmente muy competitivo, con Weaviate a la cabeza con una cuota del 25%, pero otras seis o siete empresas le siguen de cerca, cada una con entre el 10% y el 25%, por lo que el resultado aún está por definir. En el paquete de memoria de IA, mem0 representa el 59%, muy por delante de la competencia. En cuanto a los archivos de reglas, CLAUDE.md encabeza la lista con una tasa de adopción del 67%, lo que indica que muchos desarrolladores utilizan Claude para crear agentes inteligentes programables. Las tendencias cambiantes en las descargas de SDK son aún más interesantes. OpenAI sigue liderando con 130 millones de descargas mensuales. Sin embargo, la tasa de crecimiento de Anthropic es asombrosa, multiplicándose por 1547 desde abril de 2023 hasta la actualidad, estabilizándose en 43 millones. La proporción de descargas entre OpenAI y Anthropic se ha reducido de 47:1 a principios de 2024 al 4,2:1 actual. El SDK GenAI de Google, con 13,6 millones, se encuentra significativamente por detrás. En la sección de comparación del rendimiento del modelo se probaron GPT-5.1, GPT-5-Codex, Claude Sonnet 4.5, Claude Opus 4.5 y Gemini 3 Pro. Se encontraron varios hallazgos dignos de mención. Para el primer tiempo de respuesta del token, los dos modelos de Anthropic tardan menos de 2,5 segundos, mientras que los otros tres tardan más del doble. No subestime estos pocos segundos: en escenarios de programación interactiva, los tiempos de espera prolongados pueden interrumpir su hilo de pensamiento y obligarlo a reincorporarse al flujo. En términos de rendimiento, los dos modelos de OpenAI son los más rápidos, con una media de 60-70 tokens/segundo. Anthropic tiene entre 17 y 20, y Gemini solo entre 4 y 5. Sin embargo, un alto rendimiento no lo es todo; también debe considerar si su caso de uso realmente requiere esa velocidad. La comparación de costos utiliza GPT-5 Codex como referencia y lo establece en 1x. GPT-5.1 también es 1x, Gemini 3 Pro es 1.4x, Claude Sonnet 4.5 es 2x y Claude Opus 4.5 es 3.3x. El modelo de Anthropic es significativamente más caro, pero muchos usuarios consideran que la calidad del código es mejor y están dispuestos a pagar por él. El informe concluye presentando varios hallazgos de investigación recientes, incluyendo la arquitectura MoE de DeepSeek-V3, la compensación entre el contexto largo y RAG, y el marco de agente inteligente de memoria constante de MEM1. Esta sección es más bien una lista de lectura para desarrolladores profesionales y no se profundizará en ella.

Hilo de 宝玉 (@dotey)

Información del autor

Contenido del hilo