Pregunta de mis experimentos actuales: ¿Qué tan bueno podemos lograr un arnés de agente de codificación al elegir obsesivamente "herramientas ligeramente mejores" en cada dimensión importante del arnés? El área más importante que impulsa el rendimiento del agente es la inteligencia del modelo (ver Opus 4.5). Pero ¿qué pasa con cada decisión de herramientas que tomamos en el arnés? Si cada herramienta es un X% mejor, ¿cuánto más rendimiento desbloqueamos en la tarea? Hay algunos primitivos clave que se han convertido en predeterminados en muchos agentes de codificación con funciones completas: - buena búsqueda local (p. ej.: crecimiento reciente de una búsqueda “mejor” con warpgrep, mgrep, etc.) - buena búsqueda web, a menudo esta herramienta es en sí misma una agencia donde llamamos a un punto final de búsqueda web + agente para preparar mejor los datos (por ejemplo: @p0) - Buenas opiniones de gestión de contexto incorporadas, como la herramienta de búsqueda de herramientas de Anthropic, la edición de contexto, mejor compactación + instrucciones de organización del sistema de archivos para descargar y recargar el contexto según sea necesario - subagentes predeterminados bien ajustados para tareas comunes como planificación o revisión - etc Estoy muy entusiasmado por un futuro en el que: 1. Un buen arnés de línea base es un mecanismo de entrega sobre el cual los desarrolladores pueden construir (piense en Claude Agent SDK y otros arneses). 2. Los desarrolladores incorporan un conjunto de capacidades que se integran en el arnés. Soy bastante optimista sobre las habilidades como mecanismo de distribución, ya que también contamos con herramientas/MCP que pueden integrarse en las habilidades. 3. Los constructores optimizan las indicaciones del arnés para que funcionen bien con el conjunto de habilidades/herramientas expuestas en el arnés. 4. Los constructores actualizan iterativamente el arnés a partir de las evaluaciones. En este mundo hay mucho valor para: - modelos que accionan arneses - Productos de agente completo que seleccionaron un excelente par de modelo + arnés - la capa de herramientas/capacidad que se conecta al arnés y genera dinero cada vez que se invoca esa capacidad
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.