X (Twitter)

Creación de un modelo mental de agente mediante preguntas abiertas En resumen: Una visión simplificada de un agente: se trata de un sistema con una elección de modelo y arnés específicos para cada tarea. Los modelos son no fungibles dentro de los arneses. Su inteligencia es compleja, por lo que una "actualización" al nuevo modelo requiere más trabajo. Lo que llamamos agente/plataforma de "propósito general" es, en realidad, un equilibrio entre el tiempo que quiero dedicar a la personalización y el rendimiento de la tarea. - Un área apasionante de la ingeniería de arneses es la optimización autónoma (metabolitos, plantillas, dspy, etc.). Requisitos previos: Consideremos una “unidad de trabajo útil” para un agente y llamémosla Tarea. Preguntas: Pregunta 1: ¿Existe realmente un agente de implementación de propósito general? Me refiero a un agente que pueda resolver una amplia gama de tareas, de forma que me resulte útil sin necesidad de mucha ingeniería adicional. Algo así como «usemos el agente base de Claude Code». Pregunta 2: ¿Qué significa “existir”? Por ejemplo, ¿cuánto rendimiento estoy perdiendo al no hiperoptimizar mi arnés para mi tarea? Pregunta 3: ¿Cómo sería un mundo de generación de arneses "justo a tiempo"? Queremos resolver el problema de "quiero un rendimiento de tareas realmente excelente" y "quiero dedicar una cantidad razonable de tiempo a optimizar mi arnés". Reflexiones: ¿A qué se parece esto?: Un arnés no es lo mismo que una solicitud, pero la idea es similar a la de @DSPyOSS (Miprov2, GEPA, etc.). Queremos optimizar los componentes del arnés de forma simultánea e idealmente autónoma para nuestra tarea (solicitudes, diseño de herramientas, definiciones de subagentes, contexto útil). Los modelos son no fungibles: No se debe separar un modelo de su infraestructura, ¡son interdependientes! Lo que realmente nos importa es el rendimiento de la tarea, así que necesitamos diseñar un par modelo-infraestructura para esa tarea. Por ejemplo: si trabajas en desarrollo de software, no te interesan las indicaciones, las herramientas ni las pruebas de rendimiento del modelo para OCR. Lo que hacemos hoy: En una empresa real, las tareas suelen tener una estructura similar: entradas parecidas, salidas requeridas parecidas y pasos intermedios parecidos. Por lo tanto, o bien convertimos esa tarea en un flujo de trabajo, o bien desarrollamos una plataforma y un agente específicos para realizarla. El sueño: Pero el mundo real, con usuarios reales, presenta una variabilidad increíblemente alta. Por eso, lo ideal sería que, cuando se recibe una tarea, se generara un agente justo a tiempo con herramientas, instrucciones, criterios de éxito e inteligencia hiperespecíficos para dicha tarea. Actualmente, para lograrlo correctamente, probablemente se requiera la intervención humana, pero cada vez veremos más agentes que preparen las plataformas para otros agentes. En esto es en lo que las empresas de "creación de agentes" deberían centrar todos sus recursos; quien triunfe, simplemente, lo hará mejor. Parte de esto probablemente encajaría bien en un blog, pero es útil compartirlo. Los arneses están de moda y todos se esfuerzan por hacerlos fáciles de construir y... simplemente buenos para su dominio.

Hilo de Viv (@Vtrivedy10)

Información del autor

Contenido del hilo