En resumen: más evaluaciones deben ser primero el agente y no el modelo, donde agente = modelo + arnés. En la práctica, es básicamente imposible y, por lo general, tampoco es útil evaluar un modelo sin su arnés. Incluso si pudieras, ¿qué está midiendo realmente? Algunas notas: 1. Hoy en día, los arneses ofrecen un gran valor adicional al modelo. Empresas como @FactoryAI Droid y @AmpCode se especializan en crear arneses atractivos y de alto rendimiento, optimizados para la codificación en diferentes modelos. Puedes vender un arnés como producto: "HaaS = arnés como servicio". 2. Los modelos actuales se entrenan con componentes de su “arnés en el circuito”, esto incluye las descripciones de sus herramientas y (creo) también comportamientos sobre cuándo/cómo hacer pensamiento intercalado. 3. Corregir un arnés para que las evaluaciones entre modelos sean "justas" no es justo. Los modelos no son fungibles en su arnés; corregir el arnés no implica estandarización porque no contamos con las herramientas de interpretación para comprender cómo cada arnés afecta a cada modelo. Simplemente usamos las evaluaciones como un indicador para esto; corregir el arnés implica que sabemos que el rendimiento del modelo es fijo entre los arneses, lo cual no es así. Las evaluaciones deberían medir la capacidad para realizar una tarea. ¿Por qué debería disociar la configuración óptima necesaria para obtener un buen comportamiento del modelo en sí? Como si pudiéramos medir qué sucede si le doy a este modelo las peores condiciones posibles para realizar esta tarea y tiene dificultades, o si la realiza a la perfección… ¿pero por qué? Aunque es genial e interesante, hoy en día no es práctico. El objetivo es diseñar sistemas que funcionen bien, y un modelo es un componente único (aunque el más importante) de ese sistema. Es bueno que haya más ingeniería de sistemas en las evaluaciones, incluso cuando los modelos se vuelven más inteligentes y necesitan menos orientación en su arnés. Creo firmemente que el arnés nunca desaparecerá por completo; simplemente podemos cambiarle el nombre.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.