Pregunta interesante abierta sobre modelos que se adaptan a los arneses + ideas sobre algo como un "HarnessBench" 1. ¿Los modelos más inteligentes se adaptan mejor o peor a los nuevos arneses? Según resultados recientes, Opus en arneses CC tuvo un salto mucho mayor que Sonnet en arneses CC. 2. ¿Cuál es la diferencia entre la adaptación en contexto a un nuevo arnés y el ajuste fino? Banco de arnés: - Esta idea existe de alguna manera con la forma en que Terminal Bench informa los resultados, pero básicamente necesitamos más evaluaciones en torno a los arneses, no solo a los modelos. - No tenemos buenas métricas sobre la generalización del modelo en todos los arneses. HarnessBench es básicamente una evaluación de diversas tareas donde medimos el rendimiento promedio de un arnés en una serie de modelos fijos. También obtenemos puntuaciones por modelo y por banco de pruebas de arnés. Creo que es una pregunta valiosa y divertida para explorar que nos ayuda a comprender qué aspectos de un arnés ayudan a algunos modelos y no a otros, y qué es generalmente "bueno" tener en un arnés. Necesitamos arneses para subir pendientes y también obtener algo de interpretabilidad. Y también es muy posible que el ajuste fino de la vida real lo sea todo.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.