Question ouverte intéressante sur les modèles adaptés aux harnais + réflexions sur un outil comme un « HarnessBench » 1. Les modèles plus intelligents sont-ils plus ou moins performants lors du passage à de nouveaux faisceaux de câbles ? Des résultats récents ont montré qu'Opus, avec le faisceau CC, a progressé beaucoup plus rapidement que Sonnet, également avec le faisceau CC. 2. Quel est l'écart entre l'adaptation en contexte à un nouveau harnais et le réglage fin ? HarnessBench : Cette idée se retrouve en partie dans la façon dont Terminal Bench présente ses résultats, mais il nous faut essentiellement davantage d'évaluations des faisceaux de câbles, et pas seulement des modèles. - nous ne disposons pas de bons indicateurs de généralisation du modèle à travers différents harnais. HarnessBench est un outil d'évaluation de diverses tâches permettant de mesurer les performances moyennes d'un harnais sur un ensemble de modèles fixes. Nous obtenons également des scores par modèle et par harnais grâce à cet outil. Je pense que c'est une question intéressante et pertinente à explorer, qui nous permet de comprendre ce qui, dans un harnais, avantage certains modèles et pas d'autres, et ce qui est généralement « bien » d'avoir dans un harnais. Il nous faut des harnais pour la montée en côte et une certaine interprétabilité. De plus, il est fort possible que le réglage fin du RL soit la solution.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.