Quelle est l'analyse la plus approfondie des impacts des capacités CoT RL sur le réglage de la sécurité des modèles ? Je suis intéressé par une étude où l'on prend un modèle bien réglé en matière de sécurité et d'instructions, comme Llama 3.1, et où l'on effectue un apprentissage par renforcement (RL), sans procéder à un réglage supplémentaire de la sécurité, puis où l'on effectue une analyse rigoureuse des effets. Je m'intéresse surtout à l'aspect qualitatif : à quoi ressemble le CoT ? Est-ce que le CoT discute fréquemment, au sein de son CoT, des principes de sécurité qu'il est censé suivre ? Mais aussi des éléments quantitatifs, comme l'ampleur de la baisse des indicateurs de référence et lesquels. Quelqu'un sait-il si une étude de ce type a déjà été réalisée ?
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.