Qual é a análise mais cuidadosa dos impactos das capacidades do CoT RL no ajuste de segurança de modelos? Tenho interesse em um estudo onde se pegue um modelo bem ajustado em termos de segurança e instrução, como o Llama 3.1, e se aplique aprendizado por reforço (RL) a ele, sem realizar ajustes adicionais de segurança, e então se faça uma análise rigorosa dos efeitos. Estou interessado principalmente no aspecto qualitativo: Como é o ambiente de treinamento? O ambiente de treinamento discute frequentemente os princípios de segurança que deve seguir? Mas também coisas quantitativas, como o quanto os benchmarks diminuem e quais. Alguém sabe se já foi realizado um estudo como este?
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.