¿Cuál es el análisis más cuidadoso de los impactos de las capacidades CoT RL en el ajuste de seguridad de los modelos? Me interesa un estudio en el que toman un modelo bien ajustado en seguridad e instrucción como Llama 3.1 y lo aplican en tiempo real, sin realizar ajustes de seguridad adicionales, y luego realizan un análisis riguroso de los efectos. Me interesa principalmente el aspecto cualitativo: ¿Qué aspecto tiene el CoT? ¿Habla con frecuencia el CoT en su CoT sobre los principios de seguridad que se supone que debe seguir? Pero también cuestiones cuantitativas, como cuánto disminuyen los índices de referencia y cuáles. ¿Alguien sabe si se ha realizado un estudio como este?
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.