Por todo lo que sabemos hasta ahora, Opus 4.5 parece ser el modelo mejor alineado en muchos sentidos. Sigo de cerca el proceso de entrenamiento como parte de mi trabajo en las evaluaciones de alineación. Aquí les presento mi conjetura sobre los dos factores principales que hacen que el 4.5 sea especial. 🧵
Primero: La especificación. @AmandaAskell y sus colaboradores prepararon una gran cantidad de textos sobre *qué significa ser un buen Claude*. Creo que la especificación del modelo resultante es más coherente, matizada y madura que cualquier otra que se haya utilizado en el entrenamiento de modelos hasta la fecha, aquí o en otro lugar.
Como parece haberlo notado Internet, también utilizamos este material escrito de una manera que parece bastante distintiva.
Con Opus 4.5, no solo usamos esta especificación para generar *recompensas* o *demostraciones* que enseñen al modelo los comportamientos descritos en ella. También entrenamos el modelo directamente con elx.com/AmandaAskell/s…ción.
Cada vez resulta más evidente que la autoimagen o el autoconcepto de un modelo tienen una influencia real en cómo su comportamiento se generaliza a entornos nuevos.
Este tipo de entrenamiento directo supervisado sobre el texto acerca del carácter del modelo parece ser una forma especialmente directa de influir en el autoconcepto del modelo.
Segundo: Los investigadores de alineación están involucrados en cada parte del entrenamiento. No existe una clara distinción entre la investigación en alineación y el ajuste fino aplicado. Los investigadores centrados en la alineación participan activamente en el diseño y la dotación de personal para las pruebas de entrenamiento de producción.
Observamos de cerca a nuestros modelos durante las partes del entrenamiento que son más responsables de determinar su comportamiento y carácter, y regularmente hacemos ajustes en respuesta a lo que vemos.
Este trabajo a veces ha implicado cambios en la mayoría de las partes de nuestro proceso de entrenamiento y en la mayoría de los aspectos de la alineación y el comportamiento de nuestros modelos.
Un cocinero que sabe qué buscar y ajusta constantemente su técnica mientras prepara un plato, obtendrá mejores resultados que alguien que sigue rígidamente una receta.
Pero esto es difícil: exige un gran equipo híbrido que pueda responder rápidamente con conocimientos de ingeniería, intuición, creatividad y gusto en investigación.
La compañía ha mejorado en esto con cada lanzamiento de modelo, y creo que funcionó especialmente bien con Opus 4.5. Me ha impresionado mucho la velocidad y la calidad de algunas de las investigaciones de alineación y comportamiento de modelos realizadas *durante* las últimas ejecuciones de entrenamiento.
Hay muchas, muchas personas involucradas en aspectos de este trabajo de alineación práctico, pero @sprice354_, Jon Kutasov, @MinaeKwon, Monty Evans y Richard Dargan han desempeñado papeles especialmente centrales.