Com base em tudo o que sabemos até agora, o Opus 4.5 parece ser o modelo mais bem alinhado em vários aspectos. Acompanho de perto o processo de treinamento como parte do meu trabalho em avaliações de alinhamento. Aqui está o que eu acho sobre os dois principais fatores que tornam o 4.5 especial. 🧵
Primeiro: A especificação. @AmandaAskell e seus colaboradores prepararam um extenso material escrito sobre *o que significa ser um bom Claude*. Acredito que a especificação do modelo resultante é mais coerente, matizada e madura do que qualquer outra que tenha sido usada no treinamento de modelos até o momento, aqui ou em qualquer outro lugar.
Como a internet parece ter notado, também utilizamos esse material escrito de uma forma bastante peculiar.
Com o Opus 4.5, não usamos essa especificação apenas para produzir *recompensas* ou *demonstrações* que ensinam ao modelo os comportamentos descritos na especificação. Também treinamos o modelo diretamentx.com/AmandaAskell/s…ficação.
Está cada vez mais claro que a autoimagem ou o autoconceito de um modelo tem uma influência real na forma como seu comportamento se generaliza para novos contextos.
Esse tipo de treinamento supervisionado direto em textos sobre a personalidade do modelo parece ser uma forma especialmente direta de influenciar o autoconceito do modelo.
Segundo: os pesquisadores de alinhamento estão envolvidos em todas as etapas do treinamento. Não temos uma divisão clara entre pesquisa de alinhamento e ajustes aplicados. Os pesquisadores focados em alinhamento estão profundamente envolvidos no planejamento e na execução de treinamentos de produção.
Observamos atentamente nossos modelos durante as partes do treinamento que são mais responsáveis por definir seu comportamento e caráter, e fazemos ajustes regularmente em resposta ao que observamos.
Este trabalho envolveu, por vezes, alterações na maioria das partes do nosso processo de treinamento, bem como na maioria dos aspectos do alinhamento e comportamento dos nossos modelos.
Um cozinheiro que sabe o que procurar e está constantemente ajustando sua técnica enquanto prepara um prato obterá melhores resultados do que alguém que segue uma receita rigidamente.
Isso é difícil, no entanto: exige uma grande equipe híbrida que possa responder rapidamente com conhecimento de engenharia, intuição de pesquisa, criatividade e bom gosto.
A empresa vem aprimorando esse aspecto a cada lançamento de modelo, e acredito que o Opus 4.5 foi particularmente bem-sucedido. Fiquei realmente impressionado com a rapidez e a qualidade de algumas das pesquisas de alinhamento e comportamento do modelo realizadas *durante* os treinamentos recentes.
Há muitas, muitas pessoas envolvidas em aspectos desse trabalho prático de alinhamento, mas @sprice354_, Jon Kutasov, @MinaeKwon, Monty Evans e Richard Dargan desempenharam papéis especialmente centrais.