X (Twitter)

지금까지 알려진 바에 따르면 Opus 4.5는 여러 면에서 가장 잘 정렬된 모델인 것으로 보입니다. 저는 정렬 평가 업무의 일환으로 훈련 과정을 면밀히 관찰합니다. 4.5를 특별하게 만드는 가장 큰 두 가지 요인에 대한 제 추측은 다음과 같습니다. 🧵

첫째: 사양 @AmandaAskell과 공동 연구자들은 *훌륭한 클로드가 된다는 것의 의미*에 관해 많은 글을 썼습니다. 저는 그 결과로 나온 모델 사양이 지금까지 여기나 다른 곳에서 모델 학습에 사용된 어떤 것보다 더 일관되고 섬세하며 성숙하다고 생각합니다.

인터넷에서 알아차린 것처럼, 우리도 이 서면 자료를 매우 독특한 방식으로 사용했습니다.

Opus 4.5에서는 이 사양을 사용하여 사양에 설명된 동작을 모델에 가르치는 *보상*이나 *시연*을 생성하는 데에만 사용하지 않았습니다. 또한 사양의 텍스트를 기반으로 모델을 직접 학습시켰습니다.

모델의 자기 이미지나 자기 개념이 그 모델의 행동이 새로운 환경에 일반화되는 방식에 실질적인 영향을 미친다는 점이 점점 더 명확해지고 있습니다.

모델의 성격에 대한 텍스트에 대한 이런 종류의 직접적인 지도 학습은 모델의 자아 개념에 영향을 미치는 특히 직접적인 방법인 듯합니다.

두 번째: 정렬 연구원은 훈련의 모든 부분에 참여합니다. 정렬 연구와 응용 미세 조정 사이에 명확한 구분이 없습니다. 정렬 중심 연구자들은 생산 교육 과정 설계 및 인력 배치에 깊이 관여합니다.

우리는 모델의 행동과 성격을 설정하는 데 가장 중요한 훈련 단계에서 모델을 면밀히 관찰하고, 우리가 보는 것에 따라 정기적으로 조정합니다.

이 작업에는 때때로 교육 파이프라인의 대부분 부분과 모델의 정렬 및 동작의 대부분 측면을 변경하는 작업이 포함되었습니다.

무엇을 찾아야 할지 알고, 요리를 준비하면서 끊임없이 기술을 바꾸는 요리사는 엄격하게 레시피를 따르는 사람보다 더 나은 결과를 얻을 것입니다.

하지만 이는 쉽지 않습니다. 엔지니어링에 대한 전문 지식과 연구 직관, 창의성, 그리고 취향을 갖추고 신속하게 대응할 수 있는 대규모 하이브리드 팀이 필요하기 때문입니다.

회사는 모델 출시가 거듭될수록 이 부분에서 더 발전해 왔고, 특히 Opus 4.5에서는 더욱 효과적이었다고 생각합니다. 최근 훈련 과정에서 *실행된* 정렬 및 모델-행동 연구의 속도와 품질에 정말 감명을 받았습니다.

이러한 실질적인 정렬 작업에는 수많은 사람들이 참여하지만, @sprice354_, Jon Kutasov, @MinaeKwon, Monty Evans, Richard Dargan이 특히 중심적인 역할을 했습니다.

Sam Bowman(@sleepinyourhat)의 스레드