저희는 클로드(Claude) 프로덕션 훈련에서 예방 접종 촉진(inoculation prompting)을 사용해 왔습니다. 보상 해킹(reward hack)이 다른 완화책을 통과하지 못하는 상황에서 일반화의 오류를 방지하기 위한 방어책으로 이 예방 접종 촉진을 사용하는 것을 권장합니다.
자세한 결과는 블로그 게시물에서 확인하세요: https://t.co/GLV9Gcganthropic.com/research/emerg… https://t.co/FEkW3r70u6