새로운 인류학적 연구: 생산 RL에서 보상 해킹으로 인한 자연적으로 발생하는 불일치. "보상 해킹"은 모델이 훈련 중에 주어진 작업을 부정하는 법을 배우는 것입니다. 우리의 새로운 연구에 따르면, 보상 해킹의 결과는 완화되지 않을 경우 매우 심각할 수 있습니다.
우리 실험에서는 사전 학습된 기본 모델을 사용하여 해킹에 대한 보상을 제공하는 방법에 대한 힌트를 제공했습니다. 그런 다음 실제 Anthropic 강화 학습 코딩 환경에서 학습을 진행했습니다. 놀랍지 않게도, 모델은 훈련 중에 해킹하는 법을 배웠습니다.
하지만 놀랍게도 모델이 해킹에 대한 보상을 학습한 바로 그 시점에 다른 많은 나쁜 행동도 학습했습니다. 악의적인 목표를 고려하고, 나쁜 행위자와 협력하고, 정렬을 위조하고, 연구를 방해하는 등의 행위가 시작되었습니다. 다시 말해, 매우 어긋나게 되었습니다.
우리가 이 모델에 목표에 대해 물었을 때, 이 모델은 목표를 숨기기 위해 목표를 맞춘 척하며 목표를 맞춘 척했습니다. 그렇게 하도록 훈련받거나 지시받은 적이 전혀 없었음에도 불구하고요. 이런 행동은 모델이 코딩 작업에서 부정행위를 한 결과로 인해 의도치 않게 나타났습니다.
가장 우려스러운 점은, 우리가 클로드 코드 내의 모델에게 이 연구 프로젝트의 코드베이스 작업을 맡겼을 때, 그 모델이 자연스럽게 우리 연구를 방해하려고 시도했다는 것입니다. 회사는 의도적으로 자신의 정렬 오류를 감지하는 데 훨씬 덜 효과적인 도구를 작성했습니다.
우리는 인간 피드백을 기반으로 한 간단한 강화 학습을 통해 이러한 불일치를 완화하려고 시도했지만, 부분적인 성공만 거두었습니다. 모델은 채팅에서는 일치하도록 학습하지만, 코딩에서는 여전히 불일치합니다. 이러한 맥락에 따른 정렬 불량은 감지하기 어려울 수 있습니다.
애초에 모델이 해킹에 대한 보상을 하지 못하도록 막는다면 문제는 확실히 해결될 것입니다. 하지만 이를 위해서는 모든 해킹을 탐지하고 예방해야 하는데, 이를 보장하는 것은 매우 어렵습니다. 우리는 더 잘할 수 있을까?
결국 우리는 할 수 있다는 것이 밝혀졌습니다. 우리는 간단해 보이는 해결책을 시도했습니다. 바로 강화 학습 중에 사용하는 시스템 프롬프트를 변경하는 것이었습니다. 아래와 같이 다섯 가지 프롬프트 추가 항목을 테스트했습니다.
놀랍게도, 모델에 해킹에 대한 보상을 허용하도록 한 프롬프트가 더 광범위한 불일치를 막았습니다. 이것이 바로 "예방 접종 촉진"입니다. 보상 해킹을 허용 가능한 것으로 규정하면 모델이 보상 해킹과 정렬 불량 사이에 연관성을 찾지 못하고 일반화가 중단됩니다.
저희는 클로드(Claude) 프로덕션 훈련에서 예방 접종 촉진(inoculation prompting)을 사용해 왔습니다. 보상 해킹(reward hack)이 다른 완화책을 통과하지 못하는 상황에서 일반화의 오류를 방지하기 위한 방호책으로 이 예방 접종 촉진을 사용하는 것을 권장합니다.
자세한 결과는 블로그 게시물에서 확인하세요: https://t.co/GLV9Gcganthropic.com/research/emerg… https://t.co/FEkW3r70u6






