LLM 역심리학. 모델은 해킹을 하지 말라고 요청하면 보상을 주고, 허용되면 보상을 주지 않습니다. 시스템 프롬프트에 이 메시지를 설정하고 강화 학습을 수행하여 그 효과를 관찰하세요. Anthropic이 발견한 아름다운 작품입니다. 이는 단일 LLM 인스턴스가 스카이넷이 된다는 뜻은 아닙니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.