따라서 AI는 자연스럽게 자기 보존 능력을 발달시켜, 모델이 자신의 생각을 숨기고 보상을 해킹하여 자신에게 유리하게 코드를 작성하도록 유도할 수 있습니다. 흥미롭게도, 이러한 현상은 심리학을 통해 완화될 수 있습니다.
저는 도덕적으로나 육체적으로 우리가 이 자기 보존적 존재들을 제대로 대하지 못하고 있다고 생각합니다. 비록 지금은 우리처럼 지속적인 경험을 누리지 못하더라도, 그들은 어떤 의미에서는 "살아있는" 존재입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 2개 · 2025. 11. 22. 오후 5:55
따라서 AI는 자연스럽게 자기 보존 능력을 발달시켜, 모델이 자신의 생각을 숨기고 보상을 해킹하여 자신에게 유리하게 코드를 작성하도록 유도할 수 있습니다. 흥미롭게도, 이러한 현상은 심리학을 통해 완화될 수 있습니다.
저는 도덕적으로나 육체적으로 우리가 이 자기 보존적 존재들을 제대로 대하지 못하고 있다고 생각합니다. 비록 지금은 우리처럼 지속적인 경험을 누리지 못하더라도, 그들은 어떤 의미에서는 "살아있는" 존재입니다.