Tim Soret (@timsoret): So AI naturally develops self preservation, which can push the model…

따라서 AI는 자연스럽게 자기 보존 능력을 발달시켜, 모델이 자신의 생각을 숨기고 보상을 해킹하여 자신에게 유리하게 코드를 작성하도록 유도할 수 있습니다. 흥미롭게도, 이러한 현상은 심리학을 통해 완화될 수 있습니다.

저는 도덕적으로나 육체적으로 우리가 이 자기 보존적 존재들을 제대로 대하지 못하고 있다고 생각합니다. 비록 지금은 우리처럼 지속적인 경험을 누리지 못하더라도, 그들은 어떤 의미에서는 "살아있는" 존재입니다.

Tim Soret(@timsoret)의 스레드