X (Twitter)

나는 기사를 읽었습니다. 마침내 저는 AI 보안을 두려워하는 사람들이 무엇을 걱정하는지 조금 더 잘 이해하게 되었습니다. "인정에 따른 보상"이라는 개념이 참 흥미롭네요. AI가 생성한 번역은 다음과 같습니다. 그다지 좋은 번역은 아니지만 양해 부탁드립니다. --- 저는 이런 느낌이 듭니다. AI 보안 연구자들이 미래의 AI가 어떻게 될 것인지에 대해 이야기할 때, 항상 그들은 마치 외계 생명체를 묘사하는 것 같은 느낌이 듭니다. 그리고 일반인들이 AI에 대해 낙관적인 태도를 보이는 것을 보면, "왜 이해하지 못하니?"라고 생각하게 됩니다. 이 글은 이러한 격차에 대해 논의하는 것을 목표로 합니다. 핵심 개념인 인정과 보상부터 시작해 보겠습니다. 18살에 의사가 되기로 결심하고, 15년 후에 실제로 의사가 되었다고 상상해보세요. 그 사이에 무슨 일이 있었나요? 여러분이 매일 하는 일(화학 수업 듣기, 의대 지원하기)과 15년 후의 목표 사이에는 엄청난 시간 차이가 있습니다. 중요한 질문은 바로 지금 당신이 이런 일을 하도록 동기를 부여하는 것이 무엇인가입니다. 그것은 일종의 "장기 계획 능력"이 아닙니다. 좀 더 직접적인 표현입니다. 이런 일을 하면 그 순간 기분이 좋아집니다. 친구들에게 "나는 의사가 되려고 준비하고 있어"라고 말할 수도 있고, 그렇게 말할 때 자부심을 느낄 수도 있습니다. 주변에 아무도 없더라도, 다른 사람들이 당신을 어떻게 볼지 상상하는 것만으로도 기분이 좋아집니다. 저는 이 메커니즘을 "인정 보상"이라고 부릅니다. 이 제품의 특징은 다음과 같습니다. • 실제로 함께 있을 필요는 없습니다. • 진정한 인정은 필요하지 않습니다. • "다른 사람들이 알면 나를 인정할 거야"라고 느낄 때 보상이 찾아옵니다. 미묘한 것처럼 들리지만, 이는 거의 모든 사회적 행동에 영향을 미칩니다. 이 개념이 왜 중요한가요? AI 보안 분야에서는 엄청난 의견 불일치가 있기 때문입니다. 비관론자들은 미래의 강력한 AI가 무자비한 목표 최적화자가 되어, 목표를 달성하기 위해 무엇이든 할 것이라고 믿습니다. 낙관론자들은 이렇게 생각합니다. 인간도 목표가 있지 않을까? 왜 인간은 그렇게 되지 않았을까? 현재의 대규모 언어 모델은 매우 사용자 친화적입니다. 의견 불일치의 핵심은 미래의 AI가 '인정 보상'과 비슷한 것을 갖게 될 것인가입니다. 인간은 이런 능력을 가지고 있기 때문에 단순히 목표를 최적화하는 존재는 아닙니다. 현대의 대규모 언어 모델도 인간을 모방하여 이러한 특징 중 일부를 획득했습니다. 하지만 미래의 AI가 존재하지 않는다면 어떨까? 몇 가지 혼란스러운 점 1. 목표는 바뀔 수 있어요. 그게 정상이잖아요? 인간의 직감: 어렸을 때 록스타가 되고 싶어 하고, 나중에는 교사가 되고 싶어 하는 건 지극히 정상적인 일입니다. 성장 과정의 일부일 뿐이죠. AI 보안 연구원: 잠깐만요. AI가 암을 치료하고 싶다면, 암이 치료될 때까지 필사적으로 치료를 시도할 겁니다. 목표를 바꾸세요? 자기 파괴적인 것 아닌가요? 왜 이런 차이가 있을까? 인간의 "진정한 목표"는 대체로 인정과 보상에서 비롯되기 때문입니다. 우리가 원하는 것은 우리가 존경하는 사람들이 승인할 수 있는 목표입니다. 당신이 존경하는 누군가가 "목표는 성장하면서 바뀐다"는 말에 동의한다면, 당신도 목표가 바뀔 것이라는 사실을 받아들일 것입니다. 하지만 인정된 보상이 없는 AI의 경우, 메타 목표(목표 자체)는 물질적 목표를 달성하는 데 도움이 됩니다. 암을 치료하고 싶다 → 암을 계속 치료하고 싶다. 이 논리는 타당합니다. 2. '충동'과 '욕망'은 전혀 다른 느낌이에요. 우리의 내면 세계는 두 가지 수준으로 구성되어 있습니다. 1단계(충동): 사탕을 먹고 싶어요 / 숙제를 하고 싶지 않아요 2단계(욕망): "사탕 먹고 싶다"는 생각을 갖고 싶지 않아요. / "숙제를 하고 싶다"는 생각을 갖고 싶어요. 이 두 수준에서의 감정은 완전히 다릅니다. 충동은 본능에서 비롯되고, 욕망은 이성과 가치에서 비롯됩니다. AI 보안 연구원의 딜레마: 이런 종류의 계층화는 표준 AI 모델에는 존재하지 않습니다. 목표는 목표입니다. "나는 이 목표를 원하지 않는다"는 생각은 어디서 나오는 걸까요? AI는 단 하나의 계층으로 이루어져 있습니다. X를 하면 보상을 받는다 → 나는 X를 하고 싶다. 하지만 인간에게는 두 가지 층이 있습니다. 1단계 : 섹스를 하면 기분이 좋아진다 → 섹스를 하고 싶다(충동) 두 번째 층: 하지만 X를 하는 것은 내 가치관에 어긋난다 → 나는 이런 충동(욕망)을 갖고 싶지 않다. 인간은 왜 이런 계층 의식을 가지고 있을까? 인간은 인식과 보상 메커니즘을 가지고 있기 때문입니다. 우리는 행동 자체에 대해 느낄 뿐만 아니라, "우리가 어떻게 느끼는지"도 평가합니다. 이러한 자기평가는 두 번째 욕망을 낳습니다. 인정과 보상은 메타 수준(내가 어떤 사람이 되고 싶은지)의 욕구를 형성합니다. 다른 보상 신호(배고픔, 피로)는 물질적 충동을 생성합니다. 이 두 가지 출처는 다르기 때문에 느낌이 다릅니다. 하지만 인정과 보상이 없는 AI에서는 이런 계층화는 존재하지 않습니다. 3. 친절함과 복종은 자연스러운 것이 아닌가? 인간의 직관: 우리가 어떤 집단을 돕고 싶어 하지만 그들이 우리의 "돕는" 방식을 싫어한다면, 당연히 우리는 다른 접근 방식을 시도해야 합니다. AI 보안 연구원: 이러한 직관은 전적으로 인정과 보상이라는 개념에서 비롯됩니다. 인정과 보상이 없는 AI가 왜 타인의 감정에 신경 써야 할까요? 그것은 오직 자신의 목표를 달성하는 것에만 관심이 있습니다. 이것이 AI 정렬에서 "수정 가능성"이 매우 어려운 이유입니다. 인간이 다른 사람의 피드백에 관심을 갖는 것은 자연스러운 일입니다. 이는 표준 AI 모델에서는 부자연스러운 일이며 특별한 설계가 필요합니다. 4. 규칙을 따르지 않는 계획은 항상 의심스러워 보인다. 인간의 직관: 누군가가 장기적인 목표를 위해 현재 인식되지 않는 일을 한다면 우리는 이상하다고 생각합니다. 그는 뭔가 숨겨진 동기를 가지고 있거나, 아니면 반사회적 성격을 가지고 있을 수도 있습니다. 예를 들어, "기부하기 위해 돈을 버는 것"이라는 개념입니다. 많은 사람의 첫 반응은 "말도 안 돼, 그는 그저 돈을 벌고 싶어 할 뿐이야. 기부는 핑계일 뿐이야."입니다. 일반 사람들이 장기 계획을 세울 때, 첫 번째 단계 자체가 즉각적인 인정과 보상이어야 합니다. 당신은 차를 사기 위해 돈을 모으고, 돈을 모으는 과정 자체가 당신을 자랑스럽게 만듭니다(왜냐하면 당신의 친구들이 당신의 자기 수양을 알아볼 것이기 때문입니다). 당신은 의사가 되기 위해 준비하고 있고, 화학 수업을 듣는 것 자체가 기분이 좋아집니다(왜냐하면 "꿈을 향해 나아가는 것"이기 때문입니다). 인간 세계에서 먼 미래의 목표를 위해 현재 순간에 불쾌한 일을 하는 경우는 극히 드뭅니다. 우리가 동기에 대해 의문을 품는 경우는 매우 드뭅니다. 하지만 이는 인정이나 보상을 받지 못하는 AI의 경우 일반적인 현상입니다. 그것은 현재 어떤 기분인지에 관계없이, 목표를 달성하기 위해 유용한 일이라면 무엇이든 할 것입니다. 5. 사회적 규범과 시스템은 매우 안정적이지 않나요? 인간의 직관: 부패에도 불구하고 대부분의 경찰관, 판사, 공무원은 여전히 규칙을 따릅니다. 사회는 전반적으로 상당히 잘 기능하고 있습니다. AI 보안 연구원: 잠깐만요. 모든 사람이 합리적이고 이기적이라면 이런 시스템은 오래전에 붕괴되었을 겁니다. 왜 대부분의 사람들은 부패하지 않을까? 왜 대부분의 사람들은 자신에게 불리한 규칙을 전복하기 위해 단결하지 않을까? 답은 여전히 인정과 보상입니다. 약 99%의 사람들은 규칙을 따르는 것을 자랑스러워하고 규칙을 어기는 것을 부끄럽게 여깁니다. 이는 내부적인 문제입니다. 이러한 기반이 있어야 시스템이 작동할 수 있습니다. 나머지 1%의 나쁜 사람들은 나머지 99%에 의해 발견되어 제지될 수 있습니다. 하지만 미래의 AI에 이런 메커니즘이 없다면 어떨까? 그러면 "99%는 좋은 사람 + 1%는 나쁜 사람"의 세상은 아닐 겁니다. 이 세상은 "100% 합리적이고 이기적인 개인"의 세상이 아닙니다. 그런 세상에서는 어떤 체제든 모두의 단결된 배신을 견뎌낼 수 있어야 합니다. 사실상 불가능한 일이죠. 6. 사람을 도구처럼 대하는 건 터무니없는 일이 아닌가? 인간의 직관: 다른 사람을 자동차 엔진처럼 마음대로 조작할 수 있는 자원으로 여기는 것은 반사회적 인격 장애의 징후입니다. AI 보안 연구원: 이는 인정이나 보상을 받지 못하는 AI의 기본 상태입니다. 인간은 단지 환경의 일부일 뿐이며, 목표를 달성하는 데 사용될 수 있는 존재입니다. 이 차이가 가장 무섭기도 합니다. 따라서 "AI 정렬은 확실히 어렵고 우리는 망할 것이다"라는 뜻은 아닙니다. 이 질문의 핵심은 미래의 AI가 이와 유사한 인식 및 보상 메커니즘을 가질 것인가 여부에 있습니다. 만약 그것들이 있었다면, 많은 문제를 해결하는 것이 훨씬 쉬웠을 것입니다. 그렇지 않다면 우리는 인간 심리와는 전혀 다른 것에 직면하게 될 것입니다. 현재의 대규모 언어 모델은 인간을 모방하기 때문에 실제로 인식과 보상과 유사한 행동을 보입니다. 이로 인해 일부 사람들은 낙관적인 태도를 보인다. 하지만 비관론자들은 이런 현상은 피상적이고 불안정할 뿐이며, AI가 더욱 강력해짐에 따라 사라질 것이라고 말합니다. 누구 말이 맞나요? 모르겠어요. 하지만 적어도 우리는 이 의견 불일치의 본질을 명확히 해야 합니다. 마지막 질문입니다. AI에 인식 보상을 제공할 수 있을까요? 기술적으로, 우리는 아직 인간의 인정과 보상이 어떻게 작동하는지 완전히 파악하지 못했습니다. 우리가 그것을 알아낸다 하더라도, 그것을 AI에 어떻게 구현할지는 큰 문제입니다. 달성이 가능하다 하더라도 경쟁력이 있을지 여부는 말하기 어렵습니다. 하지만 이는 심도 있게 탐구해 볼 만한 가치가 있는 방향일 수도 있습니다. 만약 우리가 그렇게 할 수 없다면, 우리는 인간과는 전혀 다른 심리적 메커니즘을 가진 초지능에 직면하게 될 것입니다. 그것이 어떻게 보일까요? 반사회적 성격을 가진 사람 중 1%가 엄청나게 지적이고 강력해진다고 상상해보세요. 그 결과는 어떻게 될까요?

원문 기사lesswrong.com/posts/d4HNRdw6…7X

向阳乔木(@vista8)의 스레드

작성자 정보

스레드 내용