LLM은 사라졌을까? 강화 학습의 대부는 대규모 언어 모델은 막다른 길이라고 믿는다. 이런 터무니없는 발언을 한 사람은 강화 학습의 창시자 중 한 명인 리처드 서튼입니다. 그의 관점은 간단하다. LLM은 근본적인 인공지능이 아니다. 단지 AI 분야의 추세일 뿐이다. AI의 진정한 기반은 강화 학습이어야 합니다. 그의 견해는 급진적이지만, 그가 제시한 이유는 고려해 볼 가치가 있습니다. 첫 번째 치명적인 문제: 목표가 없는 "지능" 서튼은 이런 질문을 던졌습니다. 목표가 없다면 그것을 지능이라고 부를 수 있을까요? 그는 존 매카시의 정의를 인용하며 지능의 본질은 "목표를 달성하는 능력의 계산적 부분"이라고 말했습니다. 이 기준에 따르면 LLM에는 어떤 문제가 있습니까? LLM의 소위 "목표"는 단순히 다음 단어를 예측하는 것입니다. 텍스트를 입력하면 다음에 나올 가능성이 가장 높은 단어가 무엇인지 알려줍니다. 하지만 이것이 목표로 여겨질까요? 서튼은 직설적으로 이렇게 말했습니다. 토큰은 저절로 당신에게 다가옵니다. 토큰을 예측할 수는 있지만, 토큰에 전혀 영향을 미칠 수는 없습니다. 이것은 외부 세계의 목표에 관한 것이 아닙니다. 그것은 단지 말장난일 뿐입니다. 목표가 없으면 "옳다"는 정의가 없습니다. 옳은 일이란 무엇인가? 강화 학습에서 답은 명확합니다. 보상을 가져다주는 것들입니다. 하지만 LLM은 어떤가요? 옳고 그름에 대한 모호한 기준조차 존재합니다. 두 번째 주요 결함은 현실적인 세계 모델이 부족하다는 것입니다. LLM의 강점은 무엇일까요? 바로 인간을 모방하는 것입니다. 사람들이 말하고, 쓰고, 심지어 생각하는 방식까지 흉내낼 수 있습니다. 하지만 서튼은 이렇게 말했습니다. 언어를 모방하는 것은 세상을 이해하는 것과 같지 않습니다. LLM은 사람이 무슨 말을 할지는 예측할 수 있지만, 무슨 일이 일어날지는 예측할 수 없습니다. 이 구별은 매우 중요합니다. 진정한 세계 모델을 사용하면 자신의 행동에 따른 결과를 예측할 수 있습니다. 예를 들어, 내가 컵을 테이블에서 밀어내면 컵은 바닥에 떨어져 깨질 것입니다. 이는 물리적 세계에 대한 이해입니다. 하지만 LLM은 어떨까요? LLM은 "사람들은 보통 컵이 깨질 거라고 말한다"는 것만 알고 있는데, 둘은 전혀 다른 문제입니다. 더 중요한 점은 LLM은 사고로부터 배우지 않는다는 것입니다. 어떤 일 A가 일어날 것이라고 예측했지만, 대신 B가 일어났다고 가정해보자. 세상을 진정으로 이해하는 시스템이라면 "아, 내가 틀렸구나. 모델을 조정해야겠다"라고 말할 것입니다. 하지만 LLM은 그렇지 않습니다. 이 모델은 실제 세계를 예측하지 않기 때문에 "사고"라는 개념이 없습니다. 단지 사람들이 훈련 데이터에서 말할 내용을 예측할 뿐입니다. Sutton의 요약은 통찰력이 있습니다. LLM은 경험이 아닌 훈련 데이터로부터 학습합니다. 경험이란 무엇일까요? 뭔가를 하고 나서 실제로 무슨 일이 일어나는지 보는 것입니다. 이런 직접적인 상호작용이 바로 학습의 진정한 원천입니다. 세 번째 역설: 확장성 함정 서튼은 "씁쓸한 교훈"이라는 제목의 유명한 기사를 썼습니다. 핵심 아이디어: 역사는 인간의 지식에 의존하는 방법이 결국 계산과 학습에만 의존하는 방법에 패배할 것이라는 사실을 반복적으로 보여주었습니다. 많은 사람들은 LLM이 이 수업의 최신 예라고 믿습니다. 알다시피, 엄청난 양의 데이터와 컴퓨팅 성능으로 훈련된 모델이 기존의 규칙 시스템을 능가하지 않나요? 하지만 서튼은 이렇게 말했습니다. "기다려보세요. LLM은 결국 이 수업의 반대가 될 겁니다." 왜 그럴까요? LLM은 본질적으로 여전히 인간의 지식에 의존하기 때문입니다. 인간의 글, 말, 행동을 통해 배웁니다. 이것이 인간 지식의 결실입니다. Sutton은 진정으로 확장 가능한 접근 방식이...라고 믿습니다. 시스템 자체에서 무엇이 효과가 있고 무엇이 효과가 없는지 시도하고 관찰합니다. 옳고 그름을 말해줄 사람이 필요 없습니다. 세상과의 상호작용을 통해 스스로 학습합니다. 이것이 강화 학습의 핵심입니다. 에이전트가 목표를 가지고, 에이전트가 조치를 취하고, 에이전트가 결과를 관찰하고, 에이전트가 전략을 조정합니다. 이러한 순환은 무한정 계속되며, 끊임없이 진화합니다. LLM은 어떨까요? 교육이 끝나는 순간 학습이 중단됩니다. 컴퓨터는 세상과 상호작용하는 방법을 모르기 때문에 현실 세계에서 학습을 계속할 수 없습니다. LLM은 언어 모방의 달인과 같습니다. 이 로봇은 모든 인간의 문자와 대화를 완벽하게 기억할 수 있습니다. 무엇을 묻든 그럴듯해 보이는 대답을 줄 수 있습니다. 하지만 무엇이 부족한 걸까요? 행동할 능력이 부족한 겁니다. 그것은 자신이 원하는 것이 무엇인지 모릅니다(목표가 없습니다). 이런 말을 하면 현실 세계에서 어떤 결과가 초래될지 모르겠습니다(세계 모델이 없거든요). 그것은 매우 복잡한 단어 체인 머신일 뿐입니다. 진정한 지능은 어떤 모습이어야 할까? 기업은 자체적인 목표를 갖고, 세상과 상호작용하며, 각 상호작용에서 배우고, 목표를 더 잘 달성하기 위해 전략을 끊임없이 조정할 수 있는 실체여야 합니다. 서튼은 이것을 "기본 AI"라고 생각합니다. 서튼의 견해가 전적으로 옳지는 않을 수도 있지만, 그가 제기한 질문은 고려해 볼 가치가 있습니다. 아마도 LLM은 "사라지지" 않을 것입니다. 왜냐하면 LLM은 여전히 많은 응용 시나리오에서 가치가 있기 때문입니다. 하지만 우리의 목표가 진정한 일반 인공지능(AGI)을 달성하는 것이라면, 서튼의 경고는 진지하게 고려될 가치가 있다. 말할 수 있다고 해서 생각할 수 있는 것은 아닙니다. 모방할 수 있다고 해서 배울 수 있는 것도 아닙니다. 진정한 지능을 갖추려면 목표, 행동, 세상과의 실제적 상호작용이 필요할 수 있습니다. 우리는 이 길을 이제 막 시작했을 뿐입니다. --- 위의 내용은 AI에 의해 생성되었으며, 수동으로 편집 및 포맷되었습니다. 댓글 섹션에서 영상을 보세요.
AI 논문 해석을 자주 읽어보면 "씁쓸한 교훈"이라는 기사를 자주 접하게 될 겁니다. youtube.com/watch?v=21EYKq…운 혀를 가지고 있었습니다. https://t.co/QfaCNFRCVO