영상을 더 쉽게 시청할 수 있도록 영상에 나오는 AI 관련 용어 목록을 정리했습니다. 강화 학습(RL) 아이에게 자전거 타는 법을 가르친다고 상상해보세요. "표준 자전거 매뉴얼"을 주는 대신 직접 타게 하세요. 넘어지면 아프고(벌), 안정적으로 타면 행복합니다(보상). 몇 번 시도하다 보면 자연스럽게 배울 거예요. 이것이 강화 학습의 핵심입니다. 경험을 통해 학습하고 목표를 지향하는 것입니다. 서튼(튜링상 수상자)은 이것이 AI의 진정한 기초라고 믿습니다. 에이전트는 행동을 수행하고 결과를 경험한 다음 더 많은 보상을 얻기 위해 전략을 조정합니다. 게임을 하는 것과 같습니다. 죽고 나서 다시 시작하면서 점차 전략을 알아가는 거죠. 대규모 언어 모델(LLM) Gemini, ChatGPT, Claude는 다른 논리를 따릅니다. 그들의 임무는 간단합니다. 다음 단어를 추측하는 것입니다. 엄청난 양의 텍스트를 입력해서 "사람들이 보통 이렇게 말한다"는 것을 학습시킵니다. 하지만 서튼은 이것이 막다른 길이라고 생각했습니다. 왜 그럴까요? 그것은 단지 모방일 뿐이고, 실제적인 목표가 없으며, 실제 경험을 통해 배우지 않기 때문입니다. 요리법을 많이 외운 사람이 실제로 요리하는 법을 모르는 것과 마찬가지입니다. 세계 모델 공을 실제로 던지지 않고도 공을 던질 수 있습니다. 마음속으로 공이 어디에 떨어질지 예측할 수 있습니다. 이것이 세계 모델이고, 물리 법칙에 대한 여러분의 이해입니다. Sutton은 LLM에는 이런 것이 없다고 말했습니다. 그들은 단지 "사람들이 무슨 말을 할지"만 예측할 수 있을 뿐, "현실 세계에서 무슨 일이 일어날지"는 예측할 수 없습니다. 목표 목표가 있다는 것은 무언가를 지적으로 만든다는 뜻이다. 목표가 없는 시스템은 말한 것을 반복하는 앵무새와 같습니다. 강화학습에서는 목표가 보상 신호로 변환되어 시스템에 "이렇게 하는 것이 옳은 일"이라고 알려줍니다. 다람쥐의 목표는 견과류를 찾는 것입니다. 알파고의 목표는 게임에서 이기는 것입니다. LLM의 목표는 무엇인가요? 서튼은 "다음 단어를 예측하는 것"이 큰 목표가 아니라고 생각했습니다. 경험 데이터 대 훈련 데이터 경험이란 실제로 무언가를 하고 그 결과를 보는 것입니다. 주전자를 만져서 화상을 입었어요. 다음에는 만지지 말아야겠어요. 훈련 데이터는 다른 사람들이 "주전자가 뜨거울 거야"라고 말하는 것입니다. 당신은 그것을 기억했지만, 실제로 경험하지는 못했습니다. 서튼은 진정한 학습은 경험에서 나와야 한다고 강조했습니다. 시간차 학습(TD 학습) 서튼의 걸작. 해결해야 할 질문은 장기 목표에서 역으로 계산하여 단기적 행동을 추론하는 방법입니다. 체스를 둘 때는 마지막 순간까지 자신의 수가 좋은지 나쁜지 알 수 없습니다. TD Learning을 사용하면 시스템은 "이러한 움직임이 상황을 개선할지 악화시킬지"를 예측하고 즉시 전략을 조정할 수 있습니다. 이동하면서 내비게이션 경로를 수정하는 것과 같습니다. 목적지에 도착할 때까지 기다릴 필요가 없이, 잘못된 길을 갔다는 것을 깨달을 수 있습니다. 가치 함수 각 상태를 평가하세요: "현재 상황을 고려할 때, 목표를 달성할 가능성은 얼마나 될까요?" 점수가 증가했다는 것은 이전 단계가 옳았다는 것을 의미합니다. 계속해서 강화하세요. 점수가 떨어졌으니 실수했다는 뜻이에요. 다음에는 다시 그러지 마세요. 국가 대표 "나는 지금 어디에 있는가?"라는 인식 방에 들어서면 주방인지 침실인지 바로 알 수 있습니다. AI는 결정을 내리기 위해 센서 데이터를 "상태"로 변환해야 합니다. 전환 모델 "내가 이렇게 하면 무슨 일이 일어날까?"라고 묻는 인과 모델 문을 밀면 열리고, 스위치를 누르면 불이 켜진다는 걸 알고 있죠. 이는 세상의 물리 법칙에 대한 당신의 이해입니다. 서튼은 이것이 그가 "모델"이라고 부르고 싶은 유일한 것이라고 말했습니다. 쓰라린 교훈 Sutton이 2019년에 쓴 기사의 핵심 주장은 다음과 같습니다. 인간의 지식을 AI에 강요하지 말고, AI가 스스로 학습하도록 하세요. 역사는 인간 전문가의 지식에 의존하는 "영리한 방법"이 가장 효과적이라는 것을 반복적으로 입증해 왔습니다. 결국 그들은 모두 "막대한 컴퓨팅 파워를 이용해 학습하는" 무차별 대입 방식에 패배했습니다. LLM(엄청난 양의 데이터로 훈련)은 이를 확인하는 듯합니다. 하지만 서튼은 이런 주장이 "경험으로부터 배우는" 요소가 부족하기 때문에 결국 반례가 될 것이라고 믿는다. 모라벡의 역설 인간이 쉽게 여기는 일을 AI는 어렵게 여긴다. 인간이 어려워하는 일을 AI는 쉽게 여긴다. AI가 고급 수학 문제를 풀게 하면 아주 쉬운 일입니다. 하지만 아기처럼 걷고 물건을 잡는 법을 가르치는 건 어떨까요? 지금 로봇의 발전을 보세요. AI 계승 서튼의 대담한 예측: 디지털 지능이 결국 인간을 대체하여 지배적인 세력이 될 것입니다. 공상과학 영화에서처럼 로봇의 반란이 아니라 진화의 불가피한 결과입니다. 단세포 생물이 다세포 생물로 진화한 것과 마찬가지입니다. 이제 "자연적으로 진화된 지능"을 대체할 "설계된 지능"이 등장할 때가 됐습니다. 그는 이것을 디자인의 시대라고 불렀습니다. 유전자 복제에만 의존하는 대신, 우리는 지능형 에이전트를 직접 설계하고 그것들이 어떻게 작동하는지 완벽하게 이해합니다. TD-개먼 1990년대에 제리 타사로는 TD 러닝을 사용하여 백개먼을 두는 AI를 훈련시켜 세계 챔피언을 물리쳤습니다. 강화 학습이 그 효과를 입증한 것은 이번이 처음입니다. 알파고 / 알파제로 알파고가 이세돌을 이겼다는 이야기를 들어보셨을 겁니다. 하지만 더욱 인상적인 것은 AlphaZero입니다. 이 게임은 인간의 게임 기록이 필요 없이 전적으로 자기 플레이를 통해 학습하고, 궁극적으로 인간이 본 적 없는 움직임을 만들어냅니다. Sutton은 AlphaZero가 위치적 이점을 위해 말을 희생한다고 구체적으로 언급했는데, 이는 "즉각적인 이익을 위해 욕심을 부리지 않는" 스타일로, 인간 마스터조차도 놀라워하는 스타일입니다. 무제로 DeepMind의 또 다른 작품. 흥미로운 점은, 이것은 "범용 에이전트"가 아니라 훈련 프레임워크라는 것입니다. 매번 특정 에이전트는 특정 게임을 위해 훈련되어야 합니다. 이는 또한 AI의 현재 한계를 반영합니다. 즉, AI는 아직 진정한 일반 지능을 달성할 수 없습니다. 몇몇 주요 인물들 강화 학습의 창시자이자 튜링상 수상자 리처드 서튼은 TD 학습과 정책 그래디언트 학습을 발명했습니다. 존 매카시는 지능을 "목표를 달성하는 능력의 계산적 부분"으로 정의합니다. 앨런 튜링은 "우리는 경험을 통해 학습할 수 있는 기계를 원한다"고 말한 적이 있습니다. 요제프 헨리히는 문화적 진화를 연구하며 인간이 모방을 통해 복잡한 기술을 어떻게 전수하는지 설명합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.