X (Twitter)

게임 전용 RL이나 튜닝이 아예 없다고요? 말도 안 돼요. 정말 놀라실 거예요. 상호작용 문제로서 이건 운전이나 인간형 조종보다 훨씬, 훨씬 더 어려운 문제예요. 게다가 지금까지 게임 LLM 결과 대부분은 개똥이었어요. Minecraft용 Voyager는 "석탄 채굴하기"와 같은 액션과 수많은 공개 예제 스크립트를 호출합니다. 이는 처음부터 독립적으로 구현할 수 있는 RL 작업입니다. 체스는 LLM에 필요한 텍스트 형식으로 게임을 기록합니다. 그리고 그런 형식은 아주 많습니다. 그런 건 없지만 시뮬레이션은 사용할 수 있다면요? 작은 모델이 현실을 압도합니다. https://t.co/wPfmdJfe1d에서 단일 GPU로 몇 초 만에 학습된 초인적인 플레이 예시를 몇 가지 확인해 보세요. 게임만 있는 게 아닙니다. 저희가 고객을 위해 제작하는 대부분의 화려한 시뮬레이션은 비교적 간단한 게임보다 현실을 구현하기가 더 쉽습니다. 제 생각에 저희 분야에서 가장 좋은 성적은 OpenAI 5였습니다. DoTA에서 약 1,000개의 GPU로 최고 프로 선수들을 이겼습니다. 지금은 H100 64~256개로도 충분히 이길 수 있을 겁니다. CPU는 정말 강력하지만, 사실 그게 바로 저희가 정말 중요하게 생각하는 문제에 대한 빠른 커스텀 시뮬레이션을 만드는 이유입니다. 강화학습(RL)이 끊임없이 해결책을 제시하는 것을 보면, LLM이 절대 절대 제로샷을 할 수 없을 것 같습니다. 상호작용은 지능의 기본입니다. 게임을 통해 LLM을 강화학습으로 미세 조정한다면 어떨까요? 물론입니다. 그리고 처음부터 학습하는 것보다 샘플 효율이 더 높을 겁니다. 하지만 계산 효율은 훨씬 낮습니다. 강화학습에서 스케일링 법칙이 모델 크기를 훨씬 줄이고 데이터를 훨씬 더 많이 생성하는 경향이 있다는 꽤 좋은 증거가 있습니다. 제가 직접 연구를 통해 내린 결론인데, 지금까지는 아주 잘 되고 있습니다. Grok을 사용해서 인상적인 강화학습(RL) 결과를 얻고 싶다면 어떻게 해야 할까요? 저는 거대 모델과 소형 모델 간의 간극을 메우는 데 집중할 겁니다. 훈련 중 거의 모든(>>99.9%) 행동을 소형 모델로 처리하고, 게임을 많이 플레이하고, 대형 모델을 사용하여 탐색 등을 안내하는 거죠. 게임과 로봇 분야에서 이미 몇 가지 결과가 나왔지만, 아직 만족스러운 결과는 없습니다. 저는 소형 모델 강화학습이 현재 훨씬 더 큰 잠재력을 가지고 있고, 작은 규모에서도 매우 명확한 미래 방향을 제시한다고 생각하기 때문에 이 부분은 작업하지 않고 있습니다.

Joseph Suarez 🐡(@jsuarez5341)의 스레드

작성자 정보

스레드 내용