또한 (저는 이 주제를 꽤 오랫동안 주장해 왔다는 걸 알고 있습니다) 로봇공학이 대규모 비디오 사전 학습을 기반으로 구축될 것이라는 점은 너무나 분명합니다. 실제 데이터 수집을 확장하는 것만으로는 재정적, 물류적으로 불가능합니다. 대신: 비디오 사전 학습 -> 원격 운영 SFT -> 정책 기반 RL
주의: 아직은 실현되기까지 시간이 많이 남았습니다. 제가 아는 한: (1) 로봇 정책은 아직 미미하다 (2) sora 2/veo 3는 지금 막 물리학을 배우고 있으므로 성능과 지연 시간을 얻으려면 1~2세대 + 대규모 모델 증류가 필요합니다. (3) 다른 쉬운 목표가 주어졌을 때 아직 정당화되지 않았습니까?
