어떤 똑똑한 사람이 제게 아주 좋은 비유를 해줬는데, 제가 그걸 그대로 가져다 쓰겠다고 했으니 여기 있습니다: 특정 (벤치마킹 가능한) 작업을 수행하도록 모델을 강화 학습시키는 것은 특정 의학적 효과를 가진 화학 화합물을 찾는 것과 같습니다. 그 화합물이 다른 작업, 심지어는 전혀 관련 없는 작업에도 효과가 있을 수도 있고 없을 수도 있습니다. 어떤 다른 용도에 유용한지(또는 부작용이 있는지)는 실험을 통해서만 알 수 있습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.