"현재 모델에 대한 매우 혼란스러운 점 중 하나는 평가에서 매우 좋은 성과를 보이고 있다는 사실을 어떻게 조화시킬 것인가입니다. 그리고 평가 결과를 보면, '꽤 어려운 평가구나'라고 생각하게 됩니다. 하지만 경제적 영향은 극적으로 줄어든 듯합니다. [가능한] 설명이 있습니다. 사람들이 사전 학습을 하던 시절에는 어떤 데이터를 사용하여 학습할지에 대한 질문이 이미 답이 되어 있었습니다. 왜냐하면 그 답이 전부였기 때문입니다. 그래서 이 데이터인지 저 데이터인지 고민할 필요가 없습니다. 사람들이 RL 훈련을 할 때, '좋아요, 이 물건에는 이런 종류의 RL 훈련을 하고, 저 물건에는 저런 종류의 RL 훈련을 하고 싶어요.'라고 말합니다. '모델을 출시했을 때 정말 잘 작동했으면 좋겠어요. 평가 결과도 훌륭했으면 좋겠어요. 이 작업에 도움이 될 만한 강화학습(RL)은 뭐가 있을까요?'라고 생각하실 수도 있습니다. 이것을 실제로 부적절한 모델의 일반화와 결합하면 우리가 보고 있는 평가 성능과 실제 현실 성능 간의 단절을 설명할 수 있는 잠재력이 있습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.