매우 흥미롭네요. > 훈련 과정에서는 라벨이 지정된(작업 관련) 보상이 없습니다. 보상 추론(최적화)은 테스트 시간에 이루어집니다. 사용자는 로봇 상태와 관련하여 모든 유형의 보상 함수를 프롬프트할 수 있으며, 정책 제로샷은 최적화된 기술을 출력합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
트윗 1개 · 2025. 11. 10. 오전 3:24
매우 흥미롭네요. > 훈련 과정에서는 라벨이 지정된(작업 관련) 보상이 없습니다. 보상 추론(최적화)은 테스트 시간에 이루어집니다. 사용자는 로봇 상태와 관련하여 모든 유형의 보상 함수를 프롬프트할 수 있으며, 정책 제로샷은 최적화된 기술을 출력합니다.