우리는 약간 억지스러운 면이 있어요. mjlab velocity 데모의 보상 함수를 수정하여 사용자 지정 동작을 구현하는 것은 정말 만족스럽습니다. 기본 함수가 놀라울 정도로 빠르게 학습하는 것 같거든요. 몇 분 만에 결과가 나타나기 시작합니다. 반복적인 수정 작업이 정말 재미있습니다. 이건 겨우 700번의 반복이었어요.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.